반응형
영화 리뷰를 분석할 때, 다양한 영화 리뷰를 어떻게 분류할 수 있을까?
▶️ 수많은 영화 리뷰를 분석할 때마다 URL을 찾기에는 비효율적
▶️ 위 3개의 영화 URL을 비교
https://movie.naver.com/movie/bi/mi/basic.naver?code=189053
https://movie.naver.com/movie/bi/mi/basic.naver?code=136873
https://movie.naver.com/movie/bi/mi/basic.naver?code=188472
▶️ URL을 비교해 보았을 때, 위 3개의 차이점은 code= 뒤에 각자 유니크한 ID를 가지고 있음을 발견
▶️ 각 사이트의 주요 정보, 배우/제작진, 포토, 동영상 등 다른 곳을 눌러도 URL은 변하지 않음
⇒ 이때 사용하는 것이 정규 표현식임
Basic Mechanism
1. 문자 하나 하나를 독립적으로 인식함
Ex. 나는 사과를 먹었다. ⇒ 사과는 사 // 과
2. 대소문자를 구별함
Ex. apple은 Apple과 다름
영화 URL 뒤에 있는 숫자를 추출하려면?
▶️ [-6: ] : 끝에서 6번째부터 마지막까지를 의미함
⇒ 영화 URL이 마지막 6자리 숫자만 다르다는 것을 이용
추출해야 하는 영화가 2개라면?
- 정규표현식 패키지 ⇒ re
▶️ 정규표현식 패키지를 import 해줌
▶️ url이 text로 묶여져 있는 경우
▶️ url이 list로 묶여져 있을 경우
반응형
'Data Analysis' 카테고리의 다른 글
[ Python ] 대표 문자 (0) | 2021.09.09 |
---|---|
[ Python ] 위치 문자 (0) | 2021.09.09 |
MBTI 테스트 프로그램 (0) | 2021.09.02 |
Word Cloud 프로그램 (0) | 2021.09.02 |
파이차트 그리기 (0) | 2021.09.02 |