Data Analysis

영화 리뷰 분석

곽수진 2021. 9. 9. 17:34
반응형
영화 리뷰를 분석할 때, 다양한 영화 리뷰를 어떻게 분류할 수 있을까?

 

▶️ 수많은 영화 리뷰를 분석할 때마다 URL을 찾기에는 비효율적

▶️ 위 3개의 영화 URL을 비교

https://movie.naver.com/movie/bi/mi/basic.naver?code=189053

https://movie.naver.com/movie/bi/mi/basic.naver?code=136873

https://movie.naver.com/movie/bi/mi/basic.naver?code=188472

▶️ URL을 비교해 보았을 때, 위 3개의 차이점은 code= 뒤에 각자 유니크한 ID를 가지고 있음을 발견

 

 

▶️ 각 사이트의 주요 정보, 배우/제작진, 포토, 동영상 등 다른 곳을 눌러도 URL은 변하지 않음

 

⇒ 이때 사용하는 것이 정규 표현식임

 

 

Basic Mechanism

1. 문자 하나 하나를 독립적으로 인식함

Ex. 나는 사과를 먹었다. ⇒ 사과는 사 // 과

 

2. 대소문자를 구별함

Ex. apple은 Apple과 다름

 

 

영화 URL 뒤에 있는 숫자를 추출하려면?

 

▶️ [-6: ] : 끝에서 6번째부터 마지막까지를 의미함

⇒ 영화 URL이 마지막 6자리 숫자만 다르다는 것을 이용

 

 

추출해야 하는 영화가 2개라면?

 

 

 

 

  • 정규표현식 패키지 ⇒ re

 

▶️ 정규표현식 패키지를 import 해줌

 

 

▶️ url이 text로 묶여져 있는 경우

 

 

▶️ url이 list로 묶여져 있을 경우

반응형

'Data Analysis' 카테고리의 다른 글

[ Python ] 대표 문자  (0) 2021.09.09
[ Python ] 위치 문자  (0) 2021.09.09
MBTI 테스트 프로그램  (0) 2021.09.02
Word Cloud 프로그램  (0) 2021.09.02
파이차트 그리기  (0) 2021.09.02