반응형

Data Analysis 42

영화 리뷰 분석

영화 리뷰를 분석할 때, 다양한 영화 리뷰를 어떻게 분류할 수 있을까? ▶️ 수많은 영화 리뷰를 분석할 때마다 URL을 찾기에는 비효율적 ▶️ 위 3개의 영화 URL을 비교 https://movie.naver.com/movie/bi/mi/basic.naver?code=189053 https://movie.naver.com/movie/bi/mi/basic.naver?code=136873 https://movie.naver.com/movie/bi/mi/basic.naver?code=188472 ▶️ URL을 비교해 보았을 때, 위 3개의 차이점은 code= 뒤에 각자 유니크한 ID를 가지고 있음을 발견 ▶️ 각 사이트의 주요 정보, 배우/제작진, 포토, 동영상 등 다른 곳을 눌러도 URL은 변하지 않음 ⇒ ..

Data Analysis 2021.09.09

파이차트 그리기

1. 아나콘다 실행 ▶️ conda activate begin_env(사용자명) : 아나콘다 활성화 ▶️ conda install plotly -y : python 시각화 패키지 설치 ⇒ Seaborn 및 ggplot2에서 영감을 얻어 간결하고 일관되며 배우기 쉬운 API를 갖도록 특별히 설계됨 ▶️ done → 설치 완료 ▶️ jupyter notebook으로 돌아와 방금 설치한 plotly.express를 import함 ▶️ names : 각 유형을 나타냄 ▶️ title : 파이차트의 제목(좌측 위) ▶️ hole : 가운데 원 크기 조절 ▶️ df.head()는 앞에서부터 5가지의 데이터타입을 보여준 반면, df.tail()은 뒤에서부터 5가지의 데이터타입을 보여줌 ▶️ df.tail(특정 숫자)..

Data Analysis 2021.09.02

MBTI 데이터 분석 프로그램

▶️ 시작하기 전 pandas를 import 해줌 ▶️ https://www.kaggle.com/datasnaek/mbti-type : 다양한 dataset을 가지고 있는 사이트 ▶️ 미리 다운받아둔 데이터를 load해옴 → pd.read_csv 활용 EDA → 탐색적 분석 ▶️ Data Set이 어떻게 생겼는지 볼 수 있음 → EDA 처음 시작할 때 가장 먼저 함 ▶️ 0번부터 4번 index까지의 데이터 타입을 보여줌 ▶️ 행과 열의 모양을 알려줌 → 순서대로 (행, 열) ▶️ DataFrame을 상세하게 묘사함 → 총 8675개의 데이터 수집 → 16개의 MBTI 존재함 → 1832개의 INFP가 가장 많은 수를 차지함 ▶️ column에 뭐가 있는지, Null값이 있는지, Data Type이 무엇..

Data Analysis 2021.09.02

[ Python ] 데이터

데이터 변형 ▶️ 특정 index의 value값을 바꾸고 싶을 때는 변수.index명 = 특정 값을 활용 ▶️ 변수.drop('index명')을 활용하면 특정 index값과 value값을 제거할 수 있음 → 하지만 영구적으로 사라지는 것은 아님. 변수를 출력해보면 index와 value값이 그대로 있는 것을 볼 수 있음 ▶️ 영구적으로 제거하기 위해서는 변수 하나를 새로 생성해 변수.drop('index명')을 저장하면 출력했을 때 사라진 모습을 볼 수 있음 DataFrame → 2차원 행렬(Matrix) ▶️ pandas를 import 함 ▶️ 사전형으로 데이터프레임을 만들어줌 ▶️ df 변수에 pd.DataFrame(data)를 저장해줌 → 보통은 cvs 파일이 있어서 read해서 가져옴 pd.rea..

Data Analysis 2021.09.02

[ Python ] 인덱싱

▶️ 위에서 이미 pd.Series값을 변수 population에 저장해두었음 ▶️ 변수[index 순서] 혹은 변수['index명']을 입력함으로써 value값을 출력할 수 있음 ▶️ 지정한 index값이 아닌 0번부터 순서대로 index를 지정할 수 있음 ▶️ index 순서를 원하는 순서대로 배열함으로써 데이터를 섞어서 만들 수 있음 ▶️ 위와 유사하게 원하는 index값만 배열함으로써 value값을 추출할 수 있음 ▶️ 변수

Data Analysis 2021.09.02

[ Python ] 모듈

Module → 여러 변수, 함수, 클래스(다수의 변수 + 함수)를 저장해둔 파이썬 소스코드 파일 class vs module ⇒ 효율성 vs 재사용성 모듈이 없다면? → 이전에 사용했던 class에 추가로 when_rest() 함수를 사용하려는 경우 ▶️ 이전에 사용했던 class를 복사 & 붙여넣기 후 함수를 추가해야 되는 불편함이 생김 모듈 생성 후 사용하는 방법 ▶️ jupyter notebook을 실행해 New → Text File 생성 ▶️ untitled.txt로 저장되어 있는 이름을 mymodule.py로 바꾼후 저장 ▶️ mymodule.py 텍스트 파일에 이전에 사용했던 class 파일을 복사 후 붙여넣기 함 → class명은 편의상 MyClient로 변경함 ▶️ 파이썬 이름을 입력 후..

Data Analysis 2021.09.02

[ Python ] 클래스

Class → 비효율을 극복하기 위함 class 클래스명(object): def __ init __ (self, 인자): 속성(attribute) / 기증(method) - 추상화, 개념화를 의미함 - 다수의 변수와 다수의 함수 집합 - 고유한 특성 안에서 변경은 가능 - (object)는 생략 가능 인스턴스(instance) → "구체적인 사례로 만들다" 객체(object) → 객체 = 클래스() 클래스를 인스턴스화한 것 ⇒ 인간 class의 instance화(=객체)한 것은 홍길동이다 파이썬은 객체 지향 프로그래밍이다.(OOP, Objected-Oriented Programming) → 객체를 기본으로 함 ▶️ 'abc'는 str class로 만들어낸 object(객체)임 ▶️ .split 함수를 사..

Data Analysis 2021.09.02
반응형