반응형

Jupyter Notebook 33

영화 리뷰 분석

영화 리뷰를 분석할 때, 다양한 영화 리뷰를 어떻게 분류할 수 있을까? ▶️ 수많은 영화 리뷰를 분석할 때마다 URL을 찾기에는 비효율적 ▶️ 위 3개의 영화 URL을 비교 https://movie.naver.com/movie/bi/mi/basic.naver?code=189053 https://movie.naver.com/movie/bi/mi/basic.naver?code=136873 https://movie.naver.com/movie/bi/mi/basic.naver?code=188472 ▶️ URL을 비교해 보았을 때, 위 3개의 차이점은 code= 뒤에 각자 유니크한 ID를 가지고 있음을 발견 ▶️ 각 사이트의 주요 정보, 배우/제작진, 포토, 동영상 등 다른 곳을 눌러도 URL은 변하지 않음 ⇒ ..

Data Analysis 2021.09.09

파이차트 그리기

1. 아나콘다 실행 ▶️ conda activate begin_env(사용자명) : 아나콘다 활성화 ▶️ conda install plotly -y : python 시각화 패키지 설치 ⇒ Seaborn 및 ggplot2에서 영감을 얻어 간결하고 일관되며 배우기 쉬운 API를 갖도록 특별히 설계됨 ▶️ done → 설치 완료 ▶️ jupyter notebook으로 돌아와 방금 설치한 plotly.express를 import함 ▶️ names : 각 유형을 나타냄 ▶️ title : 파이차트의 제목(좌측 위) ▶️ hole : 가운데 원 크기 조절 ▶️ df.head()는 앞에서부터 5가지의 데이터타입을 보여준 반면, df.tail()은 뒤에서부터 5가지의 데이터타입을 보여줌 ▶️ df.tail(특정 숫자)..

Data Analysis 2021.09.02

MBTI 데이터 분석 프로그램

▶️ 시작하기 전 pandas를 import 해줌 ▶️ https://www.kaggle.com/datasnaek/mbti-type : 다양한 dataset을 가지고 있는 사이트 ▶️ 미리 다운받아둔 데이터를 load해옴 → pd.read_csv 활용 EDA → 탐색적 분석 ▶️ Data Set이 어떻게 생겼는지 볼 수 있음 → EDA 처음 시작할 때 가장 먼저 함 ▶️ 0번부터 4번 index까지의 데이터 타입을 보여줌 ▶️ 행과 열의 모양을 알려줌 → 순서대로 (행, 열) ▶️ DataFrame을 상세하게 묘사함 → 총 8675개의 데이터 수집 → 16개의 MBTI 존재함 → 1832개의 INFP가 가장 많은 수를 차지함 ▶️ column에 뭐가 있는지, Null값이 있는지, Data Type이 무엇..

Data Analysis 2021.09.02

[ Python ] 인덱싱

▶️ 위에서 이미 pd.Series값을 변수 population에 저장해두었음 ▶️ 변수[index 순서] 혹은 변수['index명']을 입력함으로써 value값을 출력할 수 있음 ▶️ 지정한 index값이 아닌 0번부터 순서대로 index를 지정할 수 있음 ▶️ index 순서를 원하는 순서대로 배열함으로써 데이터를 섞어서 만들 수 있음 ▶️ 위와 유사하게 원하는 index값만 배열함으로써 value값을 추출할 수 있음 ▶️ 변수

Data Analysis 2021.09.02

[ Python ] 클래스

Class → 비효율을 극복하기 위함 class 클래스명(object): def __ init __ (self, 인자): 속성(attribute) / 기증(method) - 추상화, 개념화를 의미함 - 다수의 변수와 다수의 함수 집합 - 고유한 특성 안에서 변경은 가능 - (object)는 생략 가능 인스턴스(instance) → "구체적인 사례로 만들다" 객체(object) → 객체 = 클래스() 클래스를 인스턴스화한 것 ⇒ 인간 class의 instance화(=객체)한 것은 홍길동이다 파이썬은 객체 지향 프로그래밍이다.(OOP, Objected-Oriented Programming) → 객체를 기본으로 함 ▶️ 'abc'는 str class로 만들어낸 object(객체)임 ▶️ .split 함수를 사..

Data Analysis 2021.09.02

코인 투자 프로그램

bit_price = 1_000 eth_price = 5_00 print(f""" "코인의 가격은 아래와 같습니다" 1. 비트코인 {bit_price}만원 2. 이더리움 {eth_price}만원 """) money=int(input("얼마를 투자하시겠습니까? 단위:만원>>> ")) _ratio=input("투자비율은 어떻게 하시겠습니까?\n n:n형식으로 입력하세요>>> ") _ratio_list=_ratio.split(':') _ratio_list_int=list(map(int, _ratio_list)) _sum=sum(_ratio_list_int) bit_n=(money*(_ratio_list_int[0]/_sum))/bit_price eth_n=(money*(_ratio_list_int[1]/_su..

Data Analysis 2021.08.31

[ Python ] 함수

Function 특정 기능을 수행하기 위한 명령어들의 모음 → 이전에 사용했던 print(), type() 등이 이에 해당함 사용자 정의 함수 def 함수명(매개변수(parameter)): 실행문 return 결과값 ⇒ 매개변수 : 입력받는 값 ▶️ f(x)라는 사용자 정의 함수를 만들고, x+2값을 출력하게 함 ▶️ f(x)에서 x가 매개변수이므로 입력받는 값에 따라 다른 출력값이 나옴 Return ▶️ 위 두 셀의 차이는 return의 유무 차이임 ▶️ return을 넣어주지 않으면 a 값에 1을 넣어 2라는 계산까지는 하지만 출력이 되지 않음 ▶️ 다른 언어들과는 달리 파이썬은 return이 없으면 return None이 default값으로 들어감 전역변수 vs 지역변수 → 함수 안에서 생성되는 변..

Data Analysis 2021.08.31
반응형