Data Analysis

파이차트 그리기

곽수진 2021. 9. 2. 22:44
반응형

1. 아나콘다 실행

▶️ conda activate begin_env(사용자명) : 아나콘다 활성화

▶️ conda install plotly -y : python 시각화 패키지 설치

⇒ Seaborn 및 ggplot2에서 영감을 얻어 간결하고 일관되며 배우기 쉬운 API를 갖도록 특별히 설계됨

 

 

▶️ done → 설치 완료

 

 

▶️ jupyter notebook으로 돌아와 방금 설치한 plotly.express를 import

 

 

▶️ names : 각 유형을 나타냄

▶️ title : 파이차트의 제목(좌측 위)

▶️ hole : 가운데 원 크기 조절

 

 

▶️ df.head()는 앞에서부터 5가지의 데이터타입을 보여준 반면, df.tail()은 뒤에서부터 5가지의 데이터타입을 보여줌

▶️ df.tail(특정 숫자) : 특정 수 만큼만 데이터타입을 보여줌

 

 

▶️ df.column명[data 순서] : DataFrame의 해당 column에서 해당 순서에 속하는 내용을 모두 보여줌

 

 

▶️ 위 내용을 person8674 변수에 저장하고 분석하면 vertical bar(|)를 자주 사용함을 추측할 수 있음

 

 

▶️ person8674의 type은 str(문자열)이기 때문에 .split 함수를 사용해 vertical bar를 기준으로 나눌 수 있음

 

 

▶️ vertical bar를 기준으로 나누기 전, person8674의 길이는 7418이었지만 나눈 후에는 50개, 즉 50개의 comment가 달렸음을 알 수 있음

 

 

다른 MBTI를 가진 사람도 50개 정도의 comment를 남겼을까?

 

▶️ post colomn에서 다른 MBTI 유형 모두 vertical bar를 기준으로 나누었을 때 대부분 50개의 comment를 남김

 

 

▶️ 위 값을 length_comment 변수에 저장하고 px.histogram(변수)를 활용하면 히스토그램을 출력할 수 있음

 

 

  • comment 당 평균 사용단어 수

▶️ 예를 들어 한 문장을 comment 변수에 저장함

▶️ vertical bar를 기준으로 나눴을 때, comment의 길이는 3임

▶️ 위 3 값을 변수 length_comment에 저장함

 

 

▶️ .replace() : vertical bar를 공백으로 바꿔줌

▶️ .split() : 공백을 기준으로 comment를 나눔

▶️ 공백을 기준으로 나눈 comment의 값은 8이고 length_comment의 값은 3이므로 둘을 나누면 2.6666...의 값이 나옴

 

 

다른 MBTI를 가진 사람들은 comment에 평균 몇 개의 단어를 사용할까?

 

▶️ 새로 getWordPerComment 사용자 정의 함수를 만들어줌

▶️ 모든 comment의 vertical bar를 공백으로 대체함

▶️ 공백을 기준으로 comment를 나눠줌

▶️ 위에서 언급한대로 대부분 50개의 comment를 단다고 했으니 50이라고 가정하고 나눠줌

▶️ 0번부터 8674번까지 각각의 평균 단어수가 출력됨

 

 

▶️ words_per_comment라는 column을 새로 생성함

▶️ df.head() : 0번부터 4번까지의 type별 comment와 comment별 단어 수를 출력함

 

 

▶️ df[['type', 'words_per_comment']] : 전체 DataFrame의 type과 words_per_comment를 출력함

→ 너무 많아 보기 힘들다는 단점이 있음

 

 

▶️ .groupby('type') 함수를 통해 type을 기준으로 유형별로 보기 좋게 묶어줌

▶️ .mean() 함수를 통해 가각의 평균을 구해줌

 

 

▶️ .sort_values('words_per_comment') : words_per_comment를 기준으로 작은 수부터 오름차순으로 배열해줌

반응형

'Data Analysis' 카테고리의 다른 글

MBTI 테스트 프로그램  (0) 2021.09.02
Word Cloud 프로그램  (0) 2021.09.02
MBTI 데이터 분석 프로그램  (0) 2021.09.02
[ Python ] 데이터  (0) 2021.09.02
[ Python ] 인덱싱  (0) 2021.09.02