Data Analysis

MBTI 데이터 분석 프로그램

곽수진 2021. 9. 2. 22:23
반응형

▶️ 시작하기 전 pandas를 import 해줌

 

 

▶️ https://www.kaggle.com/datasnaek/mbti-type : 다양한 dataset을 가지고 있는 사이트

 

 

▶️ 미리 다운받아둔 데이터를 load해옴

pd.read_csv 활용

 

 

EDA

→ 탐색적 분석

 

 

▶️ Data Set이 어떻게 생겼는지 볼 수 있음

→ EDA 처음 시작할 때 가장 먼저 함

▶️ 0번부터 4번 index까지의 데이터 타입을 보여줌

 

 

▶️ 행과 열의 모양을 알려줌

→ 순서대로 (행, 열)

 

 

▶️ DataFrame을 상세하게 묘사함

→ 총 8675개의 데이터 수집

→ 16개의 MBTI 존재함

→ 1832개의 INFP가 가장 많은 수를 차지함

 

 

▶️ column에 뭐가 있는지, Null값이 있는지, Data Type이 무엇인지 확인할 수 있음

 

 

▶️ DataFrame의 value값과 각각의 value값에 몇 명이 차지하고 있는지 확인할 수 있음

 

 

  • 정규 표현식

정규식, Regex 등으로 불림

⇒ 텍스트의 패턴을 이용해서 찾고자 하는 내용을 추출하는 표현식

 

▶ 글 따위의 여러 문자의 모음에서 핸드폰 번호나 이메일을 추출할 때 사용

▶ 폴더 안에 확장자가 그림 파일만 가져오는 함수를 작성할 때 사용

 

if .jpg
elif. png
elif.gif

 

⇒ 정규표현식으로 한 줄로 처리 가능 .+\.(?:jpg|png|gif|bmp)

 

 

▶️ df.tail() : 마지막 5개 유형을 출력해보고 그 중에서 8674번 유형을 예시로 사용

 

 

▶️ 8674번 유형의 comment에서 vertical bar를 기준으로 0번과 1번 comment를 출력

 [:2]는 0번과 1번을 의미

▶️ 1번 comment의 경우 URL 형태로 MBTI를 구별하는데 도움이 되지 않은 comment이므로 삭제해야함

 

 

▶️ 8674번의 comments를 person8674 변수에 저장하고 vertical bar를 기준으로 나눴을 때의 1번 comment를 needToBeRemoved 변수에 저장해 삭제하려고 함

 

 

  • 참고할 수 있는 정규표현식

생활코딩 정규표현식

그림으로 표현된 정규표현식

정규 표현식 연습

정규 표현식 게임

반응형

'Data Analysis' 카테고리의 다른 글

Word Cloud 프로그램  (0) 2021.09.02
파이차트 그리기  (0) 2021.09.02
[ Python ] 데이터  (0) 2021.09.02
[ Python ] 인덱싱  (0) 2021.09.02
[ Python ] 모듈  (0) 2021.09.02