MBTI 데이터 분석 프로그램

Data Analysis

MBTI 데이터 분석 프로그램

곽수진 2021. 9. 2. 22:23

▶️ 시작하기 전 pandas를 import 해줌

▶️ https://www.kaggle.com/datasnaek/mbti-type : 다양한 dataset을 가지고 있는 사이트

▶️ 미리 다운받아둔 데이터를 load해옴

→ pd.read_csv 활용

EDA

→ 탐색적 분석

▶️ Data Set이 어떻게 생겼는지 볼 수 있음

→ EDA 처음 시작할 때 가장 먼저 함

▶️ 0번부터 4번 index까지의 데이터 타입을 보여줌

▶️ 행과 열의 모양을 알려줌

→ 순서대로 (행, 열)

▶️ DataFrame을 상세하게 묘사함

→ 총 8675개의 데이터 수집

→ 16개의 MBTI 존재함

→ 1832개의 INFP가 가장 많은 수를 차지함

▶️ column에 뭐가 있는지, Null값이 있는지, Data Type이 무엇인지 확인할 수 있음

▶️ DataFrame의 value값과 각각의 value값에 몇 명이 차지하고 있는지 확인할 수 있음

정규 표현식

정규식, Regex 등으로 불림

⇒ 텍스트의 패턴을 이용해서 찾고자 하는 내용을 추출하는 표현식

▶ 글 따위의 여러 문자의 모음에서 핸드폰 번호나 이메일을 추출할 때 사용함

▶ 폴더 안에 확장자가 그림 파일만 가져오는 함수를 작성할 때 사용함

if .jpg
elif. png
elif.gif

⇒ 정규표현식으로 한 줄로 처리 가능 .+\.(?:jpg|png|gif|bmp)

▶️ df.tail() : 마지막 5개 유형을 출력해보고 그 중에서 8674번 유형을 예시로 사용

▶️ 8674번 유형의 comment에서 vertical bar를 기준으로 0번과 1번 comment를 출력함

→ [:2]는 0번과 1번을 의미함

▶️ 1번 comment의 경우 URL 형태로 MBTI를 구별하는데 도움이 되지 않은 comment이므로 삭제해야함

▶️ 8674번의 comments를 person8674 변수에 저장하고 vertical bar를 기준으로 나눴을 때의 1번 comment를 needToBeRemoved 변수에 저장해 삭제하려고 함

참고할 수 있는 정규표현식

저작자표시 (새창열림)

'Data Analysis' 카테고리의 다른 글

Word Cloud 프로그램 (0)	2021.09.02
파이차트 그리기 (0)	2021.09.02
[ Python ] 데이터 (0)	2021.09.02
[ Python ] 인덱싱 (0)	2021.09.02
[ Python ] 모듈 (0)	2021.09.02

현재글MBTI 데이터 분석 프로그램

Sujin's Dlog

Study Note

Spring, Data Analysis, HTML, Python, C, Inflearn, 국비지원교육, Baekjoon, django, Operating System, MySQL, Visual Studio, web, Turtle Graphic, CSS, anaconda, Java, Jupyter Notebook, 백준, OS,

일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

Sujin's Dlog