▶️ 시작하기 전 pandas를 import 해줌
▶️ https://www.kaggle.com/datasnaek/mbti-type : 다양한 dataset을 가지고 있는 사이트
▶️ 미리 다운받아둔 데이터를 load해옴
→ pd.read_csv 활용
EDA
→ 탐색적 분석
▶️ Data Set이 어떻게 생겼는지 볼 수 있음
→ EDA 처음 시작할 때 가장 먼저 함
▶️ 0번부터 4번 index까지의 데이터 타입을 보여줌
▶️ 행과 열의 모양을 알려줌
→ 순서대로 (행, 열)
▶️ DataFrame을 상세하게 묘사함
→ 총 8675개의 데이터 수집
→ 16개의 MBTI 존재함
→ 1832개의 INFP가 가장 많은 수를 차지함
▶️ column에 뭐가 있는지, Null값이 있는지, Data Type이 무엇인지 확인할 수 있음
▶️ DataFrame의 value값과 각각의 value값에 몇 명이 차지하고 있는지 확인할 수 있음
- 정규 표현식
정규식, Regex 등으로 불림
⇒ 텍스트의 패턴을 이용해서 찾고자 하는 내용을 추출하는 표현식
▶ 글 따위의 여러 문자의 모음에서 핸드폰 번호나 이메일을 추출할 때 사용함
▶ 폴더 안에 확장자가 그림 파일만 가져오는 함수를 작성할 때 사용함
if .jpg
elif. png
elif.gif
⇒ 정규표현식으로 한 줄로 처리 가능 .+\.(?:jpg|png|gif|bmp)
▶️ df.tail() : 마지막 5개 유형을 출력해보고 그 중에서 8674번 유형을 예시로 사용
▶️ 8674번 유형의 comment에서 vertical bar를 기준으로 0번과 1번 comment를 출력함
→ [:2]는 0번과 1번을 의미함
▶️ 1번 comment의 경우 URL 형태로 MBTI를 구별하는데 도움이 되지 않은 comment이므로 삭제해야함
▶️ 8674번의 comments를 person8674 변수에 저장하고 vertical bar를 기준으로 나눴을 때의 1번 comment를 needToBeRemoved 변수에 저장해 삭제하려고 함
- 참고할 수 있는 정규표현식
'Data Analysis' 카테고리의 다른 글
Word Cloud 프로그램 (0) | 2021.09.02 |
---|---|
파이차트 그리기 (0) | 2021.09.02 |
[ Python ] 데이터 (0) | 2021.09.02 |
[ Python ] 인덱싱 (0) | 2021.09.02 |
[ Python ] 모듈 (0) | 2021.09.02 |