반응형

Data Analysis 42

[ Python ] 모델

Model ▶️ 데이터를 load하기 전에 pandas를 먼저 import함 ▶️ 이전에 했던 방법과 동일하게 mbti 엑셀 파일을 같은폴더에 저장하고 df에 저장함 ▶️ 복습 겸 데이터가 잘 저장 되었는지 확인 Preprocessing, 정규 표현식 ▶️ 정규표현식을 사용하기 위해 re를 import 해줌 ▶️ 8674 회원의 comment를 vertical bar( | )를 기준으로 분할하고 0번과 1번 index의 comment를 출력함 ▶️ 1번 index의 comment는 MBTI를 분석하는 데 필요없기 때문에 삭제하려고 함 → needToBeRemoved 변수에 저장 ▶️ needToBeRemoved에 저장된 것에서 http 혹은 https로 시작하는 comment를 공백으로 대체함 ▶️ st..

Data Analysis 2021.09.10

머신러닝(Machine Learning)

Machine Learning Deep Learning → Machine Learning의 부분집합 → 최근 여러 분야에서 두각을 나타내고 있어 별도의 학문처럼 인식되어짐 ▶ Artificial Intelligence, 인공 지능 : 사고방식이나 학습 등 인간이 가지는 지적 능력을 컴퓨터를 통해 구현하는 기술 ▶ Machine Learning, 머신러닝 : 컴퓨터가 스스로 학습하여 인공지능의 성능을 향상시키는 기술 방법 ▶ Deep Learning, 딥 러닝 : 인간의 뉴런과 비슷한 인공신경망 방식으로 정보를 처리 지도학습(교사 학습)? 문제와 정답을 모두 알려주고 공부시키는 방법 → 종속변수 존재, 모델 성능 평가 가능 Teachable Machine → 'Supervised Learning' ⇒ 누구..

Data Analysis 2021.09.09

[ Python ] 그룹(Groups)

Groups ( ) : subgroup으로 저장 Capturing group → subgroup의 토큰들을 그룹화함 ▶️ source 값에 새로운 문장을 저장함 ▶️ 중간에 있는 \n은 줄 나눔을 의미함 ▶️ (.+) : 모든 한 자리 수 이상의 문자를 찾아라 ▶️ \. : 어떠한 역할을 하는 것이 아닌 문자 그대로의 .을 출력함 ▶️ {1}(word|pdf) : 한 번 이상 연속해서 나오고 word 혹은 pdf로 끝나는 말을 찾아라 ★ word|pdf → 중간에 띄어쓰기 있으면 안 됨 ★ Non-capturing Group → capturing 하지 않고 여러 토큰들을 그룹화함 (?:) ▶️ .+ : 모든 한자리 수 이상의 문자를 찾아라 ▶️ \. : 어떠한 역할을 하는 것이 아닌 문자 그대로의 .을 ..

Data Analysis 2021.09.09

[ Python ] 범위

범위 [ ] : 내부에 해당하는 문자열의 범위 중 한 문자만 선택함 → 내부에서는 위에서 사용했던 대표문자가 사용할 수 없거나 의미가 다르게 사용됨 소음자 모음만 탐색 ▶️ 소문자 모음에는 a, e, i, o, u가 존재함 → 대괄호 내에 소문자를 모두 넣어줌 → source에서 a, e, i, o, u를 찾으라는 의미 다음 전화번호 세 개를 모두 출력하려면? ▶️ 숫자가 한개 이상이고 공백, -가 있거나 없는 패턴의 전화번호 3개를 source에 저장함 ▶️ \d+ : 숫자가 한 개 이상 ▶️ [ -]? : 공백, -가 있거나 없거나 다음 전화번호 네 개를 모두 출력하려면? ▶️ 숫자가 한개 이상이고 공백, -, .이 있거나 없는 패턴의 전화번호 3개를 source에 저장함 ▶️ \d+ : 숫자가 한 ..

Data Analysis 2021.09.09

[ Python ] 수량자

▶️ source값은 위와 동일함 + : 1개 이상 ▶️ 기존에는 1000$를 표현하기 위해서 \d\d\d\d\$로 표현했음 → 숫자가 클 경우 갯수만큼 추가하기 불편함 ▶️ + 수량자를 사용하면 source에서 한자리 수 이상을 컴퓨터가 분석함 ▶️ \d+ : 한 자리 수 이상의 수를 분석하라 ▶️ \$ : 어떠한 역할을 하는 것이 아닌 문자 그대로의 $를 출력하라 ▶️ $ : '끝'을 의미함 → 끝까지 찾아라 * : 0개 이상 ▶️ + 수량자와 마찬가지로 source에서 0자리 수 이상을 컴퓨터가 분석함 ? : 있거나 없거나 다음 전화번호 두 개를 모두 출력하려면? → -가 있는 것과 없는 것 모두 한번에 분석해야 함 ▶️ \d+ : 한 자리 수 이상의 숫자를 분석해라 ▶️ -? : -가 있거나 없거..

Data Analysis 2021.09.09

[ Python ] 이스케이프

이스케이프(escape) → 키보드로 표현하기 힘든 문자를 표현함 → 특수한 기능을 표현하는 문자 \(backslash) + 특정 문자 ⇒ \n: 줄 바꿈 ⇒ \t: 탭 ▶️ 현재 source 변수에 저장된 값은 위와 같음 ▶️ \w : 글자를 대표함, 특수문자는 포함하지 않지만 _(언더스코어)는 포함 → source 변수에 저장된 값 중에서 특수문자 -와 $를 제외하고 모든 문자가 출력됨 ▶️ \W : 글자 대표 문자를 제외한 글자들(특수문자, 공백 등) → source 변수에 저장된 값 중에서 문자를 제외한 나머지가 출력됨 ▶️ \D : 숫자를 제외한 문자 → source 변수에 저장된 값 중에서 숫자를 제외한 나머지 문자와 공백, 특수문자까지 모두 출력됨 ▶️ \S : 공백 문자를 제외한 문자 → ..

Data Analysis 2021.09.09

용돈 분석 및 출력

부모님에게 받는 용돈을 모두 출력해보자. ▶️ yongddon 변수에 저장된 아빠 용돈 1000$와 엄마 용돈 2000$를 분석하면 모두 숫자가 4개라는 공통점이 있음 ▶️ 모든 숫자를 의미하는 \d를 4개 쓰고 마지막 $는 특수한 기능이 아닌 문자 자체를 출력하기 위해 앞에 \(escape letter)를 써줌 ▶️ 위 셀과의 차이점은 $가 하나 더 붙음 → $은 끝을 의미하기 때문에 끝에 있는 숫자를 찾으라는 의미

Data Analysis 2021.09.09

[ Python ] 위치 문자

위치 문자 ^(caret) : 시작 $ : 끝 ▶️ source 변수에 python이라는 단어가 2개 들어간 문장을 저장함 ▶️ .findall('찾고자 하는것', 찾아야 하는 곳) : 찾아야 하는 곳에서 찾고자 하는 것을 모두 찾으라는 의미 → source에서 'python'을 찾아라 ▶️ ^은 시작을 의미하기 때문에 source에서 python으로 시작하는 것을 가져오라는 의미 → 1번 python을 의미함 ▶️ $는 끝을 의미하기 때문에 source에서 python으로 끝나는 것을 가져오라는 의미 → 2번 python을 의미함

Data Analysis 2021.09.09
반응형