Data Analysis

데이터 추출 연습

곽수진 2021. 9. 9. 18:35
반응형
아래 결과물처럼 id와 From 사이를 뽑아내라

 

 

규칙 1) id는 숫자와 -로만 이루어져 있거나 끝에 _M이 붙는다.

규칙 2) 규칙 1이 맞지 않는 경우 'No'로 대체된다.

 

 

▶️ 각각의 id를 리스트에 저장해 DataFrame으로 만듦

→ 변수 quiz_df에 저장

 

 

▶️ quiz_df에 잘 저장 되었는지 id 리스트를 출력해봄

 

 

▶️ 첫 번째 id를 case1 변수에 저장함

 

 

▶️ (?<=: ) : 후방 탐색

▶️ \d+ : 한 자리 수 이상의 숫자 분석

▶️ \w{2} : 두 번 연속으로 나오는 글자를 분석함. 특수문자는 포함하지 않지만 _(언더스코어)는 포함

 

 

▶️ 두 번째 id를 case2 변수에 저장함

 

 

▶️ (?<=: ) : 후방 탐색

▶️ \d+ : 한 자리 수 이상의 숫자 분석

▶️ \w{0,2} : 0번에서 두 번 연속으로 나오는 글자를 분석함. 특수문자는 포함하지 않지만 _(언더스코어)는 포함

→ 공백 때문에 0번까지 포함시킴

 

 

▶️ 세 번째 id를 case3 변수에 저장함

 

 

▶️ case2와 동일하게 분석해도 되지만 \w{0,2} 대신 \w{2}으로 분석해도 분석 가능함

→ 공백이 없기 때문

 

 

▶️ 4번째 id를 case4 변수에 저장함

 

 

▶️ case2와 동일하게 분석해 보았을 때, 공백이 출력

 

 

▶️ 윗 값을 result_4 변수에 저장함

 

 

▶️ 존재론적 관점의 bool에 result_4를 출력해보니 False가 나옴

→ 값이 존재하지 않음

→ 값이 존재한다면 True가 출력됨

 

 

▶️ regex_find_id라는 사용자 정의 함수를 생성

▶️ bool값이 true라면 result값을 출력하고 아니면 'No'를 출력함

▶️ output이 list이기 때문에 value로 바꿔주기 위해 끝에 [0] 처리해줌

 

 

▶️ quiz_df을 map과 lambda를 이용해 표현함

 

 

▶️ 위 값을 DataFrame에 저장해 표현함

반응형

'Data Analysis' 카테고리의 다른 글

[ Python ] 모델  (0) 2021.09.10
머신러닝(Machine Learning)  (0) 2021.09.09
[ Python ] 그룹(Groups)  (0) 2021.09.09
[ Python ] 범위  (0) 2021.09.09
[ Python ] 수량자  (0) 2021.09.09