Jam's story

데이터정제 본문

2021-2학기/데이터분석

데이터정제

애플쩀 2022. 3. 23. 12:15

데이터 정제

BeautifulSoup(뷰티풀숩)을 통해 HTML 태그를 제거

정규표현식으로 알파벳 이외의 문자를 공백으로 치환

NLTK 데이터를 사용해 불용어(Stopword)를 제거

어간추출(스테밍 Stemming)과 음소표기법(Lemmatizing)의 개념을 이해하고 SnowballStemmer를 통해 어간을 추출

"""

header = 0 은 파일의 첫 번째 줄에 열 이름이 있음을 나타내며

delimiter = \t 는 필드가 탭으로 구분되는 것을 의미한다.

quoting = 3은 쌍따옴표를 무시하도록 한다.

"""

html태그 없애기

BeautifulSoup(train['review'][0], "html5lib")

특수기호 없애기

소문자로 변환한 후, spilt을 이용하여 문자를 나눈다.(토큰화)

불용어 제거

437개에서 219개로 줄음

스태밍 -어간 추출

어간 추출은 어형이 변형된 단어로부터 접사 등을 제거하고 그 단어의 어간을 분리해 내는 것

"message", "messages", "messaging" 과 같이 복수형, 진행형 등의 문자를 같은 의미의 단어로 다룰 수 있도록 도와준다.

NLTK에서 제공하는 형태소 분석기를 사용

포터 스태머 사용방법 과 랭커스터스태머 사용 방법

스노우볼 스태머를 사용해서 어간 변경

음소표기법 -Lemmatization

레마타이제이션은 이때 앞뒤 문맥을 보고 단어의 의미를 식별하는 것

배 - 먹는 배 , 타는 배, 몇 배 등 동음이의어가 문맥에 따라 다른 의미를 가진다.

meet- meeting은 회의, meet 만나다 명사로쓰였는지, 동사로 쓰였는지에 따라 적합한 의미를 갖도록 추출

지금 까지 한 것을 함수로 만들고 적용

multiprocessing 으로 전처리

워드클라우드

'2021-2학기 > 데이터분석' 카테고리의 다른 글

자연어처리 형태소 분석  (0) 2022.03.23
영화 댓글 자연어 처리  (0) 2022.03.23
크롤링  (0) 2022.03.23
영화리뷰 감정분석  (0) 2022.03.23
서울종합병원분포 알아보기  (0) 2022.03.23
Comments