Jam's story
자연어처리 영화댓글 본문



중복된 데이터를 지우기 - > drop.duplicates

특수문자 지우기
dataset['text'] = dataset['text'].str.replace("[^ㄱ-ㅎㅏ-ㅣ가-힣 ]","") # 정규 표현식 수행
데이터에서 공백을 null값으로 바꿈
그 null 값을 지움 -> 아까보다 1개 줄어듬
참고로 len(dataset) -> (길이만나옴 )
또는 dataset.shape ->( 행,열) 이거로 길이를 알아볼 수 있다.
dataset['text'].replace('', np.nan, inplace=True) dataset=dataset.dropna(how='any') dataset.shape

'2021-2학기 > 데이터분석' 카테고리의 다른 글
2021 K-ICT 데이터크리에이터 최우수상 수상 (0) | 2022.03.25 |
---|---|
자연어 처리 (0) | 2022.03.23 |
자연어처리 형태소 분석 (0) | 2022.03.23 |
영화 댓글 자연어 처리 (0) | 2022.03.23 |
데이터정제 (0) | 2022.03.23 |
Comments