목록2021-2학기 (64)
Jam's story
보호되어 있는 글입니다.
보호되어 있는 글입니다.
보호되어 있는 글입니다.
중복된 데이터를 지우기 - > drop.duplicates 특수문자 지우기 dataset['text'] = dataset['text'].str.replace("[^ㄱ-ㅎㅏ-ㅣ가-힣 ]","") # 정규 표현식 수행 데이터에서 공백을 null값으로 바꿈 그 null 값을 지움 -> 아까보다 1개 줄어듬 참고로 len(dataset) -> (길이만나옴 ) 또는 dataset.shape ->( 행,열) 이거로 길이를 알아볼 수 있다. dataset['text'].replace('', np.nan, inplace=True) dataset=dataset.dropna(how='any') dataset.shape
데이터정제 BeautifulSoup(뷰티풀숩)을 통해 HTML 태그를 제거 정규표현식으로 알파벳 이외의 문자를 공백으로 치환 NLTK 데이터를 사용해 불용어(Stopword)를 제거 어간추출(스테밍 Stemming)과 음소표기법(Lemmatizing)의 개념을 이해하고 SnowballStemmer를 통해 어간을 추출 html태그제거 soup=BeautifulSoup(sample, 'html.parser') soup.text (.text 를 추가하는 것 까먹지 말기 ) 이 방법으로도 html 제거를 할 수 있다. 특수기호제거 import re -> 정규표현식을 이용해서 특수문자 제거 re.sub('[^a-zA-Z]' , ' ' , soup.text) a-z ~ A-Z가 아닌 문자를 지우고 공백으로 ..
형태소 분석 from konlpy.tag import Twitter twitter=Twitter() >>> twitter.morphs("안녕하세요. 김김김임") ['안녕하세요', '.', '김김김', '임'] >>>text=''''신차는 6인승 모델을 추가하고 편의 및 안전사양과 내∙외장 컬러를 더해 상품성을 높인 것이 특징이다.''' >>> twitter.morphs(text) ["'", '신차', '는', '6', '인승', '모델', '을', '추가', '하고', '편의', '및', '안전', '사양', '과', '내', '∙', '외', '장', '컬러', '를', '더해', '상품', '성', '을', '높인', '것', '이', '특징', '이다', '.'] 이렇게 저장하면 잘열림
크롤링한 영화 -> 네이버 영화 (naver.com) 참고목록 네이버 영화 리뷰 크롤링 #1 : 네이버 블로그 (naver.com) 참고함 2.크롤링(2): 나도 할 수 있다. 크롤링!!!.. : 네이버블로그 (naver.com) 3.# Text Analysis(1) - 영화댓글.. : 네이버블로그 (naver.com) 라이브러리 로드 댓글 크롤링 url=https://movie.naver.com/movie/bi/mi/pointWriteFormList.naver?code=197071&type=after&isActualPointWriteExecute=false&isMileageSubscriptionAlready=false&isMileageSubscriptionReject=false&page=2 ..
데이터 정제 BeautifulSoup(뷰티풀숩)을 통해 HTML 태그를 제거 정규표현식으로 알파벳 이외의 문자를 공백으로 치환 NLTK 데이터를 사용해 불용어(Stopword)를 제거 어간추출(스테밍 Stemming)과 음소표기법(Lemmatizing)의 개념을 이해하고 SnowballStemmer를 통해 어간을 추출 """ header = 0 은 파일의 첫 번째 줄에 열 이름이 있음을 나타내며 delimiter = \t 는 필드가 탭으로 구분되는 것을 의미한다. quoting = 3은 쌍따옴표를 무시하도록 한다. """ html태그 없애기 BeautifulSoup(train['review'][0], "html5lib") 특수기호 없애기 소문자로 변환한 후, spilt을 이용하여 문자를 나..