목록2021-2학기/데이터분석 (12)
Jam's story
보호되어 있는 글입니다.

중복된 데이터를 지우기 - > drop.duplicates 특수문자 지우기 dataset['text'] = dataset['text'].str.replace("[^ㄱ-ㅎㅏ-ㅣ가-힣 ]","") # 정규 표현식 수행 데이터에서 공백을 null값으로 바꿈 그 null 값을 지움 -> 아까보다 1개 줄어듬 참고로 len(dataset) -> (길이만나옴 ) 또는 dataset.shape ->( 행,열) 이거로 길이를 알아볼 수 있다. dataset['text'].replace('', np.nan, inplace=True) dataset=dataset.dropna(how='any') dataset.shape

데이터정제 BeautifulSoup(뷰티풀숩)을 통해 HTML 태그를 제거 정규표현식으로 알파벳 이외의 문자를 공백으로 치환 NLTK 데이터를 사용해 불용어(Stopword)를 제거 어간추출(스테밍 Stemming)과 음소표기법(Lemmatizing)의 개념을 이해하고 SnowballStemmer를 통해 어간을 추출 html태그제거 soup=BeautifulSoup(sample, 'html.parser') soup.text (.text 를 추가하는 것 까먹지 말기 ) 이 방법으로도 html 제거를 할 수 있다. 특수기호제거 import re -> 정규표현식을 이용해서 특수문자 제거 re.sub('[^a-zA-Z]' , ' ' , soup.text) a-z ~ A-Z가 아닌 문자를 지우고 공백으로 ..

형태소 분석 from konlpy.tag import Twitter twitter=Twitter() >>> twitter.morphs("안녕하세요. 김김김임") ['안녕하세요', '.', '김김김', '임'] >>>text=''''신차는 6인승 모델을 추가하고 편의 및 안전사양과 내∙외장 컬러를 더해 상품성을 높인 것이 특징이다.''' >>> twitter.morphs(text) ["'", '신차', '는', '6', '인승', '모델', '을', '추가', '하고', '편의', '및', '안전', '사양', '과', '내', '∙', '외', '장', '컬러', '를', '더해', '상품', '성', '을', '높인', '것', '이', '특징', '이다', '.'] 이렇게 저장하면 잘열림

크롤링한 영화 -> 네이버 영화 (naver.com) 참고목록 네이버 영화 리뷰 크롤링 #1 : 네이버 블로그 (naver.com) 참고함 2.크롤링(2): 나도 할 수 있다. 크롤링!!!.. : 네이버블로그 (naver.com) 3.# Text Analysis(1) - 영화댓글.. : 네이버블로그 (naver.com) 라이브러리 로드 댓글 크롤링 url=https://movie.naver.com/movie/bi/mi/pointWriteFormList.naver?code=197071&type=after&isActualPointWriteExecute=false&isMileageSubscriptionAlready=false&isMileageSubscriptionReject=false&page=2 ..

데이터 정제 BeautifulSoup(뷰티풀숩)을 통해 HTML 태그를 제거 정규표현식으로 알파벳 이외의 문자를 공백으로 치환 NLTK 데이터를 사용해 불용어(Stopword)를 제거 어간추출(스테밍 Stemming)과 음소표기법(Lemmatizing)의 개념을 이해하고 SnowballStemmer를 통해 어간을 추출 """ header = 0 은 파일의 첫 번째 줄에 열 이름이 있음을 나타내며 delimiter = \t 는 필드가 탭으로 구분되는 것을 의미한다. quoting = 3은 쌍따옴표를 무시하도록 한다. """ html태그 없애기 BeautifulSoup(train['review'][0], "html5lib") 특수기호 없애기 소문자로 변환한 후, spilt을 이용하여 문자를 나..

크롤링 크롤링할 페이지.robots.txt 해서 허용하는지 허용안하는지 목록이 나와있음 시작 # 라이브러리 로드 # requests는 작은 웹브라우저로 웹사이트 내용을 가져온다. import requests # BeautifulSoup 을 통해 읽어 온 웹페이지를 파싱한다. from bs4 import BeautifulSoup as bs # 크롤링 후 결과를 데이터프레임 형태로 보기 위해 불러온다. import pandas as pd #여러페이지를 읽어올때 진행상태를 확인하는 목적 from tqdm import trange requests.get으로 웹페이지 내용을 가져온다. .text를 붙이면 html 태그까지 붙어있는 데이터 그대로 보여준다. 태그없애기 이 태그로도 html 태그를 ..

(7) EP.02 [캐글뽀개기] 영화 리뷰 감정분석 - 데이터 불러오기 - YouTube 참고함 데이터 출처 : Bag of Words Meets Bags of Popcorn | Kaggle 캐글 대회인 "Bag of Words Meets Bags of Popcorn" 진행을 통해 머신러닝과 딥러닝을 활용한 다양한 접근으로 전처리부터 예측까지 데이터전처리 beutiful Soup을 이용하여 html 태그를 제거, from nltk.corpus import stopword을 이용하여 불용어 (조사 - 은는이가, 자주쓰이지만 의미없는 단어 html태그제거 soup=BeautifulSoup(sample, 'html.parser') soup.text (.text 를 추가하는 것 까먹지 말기 ) 이 방..