영화 댓글 자연어 처리

Notice

Recent Posts

Recent Comments

Link

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

Jam's story

영화 댓글 자연어 처리 본문

2021-2학기/데이터분석

영화 댓글 자연어 처리

애플쩀 2022. 3. 23. 12:15

크롤링한 영화 -> 네이버 영화 (naver.com)

참고목록

네이버 영화 리뷰 크롤링 #1 : 네이버 블로그 (naver.com) 참고함

2.크롤링(2): 나도 할 수 있다. 크롤링!!!.. : 네이버블로그 (naver.com)

3.# Text Analysis(1) - 영화댓글.. : 네이버블로그 (naver.com)

라이브러리 로드

댓글 크롤링

url=https://movie.naver.com/movie/bi/mi/pointWriteFormList.naver?code=197071&type=after&isActualPointWriteExecute=false&isMileageSubscriptionAlready=false&isMileageSubscriptionReject=false&page=2

soup=bs(response.text, 'html.parser') -> html태그를 없애준다

* .text를 꼭 붙여야함

웹페이지에서 F12를 누르고 (ctrl+shift+i )눌러도됨

찾고싶은 곳을 클릭하면 해당하는 블록에 대한 태그가 뜬다.

score_result div 박스 안에 li 안에 a , 이것이 댓글이고 em이 점수이다.

score_result에서 모든 li를 찾아 그 li의 em과 p를 출력

이것을 함수로 만들음

(page=1 )-> 1페이지만 한것

score 이랑 text에 담아줌

계속 한페이지만 불러오게 되었는데

response = requests.get('https://movie.naver.com/movie/bi/mi/pointWriteFormList.naver?code=197071&type=after&isActualPointWriteExecute=false&isMileageSubscriptionAlready=false&isMileageSubscriptionReject=false&page= %s'%page) 이렇게 바꿔야함

데이터를 불러온다

데이터 전처리

네트워크 오류 등으로 인한 중복값 지우기

"text"가 중복인것들을 가장최근것으로 남기겠다는 뜻

df=df.drop_duplicates(["text"], keep="last")

중복제거후 df.shape 해보니 댓글 수가 줄어듬

전처리 하기 전에원본 보존하기

저작자표시

'2021-2학기 > 데이터분석' 카테고리의 다른 글

자연어 처리 (0)	2022.03.23
자연어처리 형태소 분석 (0)	2022.03.23
데이터정제 (0)	2022.03.23
크롤링 (0)	2022.03.23
영화리뷰 감정분석 (0)	2022.03.23

'2021-2학기/데이터분석' Related Articles

Comments

Jam's story

영화 댓글 자연어 처리 본문

영화 댓글 자연어 처리

'2021-2학기 > 데이터분석' 카테고리의 다른 글

티스토리툴바