크롤링

Notice

Recent Posts

Recent Comments

Link

« 2025/08 »
일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

Tags more

Archives

Today

Total

관리 메뉴

Jam's story

크롤링 본문

2021-2학기/데이터분석

크롤링

애플쩀 2022. 3. 23. 12:14

크롤링

크롤링할 페이지.robots.txt 해서

허용하는지 허용안하는지 목록이 나와있음

시작

# 라이브러리 로드

# requests는 작은 웹브라우저로 웹사이트 내용을 가져온다.

import requests

# BeautifulSoup 을 통해 읽어 온 웹페이지를 파싱한다.

from bs4 import BeautifulSoup as bs

# 크롤링 후 결과를 데이터프레임 형태로 보기 위해 불러온다.

import pandas as pd

#여러페이지를 읽어올때 진행상태를 확인하는 목적

from tqdm import trange

requests.get으로 웹페이지 내용을 가져온다.

.text를 붙이면 html 태그까지 붙어있는 데이터 그대로 보여준다.

<html> 태그없애기

이 태그로도 html 태그를 제거할 수 있다.

댓글을 가져오기

가져오고싶은댓글+오른쪽마우스- >검사 하면 창이 뜬다

아니면 ctrl +shift+i

댓글 전체를 가져오고 싶다면

content 부분을 오른쪽마우스 - copy- copy selecter

#main > section > section > div > div > ul > li:nth-child(100) > div > div

날짜나 시간 정보도 같이 볼수있다.

[0]을 안붙이면 이렇게 리스트 형태로 나타난다.

[0]을 붙이면 리스트가 분리가 된다,

.get_text(strip=True)

앞뒤 공백제거하고 원하는 텍스트만 가져온다

이걸로 성공함

저작자표시 (새창열림)

'2021-2학기 > 데이터분석' 카테고리의 다른 글

영화 댓글 자연어 처리 (0)	2022.03.23
데이터정제 (0)	2022.03.23
영화리뷰 감정분석 (0)	2022.03.23
서울종합병원분포 알아보기 (0)	2022.03.23
Pandas 3주차 (0)	2022.03.23

'2021-2학기/데이터분석' Related Articles

Comments

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

Jam's story

Jam's story

크롤링 본문

크롤링

'2021-2학기 > 데이터분석' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역