'2021-2학기' 카테고리의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

목록2021-2학기 (64)

Jam's story

2021 K-ICT 데이터크리에이터 최우수상 수상

보호되어 있는 글입니다.

2021-2학기/데이터분석 2022. 3. 25. 09:28

[시계열 데이터분석] - prophet 알고리즘을 이용하여 향후 코로나 확진자 예측

보호되어 있는 글입니다.

2021-2학기/캡스톤 2022. 3. 25. 09:27

서울특별시 코로나 상세분석

보호되어 있는 글입니다.

2021-2학기/캡스톤 2022. 3. 25. 09:26

자연어처리 영화댓글

중복된 데이터를 지우기 - > drop.duplicates 특수문자 지우기 dataset['text'] = dataset['text'].str.replace("[^ㄱ-ㅎㅏ-ㅣ가-힣 ]","") # 정규 표현식 수행 데이터에서 공백을 null값으로 바꿈 그 null 값을 지움 -> 아까보다 1개 줄어듬 참고로 len(dataset) -> (길이만나옴 ) 또는 dataset.shape ->( 행,열) 이거로 길이를 알아볼 수 있다. dataset['text'].replace('', np.nan, inplace=True) dataset=dataset.dropna(how='any') dataset.shape

2021-2학기/데이터분석 2022. 3. 23. 12:17

자연어 처리

데이터정제 BeautifulSoup(뷰티풀숩)을 통해 HTML 태그를 제거 정규표현식으로 알파벳 이외의 문자를 공백으로 치환 NLTK 데이터를 사용해 불용어(Stopword)를 제거 어간추출(스테밍 Stemming)과 음소표기법(Lemmatizing)의 개념을 이해하고 SnowballStemmer를 통해 어간을 추출 html태그제거 soup=BeautifulSoup(sample, 'html.parser') soup.text (.text 를 추가하는 것 까먹지 말기 ) 이 방법으로도 html 제거를 할 수 있다. 특수기호제거 import re -> 정규표현식을 이용해서 특수문자 제거 re.sub('[^a-zA-Z]' , ' ' , soup.text) a-z ~ A-Z가 아닌 문자를 지우고 공백으로 ..

2021-2학기/데이터분석 2022. 3. 23. 12:17

자연어처리 형태소 분석

형태소 분석 from konlpy.tag import Twitter twitter=Twitter() >>> twitter.morphs("안녕하세요. 김김김임") ['안녕하세요', '.', '김김김', '임'] >>>text=''''신차는 6인승 모델을 추가하고 편의 및 안전사양과 내∙외장 컬러를 더해 상품성을 높인 것이 특징이다.''' >>> twitter.morphs(text) ["'", '신차', '는', '6', '인승', '모델', '을', '추가', '하고', '편의', '및', '안전', '사양', '과', '내', '∙', '외', '장', '컬러', '를', '더해', '상품', '성', '을', '높인', '것', '이', '특징', '이다', '.'] 이렇게 저장하면 잘열림

2021-2학기/데이터분석 2022. 3. 23. 12:16

영화 댓글 자연어 처리

크롤링한 영화 -> 네이버 영화 (naver.com) 참고목록 네이버 영화 리뷰 크롤링 #1 : 네이버 블로그 (naver.com) 참고함 2.크롤링(2): 나도 할 수 있다. 크롤링!!!.. : 네이버블로그 (naver.com) 3.# Text Analysis(1) - 영화댓글.. : 네이버블로그 (naver.com) 라이브러리 로드 댓글 크롤링 url=https://movie.naver.com/movie/bi/mi/pointWriteFormList.naver?code=197071&type=after&isActualPointWriteExecute=false&isMileageSubscriptionAlready=false&isMileageSubscriptionReject=false&page=2 ..

2021-2학기/데이터분석 2022. 3. 23. 12:15

데이터정제

데이터 정제 BeautifulSoup(뷰티풀숩)을 통해 HTML 태그를 제거 정규표현식으로 알파벳 이외의 문자를 공백으로 치환 NLTK 데이터를 사용해 불용어(Stopword)를 제거 어간추출(스테밍 Stemming)과 음소표기법(Lemmatizing)의 개념을 이해하고 SnowballStemmer를 통해 어간을 추출 """ header = 0 은 파일의 첫 번째 줄에 열 이름이 있음을 나타내며 delimiter = \t 는 필드가 탭으로 구분되는 것을 의미한다. quoting = 3은 쌍따옴표를 무시하도록 한다. """ html태그 없애기 BeautifulSoup(train['review'][0], "html5lib") 특수기호 없애기 소문자로 변환한 후, spilt을 이용하여 문자를 나..

2021-2학기/데이터분석 2022. 3. 23. 12:15

Prev 1 2 3 4 ··· 8 Next

목록2021-2학기 (64)

Jam's story

티스토리툴바