목록2021-2학기 (64)
Jam's story
크롤링 크롤링할 페이지.robots.txt 해서 허용하는지 허용안하는지 목록이 나와있음 시작 # 라이브러리 로드 # requests는 작은 웹브라우저로 웹사이트 내용을 가져온다. import requests # BeautifulSoup 을 통해 읽어 온 웹페이지를 파싱한다. from bs4 import BeautifulSoup as bs # 크롤링 후 결과를 데이터프레임 형태로 보기 위해 불러온다. import pandas as pd #여러페이지를 읽어올때 진행상태를 확인하는 목적 from tqdm import trange requests.get으로 웹페이지 내용을 가져온다. .text를 붙이면 html 태그까지 붙어있는 데이터 그대로 보여준다. 태그없애기 이 태그로도 html 태그를 ..
(7) EP.02 [캐글뽀개기] 영화 리뷰 감정분석 - 데이터 불러오기 - YouTube 참고함 데이터 출처 : Bag of Words Meets Bags of Popcorn | Kaggle 캐글 대회인 "Bag of Words Meets Bags of Popcorn" 진행을 통해 머신러닝과 딥러닝을 활용한 다양한 접근으로 전처리부터 예측까지 데이터전처리 beutiful Soup을 이용하여 html 태그를 제거, from nltk.corpus import stopword을 이용하여 불용어 (조사 - 은는이가, 자주쓰이지만 의미없는 단어 html태그제거 soup=BeautifulSoup(sample, 'html.parser') soup.text (.text 를 추가하는 것 까먹지 말기 ) 이 방..
서울종합병원분포 알아보기 - folium이용 open-data-analysis-output.ipynb - Colaboratory (google.com) 참조하였음 폰트를 선명하게 보이게 하기- > set _matplotlib_formats('retina') 그래프가 노트북 안에 보이게 하기 -> %matplotlib inline 데이터 로드하기 -read_csv 사용 -df 변수에 넣는다 -shape를 이용하여 데이터 갯수를 출력한다. 결과는 행 ,열 순으로 -head() , tail()로 미리보기 -sample()로 미리보기 데이터 요약 data.info() 데이터 칼럼명 검색 ->df.columns 데이터 타입 검색 -> df.dtypes 데이터 결측치 ->isnull() 이 결측치로 pl..
3째주 공부내용: Pandas 기본사용법 + CCTV데이터 이용하여 구현해보기 (초반까지 밖에 못함 ) +pandas 복습 판다스(pandas) 기본 사용법 익히기 (dandyrilla.github.io) 이거 참고하면서 공부했습니다. import pandas as pd dates=pd.data_range('20130101', period=6) 데이터 프레임 만들기 - > pd.DataFrame( index= , columns=) index는 행 (세로 ) columns는 열 (가로) df=pd.DataFrame(np.random_randn(6,4), index=dates, columns=list('ABCD') DataFrame은 딕셔너리를 이용할 수있다. df2 = pd.DataFrame({'A..
판다스(pandas) 기본 사용법 익히기 (dandyrilla.github.io) 참고 행-index, 열 -columns 행에 해당하는 기준(첫번째 기준)인 인덱스를 index 라는 인수로 전달하며, 열에 해당하는 기준(두번째 기준)인 컬럼을 columns 이라는 인수로 전달합니다 DataFrame의 인덱스를 보려면 .index 속성을, 컬럼을 보려면 .columns 속성을, 안에 들어있는 numpy 데이터를 보려면 .values 속성을 통해 확인하면 됩니다. .describe() 메소드는 생성했던 DataFrame 의 간단한 통계 정보를 보여줍니다. .T 속성은 DataFrame 에서 index 와 column 을 바꾼 형태의 DataFrame 입니다. .sort_index() 라는..
pandas/Pandas_Cheatsheet.ipynb at master · minsuk-heo/pandas · GitHub 참고함 딕셔너리로 만들기 딕셔너리리스트이름 = [ {'종목':'값' ,'종목':'값' ,'종목':'값' } ] 딕셔너리를 사용해서 한번에 정리하기 from collections impor OrderedDict 부르기 리스트 리스트이름 =[ ['' ,'' , ''] ['' ,'',''] ] 칼럼이름 =['','',''] df=pd.DataFrame.from_records(리스트이름 , columns=칼럼이름) 리스트로 한번에 정리하기
플러그인이 정상적으로 되었다면 windows=pertspective -other 에서 map /reduce 가 나타남 오픈 누르면 하둡아이콘이랑 DFS locaitons 생성 생성이 되었다 먼가 귀욥다... user에 mapreduce 파일을 만들어줌 mapreduce2/input 이라고 쓰고 refresh 눌러줬더니 upload fiels to DFS를 이용하여 저 파일 두개를 가져온다 라인별로 잘게 나누고, 래퍼는 그것을 ivalue에 넣고 string으로 변환한다 그것을 line으로 보냄 String line=ivalue.toString() 단어별로 쪼개어 words에 할당한다 String words[] = line.split(" ")