목록2021-2학기 (64)
Jam's story
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/bkEFRi/btrwZ0tVy4c/tMIcAMKZbGijzhKSPOLOz0/img.png)
1.새로운 자바 프로젝트 MapReduce를 만든다 2.JRE 선택 ADD를 누른 후 standdard선택 next를 누른후에 usr/lib/jvm를 들어가서 jdk1.8.0_271폴더를 오픈한다 . 컴파일러 레벨 1.8로 바꾸기 --하둡의 환경과 맞춰야함 windows-preference- java- buildpath-user libaries HADOOP-COMMON에 추가 !! 이렇게 다 추가를 한 후에 add externel jar를 들어간다 이렇게 다 클릭한후 오픈누르면 등록이 된다 HADOOP-COMMON-LIB에는 얘네를 추가 이런식으로 각각폴더에 맞는아이들 (JAR)를 추가 시킨다 APPLY AND CLOSE 누름 MAPREUCE 자바 프로젝트 폴더를 누른후 properties의 java..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/tzzso/btrwXyqWpxG/jdwFznioTmWjKbFijqFlF1/img.png)
이클립스 최신버전을 설치하여 wordcount 결과물을 추출 www.eclipse.org,에 들어가서 리눅스 버전으로 다운받는다 다운로드 파일안에 잘 다운이 되었는지 확인한다 압축을 풀어준다. $ cd /opt /opt$ sudo tar -xzvf ~/Downloads/eclipse-jee-2021-03-R-linux-gtk-x86_64.tar.gz /opt$ ls -l /opt$ cd eclipse 리눅스의 어플리캐이션의 아이콘들을 저장하는 디렉토리 /opt$ cd /usr/share/applications nano eclipse.desktop 만들었더니 빈파일 만들어졋음 쓸수가없는 환경. 읽기권한만 가능 그래서 nano를 사용하지 않고 touch를 사용해서 만든다 sudo tou..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/erICsk/btrwIqVHYAg/DD2rDSxwcKExx6zi8KtKck/img.png)
1.mapper.py를 코딩하여 맵 스크립트를 작동 ‘stdin’은 standard input 으로 맵과 리듀스 단계 코드 사이로 데이터를 패싱하는데 도움을 주는 하둡 스트리밍 API STDIN는 인풋을 단어별로 쪼개는 과정이라고 생각하시면 되며, STDOUT은 그들의 단어들을 카운트하는 맴의 라인 리스트라고 보시면 됩니다. “/usr/bin/env: ‘python’: No such file or directory” 이러한 에러가 생겨서 파이썬을 설치하였다. -리눅스 안 파이썬 설치코드 ~/hadoop$ python --version ~/hadoop$ sudo apt update ~/hadoop$ sudo apt-get install python-is-python3 ~/hadoop$ pyt..
입력 데이터 (Input Data) 설정. 스플릿 단계(Splitting) - 입력 데이터를 블럭 단위로 분리. 맵 단계(Mapping) - 전체 블럭 데이터를 하나 하나 문자별로 스트리밍(key, value). 셔플 단계(Shuffing) - 한 건 한건 문자별 키(단어: key)와 벨류(value : 1)로 중복 허용. 리듀스 단계(Reducing) - 중복된 단어 키와 그 합계 벨류를 총 합계 나열. 출력 데이터(Output) - 중복 단어 키 한개와 그 합계인 벨류들을 순차별로 파일에 저장.
1. fs vs dfs 다른 점 hadoop fs hdfs dfs 물론 다르다고 생각되지 않습니다. 결과는 아주 다르다면 다르죠.. 그러나 차이점은 분명 있습니다. 구차이 나누자면 hadoop fs 명령어는 hdfs, local file system (로컬 파일 시스템), web hdfs 와 같은 서로 다른 파일 시스템 위에 포함되어 사용할 수 있습니다. 그러나 dfs는 오직 분산환경 파일 시스템에서만 사용가능하죠. 하둡에서만 hdfs dfs 명령어를 사용하게 됩니다. 그렇지만 서로 사용법은 매우 유사합니다. 분산파일을 위한 명령어이기에 동일한 아규먼트를 사용한다면 머 구별되지 않겠죠? 오히려 차이점이 있는 아규먼트는 하둡을 사용하면서 로컬 파일 시스템에서 혹은 웹 hdfs (web hdfs)에서 사용..
distch 한번에 많은 파일들의 권한과 오너십을 변경할 수 있는 사용자 명령어 입니다. distcp 분산 복사(Distributed Copy) 할 때 쓰는 사용자 명령어로 클러스트 내부 혹은 클러스트 간에 이동하여 복제하는 사용자 명령어입니다. Distcp는 맵리듀스에서 이 사용자 명령어의 분산 처리를 효과적으로 발휘하게 되어, 이 사용자 명령어는 분산, 에러 처리와 복구, 레포팅 전반에 걸쳐 맵리듀스와 사용하게 됩니다. 우선, 가장 일반적인 사용법인 클러스트간의 복제를 예로 설명하겠습니다. Hadoop distcp hdfs://nn1:8020/ 한 클러스트 내에 노드 메니져 nn1 에서 다른 노드 메너져 nn2로 복제하는 방법으로 distcp 사용자명령어를 사용하여 맵 타스크 셋..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/dQh948/btrwUlshPwS/sjWKkToYkKs13qZblkwKq0/img.png)
achieve 하둡 아카이브는 파일 시스템 디렉토리를 위해 로드맵을 그릴 수 있습니다. 하둡 아카이브는 *.har 확장명으로 압축되며 메타데이터와 데이터 파일들을 가지고 있습니다. /user/hadoop 디렉토리 중 logs 디렉토리를 아카이브하려고 합니다. 압축하려는 명령어 hadoop archive로 /user/neuavenue_arch라는 하둡 파일 시스템 디렉토리 내에 neuavenue.har 파일로 압축은 실행되어질 겁니다. 실행은 MapReduce 잡으로 아카이브 압축을 묶어 파일들을 압축 정리할 수 있습니다. Hadoop archive -(하이픈) archiveName name -p :$ cd /home/neuavenue/hadoop :~/hadoop$ hadoop archive -a..