기본 JDK 설치 완료되어 있어야함
[설치 정보]
Hadoop 설치 버젼 : 2.6.4
[Hadoop Download]
사이트 : http://hadoop.apache.org/releases.html
홈페이지에서 Binary 다운로드 후 압축 풀기
[Host 등록]
Hadoop 환경을 구성할 모든 PC의 확인이 우선이며
구성 PC의 IP, Host Name을 전부 등록
# vi /etc/hosts
192.xx.xx.xx master.com
192.xx.xx.xx slave1.com
192.xx.xx.xx slave2.com
~~
~~ N대
Host 등록을 모든 pc에 해준다.
※ 우선 노가다로 설치진행
※ pc가 많으면 모든 IP를 외울 수 없다. IP 대신 알기 쉬운 ex)master.com으로 관리하려는 목적이라고만 알고 있자.
[공개키 생성]
다른 pc에 접속 하려면 아이디 패스워드가 필요하다.
N대의 pc에 접속하여 데이터를 저장하고 분석하려면 구성된 PC들끼리 인증없이 서로 접속되게 설정
(키 생성)
# cd ~/.ssh/
# cat id_rsa.pub >> authorized_keys
# chmod 755 authorized_keys
모든 PC에서 하자.
(공개키 복사)
# ssh slave1.com cat ~/.ssh/id_rsa.pub >> authorized_keys
# ssh slave2.com cat ~/.ssh/id_rsa.pub >> authorized_keys
....
# ssh slaveN.com cat ~/.ssh/id_rsa.pub >> authorized_keys
(배포)
# scp authorized_keys slave1.com:~/.ssh/
(확인)
# ssh slave~?.com
접속해서 비번없이 접속 되는지 확인
[PATH 등록]
#vi /etc/profile
export HADOOP_HOME=
압축푼 위치
export HADOOP_COMMON_LIB_NATIVE_DIR =
$HADOOP_HOME/lib/native
export PATH=
$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin:
[환경설정]
(mapred-site.xml)
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
(core-site.xml)
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://마스터PC 아이피:9000</value>
</property>
</configuration>
(hdfs-site.xml)
네임노드 데이터노드 관련 디렉토리 생성
ex) mkdir /data/namenode
mkdir /data/datanode
<configuration>
<property>
<name>dfs.replication</name>
<value>복제개수</value>
</property>
<property>
<name>dfs.name.dir</name>
<value>file:///data/namenode</value>
<final>true</final>
</property>
<property>
<name>dfs.data.dir</name>
<value>file:///data/datanode</value>
<final>true</final>
</property>
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
<property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
</property>
</configuration>
(yarn-site.xml)
<configuration>
<!-- Site specific YARN configuration properties -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce_shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>master.com:8025</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>master.com:8030</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>master.com:8040</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>master.com:8088</value>
</property>
</configuration>
아래는 안해줘도 될 것같은데 걍 해주자.
(yarn-env.sh)
export JAVA_HOME=위치
export HADOOP_HOME=위치
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
(hadoop-env.sh)
export JAVA_HOME=위치
export HADOOP_HOME=위치
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop
[Slave PC 정보]
#vi config/slaves
(내용 추가)
slave1.com
slave2.com
...
N
[Hadoop 배포]
모든 PC에 하둡 폴더를 scp 복사 해주고
JDK설치, PATH 설정 해준다.
※참고 : scp 동기화 방법을 적용해주면 좋은데 향후 이렇게 안깔고 CDH( Cloudera's Distribution for Hadoop)를 사용하면 해결됨
[실행]
# hadoop namenode -format
# ./start-all.sh
[확인]
#jps
'빅데이터' 카테고리의 다른 글
GrayLog (1) - 설명 (0) | 2017.04.20 |
---|---|
SPARK 설치 (0) | 2017.04.19 |
HUE 설치 (0) | 2017.04.19 |
JDK + Maven 설치 (0) | 2017.04.19 |
시작하기.... (0) | 2017.04.19 |