본문 바로가기

빅데이터

Hadoop Install

336x280(권장), 300x250(권장), 250x250, 200x200 크기의 광고 코드만 넣을 수 있습니다.


기본 JDK 설치 완료되어 있어야함



[설치 정보]

Hadoop 설치 버젼 : 2.6.4




[Hadoop Download]


사이트 : http://hadoop.apache.org/releases.html


홈페이지에서 Binary 다운로드 후 압축 풀기




[Host 등록]


Hadoop 환경을 구성할 모든 PC의 확인이 우선이며


구성 PC의 IP, Host Name을 전부 등록


# vi /etc/hosts

192.xx.xx.xx master.com

192.xx.xx.xx slave1.com

192.xx.xx.xx slave2.com

~~

~~ N대


Host 등록을 모든 pc에 해준다.



※ 우선 노가다로 설치진행


※ pc가 많으면 모든 IP를 외울 수 없다. IP 대신 알기 쉬운 ex)master.com으로 관리하려는 목적이라고만 알고 있자.




[공개키 생성]

다른 pc에 접속 하려면 아이디 패스워드가 필요하다.


N대의 pc에 접속하여 데이터를 저장하고 분석하려면 구성된 PC들끼리 인증없이 서로 접속되게 설정


(키 생성)

# cd ~/.ssh/


# cat id_rsa.pub >> authorized_keys


# chmod 755 authorized_keys


모든 PC에서 하자.



(공개키 복사)

# ssh slave1.com cat ~/.ssh/id_rsa.pub >> authorized_keys

# ssh slave2.com cat ~/.ssh/id_rsa.pub >> authorized_keys

....

# ssh slaveN.com cat ~/.ssh/id_rsa.pub >> authorized_keys



(배포)

# scp authorized_keys slave1.com:~/.ssh/



(확인)

# ssh slave~?.com 

접속해서 비번없이 접속 되는지 확인




[PATH  등록]


#vi /etc/profile


export HADOOP_HOME=

       압축푼 위치

export HADOOP_COMMON_LIB_NATIVE_DIR = 

       $HADOOP_HOME/lib/native


export PATH=

       $PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin:




[환경설정]


(mapred-site.xml)

<configuration>
        <property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
        </property>
</configuration>



(core-site.xml)

<configuration>
        <property>
                <name>fs.default.name</name>
                <value>hdfs://마스터PC 아이피:9000</value>
        </property>       
</configuration>



(hdfs-site.xml)


네임노드 데이터노드 관련 디렉토리 생성

ex) mkdir /data/namenode

     mkdir /data/datanode

 <configuration>
        <property>
                <name>dfs.replication</name>
                <value>복제개수</value>
        </property>
        <property>
                <name>dfs.name.dir</name>
                <value>file:///data/namenode</value>

                <final>true</final>
        </property>
        <property>
                <name>dfs.data.dir</name>
                <value>file:///data/datanode</value>
                <final>true</final>
        </property>
        <property>
                <name>dfs.permissions</name>
                <value>false</value>
        </property>        
        <property>
                <name>dfs.webhdfs.enabled</name>
                <value>true</value>
        </property>
 </configuration>



(yarn-site.xml) 

<configuration>
 <!-- Site specific YARN configuration properties -->
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
  </property>
  <property>
    <name>yarn.nodemanager.aux-services.mapreduce_shuffle.class</name>
    <value>org.apache.hadoop.mapred.ShuffleHandler</value>
  </property>
  <property>
    <name>yarn.resourcemanager.resource-tracker.address</name>
    <value>master.com:8025</value>
  </property>
  <property>
    <name>yarn.resourcemanager.scheduler.address</name>
    <value>master.com:8030</value>
  </property>
  <property>
    <name>yarn.resourcemanager.address</name>
    <value>master.com:8040</value>
  </property>
   <property>
      <name>yarn.resourcemanager.webapp.address</name>
      <value>master.com:8088</value>
   </property>
 </configuration>




아래는 안해줘도 될 것같은데 걍 해주자.

(yarn-env.sh)  
export JAVA_HOME=위치
export HADOOP_HOME=위치
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop



(hadoop-env.sh)
export JAVA_HOME=위치
export HADOOP_HOME=위치
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop




[Slave PC 정보]


#vi config/slaves


(내용 추가)

slave1.com

slave2.com

...

N




[Hadoop 배포]

모든 PC에 하둡 폴더를 scp 복사 해주고


JDK설치, PATH 설정 해준다.


※참고 : scp 동기화 방법을 적용해주면 좋은데 향후 이렇게 안깔고 CDH( Cloudera's Distribution for Hadoop)를 사용하면 해결됨



[실행]

# hadoop namenode -format

# ./start-all.sh




[확인]

#jps





'빅데이터' 카테고리의 다른 글

GrayLog (1) - 설명  (0) 2017.04.20
SPARK 설치  (0) 2017.04.19
HUE 설치  (0) 2017.04.19
JDK + Maven 설치  (0) 2017.04.19
시작하기....  (0) 2017.04.19