我是大数据系统的新手,已经完成了几次Coursera认证。我计划使用4台商用级PC建立自己的个人Hadoop集群。目前,所有程序都运行Windows,但可以在它们上安装Linux。我在互联网上搜索了很多有关设置过程的信息,但没有找到(发现很多可以在AWS上旋转)。目前,我不限于任何平台,而是希望所有技术都是免费的\开源的。使用4台PC,我可以拥有1个主节点和其他3个数据节点。希望了解有关如何旋转此裸机Hadoop集群的详细步骤(至少是粗略的概述)。
因此,您想在4节点群集上安装hadoop设置!
要求:1个主站3个从站(在多个节点群集上安装hadoop设置)
第1步:摆脱窗户。当前,Hadoop可用于Linux计算机。您可以拥有ubuntu 14.04或更高版本(或CentOS,Redhat等)
步骤2:安装和设置Java $ sudo apt-get install python-software-properties $ sudo add-apt-repository ppa:ferramroberto / java $ sudo apt-get update $ sudo apt-get install sun-java6-jdk
# Select Sun's Java as the default on your machine.
# See 'sudo update-alternatives --config java' for more information.
#
$ sudo update-java-alternatives -s java-6-sun
步骤3:在.bashrc文件中设置路径(使用文本编辑器(vi / nano)打开此文件并附加以下文本)
export JAVA_HOME=/usr/local/jdk1.7.0_71
export PATH=PATH:$JAVA_HOME/bin
第4步:添加专用用户(建议不要使用该用户)
# useradd hadoop
# passwd hadoop
步骤5:在所有节点上的/ etc /文件夹中编辑主机文件,指定每个系统的IP地址及其主机名。(使用打开文件vi /etc/hosts
并在下面添加文本-
<ip address of master node> hadoop-master
<ip address of slave node 1> hadoop-slave-1
<ip address of slave node 2> hadoop-slave-2
<ip address of slave node 3> hadoop-slave-3
步骤6:在每个节点中设置ssh,以便它们可以彼此通信而无需任何提示输入密码的提示。
$ su hadoop
$ ssh-keygen -t rsa
$ ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop@hadoop-master
$ ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop_tp1@hadoop-slave-1
$ ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop_tp2@hadoop-slave-2
$ ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop_tp3@hadoop-slave-3
$ chmod 0600 ~/.ssh/authorized_keys
$ exit
有关SSH的更多信息,请访问:[ https://www.ssh.com/ssh/] [1 ]
步骤7:在主服务器中下载并安装Hadoop。
# mkdir /opt/hadoop
# cd /opt/hadoop/
# wget http://apache.mesi.com.ar/hadoop/common/hadoop-1.2.1/hadoop-
1.2.0.tar.gz
# tar -xzf hadoop-1.2.0.tar.gz
# mv hadoop-1.2.0 hadoop
# chown -R hadoop /opt/hadoop
# cd /opt/hadoop/hadoop/
安装到此完成!
下一步是:配置Hadoop
第1步:打开core-site.xml并进行如下编辑:
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://hadoop-master:9000/</value>
</property>
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
</configuration>
步骤2:打开hdfs-site.xml并按如下所示进行编辑:
<configuration>
<property>
<name>dfs.data.dir</name>
<value>/opt/hadoop/hadoop/dfs/name/data</value>
<final>true</final>
</property>
<property>
<name>dfs.name.dir</name>
<value>/opt/hadoop/hadoop/dfs/name</value>
<final>true</final>
</property>
<property>
<name>dfs.name.dir</name>
<value>/opt/hadoop/hadoop/dfs/name</value>
<final>true</final>
</property>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
</configuration>
步骤3:打开mapred-site.xml并编辑-
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>hadoop-master:9001</value>
</property>
</configuration>
步骤4:在hadoop-env.sh中的文字下方添加
export JAVA_HOME=/opt/jdk1.7.0_17 export
HADOOP_OPTS=Djava.net.preferIPv4Stack=true export
HADOOP_CONF_DIR=/opt/hadoop/hadoop/conf
第5步:配置主服务器-
$ vi etc/hadoop/masters
hadoop-master
第5步:也将其安装在从属节点上-
# su hadoop
$ cd /opt/hadoop
$ scp -r hadoop hadoop-slave-1:/opt/hadoop
$ scp -r hadoop hadoop-slave-2:/opt/hadoop
$ scp -r hadoop hadoop-slave-3:/opt/hadoop
第6步:配置从站-
$ vi etc/hadoop/slaves
hadoop-slave-1
hadoop-slave-2
hadoop-slave-3
第7步:格式化节点(否则一次,所有数据将永久丢失)
# su hadoop
$ cd /opt/hadoop/hadoop
$ bin/hadoop namenode –format
你们都准备好了!!
您可以按以下方式启动服务-
$ cd $HADOOP_HOME/sbin
$ start-all.sh
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句