十一、Hadoop完全分布式的搭建详情
hadoop完全分布式安装与配置
在Hadoop集群模式的安装与配置中,Hadoop集群架构如图所示。
准备:共三台虚拟机,分别为master、slave1、slave2,完成如下配置操作。
1、修改hosts文件、存储主机名和IP映射。
为方便后续操作这里更改为root用户进行操作。
(1)第一台计算机执行命令“vim /etc/sysconfig/network”修改主机名,如图所示。
更改内容为:
(2)第二台计算机执行命令“vim /etc/sysconfig/network”修改主机名,如图所示。
更改内容为:
(3)第三台计算机执行命令“vim /etc/sysconfig/network”修改主机名如图所示。
更改内容为:
(4)在每台Linux主机上(master,slave1,slave2),通过“vim /etc/hosts”命令,修改为如下内容修改IP地址映射,编辑结束后,按“:wq”键,保存并退出,如图所示。
(5)测试集群中各个节点之间的互通性(这里使用“ping”命令进行测试),如图所示。
2、随后,在集群的各个节点上配置SSH免密登录,实现master节点无密码登录各个Slave节点。
(1)master生成密钥对
SSH为Secure Shell的缩写,由IETF的网络小组所制定。SSH为建立在应用层基础上的安全协议,专为远程登录会话和其他网络服务提供安全性的协议。利用SSH协议可以有效地防止远程管理过程中的信息泄露问题。
执行命令“ssh-keygen -t rsa”并且依次在系统等待输入时直接回车(一共4次回车)后,即可生成密钥对,如图所示。
进入生成的密钥存储路径/root/.ssh查看生成的密钥文件。
(2)分发公钥文件
执行“ssh-copy-id [主机名]”命令,把本地的ssh公钥文件id_rsa.pub的内容分发到远程[主机名]指定主机对应目录下的authorized_keys文件中,如图所示。
(3)重复master配置操作
在各Slave节点上,需要注意的是执行“ssh-copy-id [主机名]”命令时,需要更换[主机名]为“master”,“slave1”或“slave2”。
(4)免密登录测试
使用master节点登录各Slave节点的测试,如图所示。
使用“exit”命令登出,如图所示。
3、集群环境的配置
在配置集群模式时,需要修改“/home/hadoop/etc/hadoop”目录中的配置文件,这里仅设置正常启动所必需的设置项,包括slaves、hadoop-env.sh、yarn-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml共7个文件,更多设置项可查看官方说明文档。
(1)在hadoop根目录下创建几个文件夹,如图所示。
(2)配置slaves文件,执行命令“vim /home/hadoop/etc/hadoop/slaves”将master节点仅作为NameNode使用,将slaves文件中原来的localhost删除,并添加内容,如图所示。(注意文件内容不能留有其他空格)
更改为:
(3)配置jdk路径
配置hadoop-env.sh文件,如图所示。
配置yarn-env.sh文件,如图所示。
(4)配置文件
配置core-site.xml文件,如图所示。
配置hdfs-site.xml文件,如图所示。
修改mapred-site.xml.template文件为mapred-site.xml如图所示:
配置mapred-site.xml文件,如图所示。
配置yarn-site.xml文件,如图所示。
(5)分发文件
上述文件全部配置完成以后,需要把master节点上的/home/hadoop下的文件复制到各个Slave节点上,如图所示。
(6)格式化节点、启动、验证
首次启动Hadoop集群时,需要在master节点执行节点的格式化操作,即执行命令“bin/hdfs namenode -format”,如图所示。
如果在返回的信息中看到‘Exiting with status 0’,则表示执行格式化成功。如图所示。
接下来即可启动Hadoop,在主机master上执行命令“sbin/start-all.sh”,启动进程,如图所示。
依次在各个节点上执行命令“jps”,查看各个节点的进程,如图所示,如果可以看到如下相关进程,就表示各个节点安装和配置集群环境正确。
(7)Linux浏览器测试
测试HDFS,在虚拟机浏览器地址栏中输入“http://master:50070”,进入HDFS信息界面,表明HDFS配置准确,如图所示。
测试YARN,在虚拟机浏览器地址栏中输入“http://master:8088”,打开Web控制台,可以查看集群状态,如果DataNode中没有配置yarn-site.xml,则在网页中无法看到节点信息;如果配置了yarn-site.xml,则在网页中将会看到节点配置信息,如图所示。
注意:如果在windows的浏览器中测试,需要保证该windows计算机可以正常访问到虚拟机中的相关计算机,并且需要修改windows计算机的hosts文件,实现master主机名与相应IP地址的映射,或者将“http://master:8088”中master修改为对应的IP地址进行测试。
至此,说明Hadoop完全分布式模式的安装与配置成功完成。
其他环境搭建可以参考我的其他博客(链接):
Spark的安装与部署详情(Local模式,Standalone模式,Spank on YARN模式)
文章来源: tuomasi.blog.csdn.net,作者:托马斯-酷涛,版权归原作者所有,如需转载,请联系作者。
原文链接:tuomasi.blog.csdn.net/article/details/118851554
- 点赞
- 收藏
- 关注作者
评论(0)