- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

【大数据技术基础 | 实验三】HDFS实验：部署HDFS

Francek Chen 发表于 2024/11/11 19:24:23 2024/11/11

【摘要】本文介绍部署HDFS相关原理和实验步骤。理解HDFS体系架构和master/slave架构，学会逐一启动HDFS和统一启动HDFS，并完成在HDFS中新建目录和上传文件。

一、实验目的

理解HDFS存在的原因；
理解HDFS体系架构；
理解master/slave架构；
理解为何配置文件里只需指定主服务、无需指定从服务；
理解为何需要客户端节点；
学会逐一启动HDFS和统一启动HDFS；
学会在HDFS中上传文件。

二、实验要求

要求实验结束时，已构建出以下HDFS集群：

master上部署主服务NameNode；
slave1、2上部署从服务DataNode；
master上部署HDFS客户端。

待集群搭建好后，还需在master上进行下述操作：

在HDFS里新建目录；
将master上某文件上传至HDFS里刚才新建的目录。

三、实验原理

（一）分布式文件系统

分布式文件系统（Distributed File System）是指文件系统管理的物理存储资源不一定直接连接在本地节点上，而是通过计算机网络与节点相连。该系统架构于网络之上，势必会引入网络编程的复杂性，因此分布式文件系统比普通磁盘文件系统更为复杂。

（二）HDFS

HDFS（Hadoop Distributed File System）为大数据平台其它所有组件提供了基本的存储功能。它具有高容错、高可靠、可扩展、高吞吐率等特征，为大数据存储和处理提供了强大的底层存储架构。

HDFS是一个主/从（master/slave）体系结构，从最终用户的角度来看，它就像传统的文件系统，可通过目录路径对文件执行CRUD操作。由于其分布式存储的性质，HDFS集群拥有一个NameNode和一些DataNodes，NameNode管理文件系统的元数据，DataNode存储实际的数据。

HDFS开放文件系统的命名空间以便用户以文件形式存储数据，秉承“一次写入、多次读取”的原则。客户端通过NameNode和DataNodes的交互访问文件系统，联系NameNode以获取文件的元数据，而真正的文件I/O操作是直接和DataNode进行交互的。

（三）HDFS基本命令

HDFS基本命令格式如下：

hadoop fs -cmd args
hdfs dfs -cmd args

其中，cmd为具体的操作，args为参数。

部分HDFS命令示例如下：

hadoop fs -mkdir /user/trunk    #建立目录/user/trunk
hadoop fs -ls /user    #查看/user目录下的目录和文件
hadoop fs -lsr /user    #递归查看/user目录下的目录和文件
hadoop fs -put test.txt /user/trunk    #上传test.txt文件至/user/trunk
hadoop fs -get /user/trunk/test.txt    #获取/user/trunk/test.txt文件
hadoop fs -cat /user/trunk/test.txt    #查看/user/trunk/test.txt文件内容
hadoop fs -tail /user/trunk/test.txt    #查看/user/trunk/test.txt文件的最后1000行
hadoop fs -rm /user/trunk/test.txt    #删除/user/trunk/test.txt文件
hadoop fs -help ls    #查看ls命令的帮助文档
hdfs dfs    # 新的命令形式

（四）HDFS适用场景

HDFS提供高吞吐量应用程序数据访问功能，适合带有大型数据集的应用程序，以下是一些常用的应用场景：

数据密集型并行计算：数据量极大，但是计算相对简单的并行处理，如大规模Web信息搜索；
计算密集型并行计算：数据量相对不是很大，但是计算较为复杂的并行计算，如3D建模与渲染、气象预报和科学计算；
数据密集与计算密集混合型的并行计算，如3D电影的渲染。

HDFS在使用过程中有以下限制：

HDFS不适合大量小文件的存储，因NameNode将文件系统的元数据存放在内存中，因此存储的文件数目受限于NameNode的内存大小；
HDFS适用于高吞吐量，而不适合低时间延迟的访问；
流式读取的方式，不适合多用户写入一个文件（一个文件同时只能被一个客户端写），以及任意位置写入（不支持随机写）；
HDFS更加适合写入一次，读取多次的应用场景。

四、实验环境

云创大数据实验平台：
Java 版本：jdk1.7.0_79
Hadoop 版本：hadoop-2.7.1

五、实验内容和步骤

部署HDFS主要步骤如下：

配置Hadoop的安装环境；
配置Hadoop的配置文件；
启动HDFS服务；
验证HDFS服务可用。

（一）在master服务器上确定存在hadoop安装目录

ls /usr/cstor/hadoop

（二）配置集群服务器之间SSH免密登录

使用ssh工具登录到每一台服务器，执行命令ssh 主机名，确认每台集群服务器均可SSH免密登录。若无法SSH免密登录，请参照如下进行配置。详细配置步骤参考：【大数据技术基础 | 实验一】配置SSH免密登录

（三）修改HDFS配置文件

1. 设置JDK安装目录

实验平台环境的JDK和Hadoop已经安装好了，输入命令：

vim /usr/cstor/hadoop/etc/hadoop/hadoop-env.sh

编辑文件/usr/cstor/hadoop/etc/hadoop/hadoop-env.sh，找到如下一行：

export JAVA_HOME=${JAVA_HOME}

将这行内容修改为：

export JAVA_HOME=/usr/local/jdk1.7.0_79/

这里的/usr/local/jdk1.7.0_79/就是JDK安装位置，如果不同，请根据实际情况更改。

2. 指定HDFS主节点

输入命令：

vim /usr/cstor/hadoop/etc/hadoop/core-site.xml

编辑文件/usr/cstor/hadoop/etc/hadoop/core-site.xml，将如下内容嵌入此文件里最后两行的标签之间：

<property>
    <name>hadoop.tmp.dir</name>
    <value>/usr/cstor/hadoop/cloud</value>
</property>
<property>
    <name>fs.defaultFS</name>
    <value>hdfs://master:8020</value>
</property>

3. 拷贝集群配置至其它服务器

在master机上执行下列命令，将配置好的hadoop拷贝至slaveX。

cat ~/data/2/machines
for x in `cat ~/data/2/machines` ; do echo $x ; scp -r /usr/cstor/hadoop/etc $x:/usr/cstor/hadoop ; done;

（四）启动HDFS

在master服务器上格式化主节点：

hdfs namenode -format

配置slaves文件，将localhost修改为slave1~2：

vi /usr/cstor/hadoop/etc/hadoop/slaves

统一启动HDFS：

cd /usr/cstor/hadoop
sbin/start-dfs.sh

（五）通过查看进程的方式验证HDFS启动成功

分别在master、slave1~2三台机器上执行如下命令，查看HDFS服务是否已启动。

jps

若启动成功，在master上会看到类似的如下信息：

而在slave1、slave2上会看到类似的如下信息：

（六）使用master上传文件

从master服务器向HDFS上传文件：

hadoop fs -put ~/data/2/machines /

执行命令查看文件是否上传成功：

hadoop fs -ls /

可以看出，我们上传成功了。

六、实验结果

在本地（需开启 OpenVPN）浏览器中输入master服务器IP地址和端口号：http://10.30.108.17:50070/，即可看到Hadoop的WebUI。此页面包含了Hadoop集群主节点、从节点等各类统计信息。

七、实验心得

在进行HDFS部署实验后，我收获了许多宝贵的经验。通过实验，首先加深了对HDFS体系结构和分布式文件系统的理解。实验中我们搭建了一个简单的HDFS集群，包括在master节点上部署NameNode服务，在两个slave节点上部署DataNode服务，并在master上部署HDFS客户端。这使我理解了master/slave架构的实际操作以及各节点如何协同工作。

实验中，我学会了配置Hadoop环境和文件，了解了如何进行SSH免密登录以便多个节点之间顺畅通信。同时，通过格式化NameNode并启动HDFS集群，我亲自验证了集群的工作状态。在上传文件到HDFS并查看文件上传结果的过程中，我进一步熟悉了HDFS的基本命令操作（如创建目录、上传文件等）。

整个实验过程让我深刻体会到HDFS高吞吐量、可扩展性和容错性等特点如何支持大数据存储和处理。此外，我也注意到HDFS在处理小文件和低延迟访问方面的局限性，这为未来在实际应用中的优化提供了方向。

总之，这次实验不仅让我加深了对HDFS原理的理解，还让我掌握了如何部署和操作HDFS系统，为将来处理大规模数据奠定了基础。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入