MRS二次开发(2/27): HDFS调用样例
MRS二次开发(2/27): HDFS调用样例
一、HDFS简介
HDFS(Hadoop Distribute FileSystem)是一个适合运行在通用硬件之上,具备高度容错特性,支持高吞吐量数据访问的分布式文件系统,非常适合大规模数据集应用
二、样例背景
HDFS的业务操作对象是文件,代码样例中所涉及的文件操作主要包括
创建文件夹
写文件
追加文件内容
读文件
删除文件/文件夹
- HDFS还有其他的业务处理,例如设置文件权限等,其他操作可以在掌握本代码样例之后,再扩展学习。
三、Windows环境样例调用步骤
环境准备,参考第一课
比对时间,与集群时间误差不能超过5分钟
检查 C:\Windows\System32\drivers\etc\hosts文件中是否包含所有集群节点的域名IP映射信息
在IDEA打开样例代码中的hdfs-example-security目录,默认会自动下载依赖,如未下载,选中该目录下的pom.xml文件,右键点击“Add As Maven Project”后等待项目自动将依赖下载完毕
从Manager界面下载用户认证凭据后,解压缩获取秘钥文件user.keytab和krb5.conf,将这两个文件放到样例代码的conf目录
从客户端 /opt/client/HDFS/hadoop/etc/hadoop 目录中获取core-site.xml和hdfs-site.xml文件放到样例代码的conf目录
修改样例代码中的用户信息
右键选择conf目录,选择“Mark Directory as”-"Resources Root"
打开 HdfsExample.java 文件右键执行Run 启动样例代码
四、Linux环境调试步骤
完成Windows环境样例调用步骤
在windows环境中执行打包
检查linux环境时间与集群误差不超过5分钟
检查linux环境的JDK版本为1.8
检查linux环境的/etc/hosts文件中包含所有集群节点的域名IP映射信息
创建样例执行路径,例如/opt/hdfstest
上传windows环境打包后生成的target目录下的 HDFSTest-0.0.1-SNAPSHOT.jar 包到/opt/hdfstest目录
上传windows环境打包后生成的target目录下的lib目录到/opt/hdfstest目录下
上传windows环境中调试通过后的conf目录到/opt/hdfstest目录
执行如下命令验证linux环境下可访问HDFS
- java -cp HDFSTest-0.0.1-SNAPSHOT.jar:/opt/hdfstest/conf:/opt/hdfstest/lib/* com.huawei.bigdata.hdfs.examples.HdfsExample
五、问题互动渠道
FusonInsight 论坛入口 https://bbs.huaweicloud.com/forum/forum-1103-1.html
- 点赞
- 收藏
- 关注作者
评论(0)