MRS二次开发(2/27): HDFS调用样例

举报
晋红轻 发表于 2020/11/28 09:53:24 2020/11/28
【摘要】  HDFS(Hadoop Distribute FileSystem)是一个适合运行在通用硬件之上,具备高度容错特性,支持高吞吐量数据访问的分布式文件系统,非常适合大规模数据集应用。本文介绍HDFS二次开发调用样例介绍

MRS二次开发(2/27): HDFS调用样例

一、HDFS简介

 HDFS(Hadoop Distribute FileSystem)是一个适合运行在通用硬件之上,具备高度容错特性,支持高吞吐量数据访问的分布式文件系统,非常适合大规模数据集应用

二、样例背景

 HDFS的业务操作对象是文件,代码样例中所涉及的文件操作主要包括

创建文件夹

写文件

追加文件内容

读文件

删除文件/文件夹

  • HDFS还有其他的业务处理,例如设置文件权限等,其他操作可以在掌握本代码样例之后,再扩展学习。

三、Windows环境样例调用步骤

环境准备,参考第一课

比对时间,与集群时间误差不能超过5分钟

检查 C:\Windows\System32\drivers\etc\hosts文件中是否包含所有集群节点的域名IP映射信息

IDEA打开样例代码中的hdfs-example-security目录,默认会自动下载依赖,如未下载,选中该目录下的pom.xml文件,右键点击“Add As Maven Project”后等待项目自动将依赖下载完毕

Manager界面下载用户认证凭据后,解压缩获取秘钥文件user.keytab和krb5.conf,将这两个文件放到样例代码的conf目录

从客户端 /opt/client/HDFS/hadoop/etc/hadoop 目录中获取core-site.xml和hdfs-site.xml文件放到样例代码的conf目录

修改样例代码中的用户信息

右键选择conf目录,选择“Mark Directory as”-"Resources Root"

打开 HdfsExample.java 文件右键执行Run 启动样例代码

四、Linux环境调试步骤

完成Windows环境样例调用步骤

windows环境中执行打包

检查linux环境时间与集群误差不超过5分钟

检查linux环境的JDK版本为1.8

检查linux环境的/etc/hosts文件中包含所有集群节点的域名IP映射信息

创建样例执行路径,例如/opt/hdfstest

上传windows环境打包后生成的target目录下的 HDFSTest-0.0.1-SNAPSHOT.jar 包到/opt/hdfstest目录

上传windows环境打包后生成的target目录下的lib目录到/opt/hdfstest目录下

上传windows环境中调试通过后的conf目录到/opt/hdfstest目录

执行如下命令验证linux环境下可访问HDFS

  • java -cp HDFSTest-0.0.1-SNAPSHOT.jar:/opt/hdfstest/conf:/opt/hdfstest/lib/* com.huawei.bigdata.hdfs.examples.HdfsExample

五、问题互动渠道

FusonInsight 论坛入口 https://bbs.huaweicloud.com/forum/forum-1103-1.html

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。