FusionInsight测试系列之:HDFS吞吐量性能测试

举报
suwei 发表于 2020/10/31 14:52:34 2020/10/31
【摘要】 基于TestDFSIO工具的HDFS吞吐量性能测试

TestDFSIO工具测试指导


1. 支持版本

FusionInsight HD 6.5.1

2. 工具获取

工具名称: TestDFSIO

该工具基于开源社区获取,为两个jar包文件:hadoop-common-3.1.1-tests.jar 与 hadoop-mapreduce-client-jobclient-3.1.1-tests.jar

下载地址:

https://repo1.maven.org/maven2/org/apache/hadoop/hadoop-common/3.1.1/

https://repo1.maven.org/maven2/org/apache/hadoop/hadoop-mapreduce-client-jobclient/3.1.1/

3. 工具介绍

       用于测试Hadoop文件系统通过MapReduce方式处理作业的 IO 属性。

       TestDFSIO调用一个MapReduce作业来并发地执行读写操作,每个map任务用于读或写每个文件,reduce 用于累积统计信息,并产生统计总结。

       工具使用参数:

Usage: TestDFSIO [genericOptions] 

-read [-random | -backward | -skip [-skipSize Size]] | -write | -append | -truncate | -clean 

[-compression codecClassName] 
[-nrFiles N] 
[-size Size[B|KB|MB|GB|TB]] 
[-resFile resultFileName] 
[-bufferSize Bytes] 
[-storagePolicy storagePolicyName] 
[-erasureCodePolicy erasureCodePolicyName]

       测试参数说明:

        -clean  清空包含TestDFSIO的jar包的历史数据

   -read  读取HDFS上的文件,可指定读取的方式:random随机读取、backward依次向后读取、skip

   -write 写入HDFS,因为HDFS主要使用场景是一次写,多次读,因此写测试一般不过多考虑

   -compression 文件的压缩格式,支持的压缩类有:   

org.apache.hadoop.io.compress.BZip2Codec,
org.apache.hadoop.io.compress.DefaultCodec,
org.apache.hadoop.io.compress.DeflateCodec,
org.apache.hadoop.io.compress.Lz4Codec,
org.apache.hadoop.io.compress.SnappyCodec,
org.apache.hadoop.io.compress.GzipCodec,
org.apache.hadoop.io.compress.ZStandardCodec,
com.huawei.hadoop.datasight.io.compress.lzc.ZCodec

   -nrFiles 文件的个数

   -size 单个文件的大小,注意是未压缩前的大小

   -resFile 统计结果的文件,如果不写,默认是执行命令的路径下的TestDFSIO_results.log

   -bufferSize 

   -storagePolicy 存储策略名称,可选如下 PROVIDED、COLD、WARM、HOT、ONE_SSD、ALL_SSD、LAZY_PERSIST

   -erasureCodePolicy 容错策略,可选RS-10-4-1024k、RS-3-2-1024k、RS-6-3-1024k、RS-LEGACY-6-3-1024k、XOR-2-1-1024k

4. 测试步骤

4.1 前置条件

  1. FI集群安装为安全模式,且运行正常

  2. HDFS、MapReduce、Yarn服务正常

  3. 已于linux环境安装集群客户端

  4. 已配置具有HDFS\Yarn访问权限的用户,例如用户名poc,并对poc用户有对应的Yarn资源分配

4.2 测试过程

  1. 【可选】参考产品文档中”规划HDFS容量“部分,修改GC_OPTS的参数;

  2. 修改HDFS如下配置项,重启服务

    dfs.namenode.handler.count : 512

    dfs.datanode.handler.count : 128

     ipc.server.handler.queue.size : 200

    dfs.namenode.fs-limits.max-directory-items : 6400000

  3. 修改Yarn配置项,重启服务

    yarn.nodemanager.resource.cpu-vcores  根据实际节点的CPU核数修改

    yarn.nodemanager.resource.memory-mb   根据实际节点的内存修改

  4. 修改租户资源池中配置的 Maximum AM Resource Percent 为 0.9

  5. 将测试工具解压缩后上传到客户端,如果客户端安装在/opt/client目录下,那么工具上传的路径为/opt/client/HDFS/hadoop/share/hadoop/mapreduce/

  6. 执行安全认证

  7. 清空历史数据

image.png

    8. 写测试

image.png

     9. 读测试,注意读之前必须先执行write写入要读取的数据文件,否则MR任务会提示文件不存在错误

image.png


4.3 查看测试结果

测试完毕,参考当前目录下的 TestDFSIO_results.log 文件内容获取吞吐性能数据

image.png




【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。