- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

大数据实测之三英战吕布

沈ＭＭ发表于 2017/08/29 17:40:49 2017/08/29

【摘要】 Hadoop、MapRHadoop、Spark平台性能数据初步分析

Hadoop、MapRHadoop、Spark平台性能数据初步分析

（三英 = Hadoop、MapRHadoop、Spark 吕布 = 大数据）

关于Hadoop、MapRHadoop、Spark 三平台前世今生请参考其他资料，不在此说明。

数据说明：

本次测试旨在摸清各个数据平台在基础性能上的差异，数据大小分为100G，500G，1T，三个等级，

使用大数据运算平台分别是开源Hadoop、MapR Hadoop 及中软提供的Spark平台。

测试环境使用2288服务器，其中，Hadoop平台的单节点默认配置：8G RAM，HDFS备份数3，主节点同时用于计算，HDFS块大小64M。

Spark平台的配置除内存不同外同Hadoop平台配置。

初步分析：

数据大小和节点数的比较

1 开源Hadoop平台

由上图可分析出：

1.对于固定节点数及配置下，随着计算数据的增加，计算时间基本是线性增长；

2.对固定数据量的计算，随着计算节点的增多，计算速度有一定的提升，但并不是线性的；

3.节点的增加会扩充集群的计算能力，速度上，容量上，多节点间的任务调度和协调复杂度也相应的提升。

MapR Hadoop的变化趋势和开源Hadoop的变化趋势相近，但在单节点与多节点的性能测试中，时间优势体现更加明显，这是因为在MapR Hadoop中，总是预留一个CPU给资源调度，在单节点的情况下，只有一个CPU在运算，相对多节点，参与计算的CPU数量上升幅度更大，所以性能增长趋势更明显。

3 开源Hadoop和MapRHadoop比较

从实际测试数据来看，MapR Hadoop的整体性能比开源Hadoop要快一些（单节点除外，因单节点时MapR Hadoop只用了一个CPU计算）；

随着数据量增大会耗费更多时间，但通过增加节点能缓解这种增长。

5 Spark和Hadoop

三个平台单节点计算速度比较，如下：

需要说明的是，MapR平台的单节点因为少参与一个CPU的缘故，比较慢是正常的，

在后续逐渐增多节点数的比较重，看出来的趋势是Spark与MapR平台的性能非常接近；

但因为Spark是内存运算的关系，理论上分析会比Hadoop快很多，但是根据实验室实测数据，Spark的速度并没有完全体现出来。

分析了两种平台的差异，应该是算法实现的本身妨碍了Spark的速度。这一点优化的比较，请参看“算法影响分析”一节。

6 YARN调度的影响

YARN本身作为资源调度，应该更好地分配资源，但在实际测试中发现，并不是所有的场景下使用YARN都是最优的，尤其在节点数不多的情况下，基于YARN的调度反而会使时间变长，以下是一组数据对比，所以，请在环境中存在大量节点的时候使用YARN。

算法影响分析

1 链式模型

在开源Hadoop平台上，使用两种迭代算法模式进行不同的比较：

1、采用对50G数据连续迭代2次的编程模型，第一次迭代完成后的数据约25G左右，由于要存入HDFS，在此步骤中消耗大量时间；

2、采用链式编程模型，同样的数据和算法，中间过程不保存直接作为下一步的输入，速度大幅提高

2 多次迭代

对100G天气数据进行多次迭代（10次），比较各平台的性能差距（此前的测试没有涉及到多次迭代）

Spark的优势开始体现，但该算法还不是最合适Spark的。

在测试过程中，也发现namenode和datenode配置的影响，如果namenode不用来做计算，整体性能可能会提高。

关于各平台的参数调优结果，仍在整理中，后续更新。

------------------------------------------------------------------------------------------------------------------------------------

以上数据由项目组实测整理，受测试环境，测试数据，测试次数影响，可能存在一定误差，大部分数据是测试三次后取均值得出，仅供项目内部研究、参考。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

大数据实测之三英战吕布

Hadoop、MapRHadoop、Spark平台性能数据初步分析

数据说明：

初步分析：

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

大数据实测之三英战吕布

Hadoop、MapRHadoop、Spark平台性能数据初步分析

数据说明：

初步分析：

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

推荐阅读

相关产品