GPU云主机,到底谁有真功夫(一)——基础能力对比

举报
皮皮 发表于 2018/07/16 16:55:16 2018/07/16
【摘要】 我所知道的现在国内能提供P100云主机的厂商有三家,阿里云、天翼云、还有华为云。阿里云在去年7月30日左右抢先华为云一个月发布了P100实例。华为云在今年5月份左右也转商了P100实例,现在也能够开放购买。从发布时间上看,华为云在GPU实例的发布上比阿里晚了许多。那到底谁的基础能力更胜一筹,我将通过一系列的对比来一探究竟。 这是一个系列文章,我打算分三个部分,从三个方面来比比看...

我所知道的现在国内能提供P100云主机的厂商有三家,阿里云、天翼云、还有华为云。阿里云在去年7月30日左右抢先华为云一个月发布了P100实例。华为云在今年5月份左右也转商了P100实例,现在也能够开放购买。从发布时间上看,华为云在GPU实例的发布上比阿里晚了许多。那到底谁的基础能力更胜一筹,我将通过一系列的对比来一探究竟。


 这是一个系列文章,我打算分三个部分,从三个方面来比比看。第一部分,先用NVIDIA提供的一些CUDA sample对比一下GPU的基础能力;第二部分,用业界流行的一些HPC测试工具对比一下计算能力;第三部分,蹭一下深度学习的热度,用tensorflow的benchmark工具测一下真实的业务处理能力。本文是第一部分。


如果各位读者想看看自己关心的领域的性能对比,也可以联系我。


天翼云用的就是华为云的技术,那就就先看看华为云和阿里云的。首先,我们在华为云选择公测的P1双GPU实例,在阿里云选择GN5双GPU实例,两个实例的cpu规格和内存规格接近,都提供两张P100 GPU。


阿里的云主机信息见下图:

20180329171106695.png

 华为的云主机信息见下图:

2018032917391360.png

用bandwidthTest看看GPU带宽,这个工具是NVIDIA的CUDA开发包里提供的sample,能够测试GPU到主机,主机到GPU的传输带宽。下面我们来看看阿里云和华为云在这一回合的较量结果。可以从下面的图上看到,在显存带宽上,阿里云和华为云的几乎持平不分伯仲。在p2p时延上,阿里占优一些。但在GPU p2p带宽上,单向带宽华为比阿里高33%,双向带宽华为是阿里的2.5倍。阿里的p2p带宽和非p2p带宽竟然几乎一样。阿里虚拟化以后的损耗太大了,完全制约了P100的能力。

20180329200152122.png

20180329200217265.png

20180329200252780.png

20180329201406432.png

    GPU p2p就是所说的GPU direct技术,能够极大提高GPU之间的数据传输效率,最终能够极大提升需要大数据量传输的业务性能。我查阅了一下公开资料,Amber在GPU p2p下性能能够提升151%。深度学习训练过程中,各节点之间也需要大量的数据传输,我没有找到公开的资料,相信在这个场景下也能够提升非常多。


    从GPU p2p的能力来看,在需求多GPU p2p的业务场景下,华为云的GPU云主机性能应该能够碾压阿里云。下一篇文章我将把HPC领域的测试数据发出来,来验证我的观点。


附原始测试数据截图:

    20180329204735765.png

20180329205032764.png

20180329205108658.png

20180329205144434.png

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。