GPU云主机,到底谁有真功夫(一)——基础能力对比
我所知道的现在国内能提供P100云主机的厂商有三家,阿里云、天翼云、还有华为云。阿里云在去年7月30日左右抢先华为云一个月发布了P100实例。华为云在今年5月份左右也转商了P100实例,现在也能够开放购买。从发布时间上看,华为云在GPU实例的发布上比阿里晚了许多。那到底谁的基础能力更胜一筹,我将通过一系列的对比来一探究竟。
这是一个系列文章,我打算分三个部分,从三个方面来比比看。第一部分,先用NVIDIA提供的一些CUDA sample对比一下GPU的基础能力;第二部分,用业界流行的一些HPC测试工具对比一下计算能力;第三部分,蹭一下深度学习的热度,用tensorflow的benchmark工具测一下真实的业务处理能力。本文是第一部分。
如果各位读者想看看自己关心的领域的性能对比,也可以联系我。
天翼云用的就是华为云的技术,那就就先看看华为云和阿里云的。首先,我们在华为云选择公测的P1双GPU实例,在阿里云选择GN5双GPU实例,两个实例的cpu规格和内存规格接近,都提供两张P100 GPU。
阿里的云主机信息见下图:
华为的云主机信息见下图:
用bandwidthTest看看GPU带宽,这个工具是NVIDIA的CUDA开发包里提供的sample,能够测试GPU到主机,主机到GPU的传输带宽。下面我们来看看阿里云和华为云在这一回合的较量结果。可以从下面的图上看到,在显存带宽上,阿里云和华为云的几乎持平不分伯仲。在p2p时延上,阿里占优一些。但在GPU p2p带宽上,单向带宽华为比阿里高33%,双向带宽华为是阿里的2.5倍。阿里的p2p带宽和非p2p带宽竟然几乎一样。阿里虚拟化以后的损耗太大了,完全制约了P100的能力。
GPU p2p就是所说的GPU direct技术,能够极大提高GPU之间的数据传输效率,最终能够极大提升需要大数据量传输的业务性能。我查阅了一下公开资料,Amber在GPU p2p下性能能够提升151%。深度学习训练过程中,各节点之间也需要大量的数据传输,我没有找到公开的资料,相信在这个场景下也能够提升非常多。
从GPU p2p的能力来看,在需求多GPU p2p的业务场景下,华为云的GPU云主机性能应该能够碾压阿里云。下一篇文章我将把HPC领域的测试数据发出来,来验证我的观点。
附原始测试数据截图:
- 点赞
- 收藏
- 关注作者
评论(0)