【实战案例】XX大数据项目案例
背景:
互联网核心业务基于流量搜推广,实现广告变现。 搜推业务的数据源来自大数据系统。因此互联网云服务化核心算力诉求集中在搜推广、大数据、门户与视频、AI。 其中大数据业务伴随客户量、数据量线性增长。典型业务架构如下:

关键挑战:
客户大数据业务上云目前规模有限,典型客户将数据放在线下,弹性分析负载放在线上,呈现存算分离形态。如何提供满足客户业务高性价比大数据算力,成为互联网大数据上云的关键点。
解决方案:

鲲鹏算力相比X86算力有几个明显优势:
1) 鲲鹏物理核,无HT之间的争抢,L1/L2Cache容量更大。相比X86在高负载条件下性能更加平稳,单核主频相比X86略低,对于IO密集大数据性能无明显劣势

2) 单核内存带宽。 鲲鹏整机160核,相比X86算力,内存通道相同整机内存带宽相当。单核内存带宽相比X86内存大带宽高1倍。
3) 采用擎天架构,整机网络带宽一致,相比X86算力,单核网络带宽高1倍
4) 鲲鹏物理核相比X86矢量单元多1倍,基于矢量优化可以进一步提升整体性能。

5) 鲲鹏应用使能套件BoostKit 大数据场景OmniRuntime全栈加速库

| 加速方案 | 加速效果 |
| OmniRuntime算子加速 | Native SQL引擎加速 |
| OmniRuntime参数调优 | 调优精准度提升 |
| OmniHBaseGSI二级索引优化 | 非rowkey建立索引表,提升效率 |
| OmniShuffle 加速 | 内存预提数据交换,小iO聚合 |
业务效果:
基于TPC-DS Q29重载业务领先X86算力性能28%。
|
规格 |
CPU |
内存 |
磁盘 |
Q29性能打分 |
|
km2.32xlarge.8 |
128 |
1024G |
10 * 1T ESSD |
100 |
|
ac8.32xlarge.8 |
128 |
1024G |
10 * 1T ESSD |
78 |
经验总结:
云上大数据数据处理计算部分可以采用鲲鹏算力,实现性价比提升。 特别是面向重载业务场景,即单核带宽敏感、内存带宽敏感的大数据业务场景收益更明显。与此同时,大数据业务场景HCE OS\毕昇编译器\Omni 大数据加速库全栈加速库,实现指令效率大幅提升。释放鲲鹏算力优势。
展望:
- 鲲鹏算力在工艺受限条件下,单核计算性能面向X86竞争压力较大,对于非计算敏感的大数据业务,存在场景化优化的可能性。
- 鲲鹏采用物理核与X86超线程核竞争,相比超线程核单核性能更加平稳,单核访存带宽、网络存储带宽更优。这部分差异化优势是鲲鹏大数据算力的核心差异化优势的来源。重载大数据业务条件细分场景,需要进一步识别。
- 鲲鹏物理核硬件单元,包含加解密、压缩单元,矢量单元。 从单元数量和能力都领先X86,需要结合大数据向量化,压缩卸载等进行优化,充分释放鲲鹏硬件单元优势。实现性能超越。
- 点赞
- 收藏
- 关注作者
评论(0)