【云驻共创】数据中心 PUE 优化模型生成服务:AI 浪潮下的数据中心的省钱攻略,就用这几招
文章目录
- 前言
- 一、数据中心节能能省一大笔钱
- 1.1、全联接世界推动数据中心市场持续高速发展
- 1.1.1、用户联接激增
- 1.1.2、全球数据中心基础设施高速发展
- 1.2、数据中心的增长带来超额的用电量
- 1.3、数据中心节能是必然趋势
- 1.4、什么是 PUE?
- 1.5、数据中心制冷原理
- 1.6、传统节能技术以及存在的瓶颈
- 1.6.1、传统单系统调节
- 1.6.2、传统整系统优化
- 1.6.3、传统节能技术存在的瓶颈
- 二、NAIE 数据中心节能技术秘籍
- 2.1、AI 技术成为数据中心节能新方向
- 2.2、华为 NAIE 数据中心节能秘籍
- 2.3、制冷能耗预测建模:密集火力
- 2.4、制冷能耗预测:精确制导
- 2.5、预测设备工况,保障设备安全
- 2.6、控制参数如何决策?
- 2.7、秘籍:贝叶斯优化
- 2.8、在适当的时机,更新模型
- 2.9、杀手锏:NAIE 云地协同
- 2.10、华为XX云数据中心:年均 PUE 降低 8-12%
- 三、NAIE 模型生成服务带大家飞
- 3.1、从何入手种类繁多的制冷技术?
- 3.2、建模随机附赠老专家?
- 3.3、数据中心 PUE 优化模型生成服务带你飞
- 总结
数据中心电费到底有多重要,节能真的能省很多钱?
当前我们处于一个全联接的世界,那到底共有多少联接?我们来看一组统计数据,具体如下图所示:
通过上图我们可以得知:
- 在 2015 年全球智能终端数量为 70 亿,预计到 2025 年会以 5.6 倍的速度增长至 400 亿。
- 在 2015 年全球联接数为 200 亿,预计到 2025 年会以 5 倍的速度增长至 1000 亿。
- 在 2015 年全球年数据流量为 9 ZB,预计到 2025 年会以 20 倍的速度增长至 180 ZB。
海量数据的增长在于消耗大量的服务,随之就需要大量的数据中心承载这些服务。
另外一组来自于 MarketsAndMarkets 的关于全球数据中心基础设施的数据更可以明确数据中心基础设施的高速发展,具体如下图所示:
通过上图我们可以得知:
- 在 2017 年全球数据中心总价值约为 130.7 亿美元并呈现出逐年增长的趋势,预计到 2022 年总价值将达到 490 亿美元。
海量数据中心的运行与维护就离不开超额的用电量。
我们通过具体的案例,某大型数据中心 10 年的运营成本构成来进一步分析,具体如下图所示:
通过上图我们可以得知:
- 该数据中心其中 70% 的运营成本都投入到了电费中。
- 对于数据中的电费 70% 用于服务器供电,属于必需消耗,仅 30% 用于制冷、照明、办公等。
那么我们对于数据中心的耗电量进行量化呢?根据统计:
- 全球数据中心用电量占全球用电量的 3%,年增长率超过 6%,相当于 30 个核电站(2017)。
- 仅中国的数据中心用电量每年 1200 亿千瓦时,超过三峡电站全年发电量(2017 1000亿千瓦时)。
- 数据中心 3 年的电费可以再造一个数据中心。
对于企业而言,节约电费成本就相当于增加企业利润。
除去内部运营的挑战,即数据中心超额的电费消耗外,各地机构的相关政策/规定也对能效指标提出了严格要求,数据中心节能成为必然趋势。具体如下图所示:
通过上图我们可以得知:
- 工信部在《关于加强绿色数据中心建设的指导意见》中要求新建数据中心 PUE<1.4,北京、上海、深圳也提出了相关法规,特别是深圳市鼓励新建 DC PUE<1.25,这是一个很有挑战的数字。
在上面的相关政策及法规中均提到了一个 PUE 值,那什么是 PUE?
电能使用效率 (Power Usage Effectiveness):数据中心行业通过测量 PUE(即电能使用效率)来测量能效。
一个数据中心的耗电单元及组成具体如下图所示:
Google 的 PUE 测量标准为:
说明:能耗测量点越多,并且越逼近 IT 设备终端,则 PUE 最终计算值可信度越高。
如果 PUE 值为 2.0,则表示 IT 设备每消耗 1 瓦特电量,我们就要多消耗 1 瓦特电量对其进行冷却和配电。PUE 值接近 1.0 表示差不多所有的能耗都用于计算。
在上面我们提到在数据中心中用于制冷的电量占到非 IT 能耗 2/3 的比重,所以从降低制冷能耗的角度节省数据中心开支是很棒的入手点。
数据中心制冷采用的水冷式冷水机组系统结构具体如下图所示:
水冷冷水型冷冻站制冷原理:
- 冷水机组:压缩冷媒,通过冷媒相变把热量由蒸发器置换到冷凝器。
- 冷却泵:驱动冷却水流经冷却塔和冷机,完成冷却水循环流动。
- 冷却塔:风机驱动气流,冷却水热量散发到外界空气中,给冷却水降温。
- 冷冻泵:驱动冷冻水流经LCU末端和冷机,完成冷冻水循环流动。
- 末端空调:风机驱动气流,冷冻水吸收空气热量,环境温度降低。
对于如此复杂耗电的系统,在传统中我们是如何进行节能的呢?
单系统调节结构具体如下图所示:
其核心在于:
- 调优单设备。
- 调节单系统效率(如压缩机与水泵配比)。
整系统优化结构具体如下图所示:
其核心在于:
- 基于经验,由经验丰富的“老专家”设置最佳系统工况(如冷却塔、冷水机组、末端联动)。
- 产品级节能技术应用已接近天花板。
- 系统复杂、设备多,各设备间能耗影响关系错综复杂,难以用传统工程学公式模拟,传统控制方式各自为政,专家经验作用已达到极限。
- 每个数据中心都是独特的环境和架构,虽然许多工程实践和经验法则可以全面应用,但一个系统运行的定制模型并不能保证另一个系统的成功。
根据相关调研数据,70% 的用户认为 AI 技术应该应用于数据中心的领域,具体如下图所示:
Gartner:截止 2020 年,30% 的未做好人工智能准备的数据中心,其业务运营将不具有经济性。
并且还枚举了人工智能改善数据中心日常运营的三种方式:
- 利用预测分析优化工作负载分配,实时优化存储和计算负载平衡。
- 机器学习算法以最佳方式处理事务,用人工智能来优化数据中心能耗。
- 人工智能可缓解人员短缺,自动执行系统更新、安全补丁。
在业界也有众多的利用 AI 技术对数据中心进行节能的经验,诸如 JimGao 与 DeepMind 团队的合作,使用神经网络分别预测 PUE、DC 温度、负载压力,控制约 120 个数据中心的变量,实现 PUE 降低,具体如下图所示:
百度使用深度学习神经网络预测模型,在 K2 智能楼宇项目测试。百度阳泉云数据中心,根据室外天气湿度、温度和负荷,AI 自动判断切换冷水机组运行模式,具体如下图所示:
华为 NAIE 数据中心节能包含了众多方面,本次我们仅介绍关于制冷系统节能的方面。通过对制冷系统有目的的调节以实现让系统达到更优的状态。
通过对于原始数据特征工程、能耗预测和安全保障模型、控制参数寻优以实现最终“王炸”!具体实现如下图所示:
对于其中“王炸”的内容我们先卖一个关子。
上面我们也提到,截止 2020 年,30% 的未做好人工智能准备的数据中心,其业务运营将不具有经济性。很多数据中心也开始逐步为 AI 数据中心上线进行准备工作,存储相关的历史数据及样本,若样本数量过多就可以采用深度学习网络,火力全开对能耗进行建模,训练多个网络,具体如下图所示:
在训练过程中进行多次评估,精度不达标去掉即可或者采用深度残差网络(ResNet),相比于传统网络能更好的解决梯度消失的问题,在实际中前一种方法已经可以解决 80% 的问题,剩下的 20% 可以基于 ResNet 进行建模。
如果我们的样本较少的场景下,采用密集火力的方式是不行的,深度学习网络也是没办法进行更好训练的,那我们就要在原有的系统上采用精确制导的方法,采用如 K 近邻、高斯过程回归算法等进行解决,具体如下图所示:
制冷系统是安全保障系统,安全是第一位的。可能有同学会有疑问:
问:把设备都关了,不是最省电的嘛?
答:制冷设备的冷量要大于IT发热量,4.2 × 𝑀 × ∆𝑇 > 安全系数 × 3.6 × 𝐼𝑇𝑒𝑛𝑒𝑟𝑔𝑦,所以肯定不能全关。(M 与 ∆𝑇 为通过安全保证模型推测出的制冷机的温差、流量等参数,绝对不为 0)
问:少用设备肯定比多用设备省电!
答:如果只用一个水泵,工作频率可能会超过56Hz,省不省电我不知道,但泵可能会损毁,“皮之不存毛将焉附”。
除去预测能耗之外,还要预测诸如水泵的工作频率,如果超过实定的运维经验,就会认为控制参数不合理,具体如下图所示:
在能耗预测模型和安全保障模型都建立之后,就需要对当前的控制参数进行决策。
我们把控制参数当做自变量,能耗当作值,就可以生成一个在 N 维空间中的能耗模型超曲面,平面上的每一个点代表一个控制参量能耗,由于控制参量不是绝对安全,所以可以看到有一些空洞存在,具体如下图所示:
那我们如何在上图中找到一个相对优化的控制参数使得能耗低又能保证控制参数安全呢?
这就需要我们参考 NAIE 训练平台的 SDK,启发式、贝叶斯优化。
贝叶斯优化过程示意具体如下图所示:
说明:上图中的黑线表示真实的函数,黑色的两点表示已经采样得到的观测点,建立高斯回归模型,黑色的虚线就是预测值,紫色的区域表示没一个点上的不确定度,绿色代表采样函数。通过不同的采样点反复迭代以找到最优样本为止。
贝叶斯优化的开源实现有以下几种供大家了解:
- SMAC 采用随机森林作为性能预测模型的贝叶斯优化方法,https://github.com/automl/SMAC3
- Hyperopt 采用 TPE 作为性能预测模型的贝叶斯优化方法,https://jaberg.github.io/hyperopt/
- Spearmint 采用 GP 遗传算法作为性能预测模型的贝叶斯优化方法,https://github.com/HIPS/Spearmint
问:随着时间的推移,会采集越来越多的样本,模型不会“过时”嘛?
答:答案是会的。当我们采集到更多样本的时候,不仅要更新模型,更要更新一打模型,具体如下图所示:
那随之而来就会有更多问题:
- 模型要不要更新,何时触发模型更新,怎么更新?
- 前面好像说过,模型会有一打,同时更新?
NAIE 云地协同就是我们上面提到的“王炸!”
NAIE云地协同:打通云端与地端,实现数据采集上云、模型日常评估、重训练、模型更新全流程自动化。具体架构如下图所示:
在我们采用上述的方案之后,华为XX云数据中心:年均 PUE 降低 8-12%,具体如下图所示:
制冷技术种类繁多,管路布局千差万别,从何入手?不同的数据中心,在制冷模式(水冷、风冷、AHU 等)、管路类型(母管、单管、混合管)等方面很可能存在差异,具体分类如下图所示:
但是不用担心,NAIE 模型生成服务已经为你做好了布局。
我们都知道到建模属于专业技术活,随机附赠老专家?
面向开发人员搭建一个数据中心,从节能建模到模型应用,需要开发团队投入 4 人,历时 6 个月,所以即使附赠一个老专家也起不到作用,搭建一个数据中心其流程具体如下图所示:
数据中心 PUE 优化模型生成服务对此类问题提供了详尽的解决方案,欢迎感兴趣的小伙伴点击查看数据中心 PUE 优化模型生成服务:https://www.hwtelcloud.com/products/dpo,具体如下图所示:
二维码扫一扫直达,具体如下图所示:
本文整理自华为云社区【内容共创】活动第13期。
https://bbs.huaweicloud.com/blogs/330939
任务13.AI浪潮下的数据中心省钱攻略,就用这几招
- 点赞
- 收藏
- 关注作者
评论(0)