【华为云Stack】【大架光临】第23期:释放沉睡算力,华为云Stack Flexus助力政企数据中心利用率跃升
1 背景
当业务上云成为标配,企业数字化转型迈入深度用云的下半场,客户关注的重点也从“是否上云”转向“如何用好云”。一个严峻的挑战浮出水面:我们付出了高昂的算力成本,但算力真的在高效工作吗?根据HCS政企客户调研,尽管其数据中心的资源分配率高达80%,但平均CPU实际利用率却仅在10%至15%的低位徘徊。这背后是触目惊心的算力浪费,意味着企业每年投入的IT成本中,有巨大一部分在空转中沉默流失。究其根源,造成这一局面的主要原因可归结为两大顽疾:
-
规划之困:粗放供给与资源孤岛
企业通常依据业务峰值需求进行资源规划,而多数业务具有明显的潮汐特征,存在明显日级别的波峰与波谷,这导致为应对短暂高峰而储备的资源在大部分时间处于闲置状态。此外,许多企业将在线业务与离线业务部署于相互隔离的资源池内,无法灵活调度,如同一条拥有多条车道却相互封闭的高速公路,利用率难以提升。
-
调度之困:固定规格与固定超分的算力分配机制
当前普遍采用的固定资源规格与固定超分比方式,无法精准匹配不同的应用需求。对于轻载应用(如企业内部OA系统、开发测试环境),其平均利用率低,偶尔因批量操作或集中访问会出现流量高峰,若采用保守的超分策略,虽能保障峰值性能,却在绝大部分时间造成大量资源闲置与浪费;对于重载应用(如核心交易系统、实时数据分析平台),其业务负载持续处于高位且对性能要求较高,采用激进的超分策略虽提升了资源分配率,却极易在业务高峰时因资源争抢引发应用性能风险。这种缺乏应用负载特征感知的盲目的公平,无法实现资源效率的最大化。
资源分配率与实际利用率之间的巨大落差,反映出当前数据中心存在显著的资源闲置问题。如何有效提升资源利用效率、释放被禁锢的算力价值,已成为企业深度用云进程中亟待解决的关键课题。
2 IaaS资源利用率提升方法论

要系统性地提升资源利用率,需从全局视角识别资源利用的效率洼地,并实施体系化的优化策略。以下以某客户K8s集群节点(配置100核)的CPU利用率曲线为例(白色区域代表业务真实消耗的算力,其余区间则揭示了巨大的优化空间),将优化路径系统梳理为四大关键象限,逐层挖掘资源潜力:
第一层次:资源碎片整合
通过智能装箱算法整合节点资源碎片,提升单节点承载密度,实现颗粒归仓。
第二层次:规格精准匹配
基于AI分析实现资源规格动态推荐,消除过度分配带来的资源泡沫。
第三层次:弹性伸缩容灾
借助弹性伸缩策略应对流量波动,实现为真实负载精准付费。
第四层次:智能混部调度
通过混合部署互补型业务,复用闲置时段资源实现跨负载的削峰填谷,将资源利用率推向极致。
然而,在真实的业务场景中,企业面临的挑战往往更为复杂:资源闲置、配置不当、调度僵化等问题通常相互交织,使得“头痛医头”式的局部优化难以奏效。更现实的困境在于,从基础设施到应用层引入多种独立优化工具,会带来极高的技术整合与运维管理成本;而这类工作往往需要基础设施、运维、业务研发等多个部门协同推进,由于各方目标不一、权责不清,常常导致优化措施在跨部门沟通协作中陷入推诿与停滞。面对这些系统性的现实阻力,企业迫切需要一种能够超越局部优化的解决方案——它能否真正系统化整合上述四重能力,实现“一体协同、自动生效”的智慧用云,从而从根本上破解效率与成本的困局?
华为云"柔性计算"应运而生,重新定义新一代算力供给模式。依托数据驱动与智能调度能力,在空分复用与时分复用双维度实现资源的动态调配,一举打通"资源复用率、调度效率、配置精度、业务稳定性"四大关键环节,在保障业务SLA的前提下,显著提升整体资源利用率,为企业带来真正的降本增效一体化解决方案,开启精细化用云新篇章。
3 华为云Stack柔性计算云服务
为响应政企客户降本增效诉求,解决云数据中心资源利用率低的痛点,华为云Stack正式推出柔性计算(Flexus)云服务,以创新的柔性算力调度引擎,为政企客户打造高性价比、弹性敏捷的云上算力新范式。Flexus云服务器打破传统虚拟化“固定规格、静态分配”的束缚,通过智能感知业务负载,实现资源与需求的精准匹配与动态调整,在保障业务性能的同时,有效提升主机平均资源利用率,让每一分算力投入都创造价值。

3.1 应用负载感知的动态超分调度
传统云计算资源调度模式依赖于静态规格(Flavor)的预分配,往往导致资源利用率低下与灵活性不足。华为云柔性计算通过应用负载感知的动态超分调度机制,实现了从“以资源为中心”到“以应用为中心”的根本性转变。


该机制的核心在于对业务负载进行资源画像,动态感知虚拟机实际资源使用情况。通过对实例的资源使用情况进行画像和概率建模,基于中心极限定理计算出主机内实例叠加资源用量的概率分布,以预测主机内多实例资源叠加后的整体负载分布,然后在指定置信度下评估其最大资源用量。由此,系统可精准识别出主机“已分配资源”与“预估最大用量”之间的安全差值,计算出主机上可动态复用的CPU资源画像值。
在此基础上,调度系统可在严格规避CPU争抢的前提下,智能、安全地在主机上部署更多业务虚拟机,显著提升单节点资源承载效率。该过程完全由平台自动完成,无需业务部门反复参与资源规格调整,有效避免了传统模式下繁重的跨部门沟通与协调成本,在提升资源利用率的同时,极大释放了运维与业务团队的协作压力。
3.2 面向应用的QoS保障
在多虚拟机共享主机的场景下,业务负载突发性增长易引发CPU、内存或I/O等关键资源的争抢热点,导致业务延迟升高、吞吐下降等性能劣化问题。因此,构建精细化的服务质量保障机制,是实现高资源利用率的重要前提。为应对这一挑战,柔性计算云服务构建了覆盖“平台监测-单机调控”的两层QoS保障体系。


3.2.1 黑盒式QoS劣化感知
在超分混部场景下,多个虚拟机共享同一物理主机资源,尽管提升了利用率,却也引入了因资源竞争而导致的业务性能劣化风险。尤其当业务处于亚健康状态时,传统云平台因缺乏有效的QoS感知模型,往往难以及时识别性能波动,形成运维盲区。更复杂的是,虚拟机内部通常无法安装监控插件,导致业务真实运行状态成为黑盒。为此,华为云柔性计算服务构建了黑盒式QoS劣化感知体系,基于主机上报的带外性能指标建立无侵入的QoS劣化评估建模,实现对业务性能的可视、可知与可保障。该体系提供以下两种QoS检测路径:
-
规则QoS检测
主机上绝大部分资源是运行客户虚拟机业务的,预留给QoS检测和管控的资源是有限的。规则QoS检测往往是基于关键性能指标(如CPU steal time等),通过学习业务正常状态下的指标特征,构建QoS劣化判断逻辑。同时支持配置基于资源使用阈值的启发式规则,快速识别由CPU、内存等单一资源竞争引发的性能异常并提供一定兜底,适用于常见资源争抢场景的资源热点判断。
-
AI驱动的智能QoS检测
基于Transformer多头注意力机制构建的AI模型,以实例级与主机级的多维内核资源和底层硬件指标作为输入,实时推理生成QoS劣化评分。该模型能够从复杂指标中挖掘高维性能特征,识别因邻居干扰导致的性能下降,覆盖多种资源共享竞争场景。

当云平台系统检测到资源竞争或QoS劣化时,可立即触发调度干预机制实现热点消除,将受影响实例迁移至负载适宜的主机,从而在保障业务稳定性的前提下,持续维持资源的高效利用。通过黑盒式QoS感知能力,柔性计算实现了从“被动响应故障”到“主动预防劣化”的运维升级,真正在混部高密度场景下,建立起性能可保障、风险可控制的可靠运行环境,保障应用稳定运行。
3.2.2 QoS动态隔离控制
柔性计算云服务支持高、中、低三种优先级的柔性虚拟机实例,以面向不同类型的应用提供不同优先级的性能保障。
|
优先级 |
资源画像 |
调度特性 |
负载类型 |
典型应用场景 |
|
柔性高优先级 |
应用95峰值规格 |
实例不中断,零迁移承诺 |
时延敏感型 |
数据库、核心交易系统 |
|
柔性中优先级 |
应用平均期望值 |
基于QoS检测触发二次调度 |
性能及成本均衡型 |
中间件、Web服务 |
|
柔性低优先级 |
应用平均期望值 |
允许被抢占,支持中断 |
成本敏感型 |
离线批处理、无状态容 |
在混部场景下,当主机资源出现争抢时,传统调度模式难以避免不同业务间的相互干扰,柔性计算在节点侧基于多维度指标,构建了低开销、高灵敏的QoS劣化检测能力,并依托内核cgroup资源管控能力,实现细粒度的QoS动态调控,具体包括:
-
秒级热点感知:基于轻量级模型实现高灵敏的资源争抢检测,快速识别CPU、内存等资源热点导致的QoS劣化;
-
内核动态调控:利用Linux内核cgroup能力,按优先级动态分配时间片配额,确保高优先级业务QoS干扰小于5%;
-
弹性抢占策略:在资源紧张时,低优先级实例可被灵活压制或暂停,在不影响高优先级业务需求的前提下,见缝插针地提高资源利用率。
值得一提的是,该机制使得系统在业务高峰期内,即使因运维窗口限制无法立即执行迁移操作,仍能通过节点内动态调控维持业务QoS,为混部场景提供快速劣化检测与差异化QoS保障。
柔性计算云服务的QoS保障体系正分阶段落地,目前已构建覆盖平台监测与单机调控的双层能力框架。平台监测层已实现规则型QoS检测和热点消除能力的商用交付,AI驱动的智能检测能力正处于内测优化阶段;单机调控层在已上线分级时间片配额保障的基础上,正稳步推进动态调控与抢占等功能的产品化进程。
4 柔性计算调优实践
政企深度用云场景下,算力资源的高分配率、低利用率已成为X行客户关注的TOP问题,影响客户满意度。为解决客户的痛点问题,华为云Stack与X行联合创新,面向真实业务场景孵化柔性计算云服务,以客户实际场景为试验田,验证柔性计算调度能力对资源效能的提升效果。
在X行开发测试环境,基于其开发测试内网Region的负载样本数据及其平均负载,作为新业务虚拟机的负载输入,测试同等物理主机资源的资源可发放容量与利用率提升效果:

1)在Console页面,在弹性主机组中创建的弹性规格发放虚拟机,直至无法继续发放;
2)再在Console页面创建中优先级柔性虚拟机规格,发放柔性虚拟机,直至无法继续发放;
3)观察弹性主机组和柔性主机组的已用资源和资源总量的差异,并记录;等待一个画像周期(默认为24小时),柔性虚机的资源画像完成后再次观察主机资源容量的变化,尝试发放更多中优先级柔性虚拟机,持续画像三天,观测柔性主机组的可发放量和利用率变化。

从实验结果可以看到,每次资源画像完成后,柔性主机组会释放出更多CPU资源用于发放新业务虚拟机。相对传统弹性调度,柔性计算服务实现每主机平均资源发放量从240vCPU提升到360vCPU,提升50%,同时CPU利用率提升至45%,达成挑战目标30%,利用率超目标达成联创目标;
同时,针对PostgreSQL/Redis/RabbitMQ典型中间件与业务模拟应用,在主机出现资源热点即QoS性能劣化达到阈值时,云平台基于QoS热点规则,可以分钟级检测到热点事件,并上报资源争抢告警,触发迁移同主机下的虚拟机后业务恢复基线性能恢复基线QoS性能。
5 总结
在政企深度用云的新阶段,提升算力效率已成为关乎企业核心竞争力的关键命题。作为华为云Stack为政企客户精心打造的“数字黑土地”,Flexus云服务致力于将高效、可靠的算力能力转化为客户业务创新与增长的核心动能,满足用户对云算力资源利用率及成本优化的更高要求,助力企业在数字化征程中行稳致远。
- 点赞
- 收藏
- 关注作者
评论(0)