- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

【华为云Stack】【大架光临】第23期：释放沉睡算力，华为云Stack Flexus助力政企数据中心利用率跃升

大架光临发表于 2025/11/11 09:53:29 2025/11/11

【摘要】随着企业数字化转型进入"深度用云"阶段，政企客户面临资源高分配率与低利用率并存的效率困境。华为云Stack柔性计算（Flexus）云服务，通过智能感知业务负载，实现资源与需求的精准匹配与动态调度，在保障业务性能的同时，有效提升主机平均资源利用率，让企业每一分算力投入都创造业务价值。

1 背景

当业务上云成为标配，企业数字化转型迈入深度用云的下半场，客户关注的重点也从“是否上云”转向“如何用好云”。一个严峻的挑战浮出水面：我们付出了高昂的算力成本，但算力真的在高效工作吗？根据HCS政企客户调研，尽管其数据中心的资源分配率高达80%，但平均CPU实际利用率却仅在10%至15%的低位徘徊。这背后是触目惊心的算力浪费，意味着企业每年投入的IT成本中，有巨大一部分在空转中沉默流失。究其根源，造成这一局面的主要原因可归结为两大顽疾：

规划之困：粗放供给与资源孤岛

企业通常依据业务峰值需求进行资源规划，而多数业务具有明显的潮汐特征，存在明显日级别的波峰与波谷，这导致为应对短暂高峰而储备的资源在大部分时间处于闲置状态。此外，许多企业将在线业务与离线业务部署于相互隔离的资源池内，无法灵活调度，如同一条拥有多条车道却相互封闭的高速公路，利用率难以提升。
调度之困：固定规格与固定超分的算力分配机制

当前普遍采用的固定资源规格与固定超分比方式，无法精准匹配不同的应用需求。对于轻载应用（如企业内部OA系统、开发测试环境），其平均利用率低，偶尔因批量操作或集中访问会出现流量高峰，若采用保守的超分策略，虽能保障峰值性能，却在绝大部分时间造成大量资源闲置与浪费；对于重载应用（如核心交易系统、实时数据分析平台），其业务负载持续处于高位且对性能要求较高，采用激进的超分策略虽提升了资源分配率，却极易在业务高峰时因资源争抢引发应用性能风险。这种缺乏应用负载特征感知的盲目的公平，无法实现资源效率的最大化。

资源分配率与实际利用率之间的巨大落差，反映出当前数据中心存在显著的资源闲置问题。如何有效提升资源利用效率、释放被禁锢的算力价值，已成为企业深度用云进程中亟待解决的关键课题。

2 IaaS资源利用率提升方法论

要系统性地提升资源利用率，需从全局视角识别资源利用的效率洼地，并实施体系化的优化策略。以下以某客户K8s集群节点（配置100核）的CPU利用率曲线为例（白色区域代表业务真实消耗的算力，其余区间则揭示了巨大的优化空间），将优化路径系统梳理为四大关键象限，逐层挖掘资源潜力：

第一层次：资源碎片整合

通过智能装箱算法整合节点资源碎片，提升单节点承载密度，实现颗粒归仓。

第二层次：规格精准匹配

基于AI分析实现资源规格动态推荐，消除过度分配带来的资源泡沫。

第三层次：弹性伸缩容灾

借助弹性伸缩策略应对流量波动，实现为真实负载精准付费。

第四层次：智能混部调度

通过混合部署互补型业务，复用闲置时段资源实现跨负载的削峰填谷，将资源利用率推向极致。

然而，在真实的业务场景中，企业面临的挑战往往更为复杂：资源闲置、配置不当、调度僵化等问题通常相互交织，使得“头痛医头”式的局部优化难以奏效。更现实的困境在于，从基础设施到应用层引入多种独立优化工具，会带来极高的技术整合与运维管理成本；而这类工作往往需要基础设施、运维、业务研发等多个部门协同推进，由于各方目标不一、权责不清，常常导致优化措施在跨部门沟通协作中陷入推诿与停滞。面对这些系统性的现实阻力，企业迫切需要一种能够超越局部优化的解决方案——它能否真正系统化整合上述四重能力，实现“一体协同、自动生效”的智慧用云，从而从根本上破解效率与成本的困局？

华为云"柔性计算"应运而生，重新定义新一代算力供给模式。依托数据驱动与智能调度能力，在空分复用与时分复用双维度实现资源的动态调配，一举打通"资源复用率、调度效率、配置精度、业务稳定性"四大关键环节，在保障业务SLA的前提下，显著提升整体资源利用率，为企业带来真正的降本增效一体化解决方案，开启精细化用云新篇章。

3 华为云Stack柔性计算云服务

为响应政企客户降本增效诉求，解决云数据中心资源利用率低的痛点，华为云Stack正式推出柔性计算(Flexus)云服务，以创新的柔性算力调度引擎，为政企客户打造高性价比、弹性敏捷的云上算力新范式。Flexus云服务器打破传统虚拟化“固定规格、静态分配”的束缚，通过智能感知业务负载，实现资源与需求的精准匹配与动态调整，在保障业务性能的同时，有效提升主机平均资源利用率，让每一分算力投入都创造价值。

3.1 应用负载感知的动态超分调度

传统云计算资源调度模式依赖于静态规格（Flavor）的预分配，往往导致资源利用率低下与灵活性不足。华为云柔性计算通过应用负载感知的动态超分调度机制，实现了从“以资源为中心”到“以应用为中心”的根本性转变。

该机制的核心在于对业务负载进行资源画像，动态感知虚拟机实际资源使用情况。通过对实例的资源使用情况进行画像和概率建模，基于中心极限定理计算出主机内实例叠加资源用量的概率分布，以预测主机内多实例资源叠加后的整体负载分布，然后在指定置信度下评估其最大资源用量。由此，系统可精准识别出主机“已分配资源”与“预估最大用量”之间的安全差值，计算出主机上可动态复用的CPU资源画像值。

在此基础上，调度系统可在严格规避CPU争抢的前提下，智能、安全地在主机上部署更多业务虚拟机，显著提升单节点资源承载效率。该过程完全由平台自动完成，无需业务部门反复参与资源规格调整，有效避免了传统模式下繁重的跨部门沟通与协调成本，在提升资源利用率的同时，极大释放了运维与业务团队的协作压力。

3.2 面向应用的QoS保障

在多虚拟机共享主机的场景下，业务负载突发性增长易引发CPU、内存或I/O等关键资源的争抢热点，导致业务延迟升高、吞吐下降等性能劣化问题。因此，构建精细化的服务质量保障机制，是实现高资源利用率的重要前提。为应对这一挑战，柔性计算云服务构建了覆盖“平台监测-单机调控”的两层QoS保障体系。

3.2.1 黑盒式QoS劣化感知

在超分混部场景下，多个虚拟机共享同一物理主机资源，尽管提升了利用率，却也引入了因资源竞争而导致的业务性能劣化风险。尤其当业务处于亚健康状态时，传统云平台因缺乏有效的QoS感知模型，往往难以及时识别性能波动，形成运维盲区。更复杂的是，虚拟机内部通常无法安装监控插件，导致业务真实运行状态成为黑盒。为此，华为云柔性计算服务构建了黑盒式QoS劣化感知体系，基于主机上报的带外性能指标建立无侵入的QoS劣化评估建模，实现对业务性能的可视、可知与可保障。该体系提供以下两种QoS检测路径：

规则QoS检测

主机上绝大部分资源是运行客户虚拟机业务的，预留给QoS检测和管控的资源是有限的。规则QoS检测往往是基于关键性能指标（如CPU steal time等），通过学习业务正常状态下的指标特征，构建QoS劣化判断逻辑。同时支持配置基于资源使用阈值的启发式规则，快速识别由CPU、内存等单一资源竞争引发的性能异常并提供一定兜底，适用于常见资源争抢场景的资源热点判断。

AI驱动的智能QoS检测

基于Transformer多头注意力机制构建的AI模型，以实例级与主机级的多维内核资源和底层硬件指标作为输入，实时推理生成QoS劣化评分。该模型能够从复杂指标中挖掘高维性能特征，识别因邻居干扰导致的性能下降，覆盖多种资源共享竞争场景。

当云平台系统检测到资源竞争或QoS劣化时，可立即触发调度干预机制实现热点消除，将受影响实例迁移至负载适宜的主机，从而在保障业务稳定性的前提下，持续维持资源的高效利用。通过黑盒式QoS感知能力，柔性计算实现了从“被动响应故障”到“主动预防劣化”的运维升级，真正在混部高密度场景下，建立起性能可保障、风险可控制的可靠运行环境，保障应用稳定运行。

3.2.2 QoS动态隔离控制

柔性计算云服务支持高、中、低三种优先级的柔性虚拟机实例，以面向不同类型的应用提供不同优先级的性能保障。

优先级	资源画像	调度特性	负载类型	典型应用场景
柔性高优先级	应用95峰值规格	实例不中断，零迁移承诺	时延敏感型	数据库、核心交易系统
柔性中优先级	应用平均期望值	基于QoS检测触发二次调度	性能及成本均衡型	中间件、Web服务
柔性低优先级	应用平均期望值	允许被抢占，支持中断	成本敏感型	离线批处理、无状态容

在混部场景下，当主机资源出现争抢时，传统调度模式难以避免不同业务间的相互干扰，柔性计算在节点侧基于多维度指标，构建了低开销、高灵敏的QoS劣化检测能力，并依托内核cgroup资源管控能力，实现细粒度的QoS动态调控，具体包括：

秒级热点感知：基于轻量级模型实现高灵敏的资源争抢检测，快速识别CPU、内存等资源热点导致的QoS劣化；
内核动态调控：利用Linux内核cgroup能力，按优先级动态分配时间片配额，确保高优先级业务QoS干扰小于5%；
弹性抢占策略：在资源紧张时，低优先级实例可被灵活压制或暂停，在不影响高优先级业务需求的前提下，见缝插针地提高资源利用率。

值得一提的是，该机制使得系统在业务高峰期内，即使因运维窗口限制无法立即执行迁移操作，仍能通过节点内动态调控维持业务QoS，为混部场景提供快速劣化检测与差异化QoS保障。

柔性计算云服务的QoS保障体系正分阶段落地，目前已构建覆盖平台监测与单机调控的双层能力框架。平台监测层已实现规则型QoS检测和热点消除能力的商用交付，AI驱动的智能检测能力正处于内测优化阶段；单机调控层在已上线分级时间片配额保障的基础上，正稳步推进动态调控与抢占等功能的产品化进程。

4 柔性计算调优实践

政企深度用云场景下，算力资源的高分配率、低利用率已成为X行客户关注的TOP问题，影响客户满意度。为解决客户的痛点问题，华为云Stack与X行联合创新，面向真实业务场景孵化柔性计算云服务，以客户实际场景为试验田，验证柔性计算调度能力对资源效能的提升效果。

在X行开发测试环境，基于其开发测试内网Region的负载样本数据及其平均负载，作为新业务虚拟机的负载输入，测试同等物理主机资源的资源可发放容量与利用率提升效果：

1）在Console页面，在弹性主机组中创建的弹性规格发放虚拟机，直至无法继续发放；

2）再在Console页面创建中优先级柔性虚拟机规格，发放柔性虚拟机，直至无法继续发放；

3）观察弹性主机组和柔性主机组的已用资源和资源总量的差异，并记录；等待一个画像周期（默认为24小时），柔性虚机的资源画像完成后再次观察主机资源容量的变化，尝试发放更多中优先级柔性虚拟机，持续画像三天，观测柔性主机组的可发放量和利用率变化。

从实验结果可以看到，每次资源画像完成后，柔性主机组会释放出更多CPU资源用于发放新业务虚拟机。相对传统弹性调度，柔性计算服务实现每主机平均资源发放量从240vCPU提升到360vCPU，提升50%，同时CPU利用率提升至45%，达成挑战目标30%，利用率超目标达成联创目标；

同时，针对PostgreSQL/Redis/RabbitMQ典型中间件与业务模拟应用，在主机出现资源热点即QoS性能劣化达到阈值时，云平台基于QoS热点规则，可以分钟级检测到热点事件，并上报资源争抢告警，触发迁移同主机下的虚拟机后业务恢复基线性能恢复基线QoS性能。

5 总结

在政企深度用云的新阶段，提升算力效率已成为关乎企业核心竞争力的关键命题。作为华为云Stack为政企客户精心打造的“数字黑土地”，Flexus云服务致力于将高效、可靠的算力能力转化为客户业务创新与增长的核心动能，满足用户对云算力资源利用率及成本优化的更高要求，助力企业在数字化征程中行稳致远。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

【华为云Stack】【大架光临】第23期：释放沉睡算力，华为云Stack Flexus助力政企数据中心利用率跃升

1 背景

2 IaaS资源利用率提升方法论

3 华为云Stack柔性计算云服务

3.1 应用负载感知的动态超分调度

3.2 面向应用的QoS保障

3.2.1 黑盒式QoS劣化感知

3.2.2 QoS动态隔离控制

4 柔性计算调优实践

5 总结

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

【华为云Stack】【大架光临】第23期：释放沉睡算力，华为云Stack Flexus助力政企数据中心利用率跃升

1 背景

2 IaaS资源利用率提升方法论

3 华为云Stack柔性计算云服务

3.1 应用负载感知的动态超分调度

3.2 面向应用的QoS保障

3.2.1 黑盒式QoS劣化感知

3.2.2 QoS动态隔离控制

4 柔性计算调优实践

5 总结

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品