【华为云Stack】【大架光临】第23期:释放沉睡算力,华为云Stack Flexus助力政企数据中心利用率跃升

举报
大架光临 发表于 2025/11/11 09:53:29 2025/11/11
【摘要】 随着企业数字化转型进入"深度用云"阶段,政企客户面临资源高分配率与低利用率并存的效率困境。华为云Stack柔性计算(Flexus)云服务,通过智能感知业务负载,实现资源与需求的精准匹配与动态调度,在保障业务性能的同时,有效提升主机平均资源利用率,让企业每一分算力投入都创造业务价值。

1 背景

当业务上云成为标配,企业数字化转型迈入深度用云的下半场,客户关注的重点也从“是否上云”转向“如何用好云”。一个严峻的挑战浮出水面:我们付出了高昂的算力成本,但算力真的在高效工作吗?根据HCS政企客户调研,尽管其数据中心的资源​​分配率高达80%,但平均​​CPU实际利用率​​却仅在10%至15%的低位徘徊。这背后是触目惊心的算力浪费,意味着企业每年投入的IT成本中,有巨大一部分在空转中沉默流失。究其根源,造成这一局面的主要原因可归结为两大顽疾:

  1. 规划之困:粗放供给与资源孤岛

    企业通常依据业务峰值需求进行资源规划,而多数业务具有明显的潮汐特征,存在明显日级别的波峰与波谷,这导致为应对短暂高峰而储备的资源在大部分时间处于闲置状态。此外,许多企业将在线业务与离线业务部署于相互隔离的资源池内,无法灵活调度,如同一条拥有多条车道却相互封闭的高速公路,利用率难以提升。

  2. ​​调度之困:​固定规格与固定超分的算力分配机制

    当前普遍采用的固定资源规格与固定超分比方式,无法精准匹配不同的应用需求。对于轻载应用(如企业内部OA系统、开发测试环境),其平均利用率低,偶尔因批量操作或集中访问会出现流量高峰,若采用保守的超分策略,虽能保障峰值性能,却在绝大部分时间造成大量资源闲置与浪费;对于重载应用(如核心交易系统、实时数据分析平台),其业务负载持续处于高位且对性能要求较高,采用激进的超分策略虽提升了资源分配率,却极易在业务高峰时因资源争抢引发应用性能风险。这种缺乏应用负载特征感知的盲目的公平,无法实现资源效率的最大化。

资源分配率与实际利用率之间的巨大落差,反映出当前数据中心存在显著的资源闲置问题。如何有效提升资源利用效率、释放被禁锢的算力价值,已成为企业深度用云进程中亟待解决的关键课题。


2 IaaS资源利用率提升方法论


1_zh-cn_image_0000002509364611.png


要系统性地提升资源利用率,需从全局视角识别资源利用的效率洼地,并实施体系化的优化策略。以下以某客户K8s集群节点(配置100核)的CPU利用率曲线为例(白色区域代表业务真实消耗的算力,其余区间则揭示了巨大的优化空间),将优化路径系统梳理为四大关键象限,逐层挖掘资源潜力:

​​第一层次:资源碎片整合​​

通过智能装箱算法整合节点资源碎片,提升单节点承载密度,实现颗粒归仓。

​​第二层次:规格精准匹配​​

基于AI分析实现资源规格动态推荐,消除过度分配带来的资源泡沫。

​​​​第三层次:弹性伸缩容灾​​

借助弹性伸缩策略应对流量波动,实现为真实负载精准付费。

​​第四层次:智能混部调度​​

通过混合部署互补型业务,复用闲置时段资源实现跨负载的削峰填谷,将资源利用率推向极致。

然而,在真实的业务场景中,企业面临的挑战往往更为复杂:资源闲置、配置不当、调度僵化等问题通常相互交织,使得“头痛医头”式的局部优化难以奏效。更现实的困境在于,从基础设施到应用层引入多种独立优化工具,会带来极高的技术整合与运维管理成本;而这类工作往往需要基础设施、运维、业务研发等多个部门协同推进,由于各方目标不一、权责不清,常常导致优化措施在跨部门沟通协作中陷入推诿与停滞。面对这些系统性的现实阻力,企业迫切需要一种能够超越局部优化的解决方案——它能否真正系统化整合上述四重能力,实现“一体协同、自动生效”的智慧用云,从而从根本上破解效率与成本的困局?

​​华为云"柔性计算"应运而生,重新定义新一代算力供给模式。依托数据驱动与智能调度能力,在空分复用与时分复用双维度实现资源的动态调配,一举打通"资源复用率、调度效率、配置精度、业务稳定性"四大关键环节,在保障业务SLA的前提下,显著提升整体资源利用率,为企业带来真正的降本增效一体化解决方案,开启精细化用云新篇章。


3 华为云Stack柔性计算云服务

为响应政企客户降本增效诉求,解决云数据中心资源利用率低的痛点,华为云Stack正式推出柔性计算(Flexus)云服务,以创新的柔性算力调度引擎,为政企客户打造高性价比、弹性敏捷的云上算力新范式。Flexus云服务器打破传统虚拟化“固定规格、静态分配”的束缚,通过智能感知业务负载,实现资源与需求的精准匹配与动态调整,在保障业务性能的同时,有效提升主机平均资源利用率​​,让每一分算力投入都创造价值。


1_zh-cn_image_0000002506049183.png






3.1 应用负载感知的动态超分调度

传统云计算资源调度模式依赖于静态规格(Flavor)的预分配,往往导致资源利用率低下与灵活性不足。华为云柔性计算通过​​应用负载感知的动态超分调度机制​​,实现了从“以资源为中心”到“以应用为中心”的根本性转变。

3.png4.png


该机制的核心在于对业务负载进行资源画像,动态感知虚拟机实际资源使用情况。通过对实例的资源使用情况进行画像和概率建模,基于中心极限定理计算出主机内实例叠加资源用量的概率分布,以预测主机内多实例资源叠加后的整体负载分布,然后在指定置信度下评估其最大资源用量。由此,系统可精准识别出主机“已分配资源”与“预估最大用量”之间的安全差值,计算出主机上​​可动态复用的CPU资源画像值。

在此基础上,调度系统可在严格规避CPU争抢的前提下,智能、安全地在主机上部署更多业务虚拟机,显著提升单节点资源承载效率。​​该过程完全由平台自动完成,无需业务部门反复参与资源规格调整​​,有效避免了传统模式下繁重的跨部门沟通与协调成本,在提升资源利用率的同时,极大释放了运维与业务团队的协作压力。


3.2 面向应用的QoS保障

在多虚拟机共享主机的场景下,业务负载突发性增长易引发CPU、内存或I/O等关键资源的争抢热点,导致业务延迟升高、吞吐下降等性能劣化问题。因此,构建精细化的服务质量保障机制,是实现高资源利用率的重要前提。为应对这一挑战,柔性计算云服务构建了覆盖“平台监测-单机调控”的两层QoS保障体系。

5-1.PNG

5-2.PNG

3.2.1 黑盒式QoS劣化感知

在超分混部场景下,多个虚拟机共享同一物理主机资源,尽管提升了利用率,却也引入了因资源竞争而导致的业务性能劣化风险。尤其当业务处于亚健康状态时,传统云平台因缺乏有效的QoS感知模型,往往难以及时识别性能波动,形成运维盲区。更复杂的是,虚拟机内部通常无法安装监控插件,导致业务真实运行状态成为黑盒。为此,华为云柔性计算服务构建了​​黑盒式QoS劣化感知体系​​,基于主机上报的带外性能指标建立无侵入的QoS劣化评估建模,实现对业务性能的可视、可知与可保障。该体系提供以下两种QoS检测路径:​​

  • ​​规则QoS检测​​

主机上绝大部分资源是运行客户虚拟机业务的,预留给QoS检测和管控的资源是有限的。规则QoS检测往往是基于关键性能指标(如CPU steal time等),通过学习业务正常状态下的指标特征,构建QoS劣化判断逻辑。同时支持配置基于资源使用阈值的启发式规则,快速识别由CPU、内存等单一资源竞争引发的性能异常并提供一定兜底,适用于常见资源争抢场景的资源热点判断。

  • ​​AI驱动的智能QoS检测​​

基于Transformer多头注意力机制构建的AI模型,以实例级与主机级的多维内核资源和底层硬件指标作为输入,实时推理生成QoS劣化评分。该模型能够从复杂指标中挖掘高维性能特征,识别因邻居干扰导致的性能下降,覆盖多种资源共享竞争场景。

图片7.png

当云平台系统检测到资源竞争或QoS劣化时,可立即触发调度干预机制实现热点消除,将受影响实例迁移至负载适宜的主机,从而在保障业务稳定性的前提下,持续维持资源的高效利用。通过黑盒式QoS感知能力,柔性计算实现了从“被动响应故障”到“主动预防劣化”的运维升级,真正在混部高密度场景下,建立起性能可保障、风险可控制的可靠运行环境,保障应用稳定运行。


3.2.2 QoS动态隔离控制

柔性计算云服务支持高、中、低三种优先级的柔性虚拟机实例,以面向不同类型的应用提供不同优先级的性能保障。

优先级

资源画像

调度特性

负载类型

典型应用场景

​​柔性高优先级​​

应用95峰值规格

实例不中断,零迁移承诺

时延敏感型

数据库、核心交易系统

​​柔性中优先级​​

应用平均期望值

基于QoS检测触发二次调度

性能及成本均衡型

中间件、Web服务

​​柔性低优先级​​

应用平均期望值

允许被抢占,支持中断

成本敏感型

离线批处理、无状态容


在混部场景下,当主机资源出现争抢时,传统调度模式难以避免不同业务间的相互干扰,柔性计算在节点侧基于多维度指标,构建了低开销、高灵敏的QoS劣化检测能力,并依托内核cgroup资源管控能力,实现细粒度的QoS动态调控,具体包括:

  • ​​秒级热点感知​​:基于轻量级模型实现高灵敏的资源争抢检测,快速识别CPU、内存等资源热点导致的QoS劣化;

  • ​​内核动态调控​​:利用Linux内核cgroup能力,按优先级动态分配时间片配额,确保高优先级业务QoS干扰小于5%;

  • 弹性抢占策略​​:在资源紧张时,低优先级实例可被灵活压制或暂停,在不影响高优先级业务需求的前提下,见缝插针地提高资源利用率。

值得一提的是,该机制使得系统在业务高峰期内,即使因运维窗口限制无法立即执行迁移操作,仍能通过节点内动态调控维持业务QoS,为混部场景提供快速劣化检测与差异化QoS保障。

柔性计算云服务的QoS保障体系正分阶段落地,目前已构建覆盖平台监测与单机调控的双层能力框架。平台监测层已实现规则型QoS检测和热点消除能力的商用交付,AI驱动的智能检测能力正处于内测优化阶段;单机调控层在已上线分级时间片配额保障的基础上,正稳步推进动态调控与抢占等功能的产品化进程。


4 柔性计算调优实践

政企深度用云场景下,算力资源的高分配率、低利用率已成为X行客户关注的TOP问题,影响客户满意度。为解决客户的痛点问题,华为云Stack与X行联合创新,面向真实业务场景孵化柔性计算云服务,以客户实际场景为试验田,验证柔性计算调度能力对资源效能的提升效果。

在X行开发测试环境,基于其开发测试内网Region的负载样本数据及其平均负载,作为新业务虚拟机的负载输入,测试同等物理主机资源的资源可发放容量与利用率提升效果:

ScreenShot_20251112160902.PNG

1)在Console页面,在弹性主机组中创建的弹性规格发放虚拟机,直至无法继续发放;

2)再在Console页面创建中优先级柔性虚拟机规格,发放柔性虚拟机,直至无法继续发放;

3)观察弹性主机组和柔性主机组的已用资源和资源总量的差异,并记录;等待一个画像周期(默认为24小时),柔性虚机的资源画像完成后再次观察主机资源容量的变化,尝试发放更多中优先级柔性虚拟机,持续画像三天,观测柔性主机组的可发放量和利用率变化。

从实验结果可以看到,每次资源画像完成后,柔性主机组会释放出更多CPU资源用于发放新业务虚拟机。相对传统弹性调度,柔性计算服务实现每主机平均资源发放量从240vCPU提升到360vCPU,提升50%,同时CPU利用率提升至45%,达成挑战目标30%,利用率超目标达成联创目标;

同时,针对PostgreSQL/Redis/RabbitMQ典型中间件与业务模拟应用,在主机出现资源热点即QoS性能劣化达到阈值时,云平台基于QoS热点规则,可以分钟级检测到热点事件,并上报资源争抢告警,触发迁移同主机下的虚拟机后业务恢复基线性能恢复基线QoS性能。


5 总结

在政企深度用云的新阶段,提升算力效率已成为关乎企业核心竞争力的关键命题。作为华为云Stack为政企客户精心打造的“数字黑土地”,Flexus云服务致力于将高效、可靠的算力能力转化为客户业务创新与增长的核心动能,满足用户对云算力资源利用率及成本优化的更高要求,助力企业在数字化征程中行稳致远。

【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。