华为云竞享实例如何让企业体验“算力”自由

举报
技术火炬手 发表于 2020/10/20 11:26:27 2020/10/20
【摘要】 借助华为云瑶光智慧云脑平台,竞享实例以致力让用户“用得上算力、用得起算力”的创新商业模式,推出的全新一代计算服务,能够帮助用户短时间内,以低成本快速提升算力规模,从而为助力企业真正享受到“算力自由”!

在边缘计算、5G、物联网、人工智能等技术的推动下,促进了各行各业的数据呈指数级增长,也加速了数据时代的进程。而数据形态的多样化和对计算需求快速增长,给企业IT部署带来了很多新的挑战。

Rescale首席执行官Joris Poort曾表示,Rescale的自建集群的成本总额每月11万美元,包括运营运维人员和其他费用。这其中大约4万美元是硬件相关的成本,而另外7万几乎是运营成本支出。

可以看出,随着数据变成业务经营不可或缺的一部分,企业必须考虑IT设备的初始建设投入、时间成本、运维成本,以确定最适合利用的平台。企业正面临越来越大的压力,他们需要构建和购买能够快速响应组织应用程序工作负载要求的基础架构。在一个IT已从成本中心转变成企业竞争优势动力来源的世界中,一刀切式的IT基础设施应用方案已然不再适用。

竞享实例让你不再发愁算力难题

然而,我们会发现人类行为会有周期性“潮汐效应”,例如社交类产品,会出现因为社会热点话题引发的流量高峰事件,且流量峰值不可预估。在这种情况下,企业希望IT设施服务的价格频繁的变化,同时设施的使用效果和时长有一定的保障,价格能保持一个相对的便宜就是最好的了。针对企业的这些需求,华为云就推出了“竞享实例”服务。竞享型实例作为计算实例新模式,用户可以先到先享,并将颗粒化算力瞬间批量组织起来用于各类可容错场景。

竞享实例采用的是固定折扣、先到先享、使用时长有保障三大特性,拥有着华为云C系列高性能云服务器技术基因,最高支持64核256G,同规格同性能机型价格低至按需实例的1.5折。为云上用户提供稳定、高效、安全的高性价比算力。

如此体贴用户的服务,竞享实例背后依赖的则是基于华为云擎天架构中的瑶光智慧云脑系统。瑶光的设计初衷就是聚焦解决云基础服务在创新过程中遇到的痛点,计算资源碎片的优化是其中核心的技术专项。

瑶光智慧云脑通过智能算法学习生成资源池画像、预测客户需求,调度时系统可以选择最优的主机,让用户使用时无需担心实例被收回。其通过负载智能分类与周期识别技术,对热点做到实时监控和预测,结合擎天Zero hypervisor做到实时热点消除,从而为用户提供“零”抖动的高质量算力。同时,通过运筹优化与强化学习相结合算法自学习技术,基于现网数据持续迭代优化算法,持续提高资源使用效率,真正做到通过技术创新释放红利。

迈向多维智慧,智能画像与预测算法剖析

在服务客户的过程中,如果能提前预测客户需求,就能通过智能推荐、智能告警等来提升易用性,更能提前进行硬件规划、资源腾挪,保障流量洪峰下的扩容诉求,助力实现“极优、极简”的云上体验。

资源智能画像(以下简称“智能画像”)是构成华为云瑶光“多维智慧”的关键一环。根据VM历史资源利用率、VM请求时间间隔、Flavor生命周期等历史数据,利用关联分析模型和深度学习算法,可用来描绘资源表面、内在以及未来。智能画像的引入让云平台资源管理更加精细化、智能化。

  • 时序预测

在云服务中,像容量预测,主机热点、动态告警等都涉及到时序预测,即如果知道一段历史时间(T*时刻以前)的数据变化规律,如何去预测未来一段时间的变化趋势呢?生活中如天气的变化、人口增长、经济增速、股票波动,甚至最近大家比较关注的新冠疫情的发展都属于时序预测范畴。

image.png

图  时序预测

  • 云上时序预测的输入主要来源于主机或虚拟机的资源利用率,而云上业务的复杂多变,也提升了分析资源利用规律的复杂度。总体而言,有三方面的挑战:

  • 波形的复杂性:我们初步分析历史trace的数据并形成图像,可以看到有少部分是平稳的甚至是有近似周期性的,也有一部分呈现上升或下降的趋势,但更多的是单个“山峰”或者偶尔突发的情况,甚至会有频繁地上下震荡;

  • 业务的叠加性:以上波形表征的多样性,主要是由于云平台中单台物理主机上可能运行着多个租户的多个VM,同时单个VM也可能运行着多种应用;

  • 不可以预见的人为因素:比如因促销而产生的批量订单往往会导致某个资源池无法容纳;超大规格VM的偶然创建也可能引发一些容量事件。

  • 业务识别

云平台每时每刻承载着海量的业务,这些业务中有些是CPU密集型的,有些是内存密集型,也有些是网络密集型等等。假设大家都“抢”CPU资源,且这些业务都放在同一台主机上,那么就会引发资源争夺的“打架”行为,造成业务之间的互相干扰;但如果把相同密集型的业务分开放,比如CPU密集型与网络密集型混合放置,那么也许可以“和平共处”。由此,引出一个问题(图8):在云上如何从底层的资源监控数据能够准确地识别上层业务类型,从而尽可能减少业务间的干扰性,保证租户QoS?

image.png

图  业务识别与QoS调度

首先,我们可以通过各维度资源的利用情况进行关联性分析,使用Spearman系数计算任意两个维度的关联程度,形成一个“feature map”(图9)。此外,我们还可以在原始的数据序列中使用多个不同大小的滑动时间窗口,在每个时间窗后中提取数据更细粒度的特征,类似“卷积核”的办法。综合以上两方面,可以对业务类别进行初步的画像。

image.png

图  资源利用相关性

  • 算力匹配

我们在业务识别中发现一个现象:相当一部分用户其实不清楚什么样的虚拟机类型/套餐(通常称为flavor)最适合其业务。因为从监控数据可以看出,大部分用户资源跑得很闲,即未能将资源充分利用起来;另外也有部分用户一直处于满负载状态,如可能运行大数据作业或AI应用。那么,如何给用户推荐既满足其业务诉求又使得性价比最高的最佳资源配置?如图10所示,用户通常只知道自己需要运行什么样的应用、有多大的数据量、需要什么时间点完成以及有多少预算等等,虽然用户倾向于更便宜的虚拟机类型,但通常不知道哪种类型性价比最高。

image.png

图  算力匹配

一般的思路是把所有用户与历史所使用过的虚拟机类型(flavor)构成一个二维矩阵,如果一个用户使用过某种虚拟机类型,那么我们就可以根据租户的资源使用情况对item进行综合打分。当然,最终的矩阵是非常稀疏的,我们需要做的是通过SVD&PQ这类的算法进行矩阵分解并且预测那些用户没有使用过的虚拟机类型的分值,并根据这个分值大小进行推荐。

但是,如果仅根据最高预测分值进行推荐,可能会导致某些用户增加的成本较高。如图11所示,假设某个用户原来使用1u1g的虚拟机规格,瞬间给其推荐4u8g的配置,从业务上也许已经缓和其高负载状况,但是用户需要多付的钱可能是其不能接受的。因此,需要综合考量虚拟机价格和规格大小进行推荐距离度量,给出合理的推荐范围。

image.png

图  推荐距离度量

  • 容量画像与最佳适应调度

一方面,如果能够对资源池余量进行精准画像,即通过设计测算定理预测每种flavor未来还能放置多少;另一方面,可以统计每种flavor在过去请求trace中的分布比例。结合这两方面的信息,可以设计一种容量调度算法Besfit Capacity用于虚拟机在线调度,以让任意两种flavor的剩余容量比尽可能接近于它们的历史请求比。

这里采用首次发放失败时,算法接收的请求数量与最大理论上界的比值作为评测指标,从下可以看到,相比传统Cosfit算法及其改进算法,Besfit Capacity算法表现更优,甚至某些场景下比传统Bestfit算法更好。

image.png

 图  容量调度对比实验

  • 利用率画像与弹性调度

传统虚拟机调度是基于分配率的,但实际上大部分虚拟机处于低利用率状态,并且不均衡的利用率情况下,容易产生热点主机(即主机资源利用率>60%)。这里通过利用率预测的办法,把基于利用率调度与基于分配率调度进行对比实验,同时对相同一段时间的历史请求序列进行回放。从表1可以看到,相比分配率调度,利用率画像+动态Bestfit算法可以少用5台主机,内存碎片率减少2.1%,同时热点主机数从原来的6台减少到0台。

image.png

 表1 - 利用率调度与分配率调度对比实验

  • 资源预测与容量规划

前面介绍的分解-组合预测法EEMD与传统Holt-Winters进行的实验对比分析,使用两个trace分别预测它们未来半小时、一小时以及一个半小时的资源用量,并且预测多次。从下图可以看出,EEMD预测法拟合效果更好、性能更加稳定,尤其在较长时间的预测场景中,预测误差可比Holt-Winters减少20%以上。我们使用这个方法进行容量规划,预测准确度95%以上,上线后有效将容量引起的客户事件数减少60%以上。

image.png

图  EEMD与Holt-Winters对比实验

借助华为云瑶光智慧云脑平台,竞享实例以致力让用户“用得上算力、用得起算力”的创新商业模式,推出的全新一代计算服务,能够帮助用户短时间内,以低成本快速提升算力规模,从而为助力企业真正享受到“算力自由”!如果现在想体验竞享实例,瞬享自由算力,点击立即开启体验之旅!


【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。