【DTSE Tech Talk 精选问答】NO.57丨华为云云原生FinOps解决方案,为您释放云原生最大价值
【摘要】 华为云容器服务CCE全新上线云原生FinOps中心,为用户提供多维度集群成本可视化,结合智能规格推荐、混部、超卖等成本优化手段,助力客户降本增效,释放云原生最大价值。直播链接:https://bbs.huaweicloud.com/live/DTT_live/202404241630.htmlQ:FinOps中心最小可以从什么粒度跟踪资源利用率,单个命名空间或Pod级别的成本可以洞察吗?提供...
华为云容器服务CCE全新上线云原生FinOps中心,为用户提供多维度集群成本可视化,结合智能规格推荐、混部、超卖等成本优化手段,助力客户降本增效,释放云原生最大价值。
直播链接:https://bbs.huaweicloud.com/live/DTT_live/202404241630.html
Q:FinOps中心最小可以从什么粒度跟踪资源利用率,单个命名空间或Pod级别的成本可以洞察吗?提供的智能规格推荐是基于哪些参数做出的?
A:最小洞察单位是工作负载,可以从工作负载、命名空间、节点池等维度进行集群成本洞察。智能规格推荐基于历史资源申请和使用量来完成Q:FinOps中心是否支持跨多个云平台的成本分析,还是它只适用于华为云生态系统内的集群?
A:当前只在华为生态内进行,后期会在多云管理平台UCS服务中支持Q:成本优化是否会影响自有CCE集群的稳定性和可靠性?FinOps中心是否支持多租户管理?
A:Finops使用IAM通过租户认证体系,管理只能在单租户进行Q:可以在集群内部识别闲置或未充分利用的资源吗?通过FinOps中心可以生成哪些类型的报告?
A:通过智能应用规格推荐可以识别工作负载的资源浪费,后续会支持更多形式的成本优化手段。通过云原生FinOps支持月度/季度/年度的成本报表Q:FinOps能提供关于容器扩展行为的成本影响洞察吗?中心如何与CI/CD管道整合?
A:后续CCE云原生FinOps会暴露相关API,支持与客户自有系统整合Q:解决方案提供了哪些工具或服务以支持云成本优化策略的设计与执行?
A:云原生FinOps解决方案提供智能应用规格推荐、云原生混部等多种成本优化策略Q:怎么在计算中考虑变量资源消耗?FinOps对于预留实例和按需付费模型的支持情况如何?
A:当前计算模型会囊括所有计费类型,成本会被分摊到按天粒度的成本账单中参与成本计算Q:如何处理国际业务的货币转换问题?成本估算在平台内多久更新一次?
A:国际业务统一按照美元处理,成本估算数据每天都会计算一次,累加产生按天的成本数据Q:FinOps中心能帮助识别合并资源减少成本的机会吗?能否提供关于不同架构的成本与性能折衷点的洞见?
A:通过智能应用规格推荐可以结合应用的历史运行数据,给出推荐资源申请值。Q:华为混部方案在提升整体资源利用率35%以上的同时,如何确保成本的有效降低?
A:混部结合资源超卖,在下发同等应用的情况下,所使用的计算节点更少,成本更低Q:云原生FinOps中心如何与其他华为云服务进行集成? 集成过程中需要考虑哪些兼容性问题?
A:采用华为云TMS通用标签体系,通过打集群资源标签的形式,与其他云服务建立关联Q:使用华为云的FinOps解决方案后,企业能够预期获得哪些长期效益?如何衡量该解决方案的投资回报率(ROI)?
A:该解决方案可以帮助企业识别可优化的空间,并根据优化建议进行调整。每个优化建议会提供节省成本的参考Q:cce用混部进行提高利用率,那么服务的分级策略是怎么做的,是把哪些服务进行混部的,如何保证不影响高优先级服务
A:通过使用PriorityClass和在离线混部的QoS来保障。用户下发业务可以指定业务Qos等级,包括:时延敏感型,普通类型,计算密集型,不同Qos分级对应不同的priorityClass范围,驱逐时首先驱逐低优先级业务。Q:在月度/季度/年度的成本分析中,哪些关键指标能够帮助识别成本异常或优化机会?
A:月度、季度、年度,可进行成本在时间维度的成本对比,以及成本组成,识别开销较大花费。可进步一下钻到集群维度以运维视角,查看应用、命名空间等维度资源利用效率,成本开销。进而优化应用规格、或者调整资源部署情况。Q:在混合集群中,如何处理不同业务之间的资源竞争和冲突?
A:混部主要分为在线业务和离线业务,结合内核提供CPU/内存隔离能力管理资源的竞争和冲突。当节点CPU资源使用紧张时,在线作业能够快速抢占离线作业的CPU资源,并压制离线作业的CPU使用;当系统内存资源用尽触发OOM Kill时,内核优先驱逐离线作业。Q:如何根据节点每日平均负载来计算使用CCE Autopilot的成本,并与ECS进行对比?
A:主要根据资源长稳使用时长,具体时长可以根据AP的定价和ECS的定价量化Q:在使用基于FinOps理念的成本治理解决方案时,如何准确识别集群中的待优化项?
A:当前可以成本洞察中按照成本开销、资源使用效率,进行应用级别,集群级别的成本优化Q:如何利用CCE Autopilot的精益化治理和业务特征感知功能来提高资源利用率和降低成本?
A:根据资源使用动态,按需发放资源,减少资源冗余,提升资源利用率Q:对于已经拥有成熟IT系统的企业,华为云的FinOps解决方案如何与现有系统进行集成?是否会对现有业务造成干扰或风险?
A:后续CCE云原生FinOps会暴露相关API,支持与客户自有系统整合。不会对现有业务造成干扰或风险。Q:CCE 成本洞察和成本分析 计算结果会有多大差异?
A:成本洞察的账单来源就是成本分析,可以在集群粒度和成本分析进行对账Q:公共资源如daemonset 资源如何分摊?
A:公共资源成本,作为独立成本。后期会计划按照用量分配到集群,或者应用Q:成本洞察延迟多久? 支持明细查询的最细粒度是什么?
A:洞察延时当前是2天,最新粒度是工作负载Q:在流量高峰期或季节性需求波动期间支持自动识别和成本优化吗?
A:FinOps根据业务的历史运行规律进行自动推荐,设置合理的历史数据周期,可以进行自动识别和推荐资源分配信息。当前仅支持给出推荐结果,尚不支持自动应用,需要用户手动触发推荐结果应用的动作。Q:FinOps是如何使用QoS管理功能来确保成本优化的同时,保持业务的服务质量?
A:通过资源分级管控的方式管理,基于Huawei Cloud EulerOS 2.0操作系统,从CPU、L3缓存、内存、网络、存储等全方位提供资源隔离能力,并以内核态为主,用户态为辅,通过快速抢占(毫秒)和快速驱逐(秒级),保障在线业务的服务质量。Q:cce对于服务有没有明确的分级策略,以及怎么去调度服务进行降本的?
A:建议按照以下类型进行分级:时延敏感型,普通类型,计算密集型,不同Qos分级对应不同的priorityClass范围,优先调度高优先级业务,结合在离线业务混部和资源超卖能力,在同样的机器资源下部署更多的业务pod,实现降本,资源冲突时,驱逐低优先级离线业务。Q:如何确保在资源超卖的情况下,服务质量和性能不受影响?
A:通过资源分级管控保障在线业务的SLO。首先,资源隔离的措施,如:CPU的绑核、NUMA亲和性、潮汐亲和特性,网络带宽控制等,有效的保障资源敏感型业务的SLO;
其次,资源优先级控制的措施,如:CPU分级控制、内存分级压制、网络优先级控制、磁盘IO的优先级控制等,在提升资源分配率的同时,又少影响或不影响优先级高的业务SLO。
Q:在华为云云原生混部解决方案中,如何评估Volcano高优、低优统一调度对成本优化的贡献?
A:同样的计算资源,相对混部能力开启前,可以下发更多的在离线业务,并且可保障在线业务的SLOQ:在混合集群中,如何结合使用云原生技术和FinOps实践,进一步提升资源利用率和降低成本?
A:使用资源超卖能力,在同等计算资源场景下,发放更多业务;通过FinOps资源推荐能力合理设置业务pod的资源请求量,进一步提高集群资源利用率Q:如何利用FinOps来简化CPU隔离和成本优化的管理过程?
A:FinOps会根据客户业务集群的历史数据自动推荐出合理的业务资源配比,根据FinOps的推荐结果进行一键化应用,可以实现资源的合理化应用,降低资源成本Q:FinOps智能规格推荐能否结合用户的历史使用情况和业务特点来提供推荐?智能规格推荐的准确率如何?有哪些影响准确率的因素?
A:当前FinOps推荐支持按照历史数据进行推荐,比如最近一周的历史运行数据;对于具备明确规律性的业务,推荐准确率是比较高的,流量突发类业务在历史数据不足的场景下,准确率会有下降;Q:对于成本优化的调度有哪些策略?
A:在离线业务混部,资源超卖,优先级调度与抢占等Q:混部技术如何平衡不同工作负载之间的资源使用?
A:混部主要分为在线业务和离线业务,结合内核提供CPU/内存隔离能力。CPU隔离:在线作业能够快速抢占离线作业的CPU资源,并压制离线作业的CPU使用;内存隔离:系统内存资源用尽触发OOM Kill时,内核优先驱逐离线作业。Q:对于业务资源有没有一定的分级手段以及资源压制原理是什么?
A:在业务层面主要分为在线业务和离线业务,通过Qos可以细分为时延敏感型,普通类型,计算密集型业务。在线作业只能使用超卖节点的非超卖资源,离线作业可以使用超卖节点的超卖及非超卖资源。结合内核提供CPU/内存隔离能力。CPU隔离:在线作业能够快速抢占离线作业的CPU资源,并压制离线作业的CPU使用;内存隔离:系统内存资源用尽触发OOM Kill时,内核优先驱逐离线作业。Q:云原生FinOps中心如何识别和处理资源浪费的情况?
A:当前可在洞察界面识别浪费情况,处理集群级别,应用级别资源浪费情况。比如调整应用Request,并充分利用节点资源Q:如何设计合适当前云原生架构的成本估计模型?通常需要量化哪些指标?
A:核心是CPU/内存等资源的单位成本指标Q:对于高优先级业务,如何确保其在混合集群中的服务级别目标(SLO)得到满足,同时不影响低优先级业务的运行?
A:高优先级业务主要对应在线业务,低优先级业务可以认为是离线业务。在线作业只能使用超卖节点的非超卖资源,离线作业可以使用超卖节点的超卖及非超卖资源。在业务的真实负载较低场景下,在线业务和离线业务运行不冲突,当真实负载较高导致资源冲突和争抢时,结合内核提供的CPU/内存隔离能力,保障在线作业能够快速抢占离线作业的CPU资源,并压制离线作业的CPU使用,当系统内存资源用尽触发OOM Kill时,内核优先驱逐离线作业。以此保障高优先级业务的SLOQ:在追求成本优化的过程中,该解决方案如何确保数据的安全性和合规性?是否具备相关的安全认证和合规标准?
A:华为云的FinOps解决方案基于客户可见的账单数据和集群监控数据,进行分析。原始数据对客户完全开放。Q:云原生FinOps中心是否支持自动化部署和配置?
A:可一键式自动开启云原生Finops中心,并提供配置修改入口,可按需调整Q:如何平衡华为云产品销售与FinOps之间的关系?
A:紧密结合,前者帮助扩展业务,后者进行业务优化,帮助企业更精准的使用云服务资源Q:云原生FinOps中心是否支持与企业自有成本管理系统进行集成? 在集成其他成本管理系统时,需要做哪些适配或优化?
A:当前只是提供了公有云的通用解决方案,不支持和企业自由管理系统集成。后期会开放公共API,企业可以自己集成Q:华为云容器服务CCE提供的多维度集群成本可视化和成本优化手段具体包括哪些内容?
A:可视化包括应用、命名空间、节点池、集群等维度的资源和成本画像。成本优化主要包括:应用规格推荐、混部、超卖等手段Q:华为云容器服务CCE提供的多维度集群成本可视化和成本优化手段具体包括哪些内容?
A:可视化包括应用、命名空间、节点池、集群等维度的资源和成本画像。成本优化主要包括:应用规格推荐、混部、超卖等手段Q:云原生FinOps中心是否支持容器编排和调度功能? 这些功能如何与成本优化相结合?
A:FinOps中心主要向用户推荐业务的最优资源配比以及可节省的成本,用户可以一键化应用FinOps的推荐结果,从而实现业务pod的资源更新。Q:哪些关键性能指标(KPIs)可以用来衡量FinOps实施的成功?
A:可以通过洞察视图,识别在不同时间的成本对比,资源利用效率对比来识别Q:该解决方案在自动化和智能化方面达到了什么水平?它能否根据业务需求自动调整资源配置,并给出优化建议?
A:通过智能应用规格推荐可以结合应用的历史运行数据,给出推荐资源申请值。从业务稳定性的角度考虑,当前自动调整的功能暂未开放,需要用户根据业务实际情况手动调整。Q:FinOps的四个核心原则(可见性、优化、控制、协作)是如何相互关联的?
A:FinOps的核心原则(可见性、优化、控制、协作)是相互关联的,每个原则都是为了支持其他原则的实现。 可见性是指对云资源使用情况的透明度和可追踪性,它为优化、控制和协作提供了基础。只有了解资源使用情况,才能找到优化的机会,制定控制策略和协作方案。 优化是指通过分析和优化云资源使用来降低成本,提高效率和性能。可见性提供了数据支持,而优化需要控制和协作的支持。 控制是指通过制定策略和实施控制措施来管理云资源使用,保持成本和风险在可控范围内。可见性提供了数据支持,而优化需要控制和协作的支持。 协作是指通过跨部门和跨团队的合作来实现更好的云资源管理。可见性、优化和控制需要协作的支持,以确保整个组织都在同一方向上前进,实现共同的目标。 因此,这四个原则是相互依存的,只有在它们之间相互支持和协作的情况下,才能实现FinOps的最佳实践。Q:K8s 在节点级别支持 pod 间亲和性和反亲和性,随着扩展到 NUMA 级别的需求逐渐增加,怎么避免高内存带宽消耗 worker对同一 NUMA 节点上的参数服务器的影响?
A:在资源分级管控能力中,支持NUMA亲和、网络带宽控制等资源隔离的措施,并支持出口网络带宽保障能力。在线业务所占用的网络资源较少时,离线业务可使用更多带宽;在线业务所占用的网络资源较多时,降低离线业务资源占用量,从而优先保障在线业务的网络带宽。Q:长期来看,FinOps如何帮助企业实现可持续的成本管理和资源优化?
A:主要是两个方面:- 华为云云原生FinOps解决方案后续提供更多的成本治理工具,帮助企业更好的进行成本管理。
- 华为云云原生FinOps解决方案会支持与客户共同进行FinOps文化与标准建设
Q:华为云的FinOps解决方案如何确保成本优化的同时保持服务的透明度?用户是否能够清楚地了解到每一项资源的花费和使用情况?
A:华为云的FinOps解决方案基于客户可见的账单数据和集群监控数据,进行分析。原始数据对客户完全开放。Q:云原生FinOps中心是否支持对容器镜像、存储、网络的管理和优化?
A:当前支持对计算(ECS)、存储(EVS)的成本洞察,后续会支持网络等更多资源的成本洞察Q:如何在华为云上实现FinOps的三个阶段:通知、优化和执行?
A:华为云云原生FinOps提供了成本洞察、成本优化等多种手段,相互协同,帮助用户实施FinOps最佳实践Q:对于已经存在的K8s集群,FinOps中心能否提供资源使用的历史数据分析,以识别潜在的浪费和不合理资源申请?
A:当前CCE云原生FinOps支持存量CCE集群和新建CCE集群。智能应用规格推荐功能结合应用历史运行数据,识别不合理的资源申请与浪费。Q:在实施混部和超卖策略时,CCE是如何平衡不同用户和服务的资源需求的?
A:混部主要分为在线业务和离线业务,结合内核提供CPU/内存隔离能力。CPU隔离:在线作业能够快速抢占离线作业的CPU资源,并压制离线作业的CPU使用;内存隔离:系统内存资源用尽触发OOM Kill时,内核优先驱逐离线作业Q:哪些关键性能指标可以用来衡量FinOps实施的成功?
A:衡量 finops 实施的成功可以从以下几个关键指标进行考虑:1.成本节约: finops 的一个主要目标是通过优化金融流程和降低成本来提高公司的效益。因此,成本节约是一个重要的指标,可以通过比较实施 finops 前后的成本数据来进行衡量。
2.效率提高: finops 的另一个重要目标是提高业务与应用的效率。这可以通过比较实施 finops 前后的处理时间、处理量或其他关键指标来进行衡量。
想要了解更多TinyVue组件库相关知识,欢迎观看DTSE Tech Talk 系列技术直播
【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)