现代数据平台要实现自助用数还要解决的三大问题
数据已经是社会运行、工作生产过程的关键要素。自2020年以来,全球多个国家将“数据”列入国家级政策中,中国也率先在2019就提出数据是第五种生产要素,并在接下来几年内,先后在重要规划报告中,定义“大数据”为“战略性新兴产业”,强调数据要素化,推动数据驱动协同创新,充分发挥数据要素作用,再一次为大数据技术发展和深度应用注入新鲜活力,为产业融合提供准确的关键要素,各省市、各企业单位积极探索,中国数据要素市场规模快速步入千亿时代。
如何使用全新生产要素,支撑数字经济发展和运行,挖掘和激活内需潜力,全球共识之一就是构建数据交易市场,构建立以数据资产为中心的生态系统,为参与者提供基础的数据交易功能和服务。外部通过一次性或定期订阅实现数据货币化交易,需要注意的是建立交易市场的重点是完善数据资产共享,而不是货币化。市场将进一步消除企业之间数据共享的障碍,企业被丰富的数据资产,还能进一步降低运营成本而吸引。据预测,到2025年,90%的新数据分析、部署将通过建立的数据生态系统进行,从而导致整个数据和分析市场的进一步整合。到2024年,在政企内部构建其完整数据管理环境中采用积极的元数据分析的组织将将向用户交付新数据资产的时间缩短70%。在国内随着数据在改革工作中的定位通过行业实践不断深化,不断为市场指明方向,以数据要素市场为抓手,加快数据要素流通。在中国由多个部门牵头,不断完善国家级合规数字资产交易市场,推动数字化成果全民共享。
但是,以建设数据要素市场这种现代数据交易平台为例,当下支撑市场建设的数据平台仍然存在三个难点:
难点一,怎样实现数据要素的三权分离,可管可控?数据具有所有权、使用权、经营权属性。在一些面向个人的场景,企事业单位和个人即是数据的生产者,又是数据的拥有者,还能是数据的加工者;但在大数据场景,企业一般拥有更多海量数据,对数据具有所有权,以及在确保隐私下的使用权和经营权。随着众多的行业主体单位,企业和个体加入数据要素市场活动中,通过不断完善法律法规,如何实现数据“有限”共享,做好海量数据的产权界定和分级分类等管控,仍是首席信息管理和首席安全官要考虑的首要问题。
难点二:如何打破现有数据壁垒,打破“部门墙”,让数据真正流动起来。众所周知,数据的本质是信息,碎片化的、条线化的数据,仅能反应部分客观事实。所以在近几年来,业界共识是数据融合创新,在不同分析师、不同部门,甚至不同企业单位,都意识到,通过数据共享,驱动业务创新的价值,同时亟需有力的平台和技术保障来进一步支撑这一观点的落地。在数据安全有保障的前提下,数据一方面是有价值的,但海量原始数据也存在大量的噪音,不经过治理,不经过加工,也很难发挥其有效价值,甚至会导致不客观的结论。这也是数据平台建设部门和业务部门所关心的核心问题之一。
难点三:如何建设数据交易市场的基础性数据交易平台。近年来,数字化浪潮随着信息基础设施的建设,通过人工智能、大数据技术与行业的不断深入行业场景,使得数据在企业单位内得以正确使用,享受数据价值红利。中国各行业的数字化整体规模仍存在差距,尤其是第二产业数字化发展之滞后但增速较快,以能源业为代表的陕煤、山能、三峡集团等大中型企业,以“上云用数赋智”为牵引,不断提升生产效率,实现精细化运营。当前,中国是当前世界上最大的制造业国家,规模等于美日德综合,在数字化转型道路上道艰且长。数字社会、数字政府也在全国各地稳步推进,以一体化大数据中心体系为牵引,支撑智慧城市建设,不断提升社会治理水平;相较其他行业,电信业和金融业基于早期规模化的IT基础设施,一方面利用云和大数据技术不断强化经营,另一方面不断享受大数据带来的红利,进一步形成数据资源利用的正循环。在电信领域,2021年云计算、大数据等新兴业务发展加速,数据中心、云计算、大数据业务比上年分别增长18.4%、91.5%和35.5%,成为收入增长第一拉动力;在金融领域,大数据的应用分析能力,正在成为金融机构未来发展的核心竞争要素,仅在智能风控场景,市场规模就达到近80亿元的规模。
各行业处于不同的数字化阶段,安全、高效的现代数据平台,正基于数字化基础设施,使得社会和企业通过数据要素驱动发展和生产不断向前。
综上所述,现代数据平台的能力不断迭代,滚动向前,一方面是得益于时代背景下,各企事业单位更加重视数据的价值;另一方面数据已在各行业数字化浪潮中,发挥重要价值。大数据在近年来即解决了海量数据的存储、计算问题,还进一步深度解决了时效性差的问题,数据无法跨域融合使用的问题。业界对于数据在一个现代数据平台内流动,加速已是主流趋势,湖仓一体架构已经兼具数据湖的多样性全量数据承载和数据仓库的事务性优势,成为主流架构。
数字化转型不能一蹴而就,要从思想、方法和技术方面匹配实际场景,不断进化。数据交易市场仅是加强数据融合共享创新,释放数据价值的一种手段缩影,湖仓一体主要解决现代数据平台的架构选型问题,要进一步释放政企数字生产力,但还要解决上述实际使用过程中的安全、治理和效率三个方面的问题。
1 现代数据平台仍需解决的三大趋势和挑战
1.1 随着数据平台深入生产主流程,数据安全成为管理者关注的首要问题
随着数字化在政企业务生产主流程不断发挥作用,数据平台的操作者已经从两类变为四类。
在政企早期建设的大数据平台,以“能用”为主,各业务部门按需求建设,由平台建设维护部门承接建设和日常运维工作,包括机房规划、软硬件安装部署、日常调优等干工作,甚至在小型大数据中心(一般50节点/5个机柜以下),其本身更是业务使用方自己去承担这些内容。业务使用方主要对大数据内容数据进行分析、挖掘,输出大数据应用模型、分析研判结果,提出建设需求工作,包括业务应用建设规划、交互式查询分析、跑批分析、输出报告等日常工作,甚至在一些企业刚起步时,建立的小型大数据中心,使用者还需要负责建设、运维等工作。
随着数据在生产过程中的作用愈发明显,在生产、经营等方面不断为客户提供准确的研判依据,数据平台会随着业务量增长而不断扩容,业务量增大意味着更多的数据量,数据和业务双轮驱动,正向循环。以华为集团IT为例,在2014年开始建设时,仅有50节点,随着华为各业务的高速发展,至2021年已发展至1万多节点,集群规模增长了200多倍,华为集团IT HIS数据湖已经从早期仅支持报表分析,成为华为公司数字化转型的基础,通过数据驱动,数字化运营,实现资金流、信息流、物流可视,支撑公司18个部门,近1万多名数据分析师的日常工作平台,其已是FusionInsight全球最大的商用单集群。金融头部客户,例如工行,自2013年开始和FusionInsight合作开始,建设湖仓一体平台提供高稳定性、高可靠性的数据服务平台,至2021年已从早期的跑批作业、报表分析,向支撑全行数据分析如实时计算、联机查询、交互式分析等场景演进,至今已实现全量数据入湖,支撑1.3万名分析师工作,日均跑批作业20万个,流式计算30万次/s,交互式查询从原先1200多秒响应降至平均20多秒,从此时的数据平台,也让建设部门从原先的“成本中心”向支撑全局性服务的重要支撑部门,成为“能力中心”。此时的数据平台的参与者已悄然发生变化。
从上图可见,新增了数据权限管理和平台资源管理角色。一方面是由于早期数据较少的情况下,管理起来并不复杂,随着平台承载了全量业务数据,数据的访问权限、访问范围、读写权限等等控制,在数据安全大背景下逐步变得必要。另一方面,早期因为数据少、作业少,平台的CPU、内存、网络、硬盘等资源较为充裕,甚至有闲置情况;当数据逐步进入各部门主业务流程,平台建设规模要考虑平衡各业务部门日常需求和建设成本的矛盾,避免平台业务使用者白天工作大量使用,而在夜晚休息时资源限制的问题,随着平台承载的数据量越来越大,对任务的优先级、资源分配尤为重要。数据分析师通常根据计算目标范围的数据量大小通常达到GB以上,分析计算任务向平台请求整个资源平台的CPU、内存、网络等资源,同时根据业务重要性不同,一般要求对关键的经营、风控、监管过程要预留资源,甚至在极端情况下,关键任务需要执行时,资源平台存在的抢占风险就成为了运维人员首先要解决的问题。常见的办法是要求平台运维终止非关键作业,将有限的资源给优先级高的关键任务,待关键任务执行完后,再回复原先要执行的作业,导致一些列后续作业也要发生变化,对运维人员、资源调配人员提出了更高要求。
总而言之,客户对于数据的安全、资源的调配越来越重视,政企的大数据平台也随着技术发展,向云原生、湖仓一体现代数据平台演进,其职能从简单的数据分析报表,向支撑全局业务活动提供一站式的数据服务转变。
那这个时候我们是否可以选择开源技术去构建数据平台呢?开源社区经过多年发展,采用全球各地的开发者共建模式,迅猛迭代出现80+大数据组件,全球头部云计算、大数据公司都重视其在开源大数据社区的影响力,一方面投入开源社区建设,一方面将代码、组件贡献给开源,保障开源社区的健康演进。那么答案也显而易见,开源大数据的主要目标是技术演进,以开源资源调度为例,其线性式任务队列机制,在早期大数据平台建设时,可以管理好作业任务。但是随着集群规模超过200节点,各类组件因为在开发时,开源的开发者并没有企业级、生产级的硬件资源和实际环境,导致无法充分考虑商业级的需求,我们发现客户采用的开源大数据在上线后,实际存在扩容瓶颈、资源慢、JVM GC开销大等等一系列技术问题。而且政企数据平台的管理者,已不仅仅关注技术创新,还需要对平台的安全性、稳定性负责,其更倾向于有全球服务能力,可持续演进的企业级现代数据平台供应商。
1.2 当数据安全不再是问题,找数难成为困扰数据平台管理者的新问题
早期大数据平台按业务需要逐步建成,大数据集群和数据由各业务部门自己控制,数据分散在数据湖、数据仓库、数据库中。随着单业务大数据分析的不断完善,仅用单个部门的几类数据,已经无法创新,业内的目光在2019年转向成熟的“数据融合”机制,旨在借助外部数据增强自身业务和应用创新,进一步丰富主营业务种类和生产过程。当前,数据融合已经在科技抗疫、旅游、营销等领域通过数据融合已发挥重要价值,为政企客户带来巨大收益,数据融合这一过程在未来几年仍然是重要方向,甚至是湖仓一体架构所支撑的最基础性的工作内容之一。
数据融合是重要方向,但是已经建成的数据平台依旧是割裂的,客户现网的数据从全局视角看是孤岛式的,有哪些数据?数据在哪里?数据变更后,如何同步全局使用?这类让使用者头疼的找数难问题,是数据融合驱动业务创新的障碍,也成为了驱动平台演进方案的动力。
在采用建设全局统一数据平台的方式,解决了系统级的数据割裂问题,还会面临下一个问题:一方面因为业务使用数据的方式不同,数据根据使用方式已经采用了10+种引擎、组件,散落在高性能点查、明细查询、全文检索等数据组件中;另一方面,SQL语言因为数据库在近几十年来的不断普及,其以易部署、易使用、操作灵活,为各企业培养了自己的DBA等IT专业人才。当客户深度使用数据的时候,客户需要懂业务的分析师能统一操作界面,使用业界通用的、自己熟知的方法和工具,直接操作数据,以敏捷应对外部环境变化,保持数据信息的鲜活和整个组织经营的敏捷灵活性。此时数据平台的入口分散、技术门槛高就成为数据平台高效使用的另外一大障碍。
1.3 当数据安全有所保障,数据使用门槛不断降低,数据智能成为分析提效的新手段
一旦扫清了数据使用方面的障碍,数据分析的执行效率问题随之而来。华为在服务3000+政企客户的过程中,逐步采用二维调度替代开源一维调度,让资源利用率达98%+。但数据量一直在随着业务高速发展而不断增大,业务数据的分析任务量也随着数据价值不断被激发而增多,为应对这一变化,通常客户有两种办法去解决:一种是不断的扩容,还有一种是增强计算引擎能力。前一种,一般企业大数据中心通常受制于预算、物理机房空间、供电等一系列因素,在短期内无法通过不断扩容敏捷反应需求。而后一种办法,也是客户对于数据引擎的效率不断提出更高追求,数据越大反而要求计算越快这种矛盾的需求一直存在,早期通过分库分表解决,但会导致数据割裂;后来采用Cube提前预聚合方式,但会导致集群迅速膨胀x倍数量;客户亟需智能化、高性能的交互式引擎,既能根据数据量自动学习优化,还能过滤大量非必要的数据计算过程,客户需要一种一站式智能化分析引擎来解决如上三个重要问题,实现高效、敏捷、灵活的自助用数,加速释放数据价值。
2 解决方案
2.1 平台管理职能精细化专业化
一般来说,现代数据平台需要将原有高度集中大一统的管理职能,细化分解成如下3类:
计算资源需要合理调配
不同业务领域,对计算资源的需求存在明显的细节差异。除了计算资源量化上限的差异以外,现在数据分析平台还对平台管理职能提出了更高的要求和挑战,需要从以下三点重点考虑调配需求:
1. 计算节点的硬件选型(计算密集型、内存密集型等,是否包含本地SSD盘等)
2. 计算节点的软件拓扑(软件进程数,单个进程的内存、CPU资源分配等)
3. 计算服务的并发容量(同时在线用户数、连接数,可支撑的同时在线任务规格等)
用数权限
随着现代数据平台的功能持续加强,能够直接对业务提供的数据访问分析场景日益丰富。因此,业务用户对现代数据平台的自助用数权限管理力诉求之水涨船高。主要包括:
1. 多层级的用数权限传递机制:支持业务数据管理权限的逐层分解与传递,以便能够分解到一个容易落地的数据管理粒度;
2. 统一的数据权限接口:支持数据访问权限的实时生效与取消;
3. 数据共享与转发:一个数据经过转换和加工后,可以快速开放给指定的用户使用。
SQL运维
早期的数据平台只需要关注系统运行维度指标监控,随着“湖仓一体”理念的持续深入落地,基于数据湖内的数据分析平台的SQL化运维监控工作逐渐变的紧张起来。业务管理员对于本业务领域的SQL运行总体分布、运行统计、改进空间等非常关注,并有很大动力去定期生成运维报表,用于指导后续的业务优化与改进措施。
由于上述三种管理职能的专业性要求相对较高,且与具体业务诉求强相关,因此对于同一个业务来说,需要由对业务和数据平台都比较熟悉的人员来担任业务平台管理员。
在现代数据平台,一个比较合理的管理分工策略如下图所示:
平台管理员需要将管理权限下放给不同业务部门(团队),每个业务部门(团队)自己任命管理员来实施本业务领域的日常数据分析管理,包括以下三点:
1. 本业务领域的计算资源的申请、分配、变更(在平台管理员授予的资源范围内进行);
2. 本业务领域的数据分析用户列表管理,并完成与本业务领域的计算资源的自动绑定(现代数据平台基本为云原生架构,该操作为一次性初始化操作);
3. 本业务领域的日常SQL作业监控与异常统计,大SQL/慢SQL识别与管理,SQL作业资源瓶颈提前预判与整改。
为了支撑上述管理目标的达成,现代数据平台需要具备如下能力:
1. 具备成熟的云原生管控面页面,支持不同租户间的权限隔离;
2. 支持租户级的计算资源可视化配置管理,支持细粒度的资源规格设定;
3. 具备统一的业务元数据、权限管理体系;
4. 支持设定租户级(业务级)的管理员,有权设定该租户的计算资源详细配置;
5. 支持设定不同数据对象的权限管理员,具有将该数据对象的访问权限进行分发的权限;
6. 支持自动的SQL运维统计与可视化呈现能力,支持按不同租户进行单独统计
7. 支持大SQL/慢SQL的自动识别与排序
2.2 统一SQL入口&数据虚拟化
平台管理能力精细化专业化与统一SQL入口的需求往往是相辅相成、互相成就的。而数据虚拟化则是实现统一SQL数据入口的关键落地技术。
要建设现代数据平台,那么首先最重要的是构筑起一个优秀的“统一SQL入口”,以此来实现业务面与服务面的架构解耦,在架构上保证数据服务的长期可演进。
由上图可以看到,构筑“统一SQL入口”,涉及到系统性的高并发、高可用设计、安全认证与防止请求攻击。同时,还需要与后台服务面的引擎资源调度策略进行高度协调,以保证整体性能最大化、资源利用率最大化。
1) 对于业务用户
“统一SQL入口”可以极大的降低业务面的对接复杂度与使用成本,使得业务使用方、最终用户只需要关注SQL业务本身即可,而不必过多关注技术平台层面的使用细节。
2) 对于平台管理员
而平台管理员可以很方便地在“统一SQL入口”位置进行全局性的系统安全配置,例如:用户身份认证、访问审计、流量控制、防火墙设置等。
3) 对于业务管理员
业务管理员则可以在“统一SQL入口”位置进行业务-租户资源的关系绑定,从而实现自动化的SQL请求路由。一次修改, 到处生效。
在解决了“入口”的问题后,我们着手构筑起面向现代数据平台的新一代数据分析服务——HetuEngine是华为自研高性能交互式SQL分析及数据虚拟化引擎。与大数据生态无缝融合,实现海量数据秒级交互式查询;支持跨源跨域统一访问,使能数据湖内、湖间、湖仓一站式SQL融合分析。
在上述架构中,无论是本地的客户端请求、编程接口请求,还是跨域间的远端访问请求,都从统一的SQL入口接入到HetuEngine数据分析服务中,最大限度的降低了不同业务场景对业务用户的能力要求,降低了对平台管理员、业务管理员的管理、运维成本。单个HSFabric可以承担上千个用户链接,并且可以通过多个实例横向扩展;在跨域场景,单个HSFabric可承担GB级/s的数据吞吐压力。
此外,HetuEngine将统一SQL入口与数据虚拟化技术结合起来,实现多源异构统一SQL访问、高性能跨域协同分析等,包括:
1) 一条SQL打破内部数据墙,业务上线效率提升10倍:
• 自动完成SQL改写与计算下推
• 分布式内存计算,计算过程数据不落盘,让分析快如闪电
• 一站式访问鉴权,降低数据开放难度
2) 跨地域/数据中心动态组网,跨域协同提效50倍:
• 去中心化权限控制,受控对外开放。传输加密、分级授权
• 一条SQL语句跨地域分布式执行
• 高效传输:数据压缩、高效序列化、流式传输、多通道并行
• 单向/双向联通,流量管控,断点续传,穿透NAT
2.3 数据分析性能优化智能化
当平台管理员/业务管理员深度推广交互式数据分析平台后,会逐步识别到以下性能方面的痛点问题:
• 不知道当前业务SQL的特性和分布特点,下一步该如何优化?
• 大量的SQL任务的部分计算相同或者重叠,是否可以共享同一份中间计算结果?
• 用户提交的SQL质量良莠不齐,如何快速识别和评估现网运行的SQL质量,找出 效率欠佳的用户账号/SQL?
• 单个SQL如涉及大表扫描,极可能瞬间消耗多数的公共计算资源,如何预防这种无法预测的任务负载冲击?
业界现有的开源软件只能解决单次SQL任务的高速处理,却不能解决长期在线持续SQL运维调优的问题。这就给平台管理员、业务管理员带来了较大的日常运维压力。管理员也很想观察了解业务变化趋势,并提前做出种种预防措施。但是现实中的软件或产品,缺乏对管理员的深度关怀。
FusionInsight MRS HetuEngine提供了如下智能化的新型解决方案:
1. 自动学习
根据用户使用习惯,自动提取SQL语句、资源占用、耗时等多维特征,采用机器学习训练挖掘任务间潜在内在联系,基于预测收益最大化原则自动生成热缓存(物化视图)详细定义。
2. 自动诊断
自动完成SQL任务、用户行为等多维度指标统计,结合语法、语义特征快速定位出质量欠佳的SQL语句和用户信息,提前预示业务风险,运维效率提升5倍。
3. 自动加速
自动创建和维护物化视图实现智能预计算,实现对高价值业务访问请求的自动识别与加速,同时有效降低整体负载压力,优化系统稳定性和并发。
数据分析平台,基于以上的智能化升级,从平台、性能收益来看:
1)平台负载收益:
• 提升查询性能,提升业务并发能力
• 降低HDFS/OBS IO负载
• 降低集群内、集群间网络带宽占用
2)性能收益:智能化让亿级数据分析的性能稳定保持在秒级,甚至是毫秒级响应。
4. 自动调配
自动调配超大SQL实时计算规模,自适应细粒度平滑调度,提升任务执行成功率,有效防御偶发性大任务对系统的瞬间压力冲击。
5. 自动路由
自动将SQL任务请求进行动态路由,交给最恰当的计算实例来执行,达成系统高可用、资源利用率和并发容量最大化。
3 小结
上述三个趋势与挑战是作者基于项目需求分析、技术研究总结出的3个比较基础性的方向,并结合华为云FusionInsight MRS HetuEngine自身探索实践,阐述了当前已落地的解决对策。
未来,现代数据分析平台必将长期处于持续演进和发展变化的过程中,华为云FusionInsight MRS HetuEngine还将基于统一元数据、统一权限、统一安全等云原生基础能力,持续提升自助用数分析平台的可服务、易运维能力,基于AI技术持续提升对数据分析平台的智能化赋能水平,引领现代数据分析平台向专业化、智能化、易运维、高性能方向演进。
- 点赞
- 收藏
- 关注作者
评论(0)