【云驻共创】低代码平台关键能力之数据编排
前言
在信息化高速发展的大潮下,各行各业都在力求加入数字化转型的赛道,构建新的工作方式和服务模式尤为重要。然而,企业内部往往存在应用割裂、数据孤岛、业务断点等情况,给业务人员带来大量手工重复劳动的负担.....
基于这三项业务难点考量,华为GDE的低代码平台应运而出,以快速赋能非IT专业人员参与应用开发和功能迭代,提高项目交付效率、节省时间和优化客户服务体验。【云驻共创】低代码平台关键能力之数据编排.docx它将具有公共属性的业务单元从前端应用中分离与沉淀,形成可共享使用的公共资源与能力,以“云服务+在线应用开发”的方式为企业解决灵活可扩展的业务诉求,实现业务与平台、应用与数据耦合。
在低代码平台中非常关键核心的一个能力就是数据编排,本文将系统性介绍。
一 大数据开发面临的挑战
• IT技术的迭代迅速,开发门槛越来越高
• 散落的脚本、工具难以管理
• 应用重复建设
• 安全难以管控
从越发复杂的场景,到体量越来越大的数据,再到多样的应用系统,都对我们的大数据开发提出了更多的挑战。
二 数据开发平台DataFactory的定义
DataFactory是一个全场景、一站式的开发平台,其流程为数据接入->数据建模-> 数据探索->在线调测->数据开发->打包发布->CI/CD->调度执行->数据呈现->数据运维->数据运营。
其具备一下一下三大特征:
2.1 全场景数据编排
涵盖数据采集、建模、治理、计算、智能分析、存储、策略、呈现端到端能力。
2.2 低门槛开发模式
以no code/low code 拖拽开发为主,pro code开发为辅,使能业务人员,普惠数据敏捷开发。
释放业务开发人员经理,使得业务人员更专注自身业务。
2.3 资产原生(Asset Native)
编排资产由研领域特定语言DPL承载,屏蔽具体引起技术栈,可长期沉淀数据资产,长期复用和分发。
三 DataFactory的上下文
DataFactory处于DataCube的统一大数据处理引擎编排体验,实现数据中台能力开放,打造具备高易用性、低门槛、生态开放、可扩展的大数据处理核心的数据编排框架,具备兼容收纳SEP、Universe存量业务资产能力,打通数据编排和通用作业编排APP和模型断点。
数据编排DataFactory 为用户提用根据自身业务来使用DataCube的众多能力,
流程调用->流程编排,服务调用->通用作业编排,
X统一入口:入口、检索、开发流水线、打包、部署:GDE场景化编排。
四 DataFactory整体功能架构和关键特点
• 全场景一站式:All in one,包括数据源管理、模型建模、数据集成、数据批处理、流处理、策略引擎等场景下的数据编排开发。
• 低门槛高易用:屏蔽底层大数据技术栈,No Code/Low Code为主,辅以Pro Code,降低大数据开发门槛,同时满足多场景诉求。
• 资产积累沉淀:DPLL统一承载调度、计算、存储逻辑,与具体引起解耦,模型、数据处理过程、调度等资产可以长期积累沉淀。
• 全场景:涵盖数据集成、建模、治理、计算、智能分析、存储、策略端到端能力。
• 领先的开发模式:领先的DataPipline数据管道方式开发+DataMold数据模型驱动开发双引擎数据工厂,面向过程和面向对象有机结合。
• 低门槛: No Code/Low Code开发为主,屏蔽底层大数据引擎技术细节,通过拖拉拽图形化的配置即可满足大部分场景。同时提供自定义函数/自定义程序等代码注入能力,满足多样化场景。
• 设计运行分离: - -次编排,全球分发;支持设计和运行分离,保障生产安全。
• 资产沉淀和复用:编排资产由自研领域特定语言DPL承载,屏蔽具体引擎技术栈,可长期沉淀数据资产。支持模型复制和引用、流程/流程片段复制和引用、APP复制和引用;
• 智能化加持:算子智能推荐,画布智能连线,智能校验,智能联想,智能排版,流程智能修复,资源智能预测(规划)等。
• 安全可信:支持Meta流水线工具链、安全扫描。通用规则+自定义扫描规则(规划)。
五 开发态与运行态
开发态:用户根据业务需求开发APP环境。
运行态:APP的安装,启动、停止、卸载的运行环境。
• 能力开放:引擎(调度、计算、存储等)能力抽象封装成算子,DataFactory提供编排能力。
• 功能集成:数据源配置服务和MetaOne元数据管理服务通过菜单挂载方式集成DataFactory,视觉- -体化, 编排- -体化。
• 编译打包:在开发态Data actory调用Dolas的编译接口,将APP源码包编译成安装包:部分APP包在运行态调用Dolas进行二次编译,根据运行态的情况完成按需计算、合并计算等二二次编译工作;
• 应用包安装: App Manager进行应用包安装(解密、解签、解压后下发各模块DPM包给调度、引擎、存储)、启停、激活/去激活、卸载。
• 翻译执行:各引擎翻译器将DPM包翻译为对应引擎API,执行计算逻辑。
• 调度: - -级调度将各引擎和存储配合起来,完成业务逻辑处理。
• 数据查询:数据查询、探索分析。
• 统一认证鉴权:开发态和运行态都基于统一GAM进行认证鉴权。
六 DataFactory开发流程
从共创创建->数据源配置-> 数据建模->算子编排& 调测_> 调度配置->编译打包。
七 数据编排关键技术-数据源管理
系统配置服务(Reference System Configuration Service,简称RSCS) 提供数据中台数据源配置管理功能,包括支持预处的注册、第三方数据源的定义、凭证管理、运行态和开发态数据源的映射等能力。
7.1 开发态
在开发态,通过人机界面配置物理数据源,BDI、 MetaOne、DF访问数据源接口获取物理数据源信息,建立链接进行物理模型建模、在线调测等。
7.2 运行态
在运行态,通过人机界面、服务接口配置物理数据源,编排定制APP、BFS、Fstream、 DAC、AIP、 DBUS等服务通过对接数据源注册或者获取物理数据源信息并建链,实现业务处理。
八 数据治理
数据治理能力:
基于统-管理的数据模型(MetaOne),提供数据质量管理、数据资产可视与分析、数据标准管理、数据运维分析。
九 数据关键技术-MetaOne
• 对使用者,元数据管理帮助用户更好地对数据资产进行管理,理清数据之间的关系。
• 对开发者,元数据管理增强系统可视性,-致性,并消除冗余,从而提高开发效率。
十 数据编排关键技术-算子
算子是一个函数空间到函数空间.上的映射O: X- →X。广义的讲,对任何函数进行某-项操作都可以认为是一张老师、甚至包括求幂次,开方都可以认为是一个算子,只是有的算子我们用了一-个符号来代替他所要进行的运算。
在大数据分析系统中(例如Spark) ,算子其实就是一个处理单元,往往是指一个函数, 在使用算子时往往会有输入和输出,算子则完成相应数据的转化,比如: Mapping、 Filter等都是算子。
数据编排将大数据相关的能力,抽象成图形化的算子,通过界面化设置算子属性,来实现数据开发。
十一 批处理流程编排
基于Spark的并行化计算能力,提供OOTB的数据转换与计算配置能力,转换操作节点可直接拖拽到画布围列转换、连接、去重、过滤、分组、查找、合并、路由分发、排序、联合等数据操作。
• 数据抽取
• 数据转换
• 数据加载
十二 流处理流程编排
流处理本质是一-个无界的批处理,或者反过来说也成立,批处理是有界的流处理。所以单从编排的角度来张老师
基于Flink的并行化计算能力,流处理编排提供毫秒级的窗口时间配置和执行能力,支持流式数据的分组、映射等转换能力。
十三 统一调度编排
统一调度是对数据处理任务的顶层编排,是完成特定功能的实体。为了降低数据处理逻辑的复杂性,将整际老师公,割为多个步骤,每个步骤负责完成特定的任务。通过将不同的数据处理逻辑组合- -起, 来实现一个复杂的数据处理业务过程。
统一调度提供对任务执行流程的控制机制,包括调度策略的配置和管理等。
十四 模拟数据管理&在线调测
提供测试数据上传和管理能力,提供按照指定策略生成模拟数据能力,在线调测指基于平台中已有的数据或用一准备时数据,对批处理、流处理算子编排进行业务逻辑调测。在调测过程中可以通过算子输出的数据对比验证业务逻辑的准确性。遇到计算失败的算子,可以查看日志进行问题定位。
十五 实战案例
15.1 基于批处理的网络质差监控
• 业务背景
网络稳定是设备正常运转和安全生产的前提,定期统计监控网络质量,如定期统计各个区域的质差网络占比,以监控网络质量。
• 业务需求:
每天统计北向区域内质差网络占比。
• 功能需求:
统计北向区域(NR) 中,基于小区内掉话率和接通率统计质差小区。假定掉话率大于0.5%,并且接通率小于95%为质差小区,计算每个区域中质差小区占比。
15.2 Case2基于流处理的电机温度监控
• 业务背景.
企业通过在电机上部署温度传感器,实时采集和监控设备状态,确保安全生产。
• 业务需求:
按照时间窗口统计电机温度,并和标准参考数据做对比,如果超过阈值,则生成相应级别的告警事件。
• 功能需求:
每60秒一个时间窗,统计传感器在时间窗内探测到的最高温度,并和参考数据做对比,超过阈值记录对应告警事件。
结语
华为低代码支持智能数据分析编排,同时支持第三方系统集成。
低代码平台对于企业实现数字化转型有四大好处。第一,低代码开发降低了编程的门槛,没有任何编程经验的业务人员只需经过简单培训即能上手使用;第二,低代码平台的一体化编排能力,极大加速了相应业务场景的开发进程,节省了大量开发时间;第三,对于开发完后的应用,低代码平台可提供测试、部署、发布以及维护等一站式服务;第四,所有开发成功的应用是可复制的,业务人员可以将稳定、高效的应用快速分享至其他业务场景或部门,实现批量化增效。
本文整理自华为云社区内容共创活动:任务2【极简开发·慧享未来】低代码平台关键能力之数据编排。
查看活动详情:https://bbs.huaweicloud.com/blogs/308924
- 点赞
- 收藏
- 关注作者
评论(0)