【云驻共创】低代码平台关键能力之数据编排

举报
kaliarch 发表于 2021/11/29 11:38:07 2021/11/29
【摘要】 前言在信息化高速发展的大潮下,各行各业都在力求加入数字化转型的赛道,构建新的工作方式和服务模式尤为重要。然而,企业内部往往存在应用割裂、数据孤岛、业务断点等情况,给业务人员带来大量手工重复劳动的负担.....基于这三项业务难点考量,华为GDE的低代码平台应运而出,以快速赋能非IT专业人员参与应用开发和功能迭代,提高项目交付效率、节省时间和优化客户服务体验。【云驻共创】低代码平台关键能力之数据...

前言

在信息化高速发展的大潮下,各行各业都在力求加入数字化转型的赛道,构建新的工作方式和服务模式尤为重要。然而,企业内部往往存在应用割裂、数据孤岛、业务断点等情况,给业务人员带来大量手工重复劳动的负担.....

基于这三项业务难点考量,华为GDE的低代码平台应运而出,以快速赋能非IT专业人员参与应用开发和功能迭代,提高项目交付效率、节省时间和优化客户服务体验。【云驻共创】低代码平台关键能力之数据编排.docx它将具有公共属性的业务单元从前端应用中分离与沉淀,形成可共享使用的公共资源与能力,以“云服务+在线应用开发”的方式为企业解决灵活可扩展的业务诉求,实现业务与平台、应用与数据耦合。

在低代码平台中非常关键核心的一个能力就是数据编排,本文将系统性介绍。

一 大数据开发面临的挑战

IT技术的迭代迅速,开发门槛越来越高

散落的脚本、工具难以管理

应用重复建设

安全难以管控

从越发复杂的场景,到体量越来越大的数据,再到多样的应用系统,都对我们的大数据开发提出了更多的挑战。

二 数据开发平台DataFactory的定义

DataFactory是一个全场景、一站式的开发平台,其流程为数据接入->数据建模-> 数据探索->在线调测->数据开发->打包发布->CI/CD->调度执行->数据呈现->数据运维->数据运营。




其具备一下一下三大特征:

2.1 全场景数据编排

涵盖数据采集、建模、治理、计算、智能分析、存储、策略、呈现端到端能力。


2.2 低门槛开发模式

以no code/low code 拖拽开发为主,pro code开发为辅,使能业务人员,普惠数据敏捷开发。


释放业务开发人员经理,使得业务人员更专注自身业务。

2.3 资产原生(Asset Native)

编排资产由研领域特定语言DPL承载,屏蔽具体引起技术栈,可长期沉淀数据资产,长期复用和分发。


三 DataFactory的上下文

DataFactory处于DataCube的统一大数据处理引擎编排体验,实现数据中台能力开放,打造具备高易用性、低门槛、生态开放、可扩展的大数据处理核心的数据编排框架,具备兼容收纳SEP、Universe存量业务资产能力,打通数据编排和通用作业编排APP和模型断点。



数据编排DataFactory 为用户提用根据自身业务来使用DataCube的众多能力,

流程调用->流程编排,服务调用->通用作业编排,

X统一入口:入口、检索、开发流水线、打包、部署:GDE场景化编排。


四 DataFactory整体功能架构和关键特点

全场景一站式:All in one,包括数据源管理、模型建模、数据集成、数据批处理、流处理、策略引擎等场景下的数据编排开发。

低门槛高易用:屏蔽底层大数据技术栈,No Code/Low Code为主,辅以Pro Code,降低大数据开发门槛,同时满足多场景诉求。

资产积累沉淀:DPLL统一承载调度、计算、存储逻辑,与具体引起解耦,模型、数据处理过程、调度等资产可以长期积累沉淀。



全场景:涵盖数据集成、建模、治理、计算、智能分析、存储、策略端到端能力。

领先的开发模式:领先的DataPipline数据管道方式开发+DataMold数据模型驱动开发双引擎数据工厂,面向过程和面向对象有机结合。

低门槛: No Code/Low Code开发为主,屏蔽底层大数据引擎技术细节,通过拖拉拽图形化的配置即可满足大部分场景。同时提供自定义函数/自定义程序等代码注入能力,满足多样化场景。

设计运行分离: - -次编排,全球分发;支持设计和运行分离,保障生产安全。

资产沉淀和复用:编排资产由自研领域特定语言DPL承载,屏蔽具体引擎技术栈,可长期沉淀数据资产。支持模型复制和引用、流程/流程片段复制和引用、APP复制和引用;

智能化加持:算子智能推荐,画布智能连线,智能校验,智能联想,智能排版,流程智能修复,资源智能预测(规划)等。

安全可信:支持Meta流水线工具链、安全扫描。通用规则+自定义扫描规则(规划)。


五 开发态与运行态

开发态:用户根据业务需求开发APP环境。

运行态:APP的安装,启动、停止、卸载的运行环境。



能力开放:引擎(调度、计算、存储等)能力抽象封装成算子,DataFactory提供编排能力。

功能集成:数据源配置服务和MetaOne元数据管理服务通过菜单挂载方式集成DataFactory,视觉- -体化, 编排- -体化。

编译打包:在开发态Data actory调用Dolas的编译接口,将APP源码包编译成安装包:部分APP包在运行态调用Dolas进行二次编译,根据运行态的情况完成按需计算、合并计算等二二次编译工作;

应用包安装: App Manager进行应用包安装(解密、解签、解压后下发各模块DPM包给调度、引擎、存储)、启停、激活/去激活、卸载。

翻译执行:各引擎翻译器将DPM包翻译为对应引擎API,执行计算逻辑。

调度: - -级调度将各引擎和存储配合起来,完成业务逻辑处理。

数据查询:数据查询、探索分析。

统一认证鉴权:开发态和运行态都基于统一GAM进行认证鉴权。



六 DataFactory开发流程


从共创创建->数据源配置-> 数据建模->算子编排& 调测_> 调度配置->编译打包。


七 数据编排关键技术-数据源管理

系统配置服务(Reference System Configuration Service,简称RSCS) 提供数据中台数据源配置管理功能,包括支持预处的注册、第三方数据源的定义、凭证管理、运行态和开发态数据源的映射等能力。

7.1 开发态

在开发态,通过人机界面配置物理数据源,BDI、 MetaOne、DF访问数据源接口获取物理数据源信息,建立链接进行物理模型建模、在线调测等。


7.2 运行态

在运行态,通过人机界面、服务接口配置物理数据源,编排定制APP、BFS、Fstream、 DAC、AIP、 DBUS等服务通过对接数据源注册或者获取物理数据源信息并建链,实现业务处理。

八 数据治理

数据治理能力:

基于统-管理的数据模型(MetaOne),提供数据质量管理、数据资产可视与分析、数据标准管理、数据运维分析。

九 数据关键技术-MetaOne


对使用者,元数据管理帮助用户更好地对数据资产进行管理,理清数据之间的关系。

对开发者,元数据管理增强系统可视性,-致性,并消除冗余,从而提高开发效率。


十 数据编排关键技术-算子

算子是一个函数空间到函数空间.上的映射O: X- →X。广义的讲,对任何函数进行某-项操作都可以认为是一张老师、甚至包括求幂次,开方都可以认为是一个算子,只是有的算子我们用了一-个符号来代替他所要进行的运算。

在大数据分析系统中(例如Spark) ,算子其实就是一个处理单元,往往是指一个函数, 在使用算子时往往会有输入和输出,算子则完成相应数据的转化,比如: Mapping、 Filter等都是算子。



数据编排将大数据相关的能力,抽象成图形化的算子,通过界面化设置算子属性,来实现数据开发。

十一 批处理流程编排

基于Spark的并行化计算能力,提供OOTB的数据转换与计算配置能力,转换操作节点可直接拖拽到画布围列转换、连接、去重、过滤、分组、查找、合并、路由分发、排序、联合等数据操作。

数据抽取

数据转换


数据加载

十二 流处理流程编排

流处理本质是一-个无界的批处理,或者反过来说也成立,批处理是有界的流处理。所以单从编排的角度来张老师

基于Flink的并行化计算能力,流处理编排提供毫秒级的窗口时间配置和执行能力,支持流式数据的分组、映射等转换能力。



十三 统一调度编排

统一调度是对数据处理任务的顶层编排,是完成特定功能的实体。为了降低数据处理逻辑的复杂性,将整际老师公,割为多个步骤,每个步骤负责完成特定的任务。通过将不同的数据处理逻辑组合- -起, 来实现一个复杂的数据处理业务过程。

统一调度提供对任务执行流程的控制机制,包括调度策略的配置和管理等。


十四 模拟数据管理&在线调测

提供测试数据上传和管理能力,提供按照指定策略生成模拟数据能力,在线调测指基于平台中已有的数据或用一准备时数据,对批处理、流处理算子编排进行业务逻辑调测。在调测过程中可以通过算子输出的数据对比验证业务逻辑的准确性。遇到计算失败的算子,可以查看日志进行问题定位。


十五 实战案例

15.1 基于批处理的网络质差监控

业务背景

网络稳定是设备正常运转和安全生产的前提,定期统计监控网络质量,如定期统计各个区域的质差网络占比,以监控网络质量。

业务需求:

每天统计北向区域内质差网络占比。

功能需求:

统计北向区域(NR) 中,基于小区内掉话率和接通率统计质差小区。假定掉话率大于0.5%,并且接通率小于95%为质差小区,计算每个区域中质差小区占比。


15.2 Case2基于流处理的电机温度监控

业务背景.

企业通过在电机上部署温度传感器,实时采集和监控设备状态,确保安全生产。

业务需求:

按照时间窗口统计电机温度,并和标准参考数据做对比,如果超过阈值,则生成相应级别的告警事件。

功能需求:

每60秒一个时间窗,统计传感器在时间窗内探测到的最高温度,并和参考数据做对比,超过阈值记录对应告警事件。


结语

华为低代码支持智能数据分析编排,同时支持第三方系统集成。

低代码平台对于企业实现数字化转型有四大好处。第一,低代码开发降低了编程的门槛,没有任何编程经验的业务人员只需经过简单培训即能上手使用;第二,低代码平台的一体化编排能力,极大加速了相应业务场景的开发进程,节省了大量开发时间;第三,对于开发完后的应用,低代码平台可提供测试、部署、发布以及维护等一站式服务;第四,所有开发成功的应用是可复制的,业务人员可以将稳定、高效的应用快速分享至其他业务场景或部门,实现批量化增效。

未来以来,火力全开,快来使用RPA:https://www.huaweicloud.com/solution/rpa.html?utm_source=baidu&utm_medium=se-cpc-op&utm_campaign=&utm_content=&utm_term=%E5%8D%8E%E4%B8%BARPA&utm_adplace=AdPlace042258


本文整理自华为云社区内容共创活动:任务2【极简开发·慧享未来】低代码平台关键能力之数据编排

查看活动详情:https://bbs.huaweicloud.com/blogs/308924











【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。