【云驻共创】数据工坊平台,0代码开发数据处理业务“快”人一步

举报
炒香菇的书呆子 发表于 2022/08/01 23:50:26 2022/08/01
【摘要】 预计到 2025 年,全球数据量将达到 180GB, 这其中 88% 是非结构化数据。到时候国内移动终端将达到 400 亿部,IoT设备约二十五万亿个。这些设备将产生大量的图像、音视频、文本、传感器数据等非结构化内容。

预计到 2025 年,全球数据量将达到 180GB, 这其中 88% 是非结构化数据。到时候国内移动终端将达到 400 亿部,IoT设备约二十五万亿个。这些设备将产生大量的图像、音视频、文本、传感器数据等非结构化内容。

据作为企业的核心生产资料,如何挖掘数据价值?通过算法流程将数据分析、加工处理,挖掘出更高的价值是企业的关键竞争力。更多的企业在业务中融入高效低成本的应用数据处理能力。如某知识平台每天有超过 5 万条视频需要截图转码审核,以便于在平台上发布。某图库每天有超过两亿张图片需要经过审核加水印后上架销售。某网盘每天需要处理 2000 万次文档预览,某企业每天需要进行 7000 次票据的内容识别。
全球每天万亿级别的非结构化数据需要处理,数据处理的方式也随着技术的发展在持续变化。传统的数据处理是以应用为中心,我们叫做应用驱动阶段,数据围绕应用走为不同的应用软件购买不同的存储设备,数据分别存储严重影响数据在构软件间复制流动。这种方式依托企业业务流或IT 软件,将各种数据处理串起来,研发投入大业务变更依托软件更新难度大、效率低、成本高。

云计算技术应用之后,数据处理进入算力驱动阶段,通过虚机容器、弹性伸缩等技术实现了算力的动态调整,数据围绕算力进行流动和调度,用户通过算力编排实现对数据的高效处理,通过弹性伸缩实现对算力的按需使用,节省了成本。随着 Serverless 净数据计算等技术的成熟,数据驱动的处理方式逐渐兴起。由离数据最近的存储侧出发,通过流程编排,根据用户自定义流程调用相应的处理算子,以 Serverless 或 API 的方式就近完成数据处理。 零代码实现业务逻辑定制秒级实现业务逻辑更新。算力按需使用,丰富的算子可供选择,让业务使用更高效简单低成本。

华为云低大互联 R 数据工坊,基于华为云存储叠加数据处理引擎,为客户提供图形化编排工具、自动工作流、制定算子等能力,便捷实现图片、音视频、文档等非结构化数据处理,为数据处理伙伴提供算子自动注册、统一运维平台、算子应用市场等能力。开放算子库中的算子是数据处理能力的承载单元,每一个算子提供一个数据处理的能力。这些算子有来自华为云内部的开放能力,比如图片剪裁、人脸识别、视频转码的能力,也有来自第三方伙伴的优秀能力。比如来自大西科技 九云图的文档预览能力、来自知道创意图谱科技的内容审核能力、来自皮卡智能的智能图片处理能力等。
DWR数据工坊,就像它的 logo 一样,既代表无限的数据处理能力,又是数据处理用于与伙伴之间的桥梁连接数据处理需求与能力。用户据DWR提供的海量算子,利用图形化编排工具,通过拖拽方式用算子组合出数据处理业务流零代码完成数据处理逻辑,支持 Serverless ,API 用户自定义算子等多种调度方式。按需使用、按使用付费,可实现分钟级业务上线,高效应用,低成本助力客户业务成功。

对于算子合作伙伴接入DWR可以为成千上万的华为云客户提供数据处理服务,伙伴通过发布数据处理算子,分享这片蓝海市场。同时华为云还将对伙伴进行政策支持和引流赋能,帮伙伴实现能力变现。

2. DWR数据攻防特点


DWR数据攻防联合业界优秀的数据处理伙伴,将数据处理能力服务化,以算子的形式开放给客户。DWR当前已提供图片处理、音视频处理、文档处理三大类 82 个子类,每个子类又包含多个伙伴所提供的算子能力,如文档类、算子浏览子类,就有大西科技和九云图两个伙伴所提供的算子。客户可以根据业务需要选择算子,也可以对同类算子设置储备、负荷分担等不同调动关系,实现业务的高可靠。
使用算子进行数据处理时,客户需预先通过图形化编排工具配置好数据处理工作流。DWR 会根据在 OBS 桶策略中设置好的触发条件,针对 OBS 桶内的数据操作触发对应的数据处理工作流。当前DWR支持 put,get, delete ,copy 四个触发操作。

工作流触发后按照编排的业务流程依次调用算子对数据进行处理。过程中结合算子配置中设置的参数以及触发器传递的参数,由数据处理算子按照参数进行加工处理并返回处理结果。整个过程全自动运行,支持自定义算子回调函数,针对工作流运行结果灵活处理算子调度,支持同步和异步两种模式,真正实现了零代码开发,数据轻松处理。下面我们就来看一个实际数据处理业务的配置和使用操作过程。

2.1 使用DWR进行数据处理


首先需要登录到 DWR的控制台,点击 DWR控制台左侧导航中的工作流,进入工作流界面。


第二步,点击界面右上角创建工作流按钮,进入工作流编排界面。

第三步,从左侧选择所需要的算子,我们将皮卡智能抠图拖拽至中间的工作流编排框中,并按照业务顺序进行编排。在右侧的算子参数界面填写算子所需参数,点击保存工作流,输入工作流名称,选择工作流类型以及是否支持匿名访问。如果是异步工作流,还需创建工作流触发器。下面我们就来看看实际效果。在 OBS 控制台上传一个图片对象访问该对象以同步方式触发工作流,可以看到图片已经按照工作流的设置完成抠图处理。

DWR 数据工坊针对不同的算子提供多种计费模式,如针对为图片处理提供按次或按流量计费、视频转码、按照视频时长计费,文档处理,支持按页的计费多种模式。 DWR也支持按需使用和购买套餐包,最大程度地满足客户不同的需求。

2.2 DWR数据工坊支撑算子伙伴


华为云是中国市场 NO.2,全球市场 NO.5 的云厂家,也是成长最快的云厂家,业务覆盖 15 个行业,服务 80% 的 top 50,互联网客户 93% 的 top 15 基金公司,拥有 220 多家金融客户,30家拓普汽车制造客户,并建设了超过 600 个政务云。

华为云存储超过 10 亿笔数据,包含十万亿图片、50亿小时视频和超过 1000 亿文档。 DWR 当前每天处理 5 亿多图片转码、3亿多次视频截帧和超过 3000 万次文档审核。华奥云现在通过 DWR 数据攻防,将如此庞大的一个蓝海市场开放给伙伴发布算子到 DWR 上。首先在华为云市场上将所提供的数据处理能力发布为 API 商品。在 DWR 上创建公共算子,通过 DWR 审核后就可以将算子发布为公共算子供客户使用,最快 3 小时就能完成从创建算子到上线的全部过程。下面我们就来实际体验一下发布公共算子的过程。

发布公共算子前,需要先将您所提供的能力在华为云市场上架为 API 商品,这个过程可以参考华为云市场 API 商品上架流程。下面我们开始发布公共算子。


第一步,在DWR数据工坊的控制台侧的发布算子按钮,再点击右上角的发布公共算子。


第二步,填写算子名称、算子提供方、算子描述、API链接等基本信息,选择算子分内核算是 logo 同时完善英文信息。

第三步,上传算子文件,包含算子代码包和相关文档。

第四步,配置算子参数包含 inputs 参数、动态参数、权限、版本等,然后阅读服务声明,点击同意并提交即可完成公共算子的创建。公共算子创建后会提交到后台进行审核,审核通过后会发布到算子市场,用户可以在算子市场查看到发布的公共算子。




要成为DWR的合作伙伴,首先我们的能力要支持 API 或 service 方式的调用服务,支持云化部署,算子可用性不低于 4 个9,且具备 7 *24 小时运维服务能力。为了鼓励伙伴将算子发布到 DWR 算子市场,我们近期也推出了伙伴支持计划。从即日起至 2022 年 12 月 31 日,凡注册算子成为 DWR 合作伙伴,补贴算子上线到实现首单销售的云资源费用,补贴金额以实际使用资源为准,每月补贴不超过 4000 元,最长补贴两个月。同时我们还将为伙伴提供华为云算子推广服务,帮助伙伴进行算子销售。 DW 2 能方便快捷的借助伙伴算子,同时为客户提供便捷易用、低成本的数据处理服务。近期我们联合西安大溪科技一起帮助苏易烧仙草在一天时间内快速实现了文档预览能力。


3. 共建数字化新能力,共享数字化新红利


office web 365 是做什么的? office web 365 是通过服务器对办公文档进行转码,转换成 HTML 文件。用户可以在浏览器里面直接预览文档,就像查看图片一样,方便这一技术的实现,在用户的交互体验方面是一次巨大的飞跃。要实现这个技术,对于用户来说感觉很平诚很简单的一件事。但对于实现转码这个过程却是一个浩大的工程,它的难度不亚于一款工艺软件的开发。

office web 365 是怎么来的?我们把 2014 年之前的文档在线预览定义为预览的蛮荒时代。那个时代,用户要想在浏览器里面预览文档,有两种技术路线,一种是通过 IE 浏览器的插件拉起用户的 office 客户端。另一种方式是用户在上传文件后,服务器拉起 office 客户端转换成 PDF 然后通过 Flash 插件实现预览。两种方式都有很多问题,很多接触过的开发人员都有过深刻的体会。

2014 年,我个人开始尝试从文能自身的结构入手,不通过第三方根据文档结构把文档内容转化成 HTML 过程中经历了很多困难。为了优化打开速度,我们的 Excel 和 PPT 架构将历过代码推导重来。 office web 365 有哪些特点? office web 365 采用直接对 office 文件进行底层解析并转换成 HTML 文件,不需要在服务器端、用户端安装 office 软件以及任何的插件。

我们的技术令点第一,解析速度非常快,我们追求毫秒级的用户体验,普通文档在 100 毫秒内解析完成,小文档甚至可以达到 20 毫秒。

第二,商场的 HTML 页面小一页 word 仅 3kb ,一张 Excel 表格仅 7kb ,而且不加载其他第三方的 GS 的支持异步加载,非常适合移动端预览。第三是原样呈现,office客户端看到什么样,在浏览器中就是什么样批注公式等等都可以查看 PPT 支持音频视频动画效果。第四,支持所有的浏览器。最后一点,自主可控的文件底层解析技术,集年轻与未来于一身的 office 在线预览解析技术,office微博 365 的发展历程。我们这样将立的两个阶段。第一个阶段,迎接用户数量的快速增长。在我们开发完第一版的程序后,我们面临的第一个问题是服务器硬件的问题。得益于 2015 年的云计算兴起,我们可以通过低配的服务器来部署,给第一批客户提供服务。随着客户的增多,云计算的优势体现出来了,可以随时扩容云计算基础设施一直是我们为用户提供稳定服务的坚定基石。在产品快速迭代、用户快速增长的时期,他给了我们充足的信心。第二个阶段,更接近用户。云计算发展到了云服务市场上出现了更多形态、更多种类的数字化新能力,用户和开发者已经不再关注服务器,更多的是关注业务本身。在业务需要一种新能力的时候直接拿来使用计算,就像自来水一样,我需要的时候拿来用,用的时候我只需要拧开水龙头,不用为了一次文档转化,在购买服务器,在部署软件,在调试接口等一系列繁杂的操作。

华为语音数据工坊就是提供了自来水从主管路到用户拧开水龙头的这端基础数字设施。依托华为云数据供奉平台,用户可以简单地接入算子。我们有向加入了算子市场,为用户提供基础的文档转码能力。我们与用户与开发者更进一步了与数据工坊的结合。我们是一群技术窄,商业变现能力非常弱,数据攻防不仅为客户创造了价值,也为开发者的变现赋予了更多的超能力。

华为语音开天 aPaaS 汇聚了行业开放能力,助力行业场景化创新。 office web 365 上架了开天 aPaaS 的 APS 支持各行业开发者便捷的消费和使用文档在线预览 API 能力。同时,为了用户更方便地使用 office web 365 文档在线预览服务,成为数据工坊的一个算词。用户在编排自己的工作流时拖动算此即可实现文档的在线预览,省去了中间大量的环节。

对于合作伙伴来说,算子市场提供了更多的优势。

第一,流量优势,我们不需要再去开拓开发者市场,使用华为云服务的开发者可以直接在算子市场发现,我们甚至之前没有醒做文档预览的,看到算子市场有这个算子直接拿来用了,流量可靠直观。

第二,计费清晰。传统模式,我们开发者既要开发服务,又要开发配套的计费方式,维护不同的计费体系。而这些数据攻防已经帮我们解决了,某种意义上我们与数据攻防是同一个目的,共建智能世界的云底座。数据工坊离用户更近,它架起了算子开发者与用户之间的桥梁,一切都要经历市场的检验。我们专注于 office 在线预览服务,为企业提供完善的整套的文档预览解决方案。我们一直为字节跳动、科大讯飞、上海泛微等客户提供长期稳定的在线预览服务。与数据工坊合作后,我们在一天时间内完成算子开发与上架,并帮助书亦烧仙草的在线办公系统集成,我们的文档预览能力得到了用户的好评。

office web 3.5 的未来,我们下一步将依托华为数据工坊的算子市场,一起共建数字基础设施,加大研发力度,各项参数继续领先于同类产品。我们的在线编辑功能,我们具有底层开发的优势。下一步我们在编辑能力上继续扩大这种优势。


助力低代码下的计算机视觉AI的应用

文道控股市创新的科技生态公司、国家级众创空间和国家级孵化器,已经成功孵化出知名的跨境电商、金融科技等领域的企业。皮卡智能是 2019 年由 AI 领域的知名专家刘美博是谭咏先生以及王道创始人熊伟先生、王征先生带头组建的基于 AI 训练模型深度应用于视觉效果处理和生产的新业态孵化项目,启航于人工智能的蓝海,承托着创造美好生活的使命,肩负着元宇宙新数据生产力的责任。

皮卡智能拥有全球顶尖的算法模型、高效的协作团队,神奇的产品内容。 2020 年 11 月,皮卡智能图像背景分割算法斩获Aipla matting.com 全球排名第一,目前用户遍布 30 个国家和地区,单月调用量破亿。我们在视觉领域走出了一条处于自己的发展道路,无论从自营模型到自建 pick up 数据训练框架,再到跨平台部署等,同时基于人工智能进行深度训练,我们的成中国论文也被发表在核心期刊 ICCV 和以及被顶会 tmm 所接纳。大家有兴趣的话可以去翻阅一下。

运用人工智能的技术提高数据生产力,简化所有人的艺术创作门槛,让美好的事物更加容易被发现。用人类和机器的智慧去创造和改变世界,让人人都可以拥有技术带来的便捷性和创造性是我们的使命。接下来我简单介绍一下我们为华为DWR数据公反上架的一些基础能力。

第一个就是智能元素提取,就是图像背景分割技术自动识别图像中的主体部分进行提取。用通俗一点的话讲就是抠图,我们可以做到发丝级别的智能抠图。之前说到过的 2020 年 11 月份的时候,皮卡智能图像背景分割算法斩获全球排名第一。目前该功能已经上架到华为云市场,以及发布了DWR算子,欢迎大家来使用提取元素或者主体图片。
之后,我们就可以在诸如电商主图的制作、创意背景的叠加、海报制作、POD个性化打印证件照等等场景来使用图像超分增强,我们可以对低分辨率的模糊图片低分辨率的 logo 进行一些增强,变成一个高分辨率图片。有时候你给老领导照的照片聚焦没有抓拍好,可以拿这个增强一下,一些老照片比较模糊,都可以来处理一下获得新生。

目前该功能也已经上架到了华为的 API 市场,以及发布了 DWR 算值卡通头像和全图动漫各种各样的卡通风格,我们有言情风格、日漫风格 3D 卡通风格我们这种风格还在不停的新增当中,满足大家方便的制定制作自己的卡通头像。目前该功能已经上架到了华为云市场的 API 市场,以及发布了 DWR 算子图像修复,简单涂抹就可以去除不想要的路人手脚电线杆、垃圾桶、栏杆,甚至汽车、船桥大楼这种画面中的巨无霸,不用苦苦寻找位置,等待时机没有完美的拍摄,但是我们可以创造完美的图片照片 AI 上色,可以对黑白的老照片进行智能上色,让照片重新焕发光彩,展示出不一样的魅力,让您和家人记忆更加与栩栩如生,仿佛昨日重现,体会到不一样的心情和感动。

借助 AI 的能力,我们可以让文字或者表情在别人的图像中表达出来,基于文字和语音字合成和转化结合表情驱动的技术,让图像动起来。像之前比较火的抖音上的一些麦拉黑的那个就是这种类似的技术,我们提供制作类似视频的一些接口,让广大没有 AI 能力的开发者只需要接入我们的接口即可获得一些 AI 赋能。 AI 实时视频背景分割。我们有基于 AI 的视频实时去除背景的能力,对绿幕的要求会降低。我们看到一些会议的软件都有类似的功能,可以在开会的时候把家中的背景换成海边,一些商务的办公场景都是类似的技术。我们有提供网页端的 SDK 用于一些低门槛的无需安装 App的一些场景。目前我们在和一些远程诊疗解决方案的公司在合作这一块还有一个证件照。

智能证件照是我们智能抠图在人像领域的一个解决方案,一键生成数百种尺寸的标准证件照,一键换底色,一键换砖,给你换上不用不同样式的一个证件照的一个着装。

4. 华为数据工坊中使用算子

第一步先创建一个工作流,然后在左侧找到皮卡智能发布的几个图像,关于图像处理的算值,把它拖拽,再到这个工作流的中间。

然后填写上一些动态参数,以及在华为云市场购买的我们的 ap API 的一些 API key 和 API secret 然后通过创建一个工作流的事件触发器,在事件触发器里面填上对应的这个文件夹的一个前缀存储桶的文件夹前缀。然后在这个文件夹下上传一个测试图片,然后我们就可以得到一个这个工作流的一个结果。


5. 总结

华为 DWR数据工坊提供了非常好的数据工作流编排的架构,使得AI企业能够将一些视觉智能算法集成在里面,供大家便捷地使用,希望华为数据工坊能够越做越好,并且实实在在地帮助到广大的开发者和使用者。

本文参与华为云社区【内容共创】活动第18期。
https://bbs.huaweicloud.com/blogs/364560

数据工坊平台,0代码开发数据处理业务“快”人一步

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。