618大促袭来,华为云让电商平台摆脱数据“包袱”

举报
华为云社区精选 发表于 2020/06/17 18:48:37 2020/06/17
【摘要】 华为云大数据DWS、CDM、CS、DAYU、DLV系列云服务,助力华为商城构建电商大数据平台。

近期,618大战如火如荼,各商家不仅是销售额的比拼,更是技术间的较量。开发者关心的是什么?华为云官方揭秘618背后的神秘黑科技:聊聊有哪些厉害的技术,能为618大促保驾护航?能大大提高程序员的幸福感?欢迎点击我们的黑科技攻略专题,也欢迎留下你的想法哦~~

618是消费者的狂欢节,于电商平台来说,则是一次技术大考的关键期,当大量的交易数据、用户流量涌入到后台时候,如何能够保证电商大数据应用整体性能的稳定性至关重要。

当前,华为商城VMall就将电商大数据应用由TIDB+Spark集群搬迁到基于华为云以DWS数据库为核心的数仓平台。搬迁后,电商大数据应用整体性能大幅提升,核心行为表加工历史需要3小时,迁移后只需要10分钟,性能的提升及极简的工作流部署平台,极大的鼓舞电商大数据团队的交付信心,证明在云上构建数据平台的方向是正确的。

电商是一个ToC的平台,就近部署及用户突发流量等场景需要华为商城VMall将交易系统部署在云上,以便实现异地多活及快速扩缩容场景。

数仓平台和交易系统最大差异是需要将多地数据汇聚一起进行分析,以统一的数据***进行数据的清洗整合、资产构建,并对外提供数据服务,而数据分析的时效性是数仓平台达到核心能力,为了提升同步速度,华为商城VMall决定将数仓和交易系统构建在同一个网络。

传统数仓资源开销大,叠加效应令人崩溃

华为商城早期的数仓选用的OLAP+OLTP二合一(HTAP)的TIDB+TISpark,环境是通过华为云物理机进行部署,解决了数据实时集成的问题。

电商数据流主要分两块:

第1类是面向交易的订单、商品、活动、发货等数据;

第2类是平台运行的实时日志及用户在平台上活动产生的行为数据。

针对1类数据,TIDB完美支持mysqlBinlog解析,同时TIDB集群中负责数据读写的TIKV集群通过多region+顺序KVMap较大提升数据读写性能,通过运维配置即可实现交易类数据近实时同步(延迟大部分在亚秒内)。

                                               

图1:TIDB 中TIKV的逻辑图

结合tiSpark的数据分析计算能力,数据导入TIDB后分析千万级的交易数据问题不大,但是到亿规模的行为数据就有很大瓶颈了,IO和CUP性能开销很大,从系统上分析主要如下两个问题:

  1、当前版本TIKV为行存储,分析型数据库肯定选列存储提升数据扫描,同时也能有更好的压缩比进一步降低IO。

  2、TIDB一直没有开发分区表,导致分析场景都是走全表索引。更多的数据扫描会导致在计算阶段导入很多不需要的数据,进一步加剧计算的负荷。

TiSpark的问题也开始凸显,Spark只是作为计算集群,其计算好的数据是需要通过sparkcore write算子输出到tiKV进行存储,开发上只能通过scala脚本进行SQL封装,开发及发布效率很低。

其最主要的问题还是资源开销很大,在主流程计算的三小时期间Spark集群的资源是满负荷运作,基本没有额外资源使用,这导致一旦任务出现异常需要重跑时受限于资源问题,需要花费很长时间修复,历史数据补录也是个灾难。叠加效应会让人很崩溃,疲于应付但看不到希望,需要尽快做一些改变。

好马配好鞍,电商大数据平台选型指南

随着华为公司的GaussDB取得商业成功,GaussDB也入驻华为云平台作为数据仓库服务(Data Warehouse Service,简称DWS)的主流引擎,同时其他项目(集团DataLake)也使用过GaussDB,所以华为商城很自然的就上车了,快不快还不好说太早,但至少开的还挺舒服。

做大数据BI系统,离不开三套件ETL(数据集成服务)+DWS(数仓)+DV(数据可视),这个是最为核心模块:数据先经过ETL处理,把不同系统模块数据整合到DWS,然后在DWS进一步清洗、整合、规则处理,实现实时、完整一直准确的数据***,最终通过数据可视平台Push到平台产品及运营同学进行可视分析。可视化是最基础的一环,只有先可视,才可以通过定义指标基线进行数据量化采集,以此来逐步迭代改进,优化平台能力和指导运营。

除了基础三套件,为了工业化量产,还需另外三辅助装备:

  1. 统一的workflow调度平台,以此来打包上述的数据加工流程,将数据任务调度编排、发布、运营维护进行可视化操作。

  2. 统一数据服务发布平台,将数仓服务进行封装打包对外统一呈现基于Json格式的restFul接口,数据工程师只需要专注于业务逻辑开发,其他的数据容器服务、API接口的调用授权、流控限制、扩缩容都交给数据服务平台搞定。

  3. 数据血缘分析平台,这是一个开发和维护成本都巨高的平台,因为要解析上述各种平台的数据信息,将其通过数据表进行关系呈现,自动化程度要非常高否则数据不实时反而误导人,但其收益要看数据团队规模,规模越大越能降低每个开发人员使用数据的成本,就目前华为商城的情况看,这是一个重要但是优先级没那么高的任务。

 上述这3+3组件,在华为云都有配套PaaS服务可以直接申请使用,但是选项是多种,比如数据库就有基于GAUSS的DWS,基于HADOOP的MRS等,华为云好比是一个武器库,商业公司需要选合适自己的武器去赢取商业成功,结合电商平台当前情况,业务对数据时效要求较高,所以选全SSD类型的高配DWS作为数仓无疑是当前最优解。

再就是集成和可视。

数据集成分为离线和实时两块,前文提到华为商城有实时通过binlog日志实时集成交易数据,但是DWS目前暂时还不支持通过binlog集成数据,所以选用了华为云CDM数据集成服务,CDM将各种数据源接口做了封装,支持了几十种数据存储平台之间的数据同步,功能非常强大,而且其底层基于开源sqoop做的开发,可以scale out扩容,性能可以做到亿规模的数据小时内完成同步,满足绝大多数数仓的集成场景。

2.png

图2:CDM离线同步任务

 

其次是实时集成模块,华为云提供了基于Flink、Spark两种流计算引擎的CS流计算服务,随着Flink社区的活跃及FlinkSQL对应用开发者极大的门槛降低,通过SQL的形式即可实现流计算,华为云将通用的消息中间件封装成对应数据输入的source算子,逻辑层用SQL作为表示,各种数据存储平台作为sink算子封装,如果用原生flinkAPI的方式,开发及发布一个简短的输入输出任务,起码得2小时才可以完工,但是现在一站式的流计算平台10分钟即可,2分钟编辑后进行语法校验,绝大多数问题都可以在这个环节规避,发布之后,基本就是通过数据可视界面,查看其输入输出的数据信息进行校验监控。

3.jpg

图3 :CS流计算任务

 

可视模块在华为云上是DLV服务,目前是以大屏场景为主,界面炫酷,发布起来也是很快,华为商城有一次大促活动需要临时加一个指挥大屏看数据,2个开发人员加了2小时班,一个做前台,一个处理数据逻辑,完成了一个0.1版本,可以凑合发布了,之后再持续迭代优化效果。大屏缩略图如下图所示。

4.jpg

图4:大屏缩略图

 

但是BI的数据可视场景,对数据的交互查询要求较高,基本的筛选框,复杂的还需要图像和表格的各种数据联动,目前DLV对这块还在版本开发阶段,期待早日发布。

三个核心数仓装备之外,还有一个极大提升发布效率的DAYU数据开发套件平台,DAYU平台以数据调度平台为核心作为扩展,融合了数据监控、数据元数据库管理、数据服务发布,这些服务目前华为商城大数据平台都有逐步使用,简单介绍下DLF(调度平台),因为DLF是数据开发人员一半的时间都是在使用该平台。以一个数据API发布来说,开发人员先在DLF上开启一个Job,拖入三个任务:CDM(将TIDB任务集成到DWS)、2个DWS SQL(一个做DWR层规则处理,一个做数据DWD结果呈现),然后将结果表数据通过DAYU的DLG服务进行API发布,其他领域即可进行调用。

多个简单场景重复叠加,就会演进出复杂入搜索、推荐场景,在华为云上也有针对电商推荐场景特别优化的RES(推荐服务),业务输入商品和用户数据,选择多种算法进行特征工程、召回、排序计算后封装成统一服务,供业务调用。

5.jpg

图5:搜索应用后台数据加工流程

 

基于华为云构建电商大数据平台的优势

目前华为商城电商大数据平台IaaS&PaaS层基于华为云进行构建,聚焦在数据应用开发,华为云也专注在平台研发,平台在快速迭代电商需求的同时,也会将外部业务的特性融入平台,比如调度平台的权限、资源隔离场景就是外部驱动起来,这个对电商业务也很重要,双方在各自擅长的领域深耕,互利共生。

基于华为云构建平台,优势主要体现在三点:

  1. 大幅提升平台部署能力,不需要考虑机房、网络、甚至数据库等基础平台的部署工作,直接云上申请创建即可。

  2. 提升业务开发效率,之前大量线下操作的配置开发工作,都搬迁到线上,业务大部分时间都在核心业务逻辑开发上,而不用考虑服务负载均衡、容灾等场景,平台层去进行统一迭代优化。

  3. 优化运维工作量,较少的投入部署和运维,高效的服务弹性伸缩由系统自动化或半自动化完成,同时也提升服务器的使用率。

华为云还有很大提升空间,特别在SaaS类应用上,华为云的优势在硬件和全场景整合,同时有快速迭代的能力,在拥抱云拥抱开放的平台上持续改进,相信会取得越来越多用户的认可信任。

6.jpg

图6:电商大数据架构图

在华为云大数据产品的助力下,电商平台面对诸如618这样大促,也能轻松灵活应对,给消费者带来最佳的体验。

 

如果不想错过智能数据湖的口碑产品,点击华为云的618大促活动,历史低价、试用打折……在这里找到心仪的产品。


【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。