【手把手带你玩转HetuEngine】(二)HetuEngine应用场景与案例

举报
HetuEngine九级代言 发表于 2023/07/03 14:55:24 2023/07/03
【摘要】 前言前面已经介绍了HetuEngine是什么,本篇文章讲带你了解HetuEngine常见的应用场景,与业务场景相结合,判断HetuEngine是否适应于业务场景。HetuEngine常见应用场景交互式查询场景  现状和挑战:查询慢:数据从入湖、Hive批加工,再搬迁到DWS进行交互式分析,整个链条数据消费时延长,对“反欺诈”、“实时风控”等高效应用存在不满足的情况;效率低:数据从Hadoop...

前言

前面已经介绍了HetuEngine是什么,本篇文章将带你了解HetuEngine常见的应用场景,与业务场景相结合,判断HetuEngine是否适应于业务场景。

HetuEngine常见应用场景

交互式查询场景

2.1.png

现状和挑战:

  1. 查询慢:数据从入湖、Hive批加工,再搬迁到DWS进行交互式分析,整个链条数据消费时延长,对“反欺诈”、“实时风控”等高效应用存在不满足的情况;
  2. 效率低:数据从Hadoop迁移到DWS是一个耗时的工作;
  3. 成本高:两套集群、数据多次备份,构建成本相对较高;

HetuEngine交互式查询方案:

  1. Hive加工完成后,HetuEngine就地实现交互式查询,数据“0”搬迁;
  2. 资源基于YARN进行统一调度,夜间更多资源分配给跑批任务,白天适当多分配给交互式查询任务,资源利用率高、成本更低;
  3. 支持多租户,多部门业务任务并行处理。

多数据源统一SQL查询场景

2.2.png

现状和挑战:

  1. 跨源数据分析复杂:为满足不同的分析需求,当前不同的数据分散在Hive、HBase、ElasticSearch、ClickHouse等不同存储系统中; 各自存储系统接口不同,跨源的数据分析复杂;
  2. 缺乏统一数据视图:数据分散到多库中,缺少统一的数据全景视图,不利于上层应用开发。

HetuEngine多源异构方案:

  1. 跨源数据协同:HetuEngine支持HDFS、HBase、 ElasticSearch、ClickHouse等异构数据源的关联查询;
  2. 统一SQL接口:异构跨源分析,采用统一SQL接口,降低应用开发复杂度,加速业务落地;
  3. 全局元数据:统一集群数据视图,提升数据查找效率;

湖仓协同查询场景

2.3.png

现状和挑战:

  1. 跨源数据分析复杂:现网已有数仓DWS,数据湖与数仓割裂,各自接口不同,跨源的数据分析复杂;
  2. 缺乏统一数据视图:数据分散到多库中,缺少统一的数据全景视图,不利于上层应用开发。

HetuEngine湖仓一体方案:

  1. 跨源数据协同:HetuEngine支持DWS与数据湖内Hive、HBase、 ElasticSearch、ClickHouse等异构数据源的关联查询,实现湖-仓的一体化分析,数据免搬迁;
  2. 统一SQL接口:湖-仓关联分析采用统一SQL接口,降低应用开发复杂度,加速业务落地;
  3. 全局元数据:统一集群数据视图,提升数据查找效率;

跨域协同数据分析场景

2.4.png

现状和挑战:

  1. 跨地域数据分析复杂:需要搬运数据,受限于网络条件等因素,工程复杂,数据分析时效性差;
  2. 受限法规无法搬运数据:部分场景因两地法规不同,不允许搬运数据,导致跨地域数据分析难以实施。

HetuEngine跨域协同方案:

  1. 跨地域数据协同分析:HetuEngine支持跨多个地域的数据协同分析,数据免搬迁;
  2. 统一SQL接口:跨域分析采用统一SQL接口,降低应用开发复杂度,加速业务落地;
  3. 全局元数据:统一多个数据湖的数据视图,提升数据查找效率;

HetuEngine案例

金融数据湖探索

2.5.png

业务挑战:

  1. 数据湖积累了全量数据,使用SAS、BI等分析工具对接Hive/Spark,难以高效分析湖内数据,数据难以快速变现(平均5分钟~2小时返回)
  2. 全量湖内数据与数仓数据无法关联分析,数据湖难以利用数仓加工后的主题数据
  3. 基于Hive的BI分析业务并发能力不足(小于10)

解决方案:

  1. HetuEngine通过本地化计算、执行动态过滤、执行计划缓存、多维度算子下推、ORC Cache等多种智能自适应优化技术,提供秒级交互式查询能力
  2. HetuEngine提供数据湖数据关联DWS分析,湖内数据加工可以直接利用DWS加工过的主题数据
  3. HetuEngine提供ResourceGroup并发控制、user acl缓存机制、内核参数优化,提高并发能力
  4. 兼容Hive语法和UDF,支持无缝应用迁移、

客户价值:

  1. SAS建模分析、自助BI分析,查询性能提升5倍(Spark->HetuEngine)
  2. 高效关联分析,重复利用已加工的数据仓库数据,提升湖内数据分析时效性从分钟级提升至秒级,统一SQL接口,开发效率提升2倍
  3. BI业务并发TPS可达到45.2,阶梯式并发最大可达到200,平均时延8秒
  4. 无缝应用迁移,支持灵活数据探索的同时,节省90%业务改造成本

跨域协同案例

2.6.png

HetuEngine实现跨地市的协同计算,一个SQL就可访问全部数据源,直接做数据分析。
业务痛点:
  1. 跨域分析需人工摆渡:数据需搬迁本地,操作复杂,平均响应时长30分钟以上
  2. 跨源数据访问难度大:组件多、语言多,关联分析应用层业务逻辑复杂,上线需数周

使用HetuEngine后的效果:

  1. 跨地市数据秒级协同分析:“数据免搬”,将亿级数据跨源分析从1443秒优化到32秒,效率提升近50倍
  2. 统一SQL,简化用数:全局SQL接口查询分析,业务上线效率提升10倍(周->天)

HetuEngine特性介绍

高性能交互式分析

动态过滤

2.7.png

基于运行时推断出来的信息进行数据动态裁剪,降低不必要的数据读取,有效减少IO与网络传输,提升性能

PB级数据秒级响应

MPP架构,算力资源、存储资源横向扩展,从容实现PB级海量数据高并发秒级响应

单租户并发1000

三层分布式架构,有效破解传统MPP并发瓶颈。单租户并发达1000+

智能预计算 

2.8.png

基于智能分析SQL执行历史记录,自动实现对热查询计算结果的预先计算、自动刷新,实现业务无感知的预计算加速

Data Skipping

通过结合文件索引信息,在scan过程中快速筛选文件,实现对Hudi格式数据访问IO降低90%,性能提升4 倍

智能化分析引擎

自动路由

2.9.png

自动将SQL任务请求进行动态路由,交给最恰当的计算实例来执行,达成系统高可用、资源利用率和并发容量最大化

自动调配

2.10.png

自动调配超大SQL实时计算规模,自适应细粒度平滑调度,提升任务执行成功率,有效防御偶发性大任务对系统的瞬间压力冲击

自动学习

根据用户使用习惯,自动提取SQL语句、资源占用、耗时等多维特征,采用机器学习训练挖掘任务间潜在内在联系,基于预测收益最大化原则自动生成热缓存(物化视图)详细定义

自动诊断

2.11.png

自动完成SQL任务、用户行为等多维度指标统计,结合语法、语义特征快速定位出质量欠佳的SQL语句和用户信息,提前预示业务风险,运维效率提升5倍

自动加速

2.12.png

自动创建和维护物化视图实现智能预计算,实现对高价值业务访问请求的自动识别与加速,同时有效降低整体负载压力,优化系统稳定性和并发

统一SQL

动态感知

动态感知任务运行时的数据源元数据,避免事先收集元数据,保证实时有效性;动态感知访问权限策略变化、数据源信息更新,保证数据安全性

统一模型

2.13.png

提供数据源可视化注册能力,实现统一的数据源命名空间、统一的元数据模型,及在此基础之上的统一的权限、访问、管理模型,同时保持开放性、可扩展性

多源异构关联分析

2.14.png

一条SQL打破内部数据墙,业务上线效率提升10倍,跨域协同性能提升50倍。支持跨源跨域统一SQL访问,支持结构化与半结构化数据源之间的关联分析,使能数据湖内、湖间、湖仓一站式SQL融合分析

计算下推

跨源、跨域计算下推,综合多种优化规则自动完成SQL改写与子任务下推,实现近似本地数据访问性能体验,支持remote UDF下推、文件级scan下推,网络传输数据量降低90%

高级UDF语法

提供SQL语法在线新建UDF,支持定义local UDF(HetuEngine解释执行)、remote UDF(远程数据源解释执行),重用数据源UDF,满足统一SQL引擎的关键业务需求

云原生

分布式组网

2.15.png

不同地域间HetuEngine动态组成拓扑网络,组网成本低,上线速度快,无需元数据采集同步,支持动态添加/移除,支持数据受控对外开放,支持高性能跨域加密传输,性能提升50倍

弹性伸缩

2.16.png

支持自动触发,架构灵活,按需扩展,实现集群资源利在线平滑伸缩无损业务,同时支持管理员人工触发和基于业务负载周期变化用率保持在适合区间

统一入口

2.17.png

提供静态IP、端口形式的访问入口,支持客户端通过用户名密码/Kerberos方式连接并提交SQL,无需感知后台集群信息,体验与传统DB保持一致

统一安全

2.18.png

一站式鉴权访问,降低数据开放难度。统一认证方式,支持标准SQL对接,支持库、表、列、行等细粒度权限控制。支持脱敏加密

可视化运维

2.19.png

支持计算实例可视化管理(发放、停止、删除、修改计算实例)、数据源信息可视化管理(创建、删除、更新第三方数据源信息),信息刷新动态秒级生效,计算实例平滑伸缩无损业务,敏感信息全程加密

SQL运维能力介绍

以租户为单位,提供针对SQL执行历史记录的自动诊断服务,并可视化呈现分析数据,提升管理员的在线SQL业务感知与运维能力。

SQL任务统计

2.20.png

向集群管理员展现不同时间周期范围内的租户级、用户级的SQL任务统计,帮助集群管理员快速预判业务运行状态和潜在风险。

SQL慢查询分布

2.21.png

向集群管理员展现不同时期周期范围内的租户级、用户级的大SQL,慢SQL任务统计,帮助集群管理员快速识别业务运行状态和不用用户请求提交状况。

SQL慢查询诊断

2.22.png

自动诊断出大SQL、慢SQL及相关提交信息,面向集群管理员多维度可视化呈现,同时提供大SQL、慢SQL的诊断与优化建议。

MV自动推荐

2.23.png

展现经过QAS自动学习输出的物化视图推荐列表,帮助管理员快速感知热点查询的详细SQL定义。
【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。