华为云EI智能数据湖FusionInsight 8.0 MRS新版本:融合大数据平台

举报
沙漏 发表于 2020/07/02 11:47:07 2020/07/02
【摘要】 FusionInsight 8.0 MRS在6月30日发布全新版本,HetuEngine提供高性能交互式查询;支持Flink On Hive,增强批流融合能力;Hive支持Tez引擎,提升任务运行效率;CarbonData提供丰富的索引和物化视图,提升Spark/Hive性能;支持事务ACID,实现全量数据T+0入湖;增强细粒度安全控制,以及提供全新的大数据组件版本,提高各行业大数据应用场景能力

一、FusionInsight MRS概述


        FusionInsight MRS是华为FusionInsigth HD企业级大数据平台本与原华为云MRS服务的融合版本,是华为云(Huawei Cloud)、HCS(Huawei Cloud Stack)统一的企业级大数据云服务。FusionInsight MRS完全兼容开源组件接口,结合华为云计算、存储优势及大数据行业经验,为客户提供高性能、高性价比、灵活易用的全栈大数据平台,一站式运行Hadoop、Spark、HBase、Kafka、Flink等大数据组件,帮助企业快速构建海量数据处理系统,发现全新价值点和企业商机。FusionInsight MRS服务拥有强大的Hadoop组件内核团队,历经行业数十万节点部署量的考验,为60+国家3000+客户提供企业大数据服务。

架构1.PNG 
FusionInsight 8.0 MRS产品架构

        FusionInsight 8.0 MRS针对开源组件进行了大面积升级,提供最新能力,并在社区基础上对功能、性能、可靠性等方面进行了增强。

        FusionInsight 8.0 MRS详细组件列表见下图:

11111.PNG

二、FusionInsight 8.0 MRS的新特性


根据最新的架构,对于主要功能在新版本的增强如下:

2.1 Hadoop Core


  • 支持从2.7.2版本平滑升级至3.1.1版本;

  • 支持RBF的多NameNode部署,缓解主NameNode压力,提升响应速度;

  • 支持CPU、内存等多种资源模型调度;

  • Superior调度器提高资源任务调度性能。

2.2 流接入与流处理


1、支持Flink on Hive,提供FlinkSQL与Hive交互的能力,给离线数仓带来Flink实时流能力,同时大大提高Flink易用性:

  • 集成Hive,允许用户使用 SQL DDL 将 Flink 特有的元数据持久化到 Hive Metastore、调用 Hive 中定义的 UDF 以及读、写 Hive 中的表;

  • Batch SQL支持原生分区:写入静态分区、写入动态分区;投影下推;LIMIT 下推;读取数据时的ORC向量化;

  • Table API/SQL扩展,SQL DDL 中支持定义 watermark,扩展SQL DDL的语法,支持创建目录函数、临时函数以及临时系统函数。

2、Flink窗口存储空间优化,提升处理性能:

  • 针对SlidingEventTimeWindow和SlidingProcessingTimeWindow在保存原始数据时存在的数据冗余问题,对保存原始数据的窗口进行重构,优化存储,使其存储空间大大降低。

3、支持Apache Kafka 2.4,并集成社区最新能力:

  • 增强的压缩算法,controller处理逻辑优化,broker启动优化等;

  • 支持可视化管理界面极大提高运维效率,一键进行分区迁移和扩容等操作;

  • 增强监控告警,实时管理Kafka服务、Topic消费生产状态;

  • 支持基于磁盘容量、分区数分区的自动分配策略,防止数据倾斜;

  • 支持用户连接数限制;支持对用户操作进行审计。

2.3 数据仓库


1、面向大数据集提供更快的SQL分析能力,包括对HetuEngine、Hive、Spark和CarbonData的提升:

  • HetuEngine支持动态过滤、算子下推、动态分区裁剪、Bloom Filter/Star Tree Index/启发式索引、SMILE传输协议优化、并行查询、基于历史查询性能的SQL优化等特性,性能超越Impala 30%,交互式查询超越Hive 3倍;

  • CarbonData统一索引语法,新增index server,解决Driver侧索引内存太大问题;索引进行预加载,数据入口后即自动预加载,解决首次查询慢问题;新增二级索引和Geo索引,提升查询性能;

  • Hive支持Tez引擎,大大提升了任务运行效率,TPC-DS性能提升50%以上;

  • Hive支持LLAP,提升交互式查询场景的性能;

  • Spark SQL优化:动态分区裁剪、distinct下推、启发式join reorder、runtime filter、scalar subquery合并等特性;

  • Spark新增内置高阶函数,可以直接操作复杂类型,并具备比UDF更好的性能。

2、支持事务ACID,提供T+0贴源分析的能力:

  • Hive支持ACID,基于事务表支持数据的INSERT/UPDATE/DELETE/MERGE语句,拓宽业务使用场景;

  • Hive支持增强语法语句、物化视图、CBO等特性;

  • CarbonData支持统一MV语法,新增支持时序数据,支持Parquet/ORC表格;

  • CarbonData支持DB实时数据同步,只追加Delta文件,IO冲击小。对比“文件重写”,更新时间缩短50%-70%;多个Delta文件自动合并,避免小文件问题;

  • CarbonData支持一张表内混合格式:CSV、TXT、JSON、Parquet、ORC、CarbonFile。

3、交互式查询数据虚拟化引擎的功能与性能全面提升:

  • 全面兼容SQL-92、SQL:2003;

  • 提供跨域查询能力;

  • 动态资源管理,基于YARN进行动态资源管理,支持多租户隔离和并发处理,支持Capacity/Superior多种调度器。

2.4 NoSQL与多模计算


  • HBase升级到了2.2.3版本,Phoenix升级至5.0.0版本,并相互适配;

  • Hbase完善了AMv2,通过降低启动时对ZK的依赖,缩短启动时长以及故障恢复时间;支持Netty RPC,提升请求的并发处理能力;提供RS Group能力,通过Group隔离更好的支持多租户能力。

2.5 全文检索


  • Elasticsearch通过提前跳过大量在早期被识别为不会在Top-K结果集中的文档来剪枝,提供更快的Top-K查询性能。提供了功能完备的 high-level REST client,新增易用的search_as_you_type类型,该字段会将同一个字段进行多种类型的分词,满足用户的多样性查询需求。

2.6 数据安全


1、新增组件Apache Ranger提供一个集中式框架进行审计,认证和授权功能:

  • 更好的细粒度访问控制;动态行过滤、动态列脱敏、基于属性的访问控制、支持大量组件对接,支持用户、租户、数据库、表、记录等不同组件不同维度细粒度访问控制;

  • 更丰富的策略控制,可以采用Allow/Deny constructs、自定义策略条件/上下文增强器,基于时间的策略,Atlas集成(用于基于标签的策略)等策略;

  • 组件审计日志统一管理;

  • 安全集群、非安全集群统一使用,并添加初始权限,增加易用性。

2、ZooKeeper升级到了3.5.6版本,安全功能增强:

  • 支持安全端到端通信加密,保证数据传输可靠性;

  • 支持对用户操作进行审计;

  • 支持对服务ZNode进行配额设置,防止无限制使用ZooKeeper资源,导致过载。

2.7 集群管理


1、支持云化部署,提供集群快速发放,弹性伸缩能力,主动运维:

  • 一键式集群申请,半小时级发放;

  • 支持规则和时间计划两种弹性伸缩的策略;

  • 主动运维,故障响应最快时间5分钟。

2、运维管理能力增强:

  • 提供滚动升级能力,不中断业务,保证业务连续性;

  • 提供客户端管理能力,方便跟踪客户端地址,避免升级遗漏;

  • 提供配置历史跟踪能力,记录配置修改记录、过期配置展示、非默认值展示能力;

  • 支持堆栈采集能力,提高进程异常等问题定位效率;

  • 提供维护模式,减少变更操作对运维人员的干扰。

2.8 超大集群能力


1、支持超大规模集群,单集群节点数可达2万+:

  • 改造运维管理架构,利用成熟的分布式组件技术,将原来的集约主从模式调整成可弹性伸缩的分布式模式,实现超大集群的管理运维能力;

  • 深度优化Superior调度器,Container的调度速率达到35万个/s,集群资源利用率达到98%以上,超过开源Capacity的能力100%,具备超大规模调度能力。

2、支持单集群跨AZ,解决超大集群可靠性问题:

  • 提供全组件单集群跨AZ高可靠,单机房故障,核心数据和计算任务不受影响;

  • 优化Yarn任务调度能力,减少不同AZ间网络开销。

3、全组件支持IPv6协议,解决超大集群持续演进过程中的网络升级扩容的要求:

  • 全组件支持IPv6能力,满足国内各行业对IPv6升级改造的进程要求;

  • 通过对通信端的验证和对数据加密保护,使数据在IPv6网络上传输更安全。

4、支持异构混部,解决超大规模集群建设中设备利旧的问题:

  • 支持鲲鹏&X86混合部署;

  • 支持混搭操作系统(RedHat/SUSE/CentOS/Euler)。

三、总结


       FusionInsight 8.0 MRS在6月30日发布全新版本,提供2万超大规模集群能力;HetuEngine提供了高性能交互式查询;支持Flink On Hive,增强批流融合能力;Hive支持Tez引擎,大大提升了任务运行效率;CarbonData提供丰富的索引和物化视图,提升Spark/Hive性能;支持事务ACID,实现全量数据T+0入湖;新增Ranger组件,增强细粒度安全控制,以及提供全新的大数据组件版本,大幅提高政府、金融、运营商、大企业等各行业大数据应用场景能力。

        十多年来FusionInsight 致力于为全球60+国家地区、3000+政企客户构建企业级智能数据湖,结合平台+生态战略,与800+商业合作伙伴 ,广泛应用于金融、运营商、政府、能源、医疗、制造、交通等多个行业,在政企数字化转型中,释放数据价值,助力政企客户业务高速增长!

问卷调查.png
扫码参与FusionInsight问卷调查


【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

举报
请填写举报理由
0/200