华为大数据解决方案功能组件介绍

举报
菜鸟级攻城狮 发表于 2021/12/05 16:55:46 2021/12/05
【摘要】 通过本次学习华为大数据解决方案功能组件介绍,知道了解FusionInsight HD简介、FusionInsight LibrA简介、FusionInsight Miner简介和FusionInsight Farmer简介。



华为大数据解决方案Fusionlnsight架构中包含了各种各样的功能组件。接下来我们来深入地认识一下华为大数据解决方案功能组件介绍的内容。这部分内容将主要包括Fusionlnsight HD、Fusionlnsight LibrA,Fusionlnsight Miner和Fusionlnsight farmer简介。

我们知道Apache Hadoop是一个繁荣的开源生态系统,主要特点有Hadoop核心基本组件的开源代码量巨大,将近两百万行。HBase组件在快速的发展中,平均每个月一个发布版各组件。团队之间、团队成员是松耦合的,组件相关的特性也没有有效地整合。

那么如此大量的代码以及频繁的产品更新,再加上组件之间的松耦合,势必会使得开源的Hadoop平台在管理、使用以及维护中消耗掉大量的人力和物力,这对于企业来讲并不是一个合格的产品。而华为的Fusionlnsight HD就是从开源到企业级蜕变后的产品。

为什么这么说呢?因为华为的Fusionlnsight HD大数据平台采纳了开源社区平台的精华,去除了开源平台的bug。具体的做法是谨慎地选择稳定基线版本,认真评估高版本补丁的影响范围,采用数万个测试用例,从而来确保企业版本的稳定性,最终形成易用的、安全的、可靠的企业级大数据平台。其中易用用主要指易开发、易管理运维。安全指的是Fusionlnsight HD集成了统一的安全管理入口,RBAC授权机制以及数据加密安全等安全措施。可靠主要体现在系统无单点故障,并且实现地理容灾。可见华为的Fusionlnsight HD平台既源于开源又高于开源。

那么Fusionlnsight HD解决方案又包含了哪些组件呢?它包含了HDFS、Zookeeper、Hive、HBase等,这些组件通过fFusionlnsight  manager来实现系统管理和安全管理,通过提供标准api的形式给上层应用提供服务。那么接下来我们一起来认识一下各个组件的功能。

HDFS全称是Hadoop分布式文件系统,是基于谷歌的GFS论文设计开发的,是一个运行在通用硬件上的分布式文件系统。它除了具备其他分布式文件系统相同的特性外,还具有自己独有的特性,比如高容错型、高吞吐量以及大文件存储的特征。那么HDFS适合做什么呢?HDFS适合大文件存储、流式数据访问,不适合做什么呢?不适合大量小文件、随机写入、低延迟读取的场景。

而另一个组件大数据数据库HBase是Fusionlnsight HD大数据平台中与HDFS协同工作,提供存储功能的组件。HBase的名字来源于Hadoop Database,即Hadoop的数据库。Hbase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。利用HBase技术,可以在廉价的PC server上搭建起大规模、结构化存储集群。HBase利用Hadoop HDFS作为其文件的存储系统,利用Hadoop的MapReduce来处理HBase中的海量数据,利用zookeeper作为协同服务。而另一个在大数据中我们经常谈到的组件是Hadoop MapReduce,它是基于HDFS的MapReduce编程框架,是一个能够在大量的普通配置的计算机上处理和生成超大数据集的编程模型的具体实现。

Hadoop MapReduce的框架确保程序以可靠的、容错的方式进行执行。采用Hadoop MapReduce架构可以使那些没有并行计算和分布式处理系统开发经验的程序员,有效地利用分布式系统的丰富资源。

另一个组件实际是Yarn,是hadoop 2.0中的资源管理系统,它是一个通用的资源管理模块,可为各类应用程序进行资源的管理和调度,Yarn是一个轻量级的弹性计算平台。除了MapReduce框架,还可以支持其他框架,比如Spark(迭代计算)、Storm(实时处理),YARN可以对多种框架统一管理,共享集群资源,具有资源的利用率高、运维成本低、数据共享方便等等特点。

Spark是一款独立的、高速的、开源的分布式计算引擎,提供内存计算模式。它的核心是弹性分布式数据集,RDD(Resilient Distributed Datasets)经过实测,某些情况下其计算速度比Hadoop快十倍以上。Zookeeper是针对谷歌 Chubby的开源实现,使用java编写,是一个分布式的协调服务,它包含了一个简单的原语集,分布式应用程序可以给基于它实现同步服务、配置维护和命名服务等,从而减轻分布式应用程序所承担的协调任务。以上是关于Fusionlnsight平台中各个功能组件的介绍。接下来我们介绍一下Fusionlnsight LibrA。

Fusionlnsight LibrA是一个并行的数据库集群,是为新一代数据仓库所需的大规模数据和复杂查询功能而设计。该产品采用现代云计算的MPP理念和shared nothing架构,以及高性能、高可用性和动态扩展等特性,为超大规模数据管理提供了一个高性价比的通用平台。当然其核心竞争力也主要体现在这些方面。而在Fusionlnsight LibrA的架构中,主要包含了这么一些组件,Storage存储主要用于持久化存储,数据存储形式包括了行存储、列存储以及混合存储。data node指的是执行查询任务分片的逻辑实体,WLM工作负载管理器用于控制系统资源的分配。GTM全局事务控制器,用于全局一致性事物的控制,多版本并发控制mvcc机制。Coordinator连接节点用于接收用户连接,分解并调度任务分片,然后并行执行。cm集群管理模块用于管理各功能单元和物理资源,om运维管理模块用于运维、配置管理、接口及工具。

通过架构图我们其实可以发现底层有storage和data node构成了基本的存储部分,通过网络通道提供各个节点的访问,而业务用户则通过coordinator的连接节点来访问数据存储,作为一个并行的数据库集群。LibrA引擎的优势特性主要包含了第一、标准的sql能力支持,它支持标准的sql92和sql2003规范;第二、集群管理加HA高可用;第三、workload的管理;第四、分布式执行引擎;第五、行列混合存储;第六、各种工具、安全保障和api接口。好,这些就是关于Fusionlnsight LibrA的六个优势特征。

接下来我们继续学习功能组件中Fusionlnsight  Miner组件,Fusionlnsight  Miner称为是华为大数据的洞察平台。从这张图中我们可以看出,miner是处于Hadoop与应用之间的大数据的核心组件,对外提供数据挖掘的业务能力,面对大数剧带来的挑战。用户可以结合自己的领域知识以及Miner从各类原始数据中提取到活跃的、优质的数据,以便为后续构建模型和评估模型提供统一的向量化输入。而所谓的分析建模是指选取合适的模型算法,通过特征化的训练集作为输入进而训练生成业务模型,并对业务模型进行评价获得最优方案,同时还提供了模型的部署和调度管理。而数据的可视化主要是指将分析出来的数据做出清晰、完美的呈现,这个就是Fusionlnsight  Miner组件。

那么具体如何进行数据洞察呢?首先可以通过外部数据源来收集数据,比如企业数据、企业数据和互联网数据逻辑相关的数据。企业数据与第三方数据源、市场连接的数据等等。其次,基于行业的特征模型进行数据输入。特征工程是数据洞察的得力助手,通过获取和收集到得力的优质特征,并对特征进行管理,为后续构建和评估模型提供统一的向量化输入。最后是分析建模。

Miner具有图形化的模型探索环境,并且具有coding Free的特点,也就是说开发过程封装成算子,无需编写任何代码。而Miner作用于数据的效果,包括低价值密度的数据重获新生;定时动态保持数据源更新,保持数据的新鲜性,特征可多次复用,提升数据分析团队的协作效率。

那么Miner带给客户的价值有哪些呢?第一,采用Miner挖掘并创造出新的业务价值;第二,实时业务预测,形成新商机;第三、降低行业用户的使用门槛,使大数据的探索与洞察变得更简单。比如在金融领域,包括金融资产预测、理财产品、精准推荐、客户特征刻画等方面,miner都有其独特的应用价值。

最后我们来认识一下Fusionlnsight  farmer,Fusionlnsight  farmer是华为的数据服务平台,为企业业务应用提供了轻量级的应用运行环境。其特点主要包括了跨平台性、高可靠性、安全性、高性能、弹性伸缩、实时分布式处理能力、透明化访问hadoop以及统一、高效易用的运维管理能力等等。

那它究竟给客户带来了哪些使用价值呢?Fusionlnsight  farmer的客户价值主要体现在:

第一、快速获取,保证企业业务的查询效率为秒级。

第二、易于开发,基于高效、可共享的业务应用开发框架、开发业务逻辑,节省了百分之八十的程序量。

第三、优化成本,采用分布式软件和通用的X86服务器来代替小型机,使用负载均衡SLB来代替硬件设备。

第四、优质体验,通过可视化界面提供监控、告警、流程编排、业务拓扑等功能

在Fusionlnsight  farmer中,关键技术有提供二次开发的sdk,支持socket、web、MQ等多种协议接入。支持基于标准工作流引擎的业务流程编排服务,提供负载均衡SLB,基于Dubbo框架实现去中心化的负载均衡能力,提供业务逻辑实力级的监控能力,自动识别系统短板,根据SLA规则实现业务逻辑的弹性伸缩。通过业务拓扑展示已部署业务逻辑的全景鸟瞰图,支持灰度发布升级时可新旧版本共存,控制并快速的解决新版本可能存在的缺陷,实现平滑升级,保证系统的稳定。

总结:通过本次学习华为大数据解决方案功能组件介绍,知道了解FusionInsight HD简介、FusionInsight LibrA简介、FusionInsight Miner简介和FusionInsight Farmer简介。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。