【云驻共创】华为云数据库之大数据入门与应用(下)
前言
本文主要介绍的内容有:
- 华为大数据解决方案功能组件介绍
- 华为大数据应用分享
一、华为大数据解决方案功能组件介绍
1.问题背景
我们知道Apache Hadoop是一个繁荣的开源生态系统,主要特点有Hadoop核心基本组件的开源代码量巨大,将近两百万行。HBase组件在快速的发展中,平均每个月一个发布版各组件。团队之间、团队成员是松耦合的,组件相关的特性也没有有效地整合。
2.华为大数据解决方案功能组件介绍
1.1 FusionInsight HD简介
1.1.1 FusionInsight HD诞生背景
针对上述问题,那么如此大量的代码以及频繁的产品更新,再加上组件之间的松耦合,势必会使得开源的Hadoop平台在管理、使用以及维护中消耗掉大量的人力和物力,这对于企业来讲并不是一个合格的产品。而华为的Fusionlnsight HD就是从开源到企业级蜕变后的产品。
1.1.2 FusionInsight HD具体做法
因为华为的Fusionlnsight HD大数据平台采纳了开源社区平台的精华,去除了开源平台的bug。具体的做法是谨慎地选择稳定基线版本,认真评估高版本补丁的影响范围,采用数万个测试用例,从而来确保企业版本的稳定性。
1.1.3 FusionInsight HD的优势
最终形成易用的、安全的、可靠的企业级大数据平台。其中易用用主要指易开发、易管理运维。安全指的是Fusionlnsight HD集成了统一的安全管理入口,RBAC授权机制以及数据加密安全等安全措施。可靠主要体现在系统无单点故障,并且实现地理容灾。可见华为的Fusionlnsight HD平台既源于开源又高于开源。
1.1.4 FusionInsight HD的解决方案架构
Fusionlnsight HD解决方案又包含了HDFS、Zookeeper、Hive、HBase等,这些组件通过Fusionlnsight manager来实现系统管理和安全管理,通过提供标准api的形式给上层应用提供服务。那么接下来我们一起来认识一下各个组件的功能。
1.1.4.1 HDFS
HDFS全称是Hadoop分布式文件系统,是基于谷歌的GFS论文设计开发的,是一个运行在通用硬件上的分布式文件系统。
它除了具备其他分布式文件系统相同的特性外,还具有自己独有的特性,比如高容错型、高吞吐量以及大文件存储的特征。
HDFS适合大文件存储、流式数据访问,不适合做什么呢?不适合大量小文件、随机写入、低延迟读取的场景。
1.1.4.2 HBase
大数据数据库HBase是Fusionlnsight HD大数据平台中与HDFS协同工作,提供存储功能的组件。HBase的名字来源于Hadoop Database,即Hadoop的数据库。Hbase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。利用HBase技术,可以在廉价的PC server上搭建起大规模、结构化存储集群。
HBase利用Hadoop HDFS作为其文件的存储系统,利用Hadoop的MapReduce来处理HBase中的海量数据,利用zookeeper作为协同服务。而另一个在大数据中我们经常谈到的组件是Hadoop MapReduce,它是基于HDFS的MapReduce编程框架,是一个能够在大量的普通配置的计算机上处理和生成超大数据集的编程模型的具体实现。
1.1.4.3 Hadoop MapReduce
Hadoop MapReduce的框架确保程序以可靠的、容错的方式进行执行。采用Hadoop MapReduce架构可以使那些没有并行计算和分布式处理系统开发经验的程序员,有效地利用分布式系统的丰富资源。
1.1.4.4 Yarn
Yarn是hadoop 2.0中的资源管理系统,它是一个通用的资源管理模块,可为各类应用程序进行资源的管理和调度,Yarn是一个轻量级的弹性计算平台。除了MapReduce框架,还可以支持其他框架,比如Spark(迭代计算)、Storm(实时处理),YARN可以对多种框架统一管理,共享集群资源,具有资源的利用率高、运维成本低、数据共享方便等等特点。
1.1.4.5 Spark
Spark是一款独立的、高速的、开源的分布式计算引擎,提供内存计算模式。它的核心是弹性分布式数据集。
Spark的核心是RDD:RDD(Resilient Distributed Datasets)经过实测,某些情况下其计算速度比Hadoop快十倍以上。
1.1.4.6 Zookeeper
Zookeeper是针对谷歌Chubby的开源实现,使用java编写,是一个分布式的协调服务,它包含了一个简单的原语集,分布式应用程序可以给基于它实现同步服务、配置维护和命名服务等,从而减轻分布式应用程序所承担的协调任务。
以上是关于Fusionlnsight平台中各个功能组件的介绍。
1.2 FusionInsight LibrA简介
1.2.1 FusionInsight LibrA是什么
Fusionlnsight LibrA是一个并行的数据库集群,是为新一代数据仓库所需的大规模数据和复杂查询功能而设计。该产品采用现代云计算的MPP理念和shared nothing架构,以及高性能、高可用性和动态扩展等特性。
为超大规模数据管理提供了一个高性价比的通用平台。当然其核心竞争力也主要体现在这些方面。
1.2.2 FusionInsight LibrA的组件
而在Fusionlnsight LibrA的架构中,主要包含了这么一些组件:
- Storage存储主要用于持久化存储,数据存储形式包括了行存储、列存储以及混合存储。
- data node指的是执行查询任务分片的逻辑实体。
- WLM工作负载管理器用于控制系统资源的分配。
- GTM全局事务控制器,用于全局一致性事物的控制,多版本并发控制mvcc机制。
- Coordinator连接节点用于接收用户连接,分解并调度任务分片,然后并行执行。
- cm集群管理模块用于管理各功能单元和物理资源,om运维管理模块用于运维、配置管理、接口及工具。
通过架构图我们其实可以发现底层有storage和data node构成了基本的存储部分,通过网络通道提供各个节点的访问,而业务用户则通过coordinator的连接节点来访问数据存储,作为一个并行的数据库集群。
1.2.2 FusionInsight LibrA的优势特性
LibrA引擎的优势特性主要包含了以下几点:
- 标准的sql能力支持,它支持标准的sql92和sql2003规范。
- 集群管理加HA高可用。
- workload的管理。
- 分布式执行引擎。
- 行列混合存储。
- 各种工具、安全保障和api接口。
1.3 FusionInsight Miner简介
1.3.1 FusionInsight Miner是什么
Fusionlnsight Miner称为是华为大数据的洞察平台。从这张图中我们可以看出,miner是处于Hadoop与应用之间的大数据的核心组件,对外提供数据挖掘的业务能力。
1.3.2 FusionInsight Miner的组件
面对大数剧带来的挑战。用户可以结合自己的领域知识以及Miner从各类原始数据中提取到活跃的、优质的数据,以便为后续构建模型和评估模型提供统一的向量化输入。而所谓的分析建模是指选取合适的模型算法,通过特征化的训练集作为输入进而训练生成业务模型,并对业务模型进行评价获得最优方案,同时还提供了模型的部署和调度管理。而数据的可视化主要是指将分析出来的数据做出清晰、完美的呈现,这个就是Fusionlnsight Miner组件。
1.3.3 FusionInsight Miner的洞察方法
数据洞察首先可以通过外部数据源来收集数据,比如企业数据、企业数据和互联网数据逻辑相关的数据。企业数据与第三方数据源、市场连接的数据等等。其次,基于行业的特征模型进行数据输入。特征工程是数据洞察的得力助手,通过获取和收集到得力的优质特征,并对特征进行管理,为后续构建和评估模型提供统一的向量化输入。最后是分析建模。
1.3.4 FusionInsight Miner的特点
Miner具有图形化的模型探索环境,并且具有coding Free的特点,也就是说开发过程封装成算子,无需编写任何代码。而Miner作用于数据的效果,包括低价值密度的数据重获新生;定时动态保持数据源更新,保持数据的新鲜性,特征可多次复用,提升数据分析团队的协作效率。
1.3.5 FusionInsight Miner的价值
Miner带给客户的价值主要有:
- 采用Miner挖掘并创造出新的业务价值。
- 实时业务预测,形成新商机。
- 降低行业用户的使用门槛,使大数据的探索与洞察变得更简单。
比如在金融领域,包括金融资产预测、理财产品、精准推荐、客户特征刻画等方面,miner都有其独特的应用价值。
1.4 FusionInsight Farmer简介
1.4.1 FusionInsight Farmer是什么
Fusionlnsight farmer是华为的数据服务平台,为企业业务应用提供了轻量级的应用运行环境。其特点主要包括了跨平台性、高可靠性、安全性、高性能、弹性伸缩、实时分布式处理能力、透明化访问hadoop以及统一、高效易用的运维管理能力等等。
1.4.2 FusionInsight Farmer的价值
Fusionlnsight farmer的客户价值主要体现在:
- 快速获取,保证企业业务的查询效率为秒级。
- 易于开发,基于高效、可共享的业务应用开发框架、开发业务逻辑,节省了百分之八十的程序量。
- 优化成本,采用分布式软件和通用的X86服务器来代替小型机,使用负载均衡SLB来代替硬件设备。
- 优质体验,通过可视化界面提供监控、告警、流程编排、业务拓扑等功能
1.4.3 FusionInsight Farmer的关键技术
在Fusionlnsight farmer中,关键技术有提供二次开发的sdk,支持socket、web、MQ等多种协议接入。支持基于标准工作流引擎的业务流程编排服务,提供负载均衡SLB,基于Dubbo框架实现去中心化的负载均衡能力,提供业务逻辑实力级的监控能力,自动识别系统短板,根据SLA规则实现业务逻辑的弹性伸缩。通过业务拓扑展示已部署业务逻辑的全景鸟瞰图,支持灰度发布升级时可新旧版本共存,控制并快速的解决新版本可能存在的缺陷,实现平滑升级,保证系统的稳定。
二、华为大数据应用分享
1.移动运营商应用分享
从电信的发展历程来看,运营商数字化转型是价值链从封闭、垄断到开放平等过程中的一次被迫重构。数字经济到来以后,运营商必须从商业架构、企业架构和网络架构进行彻底的重构,重新地定位自己,看清自己的核心能力,以开放、合作的心态与OTT共建价值链,才能在这次浪潮中获得成功。
1.1 数字化的转型模型的四个方向
华为对世界范围内运营商总结后提出了数字化的转型模型主要有:扩展客户群领域、客户资产价值挖掘、客户资产价值开发、运营系统和流程变革。
1.1.1 扩展客户群领域
在扩展客户群领域方面:从个人、家庭向企业与物联网延伸。
1.1.2 客户资产价值挖掘
在客户资产价值挖掘方面:从传统的电信服务到客户价值驱动的多样化数字业务,提升了业务价值。
1.1.3 客户资产价值开放
在客户资产价值开放方面:开放构建生态环境,通过开放、共享来获取客户资产增值收益。
1.1.4 运营系统和流程变革
在运营系统和流程变革方面:打造以客户体验为中心的数字化运营系统和企业架构,从而来提升运营效率。
1.2 数字化的转型模型的四个层次
华为大数据解决方案是基于对运营商、用户和网络的理解,综合运营商各域数据进行大数据建模,从而实现用户保留、业务提升、网络效率提升和对外价值变现的最终商业成功。
而实际上华为为运营商行业提供的解决方案主要分为四个层次:在level 1基础设施层适配BSS和OSS数据,用户行为数据以及外部数据等电信领域数据。在level 2数据处理层,采用统一的大数据平台,结合level 3服务层,共同组成了FusionInsight平台,向下融合跨域数据,向上支持不同的应用;最后的level 4应用层,主要是电信领域商业驱动的应用。包括了智能运营、营销、智能关怀、KPI、NPM、客户体验管理、MIS、Dass等一些应用。
1.3 数字化的转型模型的案例
接下来我们来看一个具体的案例,湖南移动原经分架构不能满足业务发展要求,计划采用大数据技术建设新的经分系统。而图中显示的就是原经分系统的架构。我们可以看出原有的经分系统有着非常明显的局限性,主要体现在以下四个方面:
- 原架构不能匹配业务发展,移动业务已经进入“大数据、微营销时代”,而现有的系统还是以传统架构来建设的,因此难以支撑。
- 需求响应效率低,数据应用的耦合度高,而模型设计灵活性不足。因此从需求提出到最终实现流程长、响应慢。
- 缺少融合业务的支撑能力。由于缺少对O域、M域数据的整合与理解,而分析支撑又局限于B域范围,因此,难以支撑移动互联网流量经营需要的跨域、端到端的分析需求。
- 数据管理和开放能力不足。除经分系统以外,按照应用模式独立建设的大量应用子系统缺少统一的管理和开放能力,造成创新应用引入困难。
而华为的大数据解决方成功地为湖南移动构建了新的经分系统。华为大数据解决方案主要采用了Hadoop结合LibrA。混搭架构,实现对B\M\O域数据的全面接入,融合处理并进行统一的建模。同时引入爬虫、流计算等技术,实现对互联网数据的处理和实时的业务支撑。
而通过本项目的建设,帮助湖南移动实现了如下六个方面的改进和提升:
- 提升平台能力
- 提升数据资产的管理能力
- 提升日常的工作效率
- 提升业务能力
- 提升开放能力
- 降低后续的建设成本
那么接下来我们将针对其中的三个方面做一个具体的分析。
首先是平台能力的提升,非结构化数据的处理能力方面,采用爬虫技术实现对互联网非结构化数据的获取和处理,利用Hadoop的分布式扩展优势。网页爬取任务均衡的分摊到各个节点上,并启动多线程执行,极大地提升了网页的爬取效率。
云化ETL提升海量数据的处理能力方面,主要体现在高性能和高扩展性上。比如相同处理能力的硬件平台,大部分场景的性能提升了百分之五十以上,整个集群的处理能力可以动态伸缩,程序任务可以完全的自定义扩展,灵活性强。
分钟级实时数据处理分析能力方面,流数据处理实现持续的数据载入和数据处理,缩短了数据延迟,支撑实时营销。事件处理中心,提高了事件配置、事件、处理、事件的服务能力。
通过Hadoop集群和LibrA数据引擎,提升分布式计算和存储能力。
从整体上来看,与原系统相比,新的经分系统实现了对数据的分布式计算、存储,提升了对非结构化数据的支持,增强了对海量数据的处理能力,实现了实时的数据分析处理,接入数据规模每日可达7个T,数据的存储量超过3个PB;平台支持2000个经分用户的日常访问需求,以及20000个一线用户的营销需求。
其次是日常分析效率的提升,运营商数据资产全视图提供的自助分析服务,实现市场部门用户的提数时长从周到小时的转变。例如88元4G套餐语音资源使用率的报表原本需要两周时间获取,而在新的平台下可以实现自助报表1小时即席查询2小时的时间指标。
业务能力的提升支撑大数据、超细分、微营销、精服务的落地。比如,建立客户生命周期的模型、客户生物钟模型等数据模型,以用户标签为基础对客户进行细分,建立客户第一时刻、异动时刻、重要时刻、免打扰时刻等标签,分别进行精准的营销,比如以客户群方式营销、以一刻一时一策略的方式进行营销等。
2.金融机构应用分享
2.1 数字化的转型模型的四个方向
传统金融机构的特征是通过标准化和产业化提供服务,关注过程和步骤,被动接收信息,并且信息的来源单一,通过客户经理联系客户,固定渠道单一交互,可以满足世纪之初的客户需求。
那么随着数字化信息时代的发展,客户需求逐步的改变,比如客户需要随时随地的获取服务、寻找有意义的体验以及互动参与内容、产品和体验的创建等等。那么金融机构就需要朝着移动化、个性化、社交化、实时化的方向进行发展。
为了朝着移动化、个性化、社交化和实施化的方向发展,金融数据架构就要有所改变,由原本单一的核心交易平台转变为两个数据平台,即在原有数据平台的基础上加入大数据平台,通过大数据平台提供具有实时在线性、业务持续性和跨多元数据的业务服务,比如统一的历史明细、在线征信等。
2.2 数字化的转型模型中金融行业的特殊要求
金融行业对大数据平台的要求主要体现在:
- 企业级的质量标准要求:比如金融等保、可靠、易用、支持与现有系统的对接。
- 开放性要求:多分析引擎、统一管理,满足多样化的数据分析场景。
- 挖掘能力要求:支持机器学习、深度学习等新的数据挖掘能力,实现更精准的洞察。
因此全新的金融数据平台架构如图所示,通过构建统一的离线和实时的计算平台,融合跨域数据,从而来支撑不同的业务应用。
那么华为金融行业大数据业务主要包括了客户管理、营销管理、风险管理、运营管理以及信息创新五大领域,涵盖客户三百六十度画像、电话银行、信用卡反欺诈、产品定位、历史数据管理等28个业务模块。
银行业务竞争越来越激烈,急需以金融数据分析和挖掘为基础进行产品预测、创新和风险评估,来提升自身的竞争力。
而金融数据量和种类的不断增加,传统数据仓库也只适合结构化数据处理,同时扩展性差、扩容成本高,已经无法满足大数据时代的要求。
招商银行选择了华为的大数据解决方案,建立了高可靠、高安全、易管理、易开发的企业级大数据平台。
华为大数据解决方案是第一家支持金融等保,第一家支持1000公里以上异地融灾的海量数据分析和挖掘的平台,能实现与企业应用的无缝衔接。华为拥有强大的内核及开发工程团队和咨询、定制化的服务能力。
而华为的大数据解决方案平台也为招商银行提供了统一的全量的数据分析和挖掘功能,提供了丰富的创新业务,比如在线明细、精准营销、实时征信等。除此之外,在小微贷获客预测方面,比传统方式提升了40倍的转化率,金融资产的预测误差率降低了一倍。而信用卡征信也有原来的15天缩减至2-5秒,同时支持线性扩容,并且扩容成本低。
2.3 数字化的转型模型的案例
那么接下来我们来看一下具体的应用场景,比如在线的历史明细查询方面,华为FusionInsight数据服务结合FusionInsight HD基础数据平台的解决方案,使客户只需要专注历史明细查询业务的编写即可。
数据服务平台支持多业务系统并发访问,从而实现实时的历史明细的查询能力。并且数据服务平台也支持socket和web的业务请求接入和分发,与招行的业务系统实现无缝衔接。
此外,创新的CTBase方案独有的表聚簇和多级索引,支持HBase多表的关联查询能力,而HBase同时也支持sql、java api的编程接口,来适应客户的编程习惯。
在客户行为分析方面:华为的FusionInsight Miner数据洞察结合FusionInsight HD基础数据平台的解决方案,使客户只需关注客户行为分析业务的编写。
而FusionInsight Miner基于大数据进行全量的建模分析,可以挖掘出14000维客户特征,实现多维客户行为的并发分析。同时FusionInsight Miner采用机器自动学习机制,大大的提高了分析的准确度,最终客户行为分析结果存储在HBase中,供业务的查询使用。
再比如在实时征信方面的应用,华为的FusionInsight farmer数据消费平台,结合FusionInsight HD基础数据平台的解决方案,也使客户只需关注实时征信业务逻辑的编写即可。
其中FusionInsight farmer支持多业务系统的并发访问,实现实时征信访问能力。FusionInsight farmer同时也支持tcp/http的请求接入和分发,提供负载均衡功能,实现于招行业务系统的无缝衔接。
而前面我们谈到创新的CTBase方案,其独有的表聚簇和多级索引,支持HBase多表关联查询的能力,并且HBase也支持java api的编程接口,从而来适应客户的编程习惯。
3.政府机构应用分享
现在的政府机构依然以传统的架构为主,政府机构面临着政、企与居民的双向沟通、移动政府的安全与访问控制等多方面的需求。与金融机构类似,传统架构越来越不能满足政府机构服务人民群众的需求,这也迫使政府机构需要走上大数据和云计算的转型之路。其实我们可以尝试想象,未来经过大数据和云计算转型之后的政府与民众能实现360度的全方位沟通,可以基于人工智能提供个性化的服务、预测分析未知风险等。实现更优、更快的转变。
其中公安政府的大数据业务模型主要包括情报分析、案件侦破、交警业务、警员办公四大领域,而大数据的价值点包括了同行分析、案件统计、套牌车分析、电子卷宗检索等29个方面。华为大数据作为一套经过多方检验与实践的成熟的解决方案,能够完美地覆盖公安政府大数据业务。
总结
本文主要介绍的内容有:华为大数据解决方案功能组件介绍、华为大数据应用分享。
大数据作用主要有以下三点:
- 对大数据的处理分析正成为新一代信息技术融合应用的结点。移动互联网、物联网、社交网络、数字家庭、电子商务等是新一代信息技术的应用形态,这些应用不断产生大数据。云计算为这些海量、多样化的大数据提供存储和运算平台。通过对不同来源数据的管理、处理、分析与优化,将结果反馈到上述应用中,将创造出巨大的经济和社会价值。
- 大数据是信息产业持续高速增长的新引擎。面向大数据市场的新技术、新产品、新服务、新业态会不断涌现。在硬件与集成设备领域,大数据将对芯片、存储产业产生重要影响,还将催生一体化数据存储处理服务器、内存计算等市场。在软件与服务领域,大数据将引发数据快速处理分析、数据挖掘技术和软件产品的发展。
- 大数据利用将成为提高核心竞争力的关键因素。各行各业的决策正在从“业务驱动” 转变“数据驱动”。
综上所述,社会发展离开不了大数据。人们的出行越来越离不开大数据的协助,运用电子地图,初来乍到的游客可以在生疏的城市自由行走;繁忙一天的上班族可以查询最快回家的交通方法;出租车司机经过语音导航,知晓前方路程状况,防止堵车或超速违章。这些都是大数据在生活中的体现。
本文整理自华为云社区【内容共创】活动第15期。
查看活动详情:https://bbs.huaweicloud.com/blogs/345822
相关任务详情:任务15.华为云数据库入门与应用
- 点赞
- 收藏
- 关注作者
评论(0)