- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

【云驻共创】大数据入门与应用(深度好文，不看后悔系列)

菜鸟级攻城狮发表于 2021/12/09 11:46:06 2021/12/09

【摘要】随着数字划时代的到来，社会生产生活产生大量的数据，数据量越来越大，种类越来越多、企业迫切对大量数据的背后价值进行挖掘、华为云大数据服务帮助企业构筑从数据接入、存储、计算和分析的全生命周期大数据解决方案，帮助企业客户进一步挖掘数据价值，快速完成数字化转型，激发制造企业的创新活力、发展潜力和转型动力。

一、大数据是什么

大数据产生与发展

大数据是什么内容将包括大数据的产生与发展、大数据的基本概念，还包括生态系统的简介、大数据的价值应用、大数据的发展趋势五个部分。首先，我们来追溯一下大数据的产生与发展。

大数据产生和发展的三个阶段

第一个阶段我们称为是萌芽期。自上世纪90年代至本世纪初，随着数据挖掘理论和数据库技术的逐步成熟，一批商业智能工具和知识的管理技术也开始得到应用，比如数据仓库、专家系统、知识管理系统等等。

第二阶段我们称为是成熟期。本世纪的前十年web2.0应用的迅猛发展，非结构化数据的大量产生使得传统的处理方法已经难以应对，而大数据技术却快速的突破，而大数据的解决方案也逐渐的走向成熟。大数据在成熟期形成了并行计算与分布式系统两大核心技术，谷歌的GFS和Mapreduce等大数据技术也受到了追捧，开源技术hadoop平台也开始大行其道。

而第三个阶段我们称为是大规模的应用期。2010年以后呢，大数据开始广泛用到各行各业，人们开始用数据来驱动决策，社会的信息化，智能化程度也大幅的提高，所以大数据的发展历经萌芽，成熟，再到大规模应用三个阶段。

1.1 大数据基本概念

我们了解了大数据的发展历程。那究竟什么是大数据呢？关于大数据的概念众说纷纭，甚至已经成为了一个商业问题，并且在商业出版社被大量的报道。

比如福布斯的杂志报道称，大数据已经抵达seton医疗保健家庭，通过使用这个分析工具，每年超过两百万的复杂病例患者得到了帮助。纽约时报指出，数据已经成为一类新的经济资产，就像货币或者是黄金一样。而CNBC也曾这样比喻，数据就像新型石油一样，未挖掘的没有什么价值，但经过加工、提炼以后，将会极大的助力世界发展。

那么我们究竟如何去定义大数据呢？

其实呢到目前为止，大数据还没有一个明确的、统一的定义，不同组织、机构对大数据有着不同的描述。

麦肯锡认为大数据是指大小超出了典型数据库软件的采集、存储、管理和分析等能力的数据集。他认为大数据的一般范围是从几个TB到几个PB，而维基百科给出的定义是无法在一定时间内使用常规的软件工具对其内容进行抓取、管理和处理的大量而复杂的数据集合。美国国家标准技术研究院给出的定义是数量大、获取速度快，或者是形态多样的数据，难以使用传统的关系型数据分析方法进行有效的分析，或者需要大规模的水平扩展才能高效处理的这种数据形态。

而Gartaner公司认为大数据是一种体量大、快速和多样化的信息资产，需要使用高效率和创新型的信息技术加以处理，来提高发现、洞察、做出决策和优化流程的能力。可见对大数据的定义还没有统一的定论。但不论哪一种描述，关于大数据的思维特征却是一致公认的。

1.2 大数据的思维特征

那什么才是大数据的思维特征呢？

我们来一起认识一下。首先第一个“V”指的是volume容量

主要指非结构化数据的规模和增长速度。因为非结构化数据占数据总量的百分之八十到百分之九十，同时呢也比结构化数据增长快十倍到五十倍，并且数据量是传统数据库的。十倍到五十倍。

第二个“V”指的是variety。多元化主要指大数据的异构和多样性。

数据有很多不同的形式，比如文本、图像、视频、机器、数据等等，这些数据呢大多是无模式或者是模式不明显。

第三个是value价值，主要体现在大量的不相关信息，价值密度低，需要通过深度复杂分析才可以对未来的趋势和模式进行预测。

第四个V是velocity，高效主要体现在实时分析，实时呈现分析结果。

那么接下来我们详细分析一下四维特征。第一个为volume数据的体量巨大。主要体现在从TB级别到PB级别，截至目前为止，人类生产的所有印刷材料的数据量是两百个PB。那么当前典型的个人计算机硬盘的容量为TB量级，而一些大企业的数据量已经接近到EB级别.

这是什么概念呢？我们来看一下容量单位的一些形象示例。比如一个PB等于1024的TB，相当于百分之五十的全美学术研究图书馆藏书的内容总和，一个EB等于1024个PB，那五个硬币就相当于至今全世界人类所讲过的所有话语。一个ZB等于1024个EB，如同全世界海滩上的沙子的数量总和。一个YB等于1024个ZB相当于7000位人类体内的细胞数的总和。可见呢大数据的数据量确实是海量的。

第二个，variety(多样化)。其实物联网数据、互联网数据、企业、行业内的数据呢都是大数据的数据组成部分。那么大数据的多样性主要体现在:

第一、数据的来源多，企业内部多个应用系统的数据。互联网和物联网的兴起带动的微博、社交、网站、传感器等多种数据来源。

第二、数据的种类多。保存在关系型数据库中的结构化数据其实只占少数，而百分之八十到百分之九十的数据是诸如图片、音频、视频、模型、连接、信息、文档等等一些非结构化和。半结构化数据。那么相对以往便于存储的、以文本为主的结构化数据而言呢，这些非结构化数据越来越多，同时这些多类型的数据对数据的处理能力也提出了更高的要求。

第三、关联性强，数据之间的频繁交互。比如游客在旅途中上传的图片和日志，其实呢与游客的位置和行程等信息呢有很强的关联性，因此大数据不仅体现在量的巨大，还体现在种类的丰富多样。

第三个value价值，对于大数据本身而言，它的价值密度低，这是它的典型特征。而如何去挖掘大数据的潜藏价值，像沙粒淘金一样，从海量数据中挖掘稀有并且珍贵的信息才是大数据的核心。

那么第四个“V”指的是velocity(高效)。在大数据领域，能否实现实时的数据流处理，是区别大数据引用和传统数据仓库技术--BI的关键差别之一。那比如我们以一秒为临界点，对于大数据应用而言，要求必须在一秒内形成答案，否则处理结果就是过时或者是无效的。

根据IDC的数字宇宙报告，预计到二零二零年，全球数据的使用量将达到三十五点二个ZB。那么在如此海量的数据面前，处理数据的效率就是企业的生命。以上内容就是大数据的四维特征。

1.3 hadoop生态系统简介

面对海量又种类繁多、价值密度低、又需要高效交互的数据需求，如何存储、快速处理，以及从海量数据中提取出高含金量的数据，是大数据分析最核心的内容之一。

而hadoop系统就是这样一套用于大数据处理的分布式架构。好，那么接下来我们来学习一下hadoop生态系统简介。那什么是hadoop呢？hadoop是Apache软件基金会旗下的一个开源的分布式计算平台，为用户提供了系统底层、细节透明的分布式技术架构，它是基于java语言开发的，具有很好的跨平台特性，并且可以部署在廉价的计算机集群中，而hadoop核心是分布式文件系统hdfs和mapreduce。

同时hadoop也被公认为是行业内的大数据的标准开源软件，在分布式系统下提供了海量数据的处理能力，几乎所有的主流厂商都围绕hadoop提供了相关的开发工具、开源软件、商业化工具和技术服务，比如谷歌、雅虎、微软、华为和思科等等。那么hadoop是什么时候诞生的呢？其实hadoop是2004年由Doug cutting提出的，它的原型和灵感来源于谷歌的mapreduce和gfs，它是一套开源的分布式计算框架。后来2006年随着到cutting加入了雅虎，那么hadoop项目也从Nutch项目中独立出。来成为了Apache基金会资助的顶级项目。

随后hadoop经过七年积累，融入了R语言、Hive、pig、zookeeper、cassandra、Chukwa、Sqoop等一系列的数据库及工具，最终从一个科学项目逐渐地发展成为一个成熟的主流商业应用。

这期间一系列将hadoop商业化的软件公司出现了。2015年，华为在开源技术基础上发布了Fusionlnsight企业级的大数据平台，标志着华为正式进军大数据领域。我们了解了hadoop的发展历史。

那么hadoop的架构是怎么样的呢？其实hadoop的架构主要分为系统管理层、数据源层、存储层、处理层和业务应用层。那其中数据来源可以是结构化、非结构化和半结构化的数据，hdfs用作数据存储，一、二平台用于数据处理。那么处理层还包括了MapReduce、Hive、HBase、storm等各种组件。业务应用层面主要包括数据挖掘、统计和分析工具。系统管理层包括了配置、部署、监控、报警、性能容量、分布式协调、高可用、工作流、引擎等等模块，而主要用于维持系统的正常运行。好，以上就是hadoop的架构。

hadoop里包含了许多项目，比如HDFS是hadoop的分布式文件系统，MapReduce是分布式并行编程模型。YARN是资源管理和调度器。TeZ运行在YARN之上的下一代hadoop查询处理框架。Hive是hadoop上的数据仓库，HBase是hadoop上的非关系型分布式数据库。pig是基于hadoop的大规模数据分析平台，提供类似于sql的查询语言Pig Latin。Sqoop用于hadoop与传统数据库之间进行数据传递。Oozie是hadoop上的工作流管理系统，zookeeper提供了分布式协调一致性服务，storm是流计算框架，Flume是一个高可用、高可靠、分布式的海量日志采集、聚合和传输的系统。以上呢就是Hadoop系统的主要项目组件。

其实在众多的项目组件中，最著名的是HDFS和MapReduce。

而Hadoop作为一套能以可靠、高效、可伸缩的方式对大量数据进行分布式处理的软件框架，它具有以下几个方面的特性，比如通过多副本机制保证数据的高容错、高可靠性，实现实时数据处理、分析的高效性，可以很容易进行数据节点扩展，从而实现容量扩展的高扩展性，支持通用X86服务器及其他商用服务器的低成本的特征。那么同时Hadoop也支持多种编程语言。以上就是hadoop系统的简介。

1.4 大数据的价值与应用

对于大数据而言，它的价值以及应用领域体现在哪里呢？那么接下来我们继续学习大数据的价值与应用。首先我们来看一下大数据的影响。

在思维方式方面，大数据完全颠覆了传统的思维方式，主要体现在三个方面：

第一、全样而非抽样，大数据实现的是全量的数据分析；

第二、效率而非精确大数据，实现高效实施的数据分析；

第三、相关而非因果，大数据分析偏向于分析数据或者是现象的关联性。

在社会发展方面，大数据决策逐渐成为了一种新的决策方式，大数据应用有利的促进了信息技术和各行业的深度融合，大数据开发大大推动了新技术和新应用的不断涌现。

在就业市场方面，大数据的兴起使得数据科学家成为热门职业。而在人才培养方面，大数据的兴起将在很大程度上改变中国高校信息技术相关专业的现有教学和科研体制。

既然大数据对人类的生活产生了如此巨大的影响，那么大数据主要应用在哪些领域呢？

在运营商领域，docomo公司通过撬动大数据，努力开发新的商业机会，提取公司海量的客户信息，实现了8个产业110亿美元的收入。比如基于作物品种和天气的作物种植和收成预测、基于客户位置和行为信息的保险指南，为保险和汽车行业收集并分析驾驶记录，通过实时监控传感器状态、汽车速度、风向、风速等的创新桥梁监控系统，为旅游资源开发汇聚用户的位置信息。

除此之外，docomo公司还根据麦当劳手机用户的消费特征和位置进行一对一的营销。比如日本麦当劳的手机网站拥有超过2600万的会员，而每五个日本人中就有一个是麦当劳移动网站的会员。这些庞大的用户群形成了海量的购买记录数据。docomo通过手机、钱包、读写装置以及后台的CRM系统，成功实现了对大量顾客购买记录数据的积累和分析、处理，从而根据客户各自的消费特征推出了一对一营销的新型优惠券。以上就是大数据在运营商领域的应用。

在公共事业方面，谷歌的流感趋势图通过跟踪搜索词相关数据来判断全美地区的流感情况，政府和医疗机构可以根据相应的分析情况做出相应的对策，以预防流感蔓延。这是大数据在公共事业方面的应用。

在金融行业，大数据的应用也非常广泛。比如伦敦德温特资本市场公司首席执行官保罗霍廷，每天的工作之一就是利用电脑程序分析全球3.4亿微博账户的流言，进而判断民众情绪，再以1到50进行打分。根据打分结果，霍廷再决定如何处理手中数以百万计的股票。霍廷的判断原则很简单。如果所有人似乎都高兴，那就买入，如果说大家的焦虑情绪上升，那就抛售。这一招收效显著，当年第一季度，霍廷的公司就获得了百分之七的收益率。

再比如某银行通过将小微贷客户和非小微贷客户的特征收集，建立小微贷倾向预测模型，其中收集小微贷客户信息10458个，非小微的客户信息1200个，然后将900客户数据执行分析，挖掘出一万四千个客户特征，从而来获取高倾向小微带客户列表，并将前一万名高倾向小微贷客户列表分发给各分行业务部门进行重点营销，最后的执行效果显著，业务的转化率比原有的专业系统提升了二十五倍。

除了金融行业以外，还有教育行业，比如大数据应用分析被应用到美国的公共教育中，成为教学改革的重要力量，包括了学习成绩、入学率、辍学率、升学率等等一些内容的统计、分析和应用。

在零售行业方面，以前某连锁零售企业采取的是人工蹲点的方式进行采样分析，每个潜在新址的店员花费大约几万元。而现在这家连锁零售企业通过大数据分析，根据用户选择的区域，以数据地图的形式展示该区的人群特征和统计报表，为选址提供了依据。此外，零售业通过获取所在区域的人流数据，可以进行人流量和人群特征分析、人群的来访频次和时段的偏好分析。为综合性购物中心、百货、大卖场和专业的连锁客户提供决策辅助。

此外，政府、公共安全和交通领域也有大数据的身影。比如当自动预警与联动系统监控到富华大厦右侧异常人群超过警戒值时，监管部门通过数据分析，及时的定位问题、发送问题，并确认可能是因为群体性的斗殴事件引发了群众聚集、围观，那么此时呢我们可以及时的上报上级的公安部门进行处理。大数据分析还可以实现城市人口的流向监测、分析。由上面所举的例子可见，大数据分析在各行各业都发挥着不可忽视的重要作用。

1.5 大数据的发展趋势

大数据的发展有什么趋势呢？顺着这个趋势，大数据的未来又会走向何方呢？对大数据而言，在2011年它还属于新兴技术，2014年已经跨越炒作的顶峰，2015年大数据已经跨越肋骨走向成熟。

如今百分之五十的企业已经投资和使用大数据，而百分之三十三的企业正在规划如何利用大数据。我们看到在大数据领域的持续投资也促使了大数据逐渐的步入到了成熟、发展阶段。而在二零一五年的新技术图中，我们已经找不到了大数据的身影，代表着大数据不再是新兴技术，而已经成为了一种主流技术。

而在国家层面上，各国已经将大数据作为国家战略提上了议程。2009年，美国总统奥巴马签署了《透明和开放的政府》。2013年，白宫推出了Data to Knowledge to action计划，这是美国向数字治国、数字经济、数字城市、数字国防转型的一个重要举措。美国政府2016年5月发布了《联邦大数据研究和开发战略计划》，围绕了人类、科学、数据共享、隐私、安全等七个关键领域，部署推进大数据的建设。另外有八国集团在2013年联合发布了G八开放数据宪章，提出要加快推动数据开放和利用。

我国政府对于大数据的发展也极其重视，2015年3月的两会上，李克强总理明确表态，政府应该尽量的公开非涉密的数据，以便利用这些数据更好的服务社会，那么也为政府决策和监管服务。2017年5月28日，在2017中国国际大数据产业博览会上，由大数据战略重点实验室研究、编著、社会科学文献出版社出版的全国首部《大数据蓝皮书中国大数据发展报告No.1》正式发布。

从上面的信息我们可以清晰地看到，全球各主要的经济体都已经将数据开放作为国家战略，促进未来的经济发展。中国在顶层设计上已经开始布局大数据产业。

那么在华为的认知中，什么是大数据呢？

华为眼中的大数据是数据，包括了内部数据、外部数据、多样化数据、海量数据。技术，包括了分布式技术、存储技术、分析技术、挖掘技术和实时技术，更是一种思维，包括了定量思维、跨界思维、相关思维和实验思维。除此之外，大数据还需要传统行业思维方式的转变，要把数据采集、分析作为业务流程的重要组成部分，数据驱动业务流程优化，实现智能化和自动化，并依托数据资产实现跨界拓展。

华为的大数据战略包括了五个维度：

文化维度：自上而下实现决策的数据化
数据维度：让数据在应用中持续流动，贯穿沉淀。
技术维度：建立数据的统一技术大平台，
组织维度：角色清晰、价格明确。
应用维度：服务用户、驱动业务。

整个战略从数据平台到数据分析，再到数据价值，实现应用一体化。

1.6 华为云大数据基本介绍

现在我们基本上可以看到整个大在整个IT基础设施里面呢，大数据已经成为了一种基础的IT基础设施了。这个不仅从计算、存储网络可能成为it基础设施，大数据技术，包括我们所我们认为的数据仓库这种技术在各行各业应该都成成为了我们的这个ICT的基础设施。

从我们的这个技术发展的趋势里面我们就可以发现，可能从上个世纪八十年代开始，取源于数据库和数据仓库，特别是数据仓库已经变得非常成熟了，而且数据仓库一直成熟了，到到今天为止可能快四十年了，应用越广，在各个领域、各个行当，它应该来说是不区分任何具体的行业，像什么政府也好、金融也好、公安、互联网等等等等，因为作为一家公司或作为一个组织，你可能肯定要说我每个月要出一次账单、出一次财务报表、每年也要出类似的东西，或者说每个季度也出类似的东西。那么这种出这个账单、财务报表，或者进行一些清算、结算等等这些操作，后台使用的技术应该来说都是这种数据仓库。而且在各行各业的ERP系统里面，或者说其他的系统里面，这个数据仓库用的非常多或者非常广的。当然到了新的世纪，随着这个互联网技术进一步的发展，可能还在我们前面所定义的这种清算领域、结算领域范围的重要作用。当然在一些其他领域，比如说我们刚刚这个这个文字识别或者图像识别领域，那些数据可能都不再是那些结构化的数据，是由于数据库里面产生的非常干净的数据，都是一些文字或者是一些接送的字符串，那么这种情况下可能不再是数据仓库里面的这种，因此就产生了这种大数据的指数。

发展到今天来说，我们可以看到大数据的技术应该发展得越来越成熟、越来越完善。当然现在华为云在这个做大数据这一块，可能主打的就是我们所说我们刚才所提到的基于存算分离加鲲鹏这个完整的解决方案，为我们的用户、为我们的客户提供稳定的、高性价比的这种大数据服务。

华为云大数据整体架构

我们华为云的大数据整体架构可能总结现在可能就是这个存算分离加鲲鹏，总结一句话就是这个存算分离加鲲鹏，代表什么意思呢？

第一就是我们所有的底层的算力，或者我们所有的芯片是可以支持多种的，一种典型的可能就是这种X86比较传统的，大家可能都在X86的这种芯片上来执行我们的大数据程序，或者来进行我们的进行我们的大数据运算。

同时我们可能提供了第二种选择，这种选择可能会更加高效，同时更加高性价比，就是我们的鲲鹏生态，我们基于我们这种鲲鹏芯片的这种大数据服务，可能相比这种传统的及X86的这种大数据服务，在性能上面，我们的价格可能会低个百分之三十，现在华为的所有的大数据产品，包括我们的什么大数据平台，或者我们的企业级的数据仓库，都是可以在我们鲲鹏上来良好的、运来完整的或者良好来进行运行的。这样从芯片本身，我们可能为我们的客户会带来不小的这种性价比的收益。

第二点就是我们的大数据平台或者我们的大数据服务。相比以往的传统企业级的大数据平台，我们主推的可能这种存算分离的这种方案，就是我们的计算公式和结构的这种计算存储结构可能带来的好处就是我相信大部分的用户，他们数据的增长会远远大于这种计算能力的增长。

我们可能每天要做的要出了报表，或者每个月要出了月报表、月度的清算或者月度的结算，可能大家这些这些运算都是固定的，那但是我的数据会实现哪一些会累积？一年、两年、三年、五年、十年，那么我们的数据会逐步逐步的增大。基于这种情况，我们提供了这种存储跟计算结果，或者存储跟计算分离的这种架构，这很完美的契合我们我们刚才所说的这种情况，就是数据会执行累积，但是计算比较固定，或者说反过来说，如果计算会持续增加，但是数据比较固定也是非常适合这种情况的。我们只要把这两个东西把物理层面上把它给解开，那么我们需要计算的时候就会使用更多的计算资源，或者需要存储的时候就使用更多的存储资源。

避免以往一种情况，就是我不得不因为我的存储量的增加要买服务器，买服务器的时候可能是芯片、cpu、内存、磁盘都可以一起买。我们现在的时候，我们现在在华为云的这种情况，就是我存储增加的时候，我只是买存储就可以了，我计算增加的时候只是买计算就可以了，随时、随地都是按需来进行使用比较方便，同时也比较高效。通过这种方式呢也可以能够结构化的降低我们用户的使用成本。

第三点我们在AI上面有很多的应用或者很多的时间，其实我们AI里面一个重要的时间就是。通过AI的能力、AI的功能能够反向来推动大数据，让我们的大数据算得越来越好，或者算得越来越快、算得越来越稳定。因此我们把很多AI的这种这种能力，保证我们的大数据提取当时的各种特征，来进行优化或者来提升我们大数据的运算能力，最终让用户提得获得一个更加稳定、高效、并且可靠的这个大数据环境或者大数据服务。

我们的大数据平台服务、数据库探索服务、企业级的数据仓库服务，还有智能数据湖运营的DAYU服务，还有一个数据可视化的服务。

下面我们主要介绍一下，大数据的服务比较简单或者说比较通用，我们分分别看一下这些服务能够在哪些场地来进行使用，或者在什么地方可以用得到。

MRS服务：围绕数据开发流程，构筑一站式大数据平台

首先这个一站式的大数据平台服务，我们提供了数据端到端生命周期的各式各样的处理部件或者处理能力，从数据接入、数据存储、数据计算、数据分析和挖掘等等等等这整套的。我们OCR之后的数据其实要首先把它存下来，存下来之后可能要做一些汇总、统计、数据、清洗和分析，分析完了之后，我们肯定要需要做一些呈现用的、用的glv等等等等。因此这个大数据平台就是希望能够把以往各式各样的数据，只要我们的数据量比较大。

举个简单的例子，如果我们的数据量可能到了TB级别或者几十TB级别，那么我们需要对这些数据进行处理的话，一般来说可能都都需要这种典型的大数据平台来进行使用，或者来来做一个工具处理我们真正的这这些数据，我们这个纳税平台它的使用场景或者使用的目的可能就在于此，而且这个使用场景和目的啊在我们当前看起来可能是跟行业没什么关系的各行各业，他可能比如说像互联网、iot或者什么政府、金融、公安等等。这些行业他们的数据量其实都非常大，每天要处理的数据可能都按tb这个量级来进行来来进行衡量，可能是几十T或者三百T这种这种量级。对他们来说更加需要这种大数据平台来帮他们把整个数据、把它整理好、运算好，能够给我们的领导、给给我们那个一线运营的人员，或者说给我们用户看到一个良好的结果或者准确的结果，这是我们这个大数据平台他们的定位或者他们的能力是这个样子的。那么其实每家每户可能都有自己的大数据平台，那么华为的大数据平台除了我们最开始所提到的，我们基于存算分离和鲲鹏能够为用户提供一个更具备性价比、同时更稳定、高效的这个大数据平台。

在生态方面，我们的大数据平台是百分之百跟开源接口进行兼容的，开源生态里面能够接入的那些工具、软件或者服务，在我们的华云平台的大数据服务上面都可以都可以继承过来或者都可以接入过来，方便用户能够比较方便或者比较灵活的把我们的大数据平台迁移到华为云上面来。这是我们自己梳理了一下，我们的大数据平台或者我们的MRS服务比较适用的这些场景。但现在我们看到这个一站式的大数据平台，它只要满足一个条件就基本上比较实用，就是我们做的只要能够产生大量的数据，而且这个数据可能占TB级别或者更大的这个重量维度来来看的话，超过了TB，几十TB、上百TB或者TB级别的话，那么他们一般来说这些行业不得不使用这种大数据平台来对我们的数据进行一些清晰转换的话，能够出一些汇总统计。同时还有一部分用户可能会将来做一些类似用户画像、精准营销等等这方面的操作，来为我们的业务产生更多的价值。数据能够通过大数据平台产生价值，为上层的业务服务。

比如在哪些行业可能有什么东西、有什么样的使用方式呢？

下面我们介绍个例子，一个例子是比较典型的iot的例子，就是我们有一个客户，他们以前可能在线下的adc里面自己搭搭建了一套这个车联网的这个车联网的平台，当然主要使用了一些开源的这种大数据大数据平台搭建的，他们把在基于新兴idc搭建的这个平台啊统一搬到了华为上，我们搬迁过程基本上实现了这个百分之百的接口兼容，就是他们的代码基本一行没改。他们以前的所有写的那些应用都可以在华为云上直接来进行使用或来进行迁移。同时呢在接口、代码一旦不改的情况下，我们我们的平台的专项的调优，能够让他跑运行过程中性能更加好、更加方便，而且运维也更加更加顺畅一点。毕竟以前可能基于开源搭建的出问题的话，可能还要到开源社区去反馈、去求助。现在使用云服务的话，可能在这方面可能就不再需要了。总体来说，使用这个云上面的云服务，能够在对他们的业务、人员没产生任何影响的情况下，可能带来额外的收益或者更更多、更大的收益，就是在整个车联网领域。

总结：

随着数字划时代的到来，社会生产生活产生大量的数据，数据量越来越大，种类越来越多、企业迫切对大量数据的背后价值进行挖掘、华为云大数据服务帮助企业构筑从数据接入、存储、计算和分析的全生命周期大数据解决方案，帮助企业客户进一步挖掘数据价值，快速完成数字化转型，激发制造企业的创新活力、发展潜力和转型动力。

二、华为大数据解决方案介绍

传统的BI分析数据源单一，主要来自于BI系统和BSS。即业务的支撑系统，分析过程主要靠人工分析，特征不明显。除此之外，分析模型简单、精确度低。而我们的大数据分析数据来源多样、覆盖完整，数据来源包括了BI系统、Web、BSS、OSS，也就是运营、支撑系统等分析过程通过机器学习实现对所有数据进行全量分析，并且分析精度高、效果好。

因此相对于传统的BI分析而言，大数据分析能更准确地分析客户行为。而随着大数据技术的蓬勃发展，数据也逐渐地成为了企业的核心资产来推动商业创新。那么主要的产业推动经历了以下四个阶段。

第一个阶段是信息支撑业务，在技术层面支持，从大数据的it基础设施建设、简单应用以及大数据咨询等。而在业务层面，以降低成本为目的的数据管理、改造、离线分析、关注查询和报表。

2.1 华为大数据解决方案介绍

第二阶段是信息管理企业技术层面，建立大数据平台、跨域数据的整合以及分析构建、实时分析应用、及时响应业务，并且开始数据挖掘，进行高级的数据分析。而在业务层面，关注数据的多样化、实时性，提供多种分析、实时分析、数据挖掘和数据安全等。处于该阶段的企业有金融、企业、政府机构等。

第三阶段是信息指导、决策。技术层面，对外数据开放，提供数据服务、大数据和云相结合。支持、灵活开发各种应用以及隐私保护。企业决策数据化，跨行业、跨领域的数据挖掘、深度集成。业务层面包括数据、运营、数据集、服务、分析及服务开放数据等。处于该阶段的企业有领先的金融和电信运营商。

第四阶段是信息促进创新。技术层面构建企业的数字中枢、决策和运维的智能化、信息交易和共享。业务层面主要包括了认知计算、深度计算等。那么处于该阶段的企业主要是互联网公司。

在当今社会，大数据已经由过去的概念阶段过渡到现在的应用阶段，那么各种大数据应用与服务也越来越多，而所有的这些大数据。所应用服务都离不开大数据的分析平台。

华为的大数据平台叫Fusionlnsight，就是一个集大数据存储、处理与分析于一体的企业级统一化平台。Fusionlnsight平台是在开源hadoop大数据平台的基础上进行了功能强化，具有敏捷、智慧和可信等特点。其中敏捷主要体现在Fusionlnsight是完全开放的架构，性能上可以线性扩展，具有丰富的工具支持，开发、运维效率高，具有强大的SQL能力，业务移植便捷。智慧主要体现在Fusionlnsight能够实现全量建模，达到深刻洞察的效果，同时自研算法也能够高效、精准的分析数据，而可信主要体现在全组建实现高可用(HA)，异地融灾、金融等保服务。华为大数据开放、共赢，是最可信赖的合作伙伴。

2.2 华为大数据平台架构

上图就是华为大数据平台的整体架构图，它包含了三层，其中还有五层提供了大数据的处理环境，是基于社区版开源软件hadoop做的增强和优化。在这里面我们称为是Fusionlnsight hd平台。DataFarm层提供了支撑端到端的数据洞察、构建数据到信息、到知识、再到智慧的数据供应链，包含了数据集成服务Porter、数据挖掘、服务Miner和数据服务框架Farmer，而manager是一个分布式的系统管理框架。管理员可以从单一的接入点操控分布式集群，可以实现系统管理、数据安全管理和数据治理等。

在华为的大数据平台架构下，有哪些功能组件呢？如上图所示，最底层的基础设施包括了标准服务器、存储、网络等，而分布式存储层包括了HDFS、HBase、LibrA等，而分布式的计算框架包括了管理组件YARN、功能组件mapreduce、Spark、Storm等，再到上层的应用组件，包括了开源轻度增强的、开源孵化增强的以及开源深度增强的，还有一些自研的数据分析工具，这些组件保证了华为大数据平台功能，具有如下特点：百分百开源的核心支持混合负载，支持批量查询、交互查询、数据挖掘到流式查询等多种场景。开放式的存储格式，避免了锁定私有文件的格式。此外，所有的组件都可以通过manager提供的插件框架来按需安装好，这些就是关于华为大数据平台的架构及功能组件特征。

那么既然Fusionlnsight的平台是基于开源软件开发的企业级增强平台，它的增强特性主要体现在高可靠、高安全、高性能以及解决方案配套能力四个方面。那么接下来我们将针对这四个方面做一个详细的了解。大数据平台的高可靠性体现在Fusionlnsight HD所有的管理节点组件均实现高可用，所有的组件无单点故障，其中HBase集群能实现一千公里以上的异地灾备、表集集群备份、全量、增量日志备份，支持关键数据掉电保护，同时硬盘支持热插拔。

大数据平台的高安全性体现在Fusionlnsight HD具备基于用户和角色的统一认证体系，能够实现对角色进行权限管理和审计。WEB UI服务还支持单点的登录认证，对HBase的权限控制，支持HBase库、表、列族和列等不同的等级。hive还支持合法用户之间的数据安全隔离，保证用户数据的安全，支持合法用户之间的授权访问，允许用户数据交叉访问。

同时Fusionlnsight 还可以对文件系统进行加密，Hive、HBase可以对表、字段进行加密，集群内部用户信息禁止明文存储。加密算法插件化，可进行扩充，也可以自行开发，并且加解密的过程业务完全无感知。

高安全性还体现在对操作系统的安全加固，通过裁剪不必要的组件，工具自动测试扫描，在业务节点、管理节点和用户管理Portal等组件，采取业绩标准来实现操作系统加固，从而保证基础设施的安全性。

而高性能主要体现在针对数据密集型行业、传统数据库、数据仓库的大量关联表的设计，创新地实现了CTBase方案，可以将多个具有类似功能或者是存在关联的业务表聚簇到一个HBase大表中，从而提升一些关键场景的多表关联查询的性能。另外CTBase还提供了二级索引、RowKey Schema的维护管理等关键能力。

Fusionlnsight平台在集群管理方面，Fusionlnsight manager作为Fusionlnsight的运行维护中心，支持系统的双击和分布式并行处理，可以在十分钟之内完成集群安装，支持全自动化在线运行维护、自定义Dashboard、自动化的应用开发助手，让企业可以轻松地管理大数据系统，提供向导式升级、回退的界面操作，当升级过程异常时，支持自动安全回退，也支持观察期手工触发安全回退，可以在六分钟内完成Hadoop的集群升级。

Fusionlnsight HD还提供了北向接口，能实现与企业现有的网管系统进行集成，支持syslog接口，接口消息可以通过配置来适配现有的系统。整个Hadoop集群采用统一的集中管理，未来的北向接口可以根据需求进行灵活扩展。而在解决方案配套能力上，为了让开发者更方便地使用大数据技术，在开源Hadoop平台的基础上，华为的Fusionlnsight HD围绕数据的采集、分析和消费，在典型场景，比如数据中心运维、日志分析、历史数据查询、实时事件处理、客户特征画像等方面形成了一系列的解决方案，并跟随客户业务的发展不断地丰富。可见华为的Fusionlnsight 的大数据平台既源于开源，又不止于开源，在大数据平台的高可靠、高安全、高性能以及集群管理方面已经迈出了一大步。

2.3 华为大数据商业咨询服务总体方案

事实上，华为不仅提供了大数据平台的产品，还提供了大数据的商业咨询服务。那么接下来我们来详细的了解一下华为大数据商业咨询服务的总体方案。

华为提供了即大数据平台、行业、业务、模型分析以及咨询服务为一体的大数据商业咨询服务总体方案。这样的总体方案从拟定到落地执行需要经历Analysis分析、Design设计、integration集成、Execution执行四个阶段，其中分析主要包括市场分析、行业趋势分析、竞争分析、业界实践分析，然后根据分析结果来界定问题、构建问题数、确定根由进而梳理出需求和机会点。

设计阶段主要包括大数据商业战略设计、大数据商业模式设计、商业场景全景规划、典型场景需求设计、场景分解和业务设计等，最终根据典型场景形成运营方案。

集成阶段包含了对支撑数据源的梳理、现有标签梳理，从而给出数据资源准备建议、大数据的标签体系建议以及典型场景的数学建模建议，最终形成商业和网络的解决方案。

最后的执行阶段主要是对商业方案和技术方案进行落地，并形成相关的管理体系、流程制度，并由IT部门去实施执行。最终形成华为大数据商业咨询服务的总体方案，它能帮助传统企业设计、构建和运营大数据系统，向大数据驱动的企业进行转型。

具体来说，华为的解决方案分为以下三个关键步骤：第一，制定长远的战略规划，明确的当年目标，驱动大数据系统开展顶层设计。第二，开展商业设计、技术设计、部署实施与数据运营这4个大数据系统的支柱，然后分成更具体的8个关键行动。第三、进行组织、匹配、运作流程及人才训练。这是大数据构建与持续运营的基础，也是实施相关行动的前提条件。可见华为提供的不仅仅是一个大数据平台，更是一套能够在企业环境下部署实施的大数据整体解决方案。

2.4 大数据开发团队与社区贡献

华为的Fusionlnsight作为一套企业级的大数据存储、查询与分析的统一平台，那么参与开发和设计这个平台的工作者究竟是什么样的呢？接下来我们一起来认识一下华为大数据的开发团队及社区贡献。

我们知道华为的大数据平台是基于开源的Hadoop开发的，但是开源的还都谱，代码量大，组件多、更新快，有些功能、特性不能有效的组合，这对企业来说并不是一个适合生产的大数据产品。那比如某位银行的CIO说，我们把大数据应用视作是生命线，肯定是采用企业版，因为搞开源软件不是我们的主业。那么在选择合作伙伴的时候，我们一定是考虑门当户对，因为强有力的合作伙伴才能保证三到五年的供应以及合作安全，而只有强大的、掌握代码的团队才能造就成功的企业级数据平台软件。

华为的大数据团队的核心能力包括了定位内核级问题，独立完成支撑关键业务特性的内核级开发，能够引领社区完成面向未来的内河级特性开发，能够创建新的社区顶级项目，并且得到社区生态系统的认可。而目前华为的大数据专业研发团队也遍布全球，并且大数据也是华为公司的战略方向之一，未来预计将保持上千人规模的重点投入。

而华为对开源社区的贡献也非常可观，比如华为对Hadoop、spark等产品的贡献。已经稳居第一阵营，并且对开源社区的整体贡献呈逐年递增趋势。那么下图是二零一五年上半年，华为对Hadoop社区各组件贡献的分布情况。

二零一七年四月二十六日，Apache软件基金会宣布，华为贡献给Apache社区的开源项目CarbonData从Apache的孵化器毕业，正式成为Apache的顶级项目(TLP)。这意味着华为已经从大数据开源社区的参与者，转变成为社区和生态的引领者之一。

什么是CarbonData？CarbonData是一种大数据高效存储格式解决方案。针对当前大数据领域，分析场景需求各异而导致的存储冗余问题，CarbonData提供了一种新的融合数据存储方案，一份数据同时支持多种大数据应用场景，并于Apache社区的Hadoop、Spark等组件实现无缝集成。

三、华为大数据解决方案功能组件介绍

华为大数据解决方案Fusionlnsight架构中包含了各种各样的功能组件。接下来我们来深入地认识一下华为大数据解决方案功能组件介绍的内容。这部分内容将主要包括Fusionlnsight HD、Fusionlnsight LibrA，Fusionlnsight Miner和Fusionlnsight farmer简介。

我们知道Apache Hadoop是一个繁荣的开源生态系统，主要特点有Hadoop核心基本组件的开源代码量巨大，将近两百万行。HBase组件在快速的发展中，平均每个月一个发布版各组件。团队之间、团队成员是松耦合的，组件相关的特性也没有有效地整合。

那么如此大量的代码以及频繁的产品更新，再加上组件之间的松耦合，势必会使得开源的Hadoop平台在管理、使用以及维护中消耗掉大量的人力和物力，这对于企业来讲并不是一个合格的产品。而华为的Fusionlnsight HD就是从开源到企业级蜕变后的产品。

华为的Fusionlnsight HD大数据平台

华为的Fusionlnsight HD大数据平台采纳了开源社区平台的精华，去除了开源平台的bug。具体的做法是谨慎地选择稳定基线版本，认真评估高版本补丁的影响范围，采用数万个测试用例，从而来确保企业版本的稳定性，最终形成易用的、安全的、可靠的企业级大数据平台。其中易用用主要指易开发、易管理运维。安全指的是Fusionlnsight HD集成了统一的安全管理入口，RBAC授权机制以及数据加密安全等安全措施。可靠主要体现在系统无单点故障，并且实现地理容灾。可见华为的Fusionlnsight HD平台既源于开源又高于开源。

那么Fusionlnsight HD解决方案又包含了哪些组件呢？它包含了HDFS、Zookeeper、Hive、HBase等，这些组件通过fFusionlnsight manager来实现系统管理和安全管理，通过提供标准api的形式给上层应用提供服务。那么接下来我们一起来认识一下各个组件的功能。

HDFS全称是Hadoop分布式文件系统，是基于谷歌的GFS论文设计开发的，是一个运行在通用硬件上的分布式文件系统。它除了具备其他分布式文件系统相同的特性外，还具有自己独有的特性，比如高容错型、高吞吐量以及大文件存储的特征。那么HDFS适合做什么呢？HDFS适合大文件存储、流式数据访问，不适合做什么呢？不适合大量小文件、随机写入、低延迟读取的场景。

而另一个组件大数据数据库HBase是Fusionlnsight HD大数据平台中与HDFS协同工作，提供存储功能的组件。HBase的名字来源于Hadoop Database，即Hadoop的数据库。Hbase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。利用HBase技术，可以在廉价的PC server上搭建起大规模、结构化存储集群。HBase利用Hadoop HDFS作为其文件的存储系统，利用Hadoop的MapReduce来处理HBase中的海量数据，利用zookeeper作为协同服务。而另一个在大数据中我们经常谈到的组件是Hadoop MapReduce，它是基于HDFS的MapReduce编程框架，是一个能够在大量的普通配置的计算机上处理和生成超大数据集的编程模型的具体实现。

Hadoop MapReduce的框架确保程序以可靠的、容错的方式进行执行。采用Hadoop MapReduce架构可以使那些没有并行计算和分布式处理系统开发经验的程序员，有效地利用分布式系统的丰富资源。

另一个组件实际是Yarn，是hadoop 2.0中的资源管理系统，它是一个通用的资源管理模块，可为各类应用程序进行资源的管理和调度，Yarn是一个轻量级的弹性计算平台。除了MapReduce框架，还可以支持其他框架，比如Spark(迭代计算)、Storm(实时处理)，YARN可以对多种框架统一管理，共享集群资源，具有资源的利用率高、运维成本低、数据共享方便等等特点。

Spark是一款独立的、高速的、开源的分布式计算引擎，提供内存计算模式。它的核心是弹性分布式数据集，RDD(Resilient Distributed Datasets)经过实测，某些情况下其计算速度比Hadoop快十倍以上。Zookeeper是针对谷歌 Chubby的开源实现，使用java编写，是一个分布式的协调服务，它包含了一个简单的原语集，分布式应用程序可以给基于它实现同步服务、配置维护和命名服务等，从而减轻分布式应用程序所承担的协调任务。以上是关于Fusionlnsight平台中各个功能组件的介绍。接下来我们介绍一下Fusionlnsight LibrA。

Fusionlnsight LibrA是一个并行的数据库集群，是为新一代数据仓库所需的大规模数据和复杂查询功能而设计。该产品采用现代云计算的MPP理念和shared nothing架构，以及高性能、高可用性和动态扩展等特性，为超大规模数据管理提供了一个高性价比的通用平台。当然其核心竞争力也主要体现在这些方面。而在Fusionlnsight LibrA的架构中，主要包含了这么一些组件，Storage存储主要用于持久化存储，数据存储形式包括了行存储、列存储以及混合存储。data node指的是执行查询任务分片的逻辑实体，WLM工作负载管理器用于控制系统资源的分配。GTM全局事务控制器，用于全局一致性事物的控制，多版本并发控制mvcc机制。Coordinator连接节点用于接收用户连接，分解并调度任务分片，然后并行执行。cm集群管理模块用于管理各功能单元和物理资源，om运维管理模块用于运维、配置管理、接口及工具。

通过架构图我们其实可以发现底层有storage和data node构成了基本的存储部分，通过网络通道提供各个节点的访问，而业务用户则通过coordinator的连接节点来访问数据存储，作为一个并行的数据库集群。LibrA引擎的优势特性主要包含了第一、标准的sql能力支持，它支持标准的sql92和sql2003规范；第二、集群管理加HA高可用；第三、workload的管理；第四、分布式执行引擎；第五、行列混合存储；第六、各种工具、安全保障和api接口。好，这些就是关于Fusionlnsight LibrA的六个优势特征。

接下来我们继续学习功能组件中Fusionlnsight Miner组件，Fusionlnsight Miner称为是华为大数据的洞察平台。从这张图中我们可以看出，miner是处于Hadoop与应用之间的大数据的核心组件，对外提供数据挖掘的业务能力，面对大数剧带来的挑战。用户可以结合自己的领域知识以及Miner从各类原始数据中提取到活跃的、优质的数据，以便为后续构建模型和评估模型提供统一的向量化输入。而所谓的分析建模是指选取合适的模型算法，通过特征化的训练集作为输入进而训练生成业务模型，并对业务模型进行评价获得最优方案，同时还提供了模型的部署和调度管理。而数据的可视化主要是指将分析出来的数据做出清晰、完美的呈现，这个就是Fusionlnsight Miner组件。

那么具体如何进行数据洞察呢？首先可以通过外部数据源来收集数据，比如企业数据、企业数据和互联网数据逻辑相关的数据。企业数据与第三方数据源、市场连接的数据等等。其次，基于行业的特征模型进行数据输入。特征工程是数据洞察的得力助手，通过获取和收集到得力的优质特征，并对特征进行管理，为后续构建和评估模型提供统一的向量化输入。最后是分析建模。

Miner具有图形化的模型探索环境，并且具有coding Free的特点，也就是说开发过程封装成算子，无需编写任何代码。而Miner作用于数据的效果，包括低价值密度的数据重获新生；定时动态保持数据源更新，保持数据的新鲜性，特征可多次复用，提升数据分析团队的协作效率。

那么Miner带给客户的价值有哪些呢？第一，采用Miner挖掘并创造出新的业务价值；第二，实时业务预测，形成新商机；第三、降低行业用户的使用门槛，使大数据的探索与洞察变得更简单。比如在金融领域，包括金融资产预测、理财产品、精准推荐、客户特征刻画等方面，miner都有其独特的应用价值。

最后我们来认识一下Fusionlnsight farmer，Fusionlnsight farmer是华为的数据服务平台，为企业业务应用提供了轻量级的应用运行环境。其特点主要包括了跨平台性、高可靠性、安全性、高性能、弹性伸缩、实时分布式处理能力、透明化访问hadoop以及统一、高效易用的运维管理能力等等。

那它究竟给客户带来了哪些使用价值呢？Fusionlnsight farmer的客户价值主要体现在：

第一、快速获取，保证企业业务的查询效率为秒级。

第二、易于开发，基于高效、可共享的业务应用开发框架、开发业务逻辑，节省了百分之八十的程序量。

第三、优化成本，采用分布式软件和通用的X86服务器来代替小型机，使用负载均衡SLB来代替硬件设备。

第四、优质体验，通过可视化界面提供监控、告警、流程编排、业务拓扑等功能

在Fusionlnsight farmer中，关键技术有提供二次开发的sdk，支持socket、web、MQ等多种协议接入。支持基于标准工作流引擎的业务流程编排服务，提供负载均衡SLB，基于Dubbo框架实现去中心化的负载均衡能力，提供业务逻辑实力级的监控能力，自动识别系统短板，根据SLA规则实现业务逻辑的弹性伸缩。通过业务拓扑展示已部署业务逻辑的全景鸟瞰图，支持灰度发布升级时可新旧版本共存，控制并快速的解决新版本可能存在的缺陷，实现平滑升级，保证系统的稳定。

总结：通过本次学习华为大数据解决方案功能组件介绍，知道了解FusionInsight HD简介、FusionInsight LibrA简介、FusionInsight Miner简介和FusionInsight Farmer简介。

四、华为大数据应用分享

接下来我们来分享一下华为大数据解决方案是如何应用的，华为大数据解决方案可应用在各种业务场景，这里我们以移动运营商、金融机构和政府机构三大领域为例来了解一下。

4.1 移动运营商应用分享

首先我们来看一看移动运营商面临着怎样的问题，而华为又提供了怎样的解决方案呢？从电信的发展历程来看，运营商数字化转型是价值链从封闭、垄断到开放平等过程中的一次被迫重构。数字经济到来以后，运营商必须从商业架构、企业架构和网络架构进行彻底的重构，重新地定位自己，看清自己的核心能力，以开放、合作的心态与OTT共建价值链，才能在这次浪潮中获得成功。

华为对世界范围内运营商总结后提出了数字化的转型模型，在扩展客户群领域，从个人、家庭向企业与物联网延伸。在客户资产价值挖掘方面，从传统的电信服务到客户价值驱动的多样化数字业务，提升了业务价值。客户资产价值的开放构建生态环境，通过开放、共享来获取客户资产增值收益。在运营系统和流程变革方面，打造以客户体验为中心的数字化运营系统和企业架构，从而来提升运营效率。

华为大数据解决方案是基于对运营商、用户和网络的理解，综合运营商各域数据进行大数据建模，从而实现用户保留、业务提升、网络效率提升和对外价值变现的最终商业成功。而实际上华为为运营商行业提供的解决方案主要分为四个层次，在level 1基础设施层适配BSS和OSS数据，用户行为数据以及外部数据等电信领域数据。在level 2数据处理层，采用统一的大数据平台，结合level 3服务层，共同组成了FusionInsight平台，向下融合跨域数据，向上支持不同的应用；最后的level 4应用层，主要是电信领域商业驱动的应用。包括了智能运营、营销、智能关怀、KPI、NPM、客户体验管理、MIS、Dass等一些应用。

接下来我们来看一个具体的案例，湖南移动原经分架构不能满足业务发展要求，计划采用大数据技术建设新的经分系统。而图中显示的就是原经分系统的架构。我们可以看出原有的经分系统有着非常明显的局限性，主要体现在以下四个方面：

第一、原架构不能匹配业务发展，移动业务已经进入“大数据、微营销时代”，而现有的系统还是以传统架构来建设的，因此难以支撑。

第二、需求响应效率低，数据应用的耦合度高，而模型设计灵活性不足。因此从需求提出到最终实现流程长、响应慢。

第三、缺少融合业务的支撑能力。由于缺少对O域、M域数据的整合与理解，而分析支撑又局限于B域范围，因此，难以支撑移动互联网流量经营需要的跨域、端到端的分析需求。

第四、数据管理和开放能力不足。除经分系统以外，按照应用模式独立建设的大量应用子系统缺少统一的管理和开放能力，造成创新应用引入困难。

而华为的大数据解决方案凭借技术评比第一、综合评比第一的优势，获得了客户的信赖，从而成功地为湖南移动构建了新的经分系统。华为大数据解决方案主要采用了Hadoop结合LibrA。混搭架构，实现对B\M\O域数据的全面接入，融合处理并进行统一的建模。同时引入爬虫、流计算等技术，实现对互联网数据的处理和实时的业务支撑。而通过本项目的建设，帮助湖南移动实现了如下六个方面的改进和提升：

1、提升平台能力 2、提升数据资产的管理能力 3、提升日常的工作效率 4、提升业务能力 5、提升开放能力 6、降低后续的建设成本。

那么接下来我们将针对其中的三个方面做一个具体的分析。

首先是平台能力的提升，非结构化数据的处理能力方面，采用爬虫技术实现对互联网非结构化数据的获取和处理，利用Hadoop的分布式扩展优势。网页爬取任务均衡的分摊到各个节点上，并启动多线程执行，极大地提升了网页的爬取效率。

云化ETL提升海量数据的处理能力方面，主要体现在高性能和高扩展性上。比如相同处理能力的硬件平台，大部分场景的性能提升了百分之五十以上，整个集群的处理能力可以动态伸缩，程序任务可以完全的自定义扩展，灵活性强。

分钟级实时数据处理分析能力方面，流数据处理实现持续的数据载入和数据处理，缩短了数据延迟，支撑实时营销。事件处理中心，提高了事件配置、事件、处理、事件的服务能力。

此外，通过Hadoop集群和LibrA数据引擎，提升分布式计算和存储能力。从整体上来看，与原系统相比，新的经分系统实现了对数据的分布式计算、存储，提升了对非结构化数据的支持，增强了对海量数据的处理能力，实现了实时的数据分析处理，接入数据规模每日可达7个T，数据的存储量超过3个PB；平台支持2000个经分用户的日常访问需求，以及20000个一线用户的营销需求。其次是日常分析效率的提升，运营商数据资产全视图提供的自助分析服务，实现市场部门用户的提数时长从周到小时的转变。例如88元4G套餐语音资源使用率的报表原本需要两周时间获取，而在新的平台下可以实现自助报表1小时即席查询2小时的时间指标。

最后，业务能力的提升支撑大数据、超细分、微营销、精服务的落地。比如，建立客户生命周期的模型、客户生物钟模型等数据模型，以用户标签为基础对客户进行细分，建立客户第一时刻、异动时刻、重要时刻、免打扰时刻等标签，分别进行精准的营销，比如以客户群方式营销、以一刻一时一策略的方式进行营销等。

4.2 金融机构应用分享

传统金融机构的特征是通过标准化和产业化提供服务，关注过程和步骤，被动接收信息，并且信息的来源单一，通过客户经理联系客户，固定渠道单一交互，可以满足世纪之初的客户需求。那么随着数字化信息时代的发展，客户需求逐步的改变，比如客户需要随时随地的获取服务、寻找有意义的体验以及互动参与内容、产品和体验的创建等等。那么金融机构就需要朝着移动化、个性化、社交化、实时化的方向进行发展。

当然，为了朝着移动化、个性化、社交化和实施化的方向发展，金融数据架构就要有所改变，由原本单一的核心交易平台转变为两个数据平台，即在原有数据平台的基础上加入大数据平台，通过大数据平台提供具有实时在线性、业务持续性和跨多元数据的业务服务，比如统一的历史明细、在线征信等。金融行业对大数据平台的要求主要体现在：

企业级的质量标准要求：比如金融等保、可靠、易用、支持与现有系统的对接。
开放性要求：多分析引擎、统一管理，满足多样化的数据分析场景。
挖掘能力要求：支持机器学习、深度学习等新的数据挖掘能力，实现更精准的洞察。

因此全新的金融数据平台架构如图所示，通过构建统一的离线和实时的计算平台，融合跨域数据，从而来支撑不同的业务应用。那么华为金融行业大数据业务主要包括了客户管理、营销管理、风险管理、运营管理以及信息创新五大领域，涵盖客户三百六十度画像、电话银行、信用卡反欺诈、产品定位、历史数据管理等28个业务模块。

银行业务竞争越来越激烈，急需以金融数据分析和挖掘为基础进行产品预测、创新和风险评估，来提升自身的竞争力。而金融数据量和种类的不断增加，传统数据仓库也只适合结构化数据处理，同时扩展性差、扩容成本高，已经无法满足大数据时代的要求。

在如此严峻的挑战下，招商银行选择了华为的大数据解决方案，建立了高可靠、高安全、易管理、易开发的企业级大数据平台。华为大数据解决方案是第一家支持金融等保，第一家支持1000公里以上异地融灾的海量数据分析和挖掘的平台，能实现与企业应用的无缝衔接。华为拥有强大的内核及开发工程团队和咨询、定制化的服务能力。而华为的大数据解决方案平台也为招商银行提供了统一的全量的数据分析和挖掘功能，提供了丰富的创新业务，比如在线明细、精准营销、实时征信等。除此之外，在小微贷获客预测方面，比传统方式提升了40倍的转化率，金融资产的预测误差率降低了一倍。而信用卡征信也有原来的15天缩减至2-5秒，同时支持线性扩容，并且扩容成本低。

那么接下来我们来看一下具体的应用场景，比如在线的历史明细查询方面，华为FusionInsight数据服务结合FusionInsight HD基础数据平台的解决方案，使客户只需要专注历史明细查询业务的编写即可。数据服务平台支持多业务系统并发访问，从而实现实时的历史明细的查询能力。并且数据服务平台也支持socket和web的业务请求接入和分发，与招行的业务系统实现无缝衔接。此外，创新的CTBase方案独有的表聚簇和多级索引，支持HBase多表的关联查询能力，而HBase同时也支持sql、java api的编程接口，来适应客户的编程习惯。在客户行为分析方面：华为的FusionInsight Miner数据洞察结合FusionInsight HD基础数据平台的解决方案，使客户只需关注客户行为分析业务的编写。而FusionInsight Miner基于大数据进行全量的建模分析，可以挖掘出14000维客户特征，实现多维客户行为的并发分析。同时FusionInsight Miner采用机器自动学习机制，大大的提高了分析的准确度，最终客户行为分析结果存储在HBase中，供业务的查询使用。再比如在实时征信方面的应用，华为的FusionInsight farmer数据消费平台，结合FusionInsight HD基础数据平台的解决方案，也使客户只需关注实时征信业务逻辑的编写即可。

其中FusionInsight farmer支持多业务系统的并发访问，实现实时征信访问能力。FusionInsight farmer同时也支持tcp/http的请求接入和分发，提供负载均衡功能，实现于招行业务系统的无缝衔接。而前面我们谈到创新的CTBase方案，其独有的表聚簇和多级索引，支持HBase多表关联查询的能力，并且HBase也支持java api的编程接口，从而来适应客户的编程习惯。

4.3 政府机构应用分享

现在的政府机构依然以传统的架构为主，政府机构面临着政、企与居民的双向沟通、移动政府的安全与访问控制等多方面的需求。与金融机构类似，传统架构越来越不能满足政府机构服务人民群众的需求，这也迫使政府机构需要走上大数据和云计算的转型之路。其实我们可以尝试想象，未来经过大数据和云计算转型之后的政府与民众能实现360度的全方位沟通，可以基于人工智能提供个性化的服务、预测分析未知风险等。实现更优、更快的转变。

其中公安政府的大数据业务模型主要包括情报分析、案件侦破、交警业务、警员办公四大领域，而大数据的价值点包括了同行分析、案件统计、套牌车分析、电子卷宗检索等29个方面。华为大数据作为一套经过多方检验与实践的成熟的解决方案，能够完美地覆盖公安政府大数据业务。

总结：

大数据具有数据量大、数据类型丰富复杂、数据增长速度快等特点。所以想要学好大数据那就要学好一系列的大数据生态圈技术组件，以及贯穿整个数据分析流程的分析方法和思维，只有明确了数据分析场景与流程，才能够确定需要整合哪些组件来解决这一问题。

华为多年来一直在探索大数据的成功之道，历经了诸多大数据项目实践，在帮助客户成功的同时，总结、提炼出了以“谋、聚、管、算、用”为支撑的五阶段大数据服务解决方案，覆盖企业大数据升级转型从运筹帷幄到决胜千里的端到端。让企业客户的大数据“看得见、摸得到”，助力企业客户大数据“用得好，做得实”。

注：本文整理自华为云社区【内容共创系列】活动，
查看活动详情：https://bbs.huaweicloud.com/blogs/314887
相关任务详情：华为云上大数据处理与分析

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

【云驻共创】大数据入门与应用(深度好文，不看后悔系列)

一、大数据是什么

大数据产生与发展

大数据产生和发展的三个阶段

1.1 大数据基本概念

1.2 大数据的思维特征

1.3 hadoop生态系统简介

1.4 大数据的价值与应用

1.5 大数据的发展趋势

1.6 华为云大数据基本介绍

华为云大数据整体架构

MRS服务：围绕数据开发流程，构筑一站式大数据平台

总结：

二、华为大数据解决方案介绍

2.1 华为大数据解决方案介绍

2.2 华为大数据平台架构

2.3 华为大数据商业咨询服务总体方案

2.4 大数据开发团队与社区贡献

三、华为大数据解决方案功能组件介绍

华为的Fusionlnsight HD大数据平台

四、华为大数据应用分享

4.1 移动运营商应用分享

4.2 金融机构应用分享

4.3 政府机构应用分享

总结：

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

【云驻共创】大数据入门与应用(深度好文，不看后悔系列)

一、大数据是什么

大数据产生与发展

大数据产生和发展的三个阶段

1.1 大数据基本概念

1.2 大数据的思维特征

1.3 hadoop生态系统简介

1.4 大数据的价值与应用

1.5 大数据的发展趋势

1.6 华为云大数据基本介绍

华为云大数据整体架构

MRS服务：围绕数据开发流程，构筑一站式大数据平台

总结：

二、华为大数据解决方案介绍

2.1 华为大数据解决方案介绍

2.2 华为大数据平台架构

2.3 华为大数据商业咨询服务总体方案

2.4 大数据开发团队与社区贡献

三、华为大数据解决方案功能组件介绍

华为的Fusionlnsight HD大数据平台

四、华为大数据应用分享

4.1 移动运营商应用分享

4.2 金融机构应用分享

4.3 政府机构应用分享

总结：

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品