【云驻共创】华为云数据库之大数据入门与应用(上)

举报
愚公搬代码 发表于 2022/04/19 15:40:30 2022/04/19
【摘要】 本文主要介绍的内容有:大数据是什么、华为大数据解决方案介绍。

前言

本文主要介绍的内容有:

  • 大数据是什么
  • 华为大数据解决方案介绍

一、大数据是什么

1.大数据的产生和发展

1.1 大数据产生的背景

大数据产生的背景主要来源于三个方面:信息科技进步、云计算技术兴起、数据资源化趋势。

1.1.1 信息科技进步

随着手机及其他智能设备的兴起,全球网络在线人数激增,我们的生活已经被数字信息所包围,而这些所谓的数字信息就是我们通常所说的"数据",我们可以将其称为大数据浪潮,由此可以看出,智能化设备的不断普及是大数据迅速增长的重要因素。

面对数据爆炸式的增长,存储设备的性能也得到相应的提高。计算机产业会进行周期性的更新换代,表现在计算能力和性能的不断提高。同时,以前的低速带宽也已经远远不能满足数据传输的要求,各种高速高频带宽不断投入使用,光纤传输带宽的增长速度甚至超越了存储设备性能的提高速度。由此可以看出,物联网的广泛应用、存储设备性能的提高、网络带宽的不断增长也是大数据迅速增长的重要因素。

综上所述,智能设备的普及、物联网的广泛应用、存储设备性能的提高、网络带宽的不断增长正是信息科技进步的体现,它们为大数据的产生提供了储存和流通的物质基础。

1.1.2 云计算技术兴起

云计算技术是互联网行业的一项新兴技术,它的出现使互联网行业产生了巨大的变革,我们平常所使用的各种网络云盘,就是云计算技术的一种具化表现。云计算技术通俗的来讲就是使用云端共享的软件、硬件以及各种应用,来得到我们想要的操作结果,而操作过程则由专业的云服务团队去完成。我们通常所说的云端就是"数据中心",现在国内各大互联网公司、电信运营商、银行乃至政府各部委都建立了各自的数据中心,云计算技术已经在各行各业得到普及,并进一步占据优势地位。

云空间是数据存储的一种新模式,云计算技术将原本分散的数据集中在数据中心,为庞大数据的处理和分析提供了可能,可以说云计算为大数据庞大的数据存储和分散的用户访问提供了必需的空间和途径,是大数据诞生的技术基础。

1.1.3 数据资源化趋势

根据产生的来源,大数据可以分为消费大数据和工业大数据。

  • 消费大数据:消费大数据是人们日常生活产生的大众数据,虽然只是人们在互联网上留下的印记,但各大互联网公司早已开始积累和争夺数据,谷歌依靠世界上最大的网页数据库,充分挖掘数据资产的潜在价值,打破了微软的垄断。Facebook基于人际关系数据库,推出了graph search搜索引擎;在国内阿里和京东两家最大的电商平台也打起了数据战,利用数据评估对手的战略动向、促销策略等等。
  • 工业大数据:在工业大数据方面,众多传统制造企业利用大数据成功实现数字转型表明,随着"智能制造”快速普及,工业与互联网深度融合创新,工业大数据技术及应用将成为未来提升制造业生产力、竞争力、创新能力的关键要素。

1.2 大数据发展历程

大数据产生和发展主要分为三个阶段:萌芽期、成熟期、大规模应用期。

1.2.1 萌芽期(20世纪90年代至21世纪初)

随着数据挖掘理论和数据库技术的逐步成熟,一批商业智能工具和知识管理技术开始应用,比如:数据仓库、专家系统、知识管理系统等。

  • 商业智能工具:数据仓库、专家系统。
  • 知识管理技术:知识管理系统。

在这里插入图片描述

这一阶段可以看做是大数据发展的萌芽时期,在当时大数据还只是作为一种构想或者假设被极少数的学者进行研究和讨论,其含义也仅限于数据量的巨大,并没有更进一步的探索有关数据的收集、处理和存储等问题。

1.2.2 成熟期(21世纪初至2010年)

Web2.0应用的迅猛发展,非结构化数据大量产生,使得传统方法难以应付,而大数据技术却快速突破,大数据的解决方案也逐渐的走向成熟,大数据在成熟期形成了并行计算与分布式系统两大核心技术。

谷歌的GFS和MapReduce等大数据技术受到追捧,开源技术Hadoop平台也开始大行其道。

  • 并行计算:MapReduce。
  • 分布式系统:GFS、Hadoop

在这里插入图片描述
在这里插入图片描述

这一阶段被看做是大数据的发展时期,大数据作为一个新兴名词开始被理论界所关注,其概念和特点得到进一步的丰富,相关的数据处理技术相继出现,大数据开始展现活力。

1.2.3 大规模应用期(2011年至今)

2010年以后大数据开始广泛应用到各行各业,人们开始用数据来驱动决策,社会信息化、智能化程度也大幅度提高。

2012年世界经济论坛在瑞士达沃斯召开,会上讨论了大数据相关的系列问题,发布了名为《大数据,大影响》的报告,向全球正式宣布大数据时代的到来。

这一阶段被看做是大数据的完成期,大数据被各行各业关注和研究,研究大数据在各个领域中的应用情况,以及大数据的技术架构。各国政府也为应对大数据时代的到来,制定相应的战略。

2.大数据的基本概念

2.1 大数据的定义

到目前为止大数据还没有明确统一的定义,不同组织机构对大数据有着不同描述。

1、麦肯锡(McKinsey)

大数据指其大小超出了典型数据库软件的采集、存储、管理和分析等能力的数据集。

2、维基百科(Wikipedia)

大数据是无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的大量而复杂的数据集。

3、美国国家标准技术研究院(NIST)

大数据是数量大、获取速度快或形态多样的数据。难以用传统关系型数据分析方法进行有效分析,或者需要大规模的水平扩展才能高效处理。

4、Gartner公司

大数据是体积大、快速和多样化的信息资产,需要高效率和创新型的信息技术加以处理,以提高发现洞察、做出决策和优化流程的能力。

2.2 大数据的4V特征

对于上面定义的分析可见大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低的四大特征。
在这里插入图片描述

2.2.1 Volume(容量)

Volume(容量):随着信息化技术的高速发展,数据开始爆发性增长。大数据中的数据不再以几个GB或几个TB为单位来衡量,而是以PB(1千个T)、EB(1百万个T)或ZB(10亿个T)为计量单位。

容量主要是指非结构化数据的模型和增长速度。主要的特性如下:

  • 占总数据量的80~90%。
  • 比结构化数据增长10~50倍
  • 传统数据仓库的10~50倍

在这里插入图片描述

2.2.2 Variety(多样化)

Variety(多样化):多样性主要体现在数据来源多、数据种类多和关联性强这三个方面。

  • 数据来源多:企业所面对的传统数据主要是交易数据,而互联网和物联网的发展,带来了诸如社交网站、传感器等多种来源的数据。而由于数据来源于不同的应用系统和不同的设备,决定了大数据形式的多样性。大体可以分为三类:一是结构化数据,如财务系统数据、信息管理系统数据、医疗系统数据等,其特点是数据间因果关系强;二是非结构化的数据,如视频、图片、音频等,其特点是数据间没有因果关系;三是半结构化数据,如HTML文档、邮件、网页等,其特点是数据间的因果关系弱。
    在这里插入图片描述

  • 数据种类多:以非结构化数据为主。传统的企业中,数据都是以表格的形式保存。而大数据中有70%-85%的数据是如图片、音频、视频、网络日志、链接信息等非结构化和半结构化的数据。
    在这里插入图片描述

  • 关联性强:频繁交互,如游客在旅游途中上传的照片和日志,就与游客的位置、行程等信息有很强的关联性。
    在这里插入图片描述

多样化主要指大数据异构和多样性。主要的特性如下:

  • 数据有多种不同形式
  • 数据无模式或者模式不明显

在这里插入图片描述

2.2.3 Value(价值)

Value(价值):尽管企业拥有大量数据,但是发挥价值的仅是其中非常小的部分。大数据背后潜藏的价值巨大。由于大数据中有价值的数据所占比例很小,而大数据真正的价值体现在从大量不相关的各种类型的数据中。挖掘出对未来趋势与模式预测分析有价值的数据,并通过机器学习方法、人工智能方法或数据挖掘方法深度分析,并运用于农业、金融、医疗等各个领域,以期创造更大的价值。

价值主要指大量不相关信息和价值密度低。主要的特性如下:

  • 需要通过深度复杂分析才可以对未来趋势与模式进行预测

在这里插入图片描述

2.2.4 Velocity(高效)

Velocity(高效):这是大数据区分于传统数据挖掘最显著的特征。大数据与海量数据的重要区别在两方面:一方面,大数据的数据规模更大;另一方面,大数据对处理数据的响应速度有更严格的要求。实时分析而非批量分析,数据输入、处理与丢弃立刻见效,几乎无延迟。数据的增长速度和处理速度是大数据高速性的重要体现。

高效主要指实现实时分析,实时呈现分析结果。主要的特性如下:

  • 实时呈现数据分析结果

在这里插入图片描述

3.Hadoop生态系统简介

3.1 Hadoop的介绍

Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。为用户提供了系统底层细节透明的分布式基础架构,用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。

Hadoop是基于Java语言开发的,具有很好的跨平台特性并且可以部署在廉价的计算机集群中。

Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。

在这里插入图片描述

3.1.1 HDFS(Hadoop分布式文件系统)

HDFS是GFS克隆版。是Hadoop体系中数据存储管理的基础。它是一个高度容错的系统,能检测和应对硬件故障,用于在低成本的通用硬件上运行。

HDFS简化了文件的一致性模型,通过流式数据访问,提供高吞吐量应用程序数据访问功能,适合带有大型数据集的应用程序。

HDFS主要有以下几个部分组成:

1、Client:切分文件;访问HDFS;与NameNode交互,获取文件位置信息;与DataNode交互,读取和写入数据。

2、NameNode:Master节点,在hadoop1.X中只有一个,管理HDFS的名称空间和数据块映射信息,配置副本策略,处理客户端请求。对于大型的集群来讲,Hadoop1.x存在两个最大的缺陷:

  • 对于大型的集群,namenode的内存成为瓶颈,namenode的扩展性的问题。
  • namenode的单点故障问题。

针对以上的两个缺陷,Hadoop2.x以后分别对这两个问题进行了解决。

  • 提出了Federation namenode来解决,该方案主要是通过多个namenode来实现多个命名空间来实现namenode的横向扩张。从而减轻单个namenode内存问题。
  • hadoop2.X提出了实现两个namenode实现热备HA的方案来解决。其中一个是处于standby状态,一个处于active状态。

3、DataNode:Slave节点,存储实际的数据,汇报存储信息给NameNode。

4、Secondary NameNode:辅助NameNode,分担其工作量;定期合并fsimage和edits,推送给NameNode;紧急情况下,可辅助恢复NameNode,但Secondary NameNode并非NameNode的热备。

目前,在硬盘不坏的情况,我们可以通过secondarynamenode来实现namenode的恢复。

3.1.2 Mapreduce(分布式计算框架)

Hadoop MapReduce是google MapReduce克隆版。MapReduce是一种计算模型,用以进行大数据量的计算。其中Map对数据集上的独立元素进行指定的操作,生成键-值对形式中间结果。Reduce则对中间结果中相同"键"的所有"值"进行规约,以得到最终结果。MapReduce这样的功能划分,非常适合在大量计算机组成的分布式并行环境里进行数据处理。

MapReduce计算框架发展到现在有两个版本的MapReduce的API,针对MR1主要组件有以下几个部分组成:

  1. JobTracker:Master节点,只有一个,主要任务是资源的分配和作业的调度及监督管理,管理所有作业,作业的监控、错误处理等;将任务分解成一系列任务,并分派给TaskTracker。
  2. TaskTracker:Slave节点,运行Map Task和Reduce Task;并与Job Tracker交互,汇报任务状态。
  3. Map Task:解析每条数据记录,传递给用户编写的map(),并执行,将输出结果写入本地磁盘。
  4. Reducer Task:从Map Task的执行结果中,远程读取输入数据,对数据进行排序,将数据按照分组传递给用户编写的reduce函数执行。

在这个过程中,有一个shuffle过程,对于该过程是理解MapReduce计算框架是关键。该过程包含map函数输出结果到reduce函数输入这一个中间过程中所有的操作,称之为shuffle过程。在这个过程中,可以分为map端和reduce端。

3.1.2.1 Map端

1、输入数据进行分片之后,分片的大小跟原始的文件大小、文件块的大小有关。每一个分片对应的一个map任务。

2、map任务在执行的过程中,会将结果存放到内存当中,当内存占用达到一定的阈值(这个阈值是可以设置的)时,map会将中间的结果写入到本地磁盘上,形成临时文件这个过程叫做溢写。

3、map在溢写的过程中,会根据指定reduce任务个数分别写到对应的分区当中,这就是partition过程。每一个分区对应的是一个reduce任务。并且在写的过程中,进行相应的排序。在溢写的过程中还可以设置conbiner过程,该过程跟reduce产生的结果应该是一致的,因此该过程应用存在一定的限制,需要慎用。

4、每一个map端最后都只存在一个临时文件作为reduce的输入,因此会对中间溢写到磁盘的多个临时文件进行合并Merge操作。最后形成一个内部分区的一个临时文件。

3.1.2.2 Reduce端

1、首先要实现数据本地化,需要将远程节点上的map输出复制到本地。

2、Merge过程,这个合并过程主要是对不同的节点上的map输出结果进行合并。

3、不断的复制和合并之后,最终形成一个输入文件。Reduce将最终的计算结果存放在HDFS上。

针对MR2是新一代的MR的API。其主要是运行在Yarn的资源管理框架上。

3.2 Hadoop的优势

Hadoop被公认为行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力,几乎所有主流厂商都围绕Hadoop提供了相关开发工具、开源软件、商业化工具和技术服务。比如谷歌、雅虎、微软、华为、思科等等。

3.3 Hadoop的发展之路

2004年: 最初的版本(现在称为HDFS和MapReduce)由Doug Cutting和Mike Cafarella开始实施,它的原型和灵感来自于Google的MapReduce和GFS是一套开源的分布式计算框架。

在这里插入图片描述
2004-2006:随着Doug Cutting加入雅虎,Hadoop项目从Nutch项目独立出来,成为Apach基金会的顶级项目。
在这里插入图片描述
2006-至今:Hadoop经过七年积累融入了R语言、Hive、Pig、Zookeeper、Cassandra、Chukwa、Sqoop等一系列数据库及工具。最终从一个科学项目发展成为一个成熟的主流商业应用。这期间一系列Hadoop商业化的软件公司出现了。2015年华为在开源技术的基础上发布Fusionlnsight企业级大数据平台,标志着华为正式进军大数据领域。
在这里插入图片描述

3.4 Hadoop的架构

Hadoop的架构主要分为系统管理层、数据源层、存储层、处理层和业务应用层。

  • 数据源层:其中数据源可以是结构化、非结构化和半结构化的数据。
  • 存储层:HDFS用作数据存储。
  • 处理层:YARN平台用于数据处理,处理层包括MapReduce、Hive、HBase、Storm等各种组件。
  • 业务应用层:业务应用层主要包括数据挖掘、统计和分析工具。
  • 系统管理层:系统管理层包括配置部署、监控报警、性能容量、分布式协调、高可用、工作流引擎等模块

在这里插入图片描述

3.4 Hadoop的项目组件

组件 功能
HDFS 分布式文件系统
MapReduce 分布式并行编程模型
YARN 资源管理和调度器
Tez 运行在YARN之上的下一代Hadoop查询处理框架
Hive Hadoop上的数据仓库
HBase Hadoop上的非关系型分布式数据库
Pig 一个基于Hadoop的大规模数据分析平台,提供类似SQL的查询语言PigLatin
Sqoop 用于在Hadoop与传统数据库之间进行数据传递
Oozie Hadoop上的工作流管理系统
Zookeeper 提供分布式协调一致性服务
Storm 流计算框架
Flume 一个高可用、高可靠、分布式的海量日志采集、聚合和传输的系统

3.5 Hadoop的特性

所有组件中最著名的是HDFS和MapReduce。而Hadoop作为一套能以可靠、高效、可伸缩的方式对大量数据进行分布式处理的软件框架具有以下几个方面特性:

  • 高可靠性:因为Hadoop假设计算元素和存储会出现故障,因为它维护多个工作数据副本,在出现故障时可以对失败的节点重新分布处理。
  • 高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。
  • 高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。
  • 高容错:自动保存多份副本数据,并且能够自动将失败的任务重新分配。
  • 低成本:Hadoop通过普通廉价的机器组成服务器集群来分发以及处理数据,以至于成本很低。
  • 支持多种编程语言:支持R语言,Java等多种编程语言

在这里插入图片描述

4.大数据的价值和应用

4.1 大数据的影响

4.1.1 思维方式

大数据完全颠覆了传统的思维方式主要体现在以下三个方面:

  • 全样和非抽样:大数据实现全量数据分析
  • 效率和非精确:大数据实现高效实时的数据分析
  • 相关和非因果:大数据分析偏向于分析数据或现象的关联性

在这里插入图片描述

4.1.2 社会发展

大数据决策逐渐成为一种新的决策方式,大数据应用有力促进了信息技术与各行业的深度融合,大数据开发大大推动了新技术和新应用的不断涌现。
在这里插入图片描述

4.1.3 就业市场

大数据的兴起使得数据科学家成为热门职业。
在这里插入图片描述

4.1.4 人才培养

大数据的兴起将在很大程度上改变我国高校信息技术相关专业的现有教学和科研体制。

在这里插入图片描述

4.2 大数据的应用

大数据的应用主要涉及的领域有:运营商领域、公共事业领域、金融领域、教育领域、零售领域、政府公共安全领域。

4.2.1 运营商领域

DOCOMO公司通过撬动大数据努力开发新的商业机会,提取公司海量客户信息,实现了8个产业的110亿美元的收入,比如:基于作物品种和天气的作物种植和收成预测,基于客户位置和行为信息的保险指南,为保险和汽车行业收集并分析驾驶记录,通过实时监控汽车传感器状态、汽车速度、风向、风速等的创新桥梁监控系统,为旅游资源开发汇聚用户的位置信息。
在这里插入图片描述

除此之外DOCOMO公司还根据麦当劳手机用户的消费特征和位置进行一对一营销。比如:日本的麦当劳的手机网站拥有超过2600万会员,每五个日本人口中就有一个是麦当劳移动网站的会员。
在这里插入图片描述

这些庞大的用户群形成了海量购买的用户数据,DOCOMO通过手机钱包、读写装置及后台的CRM系统,成功实现了对大量顾客购买记录的积累和分析处理,从而根据客户各自的消费特征,推出一对一营销的新型优惠卷。
在这里插入图片描述
以上就是大数据在运营商领域的运用。

4.2.2 公共事业领域

谷歌流感趋势图,通过跟踪搜索词相关数据来判断全美地区的流感情况,以预防流感蔓延。
在这里插入图片描述
以上就是大数据在公共事业领域的运用。

4.2.3 金融领域

在金融领域大数据的运用也非常广泛,下面是金融领域的几个案例。

  • 伦敦德温特资本市场,公司首席执行官保罗霍延每天的工作之一,就是利用电脑程序分析全球3.4亿微博账户的留言,进而判断民众情绪,再以1-50分进行打分,根据打分结果,霍延再决定如何处理手中数以百万美元计的股票。霍延的判断很简单,如果所有人似乎都高兴那就买入,如果大家的焦虑情绪上升那就抛售。这一招收益效率显著,当年第一季度霍延公司获得了7%的收益率。
    在这里插入图片描述

  • 某银行通过小微贷和非小微贷客户的特征收集,建立小微贷倾向预测模型,其中收集小微贷客户信息10458个,非小微贷客户信息12000个,然后将900万客户数据执行分析,挖掘出14000个客户特征,获取高倾向小微贷客户列表。
    在这里插入图片描述

4.2.4 教育领域

比如大数据分析被应用到美国的公共教育中,成为教学改革的重要力量,包括学习成绩、入学率、辍学率、开学率等等内容的统计分析应用。
在这里插入图片描述

4.2.5 零售领域

以前,某零售企业采取的是人工蹲点的方式进行采样分析,每个潜新址调研花费约几万元。现在,这家连锁零售企业通过大数据分析,根据用户选择的区域,以数据地图的形式展示该区域的人群特征和统计报表,为选址提供依据。
在这里插入图片描述
零售企业通过获取所在区域的人流数据可以进行人流量和人群特征分析,人群来访频次和时段偏好分析。为综合性购物中心、百货、大卖场和专业的连锁客户提供决策辅助。
在这里插入图片描述

4.2.6 政府公共安全领域

政府公共安全和交通领域也有大数据的身影。比如:当自动预警与联动系统监控到某个区域,异常人员超过警戒值时,监管部门通过数据分析,及时定位问题,发送问题并确认,可能是因为全体性斗殴事件引发群众聚集围观,那么此时可以及时上报上级公安部门处理。大数据分析还可以实现城市人口流向监控分析。
在这里插入图片描述

4.2.7 小结

大数据再各行各业都发挥着不可忽视的重要作用,不仅仅是运营商领域、公共事业领域、金融领域、教育领域、零售领域、政府公共安全领域有着大数据身影。其他领域行业也离不开大数据的决策。
在这里插入图片描述

5.大数据的发展趋势

对于大数据而言,在2011年它还属于新兴技术,2014年已经跨越炒作巅峰,2015年大数据已经跨越裂谷走向成熟。如今,50%的企业已经投资和使用大数据,50%的企业正在规划如何利用大数据。我们看到在大数据领域的持续投资也促使了大数据逐渐步入成熟发展阶段。而在2015年新技术图中我们已经找不到大数据的身影了,代表着大数据已不再是新兴技术,而已成为了主流技术。
在这里插入图片描述
在国家层面:各国已经将大数据作为国家战略提上了议程。2009年美国总统奥巴马签署了《透明和开放的政府》,2013年白宫推出了Data to Knowledge to Action计划。这是美国向数字治国、数字经济、数字城市、数字国防转型的重要举措。美国政府2016年5月发布《联邦大数据研究与开发战略计划》。围绕人类科学、数据共享、隐私安全等七个关键领域部署推进大数据建设。另外有八国集团在2015年联合发布了《G8数据开发宪章》提出要加快推动数据开发和利用。
在这里插入图片描述
我国政府对于大数据发展也极其重视。2015年3月的两会上李克强总理明确表态,相关部门应该尽量公开非涉密的数据,以便利用这些数据更好服务社会,那么也为相关部门决策和监管服务。2017年5月28日,在2017年中国国际大数据产业博览会上,由大数据战略重点实验室研究编著,社会科学文献出版社出版的全国首部《大数据蓝皮书:中国大数据发展报告NO.1》正式发布。
1650353985(1).jpg

从上面信息我们可以清晰的看到,全球各主要经济体都以将数据开发作为国家战略,促进未来经济发展。中国在顶层设计上已经开始布局大数据产业。
在这里插入图片描述
华为的认知中的大数据有以下几点:

  • 华为眼中的大数据是数据:包括内部数据、外部数据、多样化数据、海量数据。
  • 华为眼中的大数据是技术:分布式技术、存储技术、分析技术、挖掘技术、实时技术。
  • 华为眼中的大数据是思维:定量思维、跨界思维、相关思维、实验思维。

除此之外大数据还需要传统行业思维方式的转变:要把数据收集、分析作为业务流程的重要组成部分,数据驱动业务流程优化,实现智能化和自动化,并依托数据资产实现跨界扩展。
在这里插入图片描述
华为大数据战略包括五个维度:文化维度、数据维度、技术维度、组织维度、应用维度。整个战略从数据平台到数据分析再到数据价值实现应用一体化。
在这里插入图片描述

6.华为云大数据基本介绍

6.1 大数据处理技术已经成为IT基础设施

在这里插入图片描述
主要产品类型

  • 数据仓库:Greenplum、TeraData、Oracle、华为DWS
  • 通用大数据平台:Cloudera AWS EMR、腾讯E-MapReduce,阿里E-MapReduce、华为MapReduce

6.2 华为云大数据整体架构

存算分离+鲲鹏,提供极致的算力和多元框架。
在这里插入图片描述

6.3 MRS

6.3.1 MRS服务

围绕数据开发流程,构筑一站式大数据平台。
在这里插入图片描述
目标客户

  • 自建大数据平台:可平滑搬迁自建CDH、HDP、Fusionlnsight大数据平台。
  • 云服务迁移:可平滑搬迁AWS EMR、Azure HD Insight、阿里E-MapReduce、腾讯弹性MapReduce

6.3.2 MRS优势

100%兼容开源的基础上,打磨性价比+企业级能力。
在这里插入图片描述

6.3.3 华为云MRS对比自建场景

维度 子项 公有云 自建数据中心
成本 硬件成本 无需购买硬件 购买设备
成本 架构成本 基于Openstack开源架构,可扩展性好 可扩展性得不到保障
成本 人力成本 无需投入 自建运维团队或第三方运维
成本 资源使用 按需租用(或包周期),弹性灵活 单独使用
运维 基础设施运维 专业团队统一运维,硬件扩容减容,坏件更换,物理网络维护等 自建运维团队或第三方运维
运维 业务系统运维 租户业务系统运维人员 业务系统运维人员
运维 服务平台版本 由公有云服务商统一更新,版本迭代快 自行制定升级计划,升级周期慢,迭代慢
安全 数据安全 具备完整的安全防护体系,数据放在云提供商的数据中心。云存储级数据安全冗余 自建全防护体系,投入大,局限性较大
安全 灾备与容灾 容易实现业务双活、多数据中心容灾,利用多region和多AZ 业务双活、容灾设备投入大,且不能两地三中心容灾
生态 第三方接入 整合上下游生态资源,提供100多种增值服务 封闭系统,不利于构建生态
生态 服务数量 IAAS+PAAS+SAAS,大数据、AI、安全等,服务众多 仅提供基础的计算、存储、网络IAAS功能
技术 功能 开放架构,及时享受云计算的最新技术和服务硬件预警,系统自动漂移,规避风险CPU/内存/硬盘均可在线扩容,简单快捷 封闭系统,升级、扩容复杂,监控预警、规避风险能力一般

6.3.4 适用MRS进行大数据处理的行业场景

在这里插入图片描述
一站式大数据平台服务适合:只要有大量数据产生,并且客户希望将产生的数据进行存储、分析和价值挖掘的行业,就会有大数据市场机会。

6.4 华为云大数据平台优势

6.4.1 零代码修改

零代码修改,助力xxxx实现车联智能服务,数据处理效率显著提升。
在这里插入图片描述

6.4.2 低成本、高性能

低成本、高性能,助力xxx从AWS EMR服务华为云。
在这里插入图片描述

6.4.3 DWS服务

DWS(Data Warehouse Service)是完全托管的BB级企业数据仓库服务,易用,开放,极致性能。助力企业高效经济高效地对海量数据进行在线分析,实现数据快速变现。已交付300+客户。
在这里插入图片描述

6.4.4 华为云数仓核心优势

华为云数仓核心优势主要体现在:性能、扩展性、可靠性、易用性、安全。
在这里插入图片描述

6.5 典型使用场景与行业

6.5.1 数据分析场景

数据分析场景,搬迁Oracle/Greenplum传统数仓
在这里插入图片描述

6.5.2 电商案例

数据仓库的替换。
在这里插入图片描述

6.5.3 物流案例

快速、低成本的构建企业的数据平台&BI系统,支撑决策。
在这里插入图片描述

二、华为大数据解决方案介绍

1.华为大数据解决方案介绍

华为大数据解决方案主要有以下四个方面:华为大数据解决方案简介、华为大数据平台架构、华为大数据商业咨询服务总体方案、大数据开发团队与社区贡献。

1.1 大数据分析和传统BI分析区别

在这里插入图片描述
传统BI分析:

  • 数据源单一
  • 人工分析,少量特征
  • 简单模型,精确度低

大数据分析:

  • 数据源多样,覆盖完整
  • 机器学习,全量特征
  • 分析精度高,效果好

1.2 大数据产业驱动

大数据产业驱动主要经历了以下四个阶段:信息业务支撑、信息管理企业、信息指导决策、信息促进创新。

1.2.1 信息业务支撑

在这里插入图片描述
信息业务支撑主要体系在两个方面:

  • 技术层面:IT基础设施建设,简单应用,大数据咨询
  • 业务层面:数据管理改造,离线分析,关注查询、报表

1.2.2 信息管理企业

在这里插入图片描述
信息管理企业主要体系在两个方面:

  • 技术层面:建立大数据平台、跨域数据整合,构建实时分析应用、及时响应业务,开始数据挖掘进行、高级数据分析
  • 业务层面:关注数据多样实时性,提供多种分析,实时分析,数据挖掘,数据安全

1.2.3 信息指导决策

在这里插入图片描述
信息指导决策主要体系在两个方面:

  • 技术层面:开放数据服务与云结合,灵活开放应用隐私保护、决策数据化数据挖掘深度集成
  • 业务层面:数据运营,数据即服务,分析即服务,开放数据等

1.2.4 信息促进创新

在这里插入图片描述
信息促进创新主要体系在两个方面:

  • 技术层面:构建数字中枢,决策、运维智能化,信息交易共享
  • 业务层面:认知计算,深度计算

1.3 大数据发展阶段

大数据已经从概念阶段过渡到应用阶段。大数据的服务也越来越多,但都离不开大数据平台。
在这里插入图片描述
华为的大数据分析平台叫Fusioninsight,就是一个集大数据存储、处理和分析为一体的企业级统一化平台。Fusioninsight平台是在开源Hadoop大数据平台的基础上进行功能强化具有敏捷、智慧、可信等特点。
在这里插入图片描述

  • 敏捷:主要体现在Fusioninsight是完全开放的架构,线上可以线性扩展,具有丰富的工具支持,开发运维效率高,具有强大的sql能力,业务移植更便捷。
  • 智慧:Fusioninsight能实现全量建模,达到深刻洞察的效果,同时自研算法能高效精准地分析数据
  • 可信:可信主要体现在全组件高可用、异地容灾、金融等保服务,华为大开放、共赢,是最可信赖的合作伙伴

在这里插入图片描述

2.华为大数据平台架构

2.1 华为大数据平台架构层次

下面这就是华为云大数据平台架构图,它包含了三层如下:

  • Hadoop:提供了大数据处理文件,是基于社区版开源软件Hadoop做的增强和优化,在这里我们称为Fusioninsight HD平台
  • DataFarm:提供支撑端到端的数据洞察,构建数据到信息、到知识、再到智慧的数据供应链,包含了数据集成服务Porter、数据挖掘服务Miner和数据服务框架Farmer
  • Manager:是一个分布式系统管理框架,管理员可以从单一登入点操控分布式集群,可以实现系统管理、数据安全管理和数据治理等

在这里插入图片描述

2.2 华为大数据平台的组件

在华为大数据平台下的组件功能有:

  • 基础设施层:包含了标准服务器、存储、网络等。
  • 分布式存储层:HDFS、HBase、LibrA等。
  • 分布式计算框架:管理组件包括YARN,功能组件包括MapReduce、Spark、Storm,上层应用组件包括开源轻度增强、开源孵化增强、开源深度增强、自研数据分析工具。

在这里插入图片描述

2.3 华为大数据平台的组件特点

这些组件保证了华为大数据平台功能,具有如下特点:

  • 百分比开源核心,支持混合负载,支持批量查询、交互查询、数据挖掘到流式查询等多种场景。
  • 开放式存储格式,避免了锁定私有文件格式。此外,所有的组件格式都可以通过Manager组件提供的插件框架按需安装。

在这里插入图片描述

2.4 华为大数据平台Fusioninsight的增强特性

Fusioninsight的增强特性主要体现在:高可靠、高安全、高性能、以及解决方案匹配能力四个方面。
在这里插入图片描述

2.4.1 高可靠

大数据平台的高可靠性主要体现在:

  • Fusioninsight所有组件节点均实现高可用,所有组件无单点故障,其中HBase能实现1000公里以上的异地灾备。
  • 表级集群备份、全量、增量日志备份。支持关键数据掉电保护。
  • 硬盘支持热插拔。

在这里插入图片描述

2.4.2 高安全

2.4.2.1 认证安全

能实现对角色进行权限管理和审计
在这里插入图片描述
WEBUI服务还支持单点登录认证。对HBase的权限控制支持HBase库、表、列族和列等不同等级。Hive还支持合法用户之间的数据安全隔离,保障用户数据安全,支持合法用户之间的授权访问,允许用户数据交叉访问
在这里插入图片描述

2.4.2.2 数据安全

Fusioninsight支持对文件系统进行加密,Hive、HBase可以对表进行字段加密,集群内部用户信息禁止明文存储。加密算法插件化可进行扩充,也可自行开发,并且加解密过程业务完全无感知。
在这里插入图片描述

2.4.2.3 系统安全

高安全性还体现在对操作系统的安全加固,通过裁剪不必要的组件,工具自动测试扫描。在业务节点、管理节点和用户管理Portal等组件采取业务标准来实现操作系统加固,从而保证基础设施的安全性。
在这里插入图片描述

2.4.3 高性能

2.4.3.1 CTBase

针对数据密集型行业传统数据库,数据仓库的大量关联表设计,创新地实现了CTBase方案,能够将多个具有类似功能或者是存在关联的,业务表聚集到一个HBase大表中,从而提升了一些关键场景的多表关联查询的性能,另外CTBase还提供了二级索引Rowkey Schema的维护管理等关键能力。
在这里插入图片描述

2.4.3.2 集群管理

Fusioninsight Manager作为Fusioninsight运维维护中心。主要功能有以下几点:

  1. 支持系统双机和分布式并行处理,可在10分钟内完成集群安装。
    在这里插入图片描述
  2. 支持全自动化在线运行维护、自定义Dashboard、自动化应用开发助手。
    在这里插入图片描述
  3. 让企业可以轻松管理大数据系统,提供向导式升级、回退界面操作,但升级过程异常时支持自动安全回退,也支持观察期手工触发安全回退,可以在6分钟内完成Hadoop的升级
    在这里插入图片描述
  4. Fusioninsight HD提供了北向接口,能实现企业现有网管系统进行集成
    在这里插入图片描述
  5. 支持syslog接口,接口消息可通过配置来适配现有系统,整个Hadoop集群采用统一的集中管理,未来北向接口可根据需求进行灵活扩展
    在这里插入图片描述

2.4.4 解决方案配套

Fusioninsight HD围绕数据的采集、分析和消费,在典型的场景如数据中心运维、日志分析、历史数据查询、实时事件处理、客户特征画像等方面形成了一系列解决方案,并跟随客户业务的发展不断丰富。
在这里插入图片描述
华为的Fusioninsight大数据平台源于开源又不止于开源,在大数据平台的高可靠、高安全、高性能、以及集群管理等方面已经迈出了一大步。
在这里插入图片描述

3.华为大数据商业咨询服务总体方案

华为云提供了集大数据平台、行业业务模型分析及咨询服务为一体的大数据商业咨询服务总体方案。
在这里插入图片描述

3.1 华为大数据商业咨询服务总体方案的四个阶段

这样的方案从拟定到落地执行需要经历Analysis分析、Design设计、Integration集成、Execution执行四个阶段。
在这里插入图片描述

3.1.1 Analysis分析阶段

其中Analysis分析阶段:主要包括市场分析、行业趋势分析、竞争分析和业界实践分析,然后根据分析结果来界定问题、构建问题树、确定根由进而梳理出需求和机会点。
在这里插入图片描述

3.1.2 Design设计阶段

其中Design设计阶段:大数据商业战略设计、大数据商业模型设计、商业场景全景规划、典型场景需求设计、场景分解和业务设计等,最终根据典型场景形成运营方案。
在这里插入图片描述

3.1.3 Integration集成阶段

其中Integration集成阶段:对支撑数据源的梳理、现有标签梳理,从而给出数据资源准备建议、大数据标签体系建议、以及典型场景的数字建模建议,最终形成商业和网络解决方案。
在这里插入图片描述

3.1.4 Execution执行阶段

其中Execution执行阶段:主要是对商业方案和技术方案落地,形成相关的管理体系和流程制度,并由IT部门去实施执行,最终形成华为大数据商业咨询服务的总体方案,它能帮助传统企业设计、构建和运营大数据系统,向大数据驱动的企业进行转型
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.2 华为大数据商业咨询服务总体方案的三个步骤

具体来说华为的解决方案分以下三个步骤:

  1. 制定长远的战略规划:明确当年目标,驱动大数据系统开展顶层设计
  2. 开展商业设计、技术设计、部署实施与数据运营这四大数据系统的支柱,让后分成更具体的8个关键行动
  3. 进行组织匹配、运作流程及人才训练,这是大数据构建与持续运营的基础,也是实施相关行动的前提条件

在这里插入图片描述
华为提供的不仅仅是一个大数据平台,更是一个能在企业下部署实施的大数据整体商业解决方案。

4.大数据开发团队与社区贡献

4.1 华为大数据开发团队优势

华为大数据开发团队有以下的优势:

  • 把大数据应用视作生命线,比起开源Hadoop能更有效更便捷满足顾客需求。
    在这里插入图片描述

  • 有着强大掌握代码团队。
    在这里插入图片描述

4.2 华为大数据开发团队核心能力

华为大数据开发团队核心能力包括以下几点:

  • 定位内核级问题
  • 独立完成支撑关键业务特性内核升级开发
  • 引领社区完成面向未来的内核级特性开发
  • 创新新社区顶级项目并得到社区生态系统认可

在这里插入图片描述

4.2 华为大数据开发团队分布情况

华为大数据专业研发团队也遍布全球,大数据是华为公司战略方向之一,未来将保持上千人规模的重点投入。
在这里插入图片描述

4.3 华为的社区贡献

华为对开源社区的贡献度也非常可观,华为对Hadoop,Spark等产品贡献度稳居第一阵营,而且对开源社区的整体共享呈逐年增加的趋势。
在这里插入图片描述
华为2015年上半年对Hadoop社区贡献如图:
在这里插入图片描述
2017年4月Apache软件基金会宣布,华为贡献给Apache社区的开源项目CarBonData从Apache孵化器毕业,成为正式的Apache顶级项目。
在这里插入图片描述
以上足以说明华为从大数据开源社区的参与者逐渐转变成社区的生态和引领着之一。
在这里插入图片描述

CarBonData是一种大数据高效存储格式解决方案,针对当前大数据领域,分析场景需求各异导致的存储冗余问题,CarBonData提供了一种新的融合数据存储方案,一份数据同时支持多种大数据场景,并与Apache社区的Hadoop,Spark等组件实现无缝集成。
在这里插入图片描述

总结

本文主要介绍的内容有:大数据是什么、华为大数据解决方案介绍。

大数据作用主要有以下三点:

  • 对大数据的处理分析正成为新一代信息技术融合应用的结点。移动互联网、物联网、社交网络、数字家庭、电子商务等是新一代信息技术的应用形态,这些应用不断产生大数据。云计算为这些海量、多样化的大数据提供存储和运算平台。通过对不同来源数据的管理、处理、分析与优化,将结果反馈到上述应用中,将创造出巨大的经济和社会价值。
  • 大数据是信息产业持续高速增长的新引擎。面向大数据市场的新技术、新产品、新服务、新业态会不断涌现。在硬件与集成设备领域,大数据将对芯片、存储产业产生重要影响,还将催生一体化数据存储处理服务器、内存计算等市场。在软件与服务领域,大数据将引发数据快速处理分析、数据挖掘技术和软件产品的发展。
  • 大数据利用将成为提高核心竞争力的关键因素。各行各业的决策正在从“业务驱动” 转变“数据驱动”。

综上所述,社会发展离开不了大数据。人们的出行越来越离不开大数据的协助,运用电子地图,初来乍到的游客可以在生疏的城市自由行走;繁忙一天的上班族可以查询最快回家的交通方法;出租车司机经过语音导航,知晓前方路程状况,防止堵车或超速违章。这些都是大数据在生活中的体现。


本文整理自华为云社区【内容共创】活动第15期。

查看活动详情:https://bbs.huaweicloud.com/blogs/345822

相关任务详情:任务15.华为云数据库入门与应用

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。