MapReduce服务初体验【玩转华为云】

举报
nukinsan 发表于 2022/04/25 23:14:35 2022/04/25
【摘要】  1、 概述1.1、什么是MapReduce?大数据是人类进入互联网时代以来面临的一个巨大问题:社会生产生活产生的数据量越来越大,数据种类越来越多,数据产生的速度越来越快。传统的数据处理技术,比如说单机存储,关系数据库已经无法解决这些新的大数据问题。为解决以上大数据处理问题,Apache基金会推出了Hadoop大数据处理的开源解决方案。Hadoop是一个开源分布式计算平台,可以充分利用集群的...

 1、 概述

1.1、什么是MapReduce

大数据是人类进入互联网时代以来面临的一个巨大问题:社会生产生活产生的数据量越来越大,数据种类越来越多,数据产生的速度越来越快。传统的数据处理技术,比如说单机存储,关系数据库已经无法解决这些新的大数据问题。为解决以上大数据处理问题,Apache基金会推出了Hadoop大数据处理的开源解决方案。Hadoop是一个开源分布式计算平台,可以充分利用集群的计算和存储能力,完成海量数据的处理。企业自行部署Hadoop系统有成本高,周期长,难运维和不灵活等问题。

针对上述问题,华为云提供了大数据MapReduce服务(MRS),MRS是一个在华为云上部署和管理Hadoop系统的服务,一键即可部署Hadoop集群。MRS提供租户完全可控的一站式企业级大数据集群云服务,完全兼容开源接口,结合华为云计算、存储优势及大数据行业经验,为客户提供高性能、低成本、灵活易用的全栈大数据平台,轻松运行Hadoop、Spark、HBase、Kafka、Storm等大数据组件,并具备在后续根据业务需要进行定制开发的能力,帮助企业快速构建海量数据信息处理系统,并通过对海量信息数据实时与非实时的分析挖掘,发现全新价值点和企业商机。

1.2、应用场景

大数据在人们的生活中无处不在,在IoT、电子商务、金融、制造、医疗、能源和政府部门等行业均可以使用华为云MRS服务进行大数据处理。

1.2.1、海量数据分析场景

海量数据分析是现代大数据系统中的主要场景。通常企业会包含多种数据源,接入后需要对数据进行ETLExtract-Transform-Load)处理形成模型化数据,以便提供给各个业务模块进行分析梳理,这类业务通常有以下特点:

  • 对执行实时性要求不高,作业执行时间在数十分钟到小时级别。
  • 数据量巨大。
  • 数据来源和格式多种多样。
  • 数据处理通常由多个任务构成,对资源需要进行详细规划。

例如在环保行业中,可以将天气数据存储在OBS,定期转储到HDFS中进行批量分析,在1小时内MRS可以完成10TB的天气数据分析。

环保行业海量数据分析场景

该场景下MRS的优势如下所示。

  • 低成本:利用OBS实现低成本存储。
  • 海量数据分析:利用Hive实现TB/PB级的数据分析。
  • 可视化的导入导出工具:通过可视化导入导出工具Loader,将数据导出到DWS,完成BI分析。

1.2.2、海量数据存储场景

用户拥有大量结构化数据后,通常需要提供基于索引的准实时查询能力,如车联网场景下,根据汽车编号查询汽车维护信息,存储时,汽车信息会基于汽车编号进行索引,以实现该场景下的秒级响应。通常这类数据量比较庞大,用户可能保存13年的数据。

例如在车联网行业,某车企将数据储存在HBase中,以支持PB级别的数据存储和毫秒级的数据详单查询。

车联网行业海量数据存储场景

该场景下MRS的优势如下所示。

  • 实时:利用Kafka实现海量汽车的消息实时接入。
  • 海量数据存储:利用HBase实现海量数据存储,并实现毫秒级数据查询。
  • 分布式数据查询:利用Spark实现海量数据的分析查询。

1.2.3、实时数据处理

实时数据处理通常用于异常检测、欺诈识别、基于规则告警、业务流程监控等场景,在数据输入系统的过程中,对数据进行处理。

例如在梯联网行业,智能电梯的数据,实时传入到MRS的流式集群中进行实时告警。

梯联网行业低时延流式处理场景

该场景下MRS的优势如下所示。

  • 实时数据采集:利用Flume实现实时数据采集,并提供丰富的采集和存储连接方式。
  • 海量的数据源接入:利用Kafka实现万级别的电梯数据的实时接入。

2、操作步骤

详细体验过程如下:

2.1、登录实验环境




2.2、购买MapReduce服务

登录华为云完成后点击“控制台”->“服务列表”->“大数据”->MapReduce服务MRS”进入MRS控制台,如下图所示:


点击右上角“购买集群”,进入购买集群页面。请选择“自定义购买”页面。按照如下信息配置集群基本信息:【区域】:华北-北京四【集群名称】:自定义名称,本实验手册以“mrs-hcia”为例【集群版本】:MRS 1.9.2【集群类型】:混合集群;


 

【分析组件】:全选

【流式组件】:全选


元数据:本地元数据完成后单击“下一步”。硬件配置如下:【计费模式】:按需计费【可用区】:默认【虚拟私有云】:点击“查看虚拟私有云”,进入虚拟私有云界面,点击“创建虚拟私有云”,所有参数默认,点击“立即创建”即可。回到购买集群页面,点击刷新按钮,即可选中创建的虚拟私有云。【子网】:虚拟私有云创建完成后子网自动创建并选中【安全组】:自动创建【弹性公网IP】:暂不绑定


 

直接选用默认设置,选择立即创建


此时选择创建的私有云,选择子网,企业项目。


 

修改分析core节点配置



修改流式core节点配置。



在高级配置中,设置adminroot帐号密码。


以上操作顺利完成后,出现如下成功创建提示。


此时可看到集群状态为创建中。



2.3、购买弹性公网IP

进入创建的集群节点,


找到集群的master节点


点击后,选择查看公网ip


选择购买公网IP


 

创建后,会出现二个公网IP地址。


2.4、绑定弹性IP

浏览器切回到弹性云服务器的管理控制台页面。点击“绑定弹性公网IP”,网卡默认,勾选选择一个IP,点击确定


2.5、修改安全组

修改云主机安全组;


进入虚拟私有云管理界面后,依次单击左侧访问控制”->“安全组,进入安全组管理界面后,点击以mrs开头的安全组。


放通所有策略。


2.6、访问集群的管理页面

切换浏览器至“mrs-hcia”集群详情页面,点击概览”->“IAM用户同步,点击同步,然后点击前往 Manager”


出现如下界面,并输入前面设置的密码信息。


点击“登录”,即可进入MRS Manager页面。

2.7、利用MapReduce做单词统计

切回到桌面双击“Xfce终端打开Terminal输入执行以下命令下载实验数据。

wget https://sandbox-experiment-resource.obs.cn-north-1.myhuaweicloud.com/mapreduce/wordcount

下载成功后界面如下:


下载wordcount jar

2.8、将数据和代码上传到OBS

在浏览器点击“控制台”->"服务列表" -> "存储" -> "对象存储服务",进入到对象存储服务页面,如下图所示:


obs管理页面点击创建桶按钮创建一个OBS桶。参数配置如下图所示:【区域】:华北-北京四【数据冗余存储策略】:单AZ存储【桶名称】:自定义【存储类别】:标准存储【桶策略】:私有【默认加密】:关闭【归档数据直读】:关闭【标签】:默认


自定义桶名,选择单AZ


此时会提示创建成功。


创建完成后点击桶名称进入对象存储服务,点击左侧栏"对象",进入到对象管理页面,再点击新建文件夹创建一个名为“input”的文件夹,如下图所示:



同时将之前下载的文件上传至桶中。


2.9、提交mapreduce作业,进行单词统计

集群管理页面,选择“作业管理”


填写相关信息。


2.10、使用hdfs命令行客户端查询计算结果

MRS Manager页面的地址栏,复制弹性IP地址,如下图所示


双击“Xfce终端打开Terminal,通过如下步骤,登录弹性服务器:操作说明:输入ssh root@EIP用复制的弹性IP替换命令中的EIP,回车执行;接受秘钥输入“yes”,回车执行;输入密码(创建集群时设置的root密码),回车执行。注意:输入密码时,命令行窗口不会显示密码,输完之后直接回车即可连接成功,如下图所示:


根据提示输入相应的密码信息。

登录成功后,执行以下命令查看计算结果。

source /opt/client/bigdata_env && hdfs dfs -cat /user/wordcount/*

执行成功如下图所示:


由以上可知集群工作状态正常。

3、你觉得这项能力会给你带来哪些帮助:

  • 熟悉了如何开通MapReduce服务;
  • 了解了MapReduce分析组件的各项功能及用途;如Hue组件,可提供hadoop UI能力,能让用户通过浏览器分析处理Hadoop集群数据;Spark组件,具有快速、通用的大数据处理引擎;
  • 熟悉了如何在华为云平台创建私有云;
  • 熟悉了如何通过公网管理MapReduce集群主机;
  • 熟悉了MapReduce Manager管理功能,管理功能很全面,方便用户进行日常运维。主要包括针对集群主机健康检查、各项MRS服务的健康状态、服务管理、主机管理、租户管理、告警管理、审计管理,同时集群中磁盘占用率、磁盘读写速率均会呈现出来,方便用户进行管理。
  • MapReduce操作界面简洁、实际操作方便,很易上手。

 

4、你所遇到的问题是:

  • 在开通MapReduce服务时集群存在几个版本,分别有什么区别?应用场景有什么不一样吗?
  • 开通MapReduce服务时集群类型有分析集群、流式集群、混合集群,这三者有何不同之处,用户在购买时该如何进行选择?


  • 在集群节点中,Master、分析Core、流式Core三个节点用途分别是什么?针对不同业务场景,实例数量有什么比例关系吗?
  • 在创建MapReduce时花费时间稍微有点长(15分钟左右);是和选择的节点配置有关系吗?如果配置选高些,创建速度是否会快些?


5、结尾

实验链接如下,感兴趣的同学可以进行实际操作。

https://lab.huaweicloud.com/testdetail_376?ticket=ST-1274995-ed41wO324XxCRZwyAJDdceVC-sso

 

 

 

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。