- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

MapReduce服务初体验【玩转华为云】

nukinsan 发表于 2022/04/25 23:14:35 2022/04/25

【摘要】 1、概述1.1、什么是MapReduce？大数据是人类进入互联网时代以来面临的一个巨大问题：社会生产生活产生的数据量越来越大，数据种类越来越多，数据产生的速度越来越快。传统的数据处理技术，比如说单机存储，关系数据库已经无法解决这些新的大数据问题。为解决以上大数据处理问题，Apache基金会推出了Hadoop大数据处理的开源解决方案。Hadoop是一个开源分布式计算平台，可以充分利用集群的...

1、概述

1.1、什么是MapReduce？

大数据是人类进入互联网时代以来面临的一个巨大问题：社会生产生活产生的数据量越来越大，数据种类越来越多，数据产生的速度越来越快。传统的数据处理技术，比如说单机存储，关系数据库已经无法解决这些新的大数据问题。为解决以上大数据处理问题，Apache基金会推出了Hadoop大数据处理的开源解决方案。Hadoop是一个开源分布式计算平台，可以充分利用集群的计算和存储能力，完成海量数据的处理。企业自行部署Hadoop系统有成本高，周期长，难运维和不灵活等问题。

针对上述问题，华为云提供了大数据MapReduce服务（MRS），MRS是一个在华为云上部署和管理Hadoop系统的服务，一键即可部署Hadoop集群。MRS提供租户完全可控的一站式企业级大数据集群云服务，完全兼容开源接口，结合华为云计算、存储优势及大数据行业经验，为客户提供高性能、低成本、灵活易用的全栈大数据平台，轻松运行Hadoop、Spark、HBase、Kafka、Storm等大数据组件，并具备在后续根据业务需要进行定制开发的能力，帮助企业快速构建海量数据信息处理系统，并通过对海量信息数据实时与非实时的分析挖掘，发现全新价值点和企业商机。

1.2、应用场景

大数据在人们的生活中无处不在，在IoT、电子商务、金融、制造、医疗、能源和政府部门等行业均可以使用华为云MRS服务进行大数据处理。

1.2.1、海量数据分析场景

海量数据分析是现代大数据系统中的主要场景。通常企业会包含多种数据源，接入后需要对数据进行ETL（Extract-Transform-Load）处理形成模型化数据，以便提供给各个业务模块进行分析梳理，这类业务通常有以下特点：

对执行实时性要求不高，作业执行时间在数十分钟到小时级别。
数据量巨大。
数据来源和格式多种多样。
数据处理通常由多个任务构成，对资源需要进行详细规划。

例如在环保行业中，可以将天气数据存储在OBS，定期转储到HDFS中进行批量分析，在1小时内MRS可以完成10TB的天气数据分析。

环保行业海量数据分析场景

该场景下MRS的优势如下所示。

低成本：利用OBS实现低成本存储。
海量数据分析：利用Hive实现TB/PB级的数据分析。
可视化的导入导出工具：通过可视化导入导出工具Loader，将数据导出到DWS，完成BI分析。

1.2.2、海量数据存储场景

用户拥有大量结构化数据后，通常需要提供基于索引的准实时查询能力，如车联网场景下，根据汽车编号查询汽车维护信息，存储时，汽车信息会基于汽车编号进行索引，以实现该场景下的秒级响应。通常这类数据量比较庞大，用户可能保存1至3年的数据。

例如在车联网行业，某车企将数据储存在HBase中，以支持PB级别的数据存储和毫秒级的数据详单查询。

车联网行业海量数据存储场景

该场景下MRS的优势如下所示。

实时：利用Kafka实现海量汽车的消息实时接入。
海量数据存储：利用HBase实现海量数据存储，并实现毫秒级数据查询。
分布式数据查询：利用Spark实现海量数据的分析查询。

1.2.3、实时数据处理

实时数据处理通常用于异常检测、欺诈识别、基于规则告警、业务流程监控等场景，在数据输入系统的过程中，对数据进行处理。

例如在梯联网行业，智能电梯的数据，实时传入到MRS的流式集群中进行实时告警。

梯联网行业低时延流式处理场景

该场景下MRS的优势如下所示。

实时数据采集：利用Flume实现实时数据采集，并提供丰富的采集和存储连接方式。
海量的数据源接入：利用Kafka实现万级别的电梯数据的实时接入。

2、操作步骤

详细体验过程如下：

2.1、登录实验环境

2.2、购买MapReduce服务

登录华为云完成后点击“控制台”->“服务列表”->“大数据”->“MapReduce服务MRS”进入MRS控制台，如下图所示：

点击右上角“购买集群”，进入购买集群页面。请选择“自定义购买”页面。按照如下信息配置集群基本信息：【区域】：华北-北京四【集群名称】：自定义名称，本实验手册以“mrs-hcia”为例【集群版本】：MRS 1.9.2【集群类型】：混合集群；

【分析组件】：全选

【流式组件】：全选

元数据：本地元数据完成后单击“下一步”。硬件配置如下：【计费模式】：按需计费【可用区】：默认【虚拟私有云】：点击“查看虚拟私有云”，进入虚拟私有云界面，点击“创建虚拟私有云”，所有参数默认，点击“立即创建”即可。回到购买集群页面，点击刷新按钮，即可选中创建的虚拟私有云。【子网】：虚拟私有云创建完成后子网自动创建并选中【安全组】：自动创建【弹性公网IP】：暂不绑定

直接选用默认设置，选择“立即创建”。

此时选择创建的私有云，选择子网，企业项目。

修改分析core节点配置

修改流式core节点配置。

在高级配置中，设置admin和root帐号密码。

以上操作顺利完成后，出现如下成功创建提示。

此时可看到集群状态为创建中。

2.3、购买弹性公网IP

进入创建的集群节点，

找到集群的master节点

点击后，选择查看公网ip

选择购买公网IP

创建后，会出现二个公网IP地址。

2.4、绑定弹性IP

浏览器切回到弹性云服务器的管理控制台页面。点击“绑定弹性公网IP”，网卡默认，勾选选择一个IP，点击“确定”。

2.5、修改安全组

修改云主机安全组；

进入虚拟私有云管理界面后，依次单击左侧 “访问控制”->“安全组”，进入安全组管理界面后，点击以mrs开头的安全组。

放通所有策略。

2.6、访问集群的管理页面

切换浏览器至“mrs-hcia”集群详情页面，点击“概览”->“IAM用户同步”，点击同步，然后点击“前往 Manager”，

出现如下界面，并输入前面设置的密码信息。

点击“登录”，即可进入MRS Manager页面。

2.7、利用MapReduce做单词统计

切回到桌面双击“Xfce终端”打开Terminal输入执行以下命令下载实验数据。

wget https://sandbox-experiment-resource.obs.cn-north-1.myhuaweicloud.com/mapreduce/wordcount

下载成功后界面如下：

下载wordcount jar包

2.8、将数据和代码上传到OBS

在浏览器点击“控制台”->"服务列表" -> "存储" -> "对象存储服务"，进入到对象存储服务页面，如下图所示：

在obs管理页面点击“创建桶”按钮创建一个OBS桶。参数配置如下图所示：【区域】：华北-北京四【数据冗余存储策略】：单AZ存储【桶名称】：自定义【存储类别】：标准存储【桶策略】：私有【默认加密】：关闭【归档数据直读】：关闭【标签】：默认

自定义桶名，选择单AZ；

此时会提示创建成功。

创建完成后点击桶名称进入对象存储服务，点击左侧栏"对象"，进入到对象管理页面，再点击“新建文件夹”创建一个名为“input”的文件夹，如下图所示：

同时将之前下载的文件上传至桶中。

2.9、提交mapreduce作业，进行单词统计

集群管理页面，选择“作业管理”

填写相关信息。

2.10、使用hdfs命令行客户端查询计算结果

在MRS Manager页面的地址栏，复制弹性IP地址，如下图所示

双击“Xfce终端”打开Terminal，通过如下步骤，登录弹性服务器：操作说明：①输入ssh root@EIP；②用复制的弹性IP替换命令中的EIP，回车执行；③接受秘钥输入“yes”，回车执行；④输入密码（创建集群时设置的root密码），回车执行。注意：输入密码时，命令行窗口不会显示密码，输完之后直接回车即可连接成功，如下图所示：

根据提示输入相应的密码信息。

登录成功后，执行以下命令查看计算结果。

source /opt/client/bigdata_env && hdfs dfs -cat /user/wordcount/*

执行成功如下图所示：

由以上可知集群工作状态正常。

3、你觉得这项能力会给你带来哪些帮助：

熟悉了如何开通MapReduce服务；
了解了MapReduce分析组件的各项功能及用途；如Hue组件，可提供hadoop UI能力，能让用户通过浏览器分析处理Hadoop集群数据；Spark组件，具有快速、通用的大数据处理引擎；
熟悉了如何在华为云平台创建私有云；
熟悉了如何通过公网管理MapReduce集群主机；
熟悉了MapReduce Manager管理功能，管理功能很全面，方便用户进行日常运维。主要包括针对集群主机健康检查、各项MRS服务的健康状态、服务管理、主机管理、租户管理、告警管理、审计管理，同时集群中磁盘占用率、磁盘读写速率均会呈现出来，方便用户进行管理。
MapReduce操作界面简洁、实际操作方便，很易上手。

4、你所遇到的问题是：

在开通MapReduce服务时集群存在几个版本，分别有什么区别？应用场景有什么不一样吗？
在开通MapReduce服务时集群类型有分析集群、流式集群、混合集群，这三者有何不同之处，用户在购买时该如何进行选择？

在集群节点中，Master、分析Core、流式Core三个节点用途分别是什么？针对不同业务场景，实例数量有什么比例关系吗？
在创建MapReduce时花费时间稍微有点长（15分钟左右）；是和选择的节点配置有关系吗？如果配置选高些，创建速度是否会快些？

5、结尾

实验链接如下，感兴趣的同学可以进行实际操作。

https://lab.huaweicloud.com/testdetail_376?ticket=ST-1274995-ed41wO324XxCRZwyAJDdceVC-sso

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

MapReduce服务初体验【玩转华为云】

1、概述

1.1、什么是MapReduce？