【玩转华为云】MapReduce服务初体验

乌龟哥哥 发表于 2022/06/09 17:18:50 2022/06/09
【摘要】 大数据是人类进入互联网时代以来面临的一个巨大问题:社会生产生活产生的数据量越来越大,数据种类越来越多,数据产生的速度越来越快。传统的数据处理技术,比如说单机存储,关系数据库已经无法解决这些新的大数据问题。为解决以上大数据处理问题,Apache基金会推出了Hadoop大数据处理的开源解决方案。Hadoop是一个开源分布式计算平台,可以充分利用集群的计算和存储能力,完成海量数据的处理。企业自行部...

大数据是人类进入互联网时代以来面临的一个巨大问题:社会生产生活产生的数据量越来越大,数据种类越来越多,数据产生的速度越来越快。传统的数据处理技术,比如说单机存储,关系数据库已经无法解决这些新的大数据问题。为解决以上大数据处理问题,Apache基金会推出了Hadoop大数据处理的开源解决方案。Hadoop是一个开源分布式计算平台,可以充分利用集群的计算和存储能力,完成海量数据的处理。企业自行部署Hadoop系统有成本高,周期长,难运维和不灵活等问题。

针对上述问题,华为云提供了大数据MapReduce服务(MRS),MRS是一个在华为云上部署和管理Hadoop系统的服务,一键即可部署Hadoop集群。MRS提供租户完全可控的一站式企业级大数据集群云服务,完全兼容开源接口,结合华为云计算、存储优势及大数据行业经验,为客户提供高性能、低成本、灵活易用的全栈大数据平台,轻松运行Hadoop、Spark、HBase、Kafka、Storm等大数据组件,并具备在后续根据业务需要进行定制开发的能力,帮助企业快速构建海量数据信息处理系统,并通过对海量信息数据实时与非实时的分析挖掘,发现全新价值点和企业商机。

1. MapReduce服务开通

打开MapReduce:https://console.huaweicloud.com/mrs

image-20220421133534037

点击同意授权

image-20220421133549772

什么是MapReduce服务?大数据MapReduce服务(MRS)是一个在华为云上部署和管理Hadoop系统的服务,一键即可部署Hadoop集群。MRS提供租户完全可控的企业级大数据集群云服务,轻松运行Hadoop、Spark、HBase、Kafka、Storm等大数据组件,并具备在后续根据业务需要进行定制开发的能力。

在左上角选择购买集群

image-20220421133716882

选择自定义购买

image-20220421134405022

image-20220421134411242

填写完规格选取后点击下一步

默认如下配置,如果没有创建私有云,可以点击“查看虚拟私有云”,进入虚拟私有云界面,点击“创建虚拟私有云”,所有参数默认,点击“立即创建”即可。回到购买集群页面,点击刷新按钮,即可选中创建的虚拟私有云。

image-20220421134515968

按照下图配置继续操作

image-20220421134915847

输入完密码后点击确认授权并立即购买。

创建大概需要10-20分钟

image-20220421135053377

2. 购买弹性公网IP

进入弹性公网Ip控制台https://console.huaweicloud.com/vpc

点击右上角购买弹性公网Ip

image-20220421145537882

点击立即购买

image-20220421145624032

可以看到我们创建的公网Ip

image-20220421145746433

回到MapReduce控制台,点击前往MRS页面

image-20220421151640765

image-20220421150627722

3. 使用公网IP登录MRS Manger界面

image-20220421152046449

image-20220421151010440

4.利用MapReduce做单词统计

4.1 下载实验数据

在linux服务器下输入下面指令

wget https://sandbox-experiment-resource.obs.cn-north-1.myhuaweicloud.com/mapreduce/wordcount
wget https://sandbox-experiment-resource.obs.cn-north-1.myhuaweicloud.com/mapreduce/hadoop-mapreduce-examples-3.1.1-mrs-2.0.jar 

image-20220421152413375

4.2 将数据和代码上传到OBS

什么是OBS?对象存储服务是一个基于对象的海量存储服务,为客户提供海量、安全、高可靠、低成本的数据存储能力,包括:创建、修改、删除桶,上传、下载、删除对象等。

4.2.1 创建OBS桶

打开对象存储控制台https://console.huaweicloud.com/console/?agencyId=09b9d12f5200f3af1f9ac007869a4ffc&region=MOS&locale=zh-cn#/obs/manager/buckets

点击创建桶

image-20220421152725717

选择好对应规格后立即创建

image-20220421153017842

创建完成后点击桶名称进入对象存储服务,点击左侧栏"对象",进入到对象管理页面,再点击“新建文件夹”创建一个名为“input”的文件夹

image-20220421153430677

创建完成后,点击“input”文件夹名字进入到“input”文件夹,然后点击“上传对象”按钮弹出窗口(上传方式默认),点击“添加文件”将下载的“wordcount”(选择“Home”位置可看到下载的该文件)文件文档,点击“上传”到“input”文件夹中。

image-20220421153820877

image-20220421153827123

点击“返回上一级”,使用同样的方法,新建一个名为“jar”的文件夹,然后点击名称进入,并将“hadoop-mapreduce-examples-3.1.1-mrs-2.0.jar”上传到jar文件夹中

image-20220421153941854

image-20220421153954831

4.2.2 提交mapreduce作业,进行单词统计

切回浏览器的集群管理页面,选择“作业管理”

image-20220421154103936

① 作业类型:MapReduce;

② 作业名称:MapReduce;

③ 执行程序路径:点击"OBS",选择“obs-xxxx”->“jar”->“hadoop-xxx”文件夹并确定;

④ 执行程序参数:wordcount;

数据输入路径:点击"OBS",选择“obs-xxxx”->“input”文件夹并确定;

数据输出路径:直接输入"/user/wordcount/";

说明:每个参数之间需要添加空格。

⑤ 日志路径:默认点击“确定”完成添加,等待程序执行成功

image-20220421155427874

image-20220421155417018

4.2.3 使用hdfs命令行客户端查询计算结果

在MRS Manager页面的地址栏,复制弹性IP地址

image-20220421155551848

登录弹性公网IP

ip地址为弹性公网Ip

用户名为root

密码为自己设置的密码

image-20220421160316064

image-20220421160220610

至此,产品体验结束,实验完成。

3.遇到的问题

3.1绑定公网IP后无法访问

在绑定公网Ip后还是无法打开MRS管理页面

解决方法:MRS管理页面的端口为9022,还需要在安全组放开对应端口号可以实现正常访问

image-20220421151947571

3.2 本地无法直接下载linux指令文件

为了更好的完成产品体验并提交体验报告,除了在沙箱实验中体验实验外,我还进行了实际操作进行体验,但是有部分体验功能需要在linux服务器中进行

为了下载通过linux指令下载的文件,我通过在沙箱实验中的linux服务器将文件下载下来后,我通过邮箱的方式发送到我的本地电脑,再上传到obs桶

4.建议

本次实验流程相对比较顺利,而且在官方文档还有视频说明,建议较少,已经做得很棒了

4.1 沙箱实验选取建议

本次是为了体验MRS服务,但是单词统计实验只让我们体验到了购买流程,MRS的大部分功能没有得到展现,希望可以更进一步的介绍该平台的主要使用功能。

4.2 软件更新问题

由于改MRS功能集成项目很多,希望可以及时更新每一个组件,提高性能

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区),文章链接,文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件至:cloudbbs@huaweicloud.com进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容。
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。