[体验官] 华为云MapReduce体验及测评——开箱即用,如此简单

华为云MapReduce体验及测评

                                                                                                                                                                                                ----泠影

        如果读到本文的有缘人比较忙,直接看摘要即可。

        第一部分内容仅为吐槽,和MRS无关,仅仅吐槽发帖而已。

        在测评写这个之前,先吐槽一波这个云社区的论坛,不能忍受的是发帖的时候不能自动保存,不给自动保存就算了,连手动的也没,更难受的是昨天晚上点击发帖,然后要重新登录,但是重新登录之后,发现什么都没有了,辛辛苦苦写的东西都没有了, 不过会提示系统保存有你的数据,让你选择删除或者恢复,瞬间好多了,可是,问题是,点击恢复数据的时候,提示你没有要恢复的数据,麻耶,简直就是天堂地狱一日游,我能怎么办,我也很绝望呀

后来在群里交流,有热心人的过来人告诉我经验,可以在重大操作之前在开一个窗口,把内容复制过去,如果数据丢失了,就重新保存回来,难道发个帖子都要用到就是传说中的副本机制,冗余备份了吗(手动无奈)。

        好了吐槽了一波,心里开心好受多了,接着干活,接着水,咳咳,是接着写哈,接着测评哈。

        第二次挂掉,这是是在调图片的时候,发现双击一下,会全屏显示但是,怎么也回不来了,esc不管用,只能管窗口 ,重新来了,有点忍不住想报粗口,真的 忍不住。

        再吐槽,点了回复之后,跳出了这样的界面,这个实在嫌弃我的电脑屏幕小吗?真的找不到关闭的地方啊,滚动页面的时候,弹出的页面也不会动啊。

1554214021(1).jpg

正文

        一、摘要

        个人感觉华为的MRS有很多的优点,也有很多缺点,但是由于这个是测评之后提意见改进的,所以着重说下缺点(勿怪勿怪),MapReduce采用的不知道是来自于华为的FusionInsight,还是Apache的开源项目,但是使用的应该是hadoop2.7的版本,在好奇为什么不用hadoop3.0以后的版本呢,据说(我没做过测评),hadoop3.0以后的版本性能有着非常大的提升(老师说可以超过10倍以上),虽然怀疑数据,但是肯定有很明显的提升的。另外呢,买了服务器之后,Xshell远程连接上去,发现除了java没有添加环境变量意外,其他的进程都跑起来了,虽然这样可以减去搭建的麻烦,但是不符合个人布置集群的习惯和企业团队的规范,还有Xshell远程连接一段时间,出现了网络超时,连接断开了,不过这个远程的服务器,关系不大,但是还是有点影响用户习惯的,最后就是在新手文档里下载hadoop2.7.4,但是连接给出的镜像没有hadoop2.7.4,下载其他的也可以使用,不过看下载的路径是Apache的,不知道为什么不选用华为镜像站的,既可以宣传一下,而且国内的站点下载速度是快,用户体验更好。当然,华为的也有更多的优点,对新手更加友好,集群直接搭建成功,有操作的web页面,直接点点点就可以跑一个实例。文档是中文的,很开心,很nice,一看就懂,一做就对的那种。

        二、关键字

        MRS、新手友好、开箱即用、界面简单、文档易懂、不利于规范部署

        三、体验过程

        (1)初识服务器,集群已经搭建,但不利于自定义部署。

        拿到服务器第一件事情,Xshell直接连接上去,cat /etc/redhat-release 查看系统版本EulerOS release 2.0 (SP2)没有遇到过,但是命令和centos一样,好评,然后查看hosts文件,顺利登陆其他的服务器,然后jps查看java进程,发现没有jps命令,以为是Java没有装呢(其实是Java的环境变量没有配置),然后就tree看看目录结构,看下是否已经有软件包了,(虽然没有tree命令,但是yum源配置 好的,可以直接使用,nice)。发现有很多软件包都存在,在/opt/Bigdata目录下,Java也在,也知道了Java环境变量没有配置,配置之后,敲jps命令本来是看环境变量配置的有没有问题,但是回车之后,惊呆了,一大堆进程,仔细看下,会发现集群所需的进程都启动了,这点算是 好评吧,但是这么多进程启动说明配置文件都写好了,不利于已经有集群基础项目的统一部署,可能会给运维带来一定负担吧,但是对于我们这样小白还是十分友好的。想想自己以前第一次部署hadoop或者考大数据证的时候部署FusionInsight,都是一天多的时间才部署好,真笨,也真可怕,哈哈。

        (2)新手文档超好用,但是连接为什么不指向华为开源镜像站呢

        新手文档真的很nice,中文文档,让我这个英语小白开心了很久很久,还依稀apache的英语文档给我造成的伤害,谷歌翻译都救不了的那种。但是这个是中文,而且逻辑很容易让人理解,加上还有视频的讲解(虽然我没有看视频),但是觉得肯定不会差。另外唯一不怎么好的一点就是,“Step4 准备Hadoop样例程序及数据文件”(具体内容如下)的时候跑的下载的hadoop源是apache的,为什么不指向华为镜像站的呢,一方面可以做一下宣传,另外国内的站点速度更快,用户体验更好,下面的图第一个是华为镜像站下载的,另外的是新手文档里的连接下载的(宿舍网速不好,最快也就两三兆那样)。另外就是有一处错误吧,原文提到

Step4 准备Hadoop样例程序及数据文件

① 准备wordcount程序。

可以从 这里 下载Hadoop样例程序(包括wordcount)。 

例如选择hadoop-2.7.4.tar.gz,解压后在“hadoop-2.7.4\share\hadoop\mapreduce”路径下获取“hadoop-mapreduce-examples-2.7.4.jar”,即为Hadoop的样例程序。"

但是链接里没有2.7.4,我选择了其他的版本代替,也不影响使用,不过如果可以的话,最好还是更改一下。


        (3)web页面,简洁大方,功能齐全,

        对比apache的界面,我更加喜欢华为云的,一个是功能十分强大,里面的集群监控,数据等可以图像显示,另外 就是在提交作业,管理文件系统的时候也十分简单,完全不用理解底层的东西,直接使用就可以了,真正的开箱即用,另外可以增加邮箱警报,短信警报更好,如果短信的内容可以更加的简洁那更好了,可以降低成本(虽然短信没多少钱),但是我们公司确实在做这样的事情,简化ZABBIX的报警短信,降低成本(一次报警内容相当于3条短信原来)。

        (4)网络超时(这个很尬尴,我不能确定是我自己的网络问题,还是服务器的)

        这个不是重点,Xshell连接服务器的时候发现网络超时断开过两次,不确定是长时间没有操作还是其他的什么原因,因为上次体验华为镜像站的时候因为自己网络的原因可能会给网站技术人员带来麻烦了,这个网络的事情,真的不太确定,那就先这样吧,配个图算了。

        四、整体效果

        (1)操作体验

        能够顺畅的创建集群,提交作业,跑组建的样例程序,我使用的是web的界面操作的,感觉对新手非常友好,比apache的使用命令行的形式方便了很多,而且免除了搭建环境这一步,对新手非常友好。

        (2)性能

        在使用的过程中使用了HDFS MapReduce组件,因为测试的文本太小了,进程启动占的时间远比计算的时间要长,所以不方便多说,而且自己以前搭建的CDH和apache下的和这个硬件都不一样,更不好对比。

        (3)功能特性

        监控方便,虽然十分的好用了,但是CDH的监控相比,CDH可以自定义监控的内容,也可以监控保存十分的方便(好像可以设置邮件报警,记不清楚了),比这个更好一点(我个人觉得应该也可以设置报警的,可能是我没有找到),另外就是CDH的添加组件十分方便,只需要点点点即可,删除也是这样,感觉部署集群起来十分方便,而华为云的已经部署好了,就这两个各有优劣吧。

        (4)满意度及推广度

        作为一个小白,对这个是感觉十分友好,开箱即用,基本上看下文档就可以直接跑样例了,如果我个人有项目需要跑的话,应该会选择本地的虚拟机可能性更大一点,并不是应为这个系统不好,而是自己一个穷学生没钱,当然也不是这个贵,毕竟服务器,技术支持都需要成本,我所了解的ELK的云服务也不便宜。如果是我现在实习的公司的项目,可能回吧,但是更有可能是优先本地部署吧,毕竟公司有蛮多服务器的。如果是小公司的话,不愿意在起初的时候投入高成本购买服务器的话,华为云也是一个很不错的选择,毕竟第一私有云不是闹着玩呢。



                                                                                                                                                                                        上海~昌硕~泠影