离线大数据迁移到MRS(一)迁移到MRS前调研准备

举报
kevin_chen 发表于 2020/04/22 17:33:58 2020/04/22
【摘要】 迁移到MRS前准备 由于离线大数据搬迁有一定的灵活性,迁移前需要掌握现有集群的详细信息,能够更好的进行迁移决策。针对离线大数据平台迁移,涉及到数据部分主要有HDFS文件数据迁移、 Hive 数据(表数据、元数据)迁移、HBase 数据迁移。当前以这三个组件的数据做重点介绍。

离线大数据迁移到MRS(一)

迁移到MRS前准备


  迁移前准备主要对当前现有大数据平台做一个信息统计,以便更好地进行迁移决策。

  离线大数据迁移范围说明:

针对离线大数据平台迁移,涉及到数据部分主要有HDFS文件数据迁移、 Hive 数据(表数据、元数据)迁移、HBase 数据迁移。当前以这三个组件的数据做重点介绍。


一、大数据集群信息调研统计

由于离线大数据搬迁有一定的灵活性,迁移前需要掌握现有集群的详细信息,能够更好的进行迁移决策,如下信息模板可供参考(见附件《调研信息模板》),不涉及的信息可以不用填写:

(1) 集群基本信息

集群节点数、是否开启kerberos认证(开启kerberos认证集群在迁移过程中需要有读取权限的用户认证后,才能正常进行迁移操作)、所在的region(线下机房不用填写)、网络信息等。

例如:

集群基本信息

集群名称

集群版本

节点数

是否开启kerberos认证

所在region/AZ

网络

mrs_CkCE

MRS 1.8.7/CDH/AWS

6

上海华东一,可用区一

安全组、VPC、子网名称


(2) 业务使用的大数据组件信息

使用的大数据组件信息和规划的新版本大数据集群版本信息比较,主要识别版本差异可能对迁移过程的影响,以及对迁移后业务兼容性的影响。

例如:

组件基本信息

大数据组件

老集群版本

规划的新集群版本MRS 1.9.2

HDFS/OBS(或其他文件存储系统)

Hadoop   2.8.3

2.8.3

Hive

1.2.1

2.3.3

HBase

 1.3.1

1.3.1

Spark

2.2.2

2.2.2

Kafka

1.1.0

1.1.0


  (3)  现有待迁移的存量数据及数据量统计

如果使用HDFS作为文件存储系统,可以在客户端使用

hadoop fs -du -h /user/test

命令统计路径下的文件大小。数据量大小会影响迁移花费的时间,和迁移时候带宽大小的选择。

例如:

现有数据量统计

大数据组件

待迁移的数据路径

数据量大小

文件个数或表个数

HDFS/OBS(或其他文件存储系统)

/user/helloworld

5T

总共:100000个文件

小于2M:65792

Hive

Hive管理的数据存储在/user/hive/warehouse/

2T

表个数300

HBase

/hbase

5T

表个数300个数

Region个数xx


 (4)    现有大数据平台,每天新增数据量统计

每天新增数据量主要评估数据增长速度(可以按天/小时等周期维度)。在第一次全量迁移数据后,后续可以定期搬迁老集群新增数据,直到业务完成最终割接。


新增数据量统计/每天

大数据组件

待迁移的数据路径

新增数据量大小

HDFS/OBS(或其他文件存储系统)

/user/helloworld/

200G

Hive

Hive管理的数据存储在/user/hive/warehouse/

300G

HBase

/hbase/

50G


(5)     离线大数据老集群业务模型和新集群业务模型


业务模型信息用于确定搬迁数据后业务割接方式等。

  •  识别平台数据接入源。大数据平台数据流入方式(实时数据上报、批量数据抽取)

  •   分析平台业务模型。各个集群或各个组件分别负责什么业务,处理什么类型的数据。比如实时/离线数据分别使用什么组件处理,数据格式类型有什么要求等等。

  •   分析平台数据流向。数据在平台内各个组件间的流向(比如使用什么组件采集数据,采集完数据后数据怎样流向下一层组件,使用什么组件存储数据,数据处理过程中的工作流是怎样的,等等。

  •   识别平台业务优先级。识别在迁移过程中不能中断的业务,可短时中断的业务,整体业务迁移可接受的迁移时长。梳理业务迁移顺序。

 

例如:如下一个离线分析平台的客户业务系统框图,由spark streaming消费kafka数据,存入HDFS上,HDFS上进行小文件合并后,由Hive load加载到Hive表中,运营可以通过presto进行hive数据查询。


迁移示意图:针对大数据离线平台包括HDFSHive数据需要迁移,kafka spark streaminghdfsHivepresto的业务程序要在新集群上部署。


【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

举报
请填写举报理由
0/200