离线大数据迁移到MRS(一)迁移到MRS前调研准备
离线大数据迁移到MRS(一)
迁移到MRS前准备
迁移前准备主要对当前现有大数据平台做一个信息统计,以便更好地进行迁移决策。
离线大数据迁移范围说明:
针对离线大数据平台迁移,涉及到数据部分主要有HDFS文件数据迁移、 Hive 数据(表数据、元数据)迁移、HBase 数据迁移。当前以这三个组件的数据做重点介绍。
一、大数据集群信息调研统计
由于离线大数据搬迁有一定的灵活性,迁移前需要掌握现有集群的详细信息,能够更好的进行迁移决策,如下信息模板可供参考(见附件《调研信息模板》),不涉及的信息可以不用填写:
(1) 集群基本信息
集群节点数、是否开启kerberos认证(开启kerberos认证集群在迁移过程中需要有读取权限的用户认证后,才能正常进行迁移操作)、所在的region(线下机房不用填写)、网络信息等。
例如:
集群基本信息 |
|||||
集群名称 |
集群版本 |
节点数 |
是否开启kerberos认证 |
所在region/AZ |
网络 |
mrs_CkCE |
MRS 1.8.7/CDH/AWS |
6 |
否 |
上海华东一,可用区一 |
安全组、VPC、子网名称 |
(2) 业务使用的大数据组件信息
使用的大数据组件信息和规划的新版本大数据集群版本信息比较,主要识别版本差异可能对迁移过程的影响,以及对迁移后业务兼容性的影响。
例如:
组件基本信息 |
||
大数据组件 |
老集群版本 |
规划的新集群版本MRS 1.9.2 |
HDFS/OBS(或其他文件存储系统) |
Hadoop 2.8.3 |
2.8.3 |
Hive |
1.2.1 |
2.3.3 |
HBase |
1.3.1 |
1.3.1 |
Spark |
2.2.2 |
2.2.2 |
Kafka |
1.1.0 |
1.1.0 |
(3) 现有待迁移的存量数据及数据量统计
如果使用HDFS作为文件存储系统,可以在客户端使用
hadoop fs -du -h /user/test |
命令统计路径下的文件大小。数据量大小会影响迁移花费的时间,和迁移时候带宽大小的选择。
例如:
现有数据量统计 |
|||
大数据组件 |
待迁移的数据路径 |
数据量大小 |
文件个数或表个数 |
HDFS/OBS(或其他文件存储系统) |
/user/helloworld |
5T |
总共:100000个文件 小于2M:65792个 |
Hive |
Hive管理的数据存储在/user/hive/warehouse/ |
2T |
表个数300 |
HBase |
/hbase |
5T |
表个数300个数 Region个数xx个 |
(4) 现有大数据平台,每天新增数据量统计
每天新增数据量主要评估数据增长速度(可以按天/小时等周期维度)。在第一次全量迁移数据后,后续可以定期搬迁老集群新增数据,直到业务完成最终割接。
新增数据量统计/每天 |
||
大数据组件 |
待迁移的数据路径 |
新增数据量大小 |
HDFS/OBS(或其他文件存储系统) |
/user/helloworld/ |
200G |
Hive |
Hive管理的数据存储在/user/hive/warehouse/ |
300G |
HBase |
/hbase/ |
50G |
(5) 离线大数据老集群业务模型和新集群业务模型
业务模型信息用于确定搬迁数据后业务割接方式等。
识别平台数据接入源。大数据平台数据流入方式(实时数据上报、批量数据抽取)
分析平台业务模型。各个集群或各个组件分别负责什么业务,处理什么类型的数据。比如实时/离线数据分别使用什么组件处理,数据格式类型有什么要求等等。
分析平台数据流向。数据在平台内各个组件间的流向(比如使用什么组件采集数据,采集完数据后数据怎样流向下一层组件,使用什么组件存储数据,数据处理过程中的工作流是怎样的,等等。
识别平台业务优先级。识别在迁移过程中不能中断的业务,可短时中断的业务,整体业务迁移可接受的迁移时长。梳理业务迁移顺序。
例如:如下一个离线分析平台的客户业务系统框图,由spark streaming消费kafka数据,存入HDFS上,HDFS上进行小文件合并后,由Hive load加载到Hive表中,运营可以通过presto进行hive数据查询。
迁移示意图:针对大数据离线平台包括HDFS和Hive数据需要迁移,kafka、 spark streaming、hdfs、Hive、presto的业务程序要在新集群上部署。
- 点赞
- 收藏
- 关注作者
评论(0)