离线大数据迁移(五) HBase数据迁移到华为云MRS服务
离线大数据迁移五
HBase数据迁移到华为云MRS服务
借助华为云云数据迁移服务CDM,可以完成线下IDC机房或者自建Hive数据迁移到华为云MRS服务。本文重点介绍如何通过使用CDM将Hive数据搬迁到MRS。
Hbase会把数据存储在HDFS上,主要包括Hfile文件和WAL文件,由配置项hbase.rootdir指定在HDFS上的路径,MRS的默认存在位置是/hbase下。
HBase自带的一些机制和工具命令也可以实现数据搬迁,例如:通过导出Snapshots快照,Export/Import,CopyTable方式等,可以参考Apache官网。
本文主要介绍通过华为云CDM云迁移服务进行HBase数据搬迁。
迁移操作步骤
一 通过CDM的“场景迁移”功能迁移全量数据
(1) 创建CDM集群,创建CDM集群时候选择和MRS新集群在同一个安全组、同一个VPC、同一个子网网络,保证CDM集群和MRS集群之间网络是互通的。
(2)在cdm集群上新建一个到老集群的“Scenario 连接器”, 类型为“Apache Hadoop”,名称为hbase-source-1X
(3)在cdm集群上新建一个到mrs集群的“Scenario 连接器”,类型为MRS,名称为hbase-target-2x
(4)创建“场景迁移”HBASE作业,源端选择hbase-source-1X连接,目的端选择hbase-target-2x连接,选择要迁移的数据表BTable, 保存“hbase-move”作业。
(5)在CDM作业管理界面上运行“hbase-move”作业,开始BTable数据搬迁。
(6) 迁移完成后,可以在新集群和老集群,通过同样的查询语句,对比查询结果进行验证。
例如: 在新老集群上通过查询BTable表的记录数来确认数据条数是否一致,添加--endtime参数主要排除迁移期间老集群上有数据更新的影响。
hbase org.apache.hadoop.hbase.mapreduce.RowCounter BTable --endtime=1587973835000 |
或者可以通过HBase shell的scan ' BTable ', {TIMERANGE=>[1587973235000, 1587973835000]} 查询指定时间段内的数据进行对比。
二 HBase增量数据迁移
在业务切割前,如果老集群上有新增数据,需要定期将新增数据搬迁到新集群。
一般每天更新的数据量相对来说不大,可以使用CDM的“整库迁移”指定时间段的方式每天进行HBase新增数据迁移。
当前使用CDM的“整库迁移”功能时候的限制:如果源HBase集群中被删除操作的数据无法同步到新集群上。
操作步骤与场景迁移类似,需要重新新建连接和新建作业。
(1)新建两个“HBase”连接器
(2)新建一个整库迁移作业,通过设置高级属性里面的起始时间和终止时间,选择迁移数据的时间段。
(3)选择要迁移的表BTable,并保存。
(4)在CDM作业管理界面上运行“hbase-increase”作业,开始BTable增量数据搬迁。
- 点赞
- 收藏
- 关注作者
评论(0)