离线大数据迁移(五) HBase数据迁移到华为云MRS服务

举报
kevin_chen 发表于 2020/04/27 17:18:17 2020/04/27
【摘要】 Hbase会把数据存储在HDFS上,主要包括Hfile文件和WAL文件,由配置项hbase.rootdir指定在HDFS上的路径,MRS的默认存在位置是/hbase下。 HBase自带的一些机制和工具命令也可以实现数据搬迁,例如:通过导出Snapshots快照,Export/Import,CopyTable方式等,可以参考Apache官网。 本文主要介绍通过华为云CDM云迁移服务进行HBase

离线大数据迁移五

HBase数据迁移到华为云MRS服务

借助华为云云数据迁移服务CDM,可以完成线下IDC机房或者自建Hive数据迁移到华为云MRS服务。本文重点介绍如何通过使用CDMHive数据搬迁到MRS

Hbase会把数据存储在HDFS上,主要包括Hfile文件和WAL文件,由配置项hbase.rootdir指定在HDFS上的路径,MRS的默认存在位置是/hbase下。

HBase自带的一些机制和工具命令也可以实现数据搬迁,例如:通过导出Snapshots快照,Export/ImportCopyTable方式等,可以参考Apache官网。

本文主要介绍通过华为云CDM云迁移服务进行HBase数据搬迁。

迁移操作步骤

通过CDM的“场景迁移”功能迁移全量数据

1  创建CDM集群,创建CDM集群时候选择和MRS新集群在同一个安全组、同一个VPC、同一个子网网络,保证CDM集群和MRS集群之间网络是互通的。

 

2)在cdm集群上新建一个到老集群的“Scenario 连接器”, 类型为“Apache Hadoop”,名称为hbase-source-1X


3)在cdm集群上新建一个到mrs集群的“Scenario 连接器”,类型为MRS,名称为hbase-target-2x


4)创建“场景迁移”HBASE作业,源端选择hbase-source-1X连接,目的端选择hbase-target-2x连接,选择要迁移的数据表BTable 保存“hbase-move”作业。



5CDM作业管理界面上运行hbase-move”作业,开始BTable数据搬迁。


(6) 迁移完成后,可以在新集群和老集群,通过同样的查询语句,对比查询结果进行验证。

例如: 在新老集群上通过查询BTable表的记录数来确认数据条数是否一致,添加--endtime参数主要排除迁移期间老集群上有数据更新的影响。

hbase  org.apache.hadoop.hbase.mapreduce.RowCounter BTable --endtime=1587973835000



或者可以通过HBase shellscan ' BTable ', {TIMERANGE=>[1587973235000, 1587973835000]} 查询指定时间段内的数据进行对比。


 HBase增量数据迁移

   在业务切割前,如果老集群上有新增数据,需要定期将新增数据搬迁到新集群。

一般每天更新的数据量相对来说不大,可以使用CDM的“整库迁移”指定时间段的方式每天进行HBase新增数据迁移。

   当前使用CDM的“整库迁移”功能时候的限制:如果源HBase集群中被删除操作的数据无法同步到新集群上。

    操作步骤与场景迁移类似,需要重新新建连接和新建作业。

   1)新建两个“HBase”连接器


2)新建一个整库迁移作业,通过设置高级属性里面的起始时间和终止时间,选择迁移数据的时间段。


3选择要迁移的表BTable,并保存。


4CDM作业管理界面上运行hbase-increase,开始BTable增量数据搬迁。


【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。