离线大数据迁移(四) Hive数据迁移到华为云MRS服务
离线大数据迁移四
Hive数据迁移到华为云MRS服务
借助华为云云数据迁移服务CDM,可以完成线下IDC机房或者自建Hive数据迁移到华为云MRS服务。本文重点介绍如何通过使用CDM将Hive数据搬迁到MRS。
Hive数据迁移分两部分内容:
(1) HIVE的元数据信息,存储在mysql等数据库中。MRS Hive集群的元数据会默认存储到MRS DBService(华为的Gaussdb数据库),也可以选择RDS(mysql)作为外置元数据库。
(2) HIVE的业务数据,存储在HDFS文件系统或OBS对象存储中。
使用CDM华为云云数据迁移服务“场景迁移功能”可以一键式便捷地完成Hive数据的迁移。
迁移操作步骤
一、配置CDM进行Hive数据搬迁
(1) 创建CDM集群,创建CDM集群时候选择和MRS新集群在同一个安全组、同一个VPC、同一个子网网络,保证CDM集群和MRS集群之间网络是互通的。
(2)新建一个到老集群的“Scenario 连接器”, 类型为“Apache Hadoop”,名称为hive-source
(3)新建一个到mrs hadoop的“Scenario 连接器”,类型为“MRS”,名称为mrs-target
备注: 连接类型根据实际集群来选择,如果是MRS集群,Hadoop类型可以选择“MRS”;如果是自建集群可以选择“Apache Hadoop”。
(4)提前在新的MRS集群上创建好数据库: 例如: 通过运行beeline客户端的命令:create database tpcds_orc_hive_30;
(5)创建“场景迁移”作业,Hive快速迁移,源端选择hive-source连接,目的端选择mrs-tarcget连接,选择要迁移的数据库,进行迁移。
(6)单击“保存”,回到作业管理界面
(7)在CDM作业管理界面点击运行,开始Hive数据搬迁。
(8)迁移完成后,可以在新集群和老集群,通过同样的查询语句,对比查询结果进行验证。
例如: 查询老集群上catalog_sales表的条目数量,和新集群上的结果进行对比,新老集群上的条数一致。此外还可以通过其他HiveSQL进行新老集群上查询对比,确认业务迁移后是一致的。:
(9)在业务切割前,如果老集群上有新增数据,需要定期将新增数据搬迁到新集群。
针对Hive的新增数据分成三种:
第一种类型:未新增删除表,未修改表结构的情况下,只是hive表中数据有修改。这种情况下,由于hive的表已经建好,不需要再修改,只需要搬迁Hive存储在HDFS或OBS上的文件即可,可以参考《离线大数据迁移三 -- Hadoop数据迁移到华为云MRS服务》中新增数据搬迁方式搬迁。
第二种类型: 有新增表的情况,这种情况下,需要通过重新编辑“场景迁移”,选择新增的数据表进行新表数据搬迁。
第三种类型: 有删除表或表结构发生变化的情况,需要在新集群上手动删除表。
- 点赞
- 收藏
- 关注作者
评论(0)