离线大数据迁移(四) Hive数据迁移到华为云MRS服务

举报
kevin_chen 发表于 2020/04/24 19:20:07 2020/04/24
【摘要】 离线大数据迁移四Hive数据迁移到华为云MRS服务借助华为云云数据迁移服务CDM,可以完成线下IDC机房或者自建Hive数据迁移到华为云MRS服务。本文重点介绍如何通过使用CDM将Hive数据搬迁到MRS。 Hive数据迁移分两部分内容:(1) HIVE的元数据信息,存储在mysql等数据库中。MRS Hive集群的元数据会默认存储到MRS DBService(华为的Gaussd...

离线大数据迁移四

Hive数据迁移到华为云MRS服务

借助华为云云数据迁移服务CDM,可以完成线下IDC机房或者自建Hive数据迁移到华为云MRS服务。本文重点介绍如何通过使用CDMHive数据搬迁到MRS

 

Hive数据迁移分两部分内容:

(1)       HIVE的元数据信息,存储在mysql等数据库中。MRS Hive集群的元数据会默认存储到MRS DBService(华为的Gaussdb数据库),也可以选择RDS(mysql)作为外置元数据库。

(2)       HIVE的业务数据,存储在HDFS文件系统或OBS对象存储中。

使用CDM华为云云数据迁移服务“场景迁移功能”可以一键式便捷地完成Hive数据的迁移。

迁移操作步骤

一、配置CDM进行Hive数据搬迁

1  创建CDM集群,创建CDM集群时候选择和MRS新集群在同一个安全组、同一个VPC、同一个子网网络,保证CDM集群和MRS集群之间网络是互通的。

2)新建一个到老集群的Scenario 连接器”, 类型为“Apache Hadoop,名称为hive-source

3)新建一个到mrs hadoopScenario 连接器”,类型为“MRS”,名称为mrs-target

备注: 连接类型根据实际集群来选择,如果是MRS集群,Hadoop类型可以选择“MRS”;如果是自建集群可以选择“Apache Hadoop”。



4)提前在新的MRS集群上创建好数据库: 例如: 通过运行beeline客户端的命令:create database tpcds_orc_hive_30;

5)创建“场景迁移”作业,Hive快速迁移,源端选择hive-source连接,目的端选择mrs-tarcget连接,选择要迁移的数据库,进行迁移。

6)单击保存,回到作业管理界面

7)在CDM作业管理界面点击运行,开始Hive数据搬迁。

8)迁移完成后,可以在新集群和老集群,通过同样的查询语句,对比查询结果进行验证。

例如: 查询老集群上catalog_sales表的条目数量,和新集群上的结果进行对比,新老集群上的条数一致。此外还可以通过其他HiveSQL进行新老集群上查询对比,确认业务迁移后是一致的。


9)在业务切割前,如果老集群上有新增数据,需要定期将新增数据搬迁到新集群。

针对Hive的新增数据分成三种:

第一种类型:未新增删除表,未修改表结构的情况下,只是hive表中数据有修改。这种情况下,由于hive的表已经建好,不需要再修改,只需要搬迁Hive存储在HDFSOBS上的文件即可,可以参考《离线大数据迁移三 -- Hadoop数据迁移到华为云MRS服务》中新增数据搬迁方式搬迁。

第二种类型: 有新增表的情况,这种情况下,需要通过重新编辑“场景迁移”,选择新增的数据表进行新表数据搬迁。

第三种类型: 有删除表或表结构发生变化的情况,需要在新集群上手动删除表。


【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

举报
请填写举报理由
0/200