Impala适配GaussDB开源开发任务心得
【摘要】 Impala是一个MPP(大规模并行处理)SQL查询引擎, 提供类似RDBMS的体验,提供了访问存储在Hadoop分布式文件系统中的数据的最快方法。
背景介绍
开源for Huawei(参考:https://developer.huaweicloud.com/programs/opensource/contributing/) 通过和公司、高校、社区的开发者合作,完成鲲鹏、昇腾、欧拉、鸿蒙、高斯、云服务等与开源软件的适配开发,帮助繁荣Huawei的基础生态,同时让开源软件能够更加简单、高效的运行于华为云上。
1 适配过程
- 购买 华为云鲲鹏EulerOS环境的ECS 搭建运行环境并启用;
- 根据任务计划书DEMO设计,准备源端数据及脚本;
- 根据任务计划书DEMO设计,准备目标端数据库环境以及元数据(表结构);
- 根据任务计划书DEMO设计,在impala目标端实现数据的加载。
2 适配准备
- 华为云鲲鹏EulerOS环境的ECS(华为云购买);
- GaussDB数据库(华为云购买);
- MRS集群(华为云购买 )。
2.1 ECS/GaussDB配置
GaussDB:
- 计费模式选择:按需计费
- 区域:华南-广州
- GaussDB数据库引擎版本 : V2.0-8.201.0
- GaussDB内核引擎版本:505.2.0
- CPU/内存 规格:16 vCPUs | 128 GB
- 性能规格:鲲鹏独享型(1:8)
- 镜像类型:公共镜像
- 镜像:openEuler 20.03 64bit with ARM(100GiB)
鲲鹏ECS X1:
- 计费模式选择:按需计费
- 区域:华南-广州
- CPU架构:x86计算
- CPU规格:xlarge.4
- CPU规格:8vCPUs&&24GiB
- 镜像类型:公共镜像
- 镜像:Huawei Cloud EulerOS 2.0 标准版 64位 ARM版
MRS集群:
- 计费模式选择:按需计费
- 区域:华南-广州
- 版本类型:普通版
- 集群类型:分析集群
- 集群版本:MRS 3.1.0
- 元数据 :本地元数据
2.2 其它
ECS安全组配置 配置规则 → 出/入方向规则 → 一键放通常用端口
也可直接放通所有端口。
3 Demo开发
- 准备源端数据以及数据生成脚本。
- 准备目标端数据库环境以及元数据(表结构)--目标端没有数据。
- 在impala目标端实现GaussDB数据库数据的加载 。
- 数据验证
4 适配过程中的问题记录
-
关于默认账户 hdfs 的 权限
需要把当前用户加入有权限的用户组或者单独赋予权限,文件才能成功put到HDFS 集群 。
- 关于数据同步脚本
注意 LOAD DATA INPATH 与 LOAD DATA LOCAL INPATH 的区别
1、本地文件系统加载数据 LOAD DATA LOCAL INPATH '/data/scn.txt' OVERWRITE INTO TABLE impala_scn;
注意: 指定“LOCAL”时,这里的路径指的是当前连接的“Impalad”的本地文件系统的路径。
2、HDFS文件系统加载数据 LOAD DATA INPATH '/data/scn.txt' OVERWRITE INTO TABLE impala_scn; (推荐)
- 数据同步总结
1.impala的依赖组件较多,环境较为复杂。
2.Impala的表和Hive表的关系。
- Impala中建的表Hive可以管理,Hive中建的表Impala不能管理。
- Impala 的查询速度比Hive快十倍甚至百倍以上,尤其是(超)大规模数据查询 优势更加明显。
【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)