Impala适配GaussDB开源开发任务心得

举报
yd_229853316 发表于 2024/12/13 14:54:45 2024/12/13
【摘要】 Impala是一个MPP(大规模并行处理)SQL查询引擎, 提供类似RDBMS的体验,提供了访问存储在Hadoop分布式文件系统中的数据的最快方法。

背景介绍

开源for Huawei(参考:https://developer.huaweicloud.com/programs/opensource/contributing/)  通过和公司、高校、社区的开发者合作,完成鲲鹏、昇腾、欧拉、鸿蒙、高斯、云服务等与开源软件的适配开发,帮助繁荣Huawei的基础生态,同时让开源软件能够更加简单、高效的运行于华为云上。

适配过程

  1. 购买 华为云鲲鹏EulerOS环境的ECS 搭建运行环境并启用
  2. 根据任务计划书DEMO设计,准备源端数据及脚本;
  3. 根据任务计划书DEMO设计,准备目标端数据库环境以及元数据(表结构);
  4. 根据任务计划书DEMO设计,在impala目标端实现数据的加载。

适配准备

  1. 华为云鲲鹏EulerOS环境的ECS(华为云购买);
  2. GaussDB数据库(华为云购买);
  3. MRS集群(华为云购买 )。

2.1 ECS/GaussDB配置

GaussDB

  • 计费模式选择:按需计费
  • 区域:华南-广州
  • GaussDB数据库引擎版本 : V2.0-8.201.0
  • GaussDB内核引擎版本:505.2.0
  • CPU/内存 规格:16 vCPUs | 128 GB 
  • 性能规格:鲲鹏独享型(1:8)
  • 镜像类型:公共镜像
  • 镜像:openEuler 20.03 64bit with ARM100GiB

鲲鹏ECS X1:

  • 计费模式选择:按需计费
  • 区域:华南-广州
  • CPU架构:x86计算
  • CPU规格:xlarge.4
  • CPU规格:8vCPUs&&24GiB
  • 镜像类型:公共镜像
  • 镜像:Huawei Cloud EulerOS 2.0 标准版 64 ARM

MRS集群:

  • 计费模式选择:按需计费
  • 区域:华南-广州
  • 版本类型:普通版
  • 集群类型:分析集群
  • 集群版本:MRS 3.1.0
  • 元数据 :本地元数据

2.2 其它

ECS安全组配置 配置规则 → 出/入方向规则 → 一键放通常用端口

也可直接放通所有端口

3 Demo开发

  1. 准备源端数据以及数据生成脚本。
  2. 准备目标端数据库环境以及元数据(表结构)--目标端没有数据
  3. 在impala目标端实现GaussDB数据库数据的加载 。
  4. 数据验证

4 适配过程中的问题记录

  • 关于默认账户 hdfs 的 权限

    需要把当前用户加入有权限的用户组或者单独赋予权限,文件才能成功put到HDFS 集群 。        

hdfs权限.png

hdfsput.png

  • 关于数据同步脚本

         注意 LOAD DATA INPATH 与 LOAD DATA LOCAL INPATH 的区别

       1、本地文件系统加载数据   LOAD DATA LOCAL INPATH '/data/scn.txt' OVERWRITE INTO TABLE impala_scn;

             注意: 指定“LOCAL”时,这里的路径指的是当前连接的“Impalad”的本地文件系统的路径。

       2、HDFS文件系统加载数据 LOAD DATA INPATH '/data/scn.txt' OVERWRITE INTO TABLE impala_scn; (推荐)screenshot-20241213-120411.png

  • 数据同步总结      

        1.impala的依赖组件较多,环境较为复杂。

         screenshot-20241213-120727.png
         2.Impala的表和Hive表的关系。

  •  Impala中建的表Hive可以管理,Hive中建的表Impala不能管理。
  •  Impala 的查询速度比Hive快十倍甚至百倍以上,尤其是(超)大规模数据查询 优势更加明显。


screenshot-20241212-193223.png

screenshot-20241212-193314.png




【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。