Parquet适配Gauss开源验证任务心得

举报
yd_265508559 发表于 2024/11/28 10:32:52 2024/11/28
【摘要】 Apache Parquet 是由 Twitter 和 Cloudera 最先发起并合作开发的列存项目,也是 2010 年 Google 发表的 Dremel 论文中描述的内部列存格式的开源实现。 和一些传统的列式存储(C-Store、MonetDB 等)系统相比,Dremel/Parquet 最大的贡献是支持嵌套格式数据(Nested Data)的列式存储。

背景介绍

开源for Huawei(参考:https://developer.huaweicloud.com/programs/opensource/contributing/)  通过和公司、高校、社区的开发者合作,完成鲲鹏、昇腾、欧拉、鸿蒙、高斯、云服务等与开源软件的适配开发,帮助繁荣Huawei的基础生态,同时让开源软件能够更加简单、高效的运行于华为云上。

适配思路

  1. 在ECS环境里安装好python环境,部署好parquet程序;

     2.运行python parquet.py将数据从parquet文件中写入gauss

     3.运行python toparquet.py将数据从高斯写入parquet,并在当前目录下产生一个parquet文件

2具体实现

ECS里面部署好Parquet后,运行python parquet.py后会将我们准备example.parquet文件数据导入到高斯表中,

运行完成后可以查看高斯表数据。运行python toparquet.py后会将高斯表中的数据导出到parquet中,检查文件目录中是否有parquet文件生成

1.1   Parquet文件数据加载到高斯

执行python parquet.py命令


显示执行成功,我们再查看高斯库的表数据有没有更新

查看public.parquetab表发现数据已经写入成功

1.2  高斯的数据写入到parquet文件中

我们运行python toparquet.py命令执行我们的toparquet代码,将会在当前目录下产生一个parquet文件

执行成功后,使用ll命令查看当前目录下有个demo.parquet的文件

我们把这个parquet文件的数据打印出来,看是否和我们的表中一致



 

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。