Parquet适配Gauss开源验证任务心得
【摘要】 Apache Parquet 是由 Twitter 和 Cloudera 最先发起并合作开发的列存项目,也是 2010 年 Google 发表的 Dremel 论文中描述的内部列存格式的开源实现。
和一些传统的列式存储(C-Store、MonetDB 等)系统相比,Dremel/Parquet 最大的贡献是支持嵌套格式数据(Nested Data)的列式存储。
背景介绍
开源for Huawei(参考:https://developer.huaweicloud.com/programs/opensource/contributing/) 通过和公司、高校、社区的开发者合作,完成鲲鹏、昇腾、欧拉、鸿蒙、高斯、云服务等与开源软件的适配开发,帮助繁荣Huawei的基础生态,同时让开源软件能够更加简单、高效的运行于华为云上。
1 适配思路
- 在ECS环境里安装好python环境,部署好parquet程序;
2.运行python parquet.py将数据从parquet文件中写入gauss
3.运行python toparquet.py将数据从高斯写入parquet,并在当前目录下产生一个parquet文件
2具体实现
在 ECS里面部署好Parquet后,运行python parquet.py后会将我们准备example.parquet文件数据导入到高斯表中,
运行完成后可以查看高斯表数据。运行python toparquet.py后会将高斯表中的数据导出到parquet中,检查文件目录中是否有parquet文件生成
1.1 Parquet文件数据加载到高斯
执行python parquet.py命令
显示执行成功,我们再查看高斯库的表数据有没有更新
查看public.parquetab表发现数据已经写入成功
1.2 高斯的数据写入到parquet文件中
我们运行python toparquet.py命令执行我们的toparquet代码,将会在当前目录下产生一个parquet文件
执行成功后,使用ll命令查看当前目录下有个demo.parquet的文件
我们把这个parquet文件的数据打印出来,看是否和我们的表中一致
【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
作者其他文章
评论(0)