great expectations适配GaussDB验证任务心得
【摘要】 Great Expectations是最近出现的一款优秀的数据质量检查工具,这款快速诊断数据问题的工具,在定义规则的时候采用一种便于理解的python函数定义的方法,非常直观。文章大概描述Luigi适配GaussDB数据库的整个流程及可能会出现的问题,希望能帮读者解决自身问题。
背景介绍
开源for Huawei(参考:https://developer.huaweicloud.com/programs/opensource/contributing/) 通过和公司、高校、社区的开发者合作,完成鲲鹏、昇腾、欧拉、鸿蒙、高斯、云服务等与开源软件的适配开发,帮助繁荣Huawei的基础生态,同时让开源软件能够更加简单、高效的运行于华为云上。
1 适配思路
- 使用Window环境的ECS安装great expectations编写Python程序连接云数据库GaussDB,测试是否连通;
2.开发好的python程序部署到 鲲鹏EulerOS环境的ECS连接云数据库GaussDB,测试是否连通。
2 适配准备
准备二个弹性云服务器ECS,一个用于代码编写以及适配测试,一个用于鲲鹏EulerOS环境适配GaussDB测试。
2.1 ECS配置
适配测试:
- 计费模式选择:按需计费
- 区域:中国-香港
- CPU架构:x86计算
- CPU规格:xlarge.4
- CPU规格:4vCPUs&&16GiB
- 镜像类型:公共镜像
- 镜像:Windows Server 2016 标准版 64位简体中文_40GB_香港
鲲鹏:
- 计费模式选择:按需计费
- 区域:华北-北京四
- CPU架构:鲲鹏通用计算
- CPU规格:xlarge.4
- CPU规格:4vCPUs&&16GiB
- 镜像类型:公共镜像
- 镜像:Huawei Cloud EulerOS 2.0 标准版 64位 ARM版
3 Demo开发
- 安装依赖(需要安装python环境,最好是8或者3.9版本)pip install great_expectations psycopg2
- 创建一个context上下文对象
- 创建一个datasource,里面配置高斯数据源信息
- 选择一张表做data_asset
- 选择表里面一个字段做期望规则的质量检查例如ExpectColumnValuesToBeBetween
4 适配过程中的问题
- 安装psycopg2依赖时报错
解决方法:安装psycopg2-binary依赖代替
【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)