great expectations适配GaussDB验证任务心得

举报
yd_265508559 发表于 2024/11/14 19:53:55 2024/11/14
【摘要】 Great Expectations是最近出现的一款优秀的数据质量检查工具,这款快速诊断数据问题的工具,在定义规则的时候采用一种便于理解的python函数定义的方法,非常直观。文章大概描述Luigi适配GaussDB数据库的整个流程及可能会出现的问题,希望能帮读者解决自身问题。

背景介绍

开源for Huawei(参考:https://developer.huaweicloud.com/programs/opensource/contributing/)  通过和公司、高校、社区的开发者合作,完成鲲鹏、昇腾、欧拉、鸿蒙、高斯、云服务等与开源软件的适配开发,帮助繁荣Huawei的基础生态,同时让开源软件能够更加简单、高效的运行于华为云上。

适配思路

  1. 使用Window环境的ECS安装great expectations编写Python程序连接云数据库GaussDB,测试是否连通;

     2.开发好的python程序部署到 鲲鹏EulerOS环境的ECS连接云数据库GaussDB,测试是否连通。

适配准备

准备二个弹性云服务器ECS,一个用于代码编写以及适配测试,一个用于鲲鹏EulerOS环境适配GaussDB测试。

2.1 ECS配置

适配测试:

  • 计费模式选择:按需计费
  • 区域:中国-香港
  • CPU架构:x86计算
  • CPU规格:xlarge.4
  • CPU规格:4vCPUs&&16GiB
  • 镜像类型:公共镜像
  • 镜像:Windows Server 2016 标准版 64位简体中文_40GB_香港

鲲鹏:

  • 计费模式选择:按需计费
  • 区域:华北-北京四
  • CPU架构:鲲鹏通用计算
  • CPU规格:xlarge.4
  • CPU规格:4vCPUs&&16GiB
  • 镜像类型:公共镜像
  • 镜像:Huawei Cloud EulerOS 2.0 标准版 64 ARM

3 Demo开发

  1. 安装依赖(需要安装python环境,最好是8或者3.9版本)pip install great_expectations psycopg2
  2. 创建一个context上下文对象
  3. 创建一个datasource,里面配置高斯数据源信息
  4. 选择一张表做data_asset
  5. 选择表里面一个字段做期望规则的质量检查例如ExpectColumnValuesToBeBetween

4 适配过程中的问题

    • 安装psycopg2依赖时报错

             解决方法:安装psycopg2-binary依赖代替

    【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
    • 点赞
    • 收藏
    • 关注作者

    评论(0

    0/1000
    抱歉,系统识别当前为高风险访问,暂不支持该操作

    全部回复

    上滑加载中

    设置昵称

    在此一键设置昵称,即可参与社区互动!

    *长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

    *长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。