数据质量规则六大维度介绍及质量评分标准探索

举报
matex 发表于 2020/07/27 10:44:38 2020/07/27
【摘要】 数据质量维度目前业界对于数据质量的衡量标准,分为以下六大维度:名称英文描述完整性Completeness衡量所必须的数据的完整程度,如不能缺失的空值检查唯一性Uniqueness针对某个数据项或某组数据,没有重复的数据值。值必须是唯一的如ID类数据及时性Timeliness对于数据更新频率的满足程度,针对用户对信息获取的时间及时性要求,确保数据及时更新有效性Validity对于数据的值、格式...

数据质量维度

目前业界对于数据质量的衡量标准,分为以下六大维度:

image.png

名称

英文

描述

完整性 Completeness 衡量所必须的数据的完整程度,如不能缺失的空值检查
唯一性 Uniqueness 针对某个数据项或某组数据,没有重复的数据值。值必须是唯一的如ID类数据
及时性 Timeliness 对于数据更新频率的满足程度,针对用户对信息获取的时间及时性要求,确保数据及时更新
有效性 Validity 对于数据的值、格式要求符合数据定义或业务定义的要求,如某些电话、邮箱的格式
准确性 Accuracy 确保数据必须反映真实的业务内容。不仅仅与原始文本或单据比较准确性,也可以是数据的源头与目标作比较
一致性 Consistency 数据元素的类型和含义必须一致和清晰,如数据迁移或加工的前后数据表大小一致性对比


数据质量评分探索


父级对象(库对表、表对字段)加权取平均值

单个规则对象(库、表、字段)按六个质量维度划分

总分=∑ 维度权重*维度分数/维度总数(加权取平均值)


初级阶段推荐:

每个维度采用正向加分机制,即规则运行通过加分(每个规则通过+合法性比率分),无合法性规则为1

后期阶段推荐:

每个维度采用负向减分机制,即规则运行不通过减分(每个规则不通过-合法性比率分,满分为规则总数)


最终得分softmax算法(为了保证分数结果0-1之间,总和为1,可以灵活放大或缩小单个规则对总分的影响)进行归一化计算:

https://zh.wikipedia.org/wiki/Softmax%E5%87%BD%E6%95%B0,此算法适合凸显有问题的数据,但不适合都有问题的数据场景


得到0-1之间的小数,然后根据用户设置的满分区间进行放大(支持5分满分、10分满分、100分满分随意设置)


示例

数据库A总计2张表, 分别对应2个字段

对数据库A配置了完整性扫描,结果每个表有1个字段为空


正向加分机制

为空字段完整性得分 = 0

不为空字段完整性得分 = 1


负向减分机制

为空字段完整性得分 = 1-1 = 0

不为空字段完整性得分 = 1


单完整性表得分 = (0+1)/2  = 0.5

库完整性得分 = ∑ 单表得分/2 = 0.5


其他维度没有计算默认为--



【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。