数据质量规则六大维度介绍及质量评分标准探索
【摘要】 数据质量维度目前业界对于数据质量的衡量标准,分为以下六大维度:名称英文描述完整性Completeness衡量所必须的数据的完整程度,如不能缺失的空值检查唯一性Uniqueness针对某个数据项或某组数据,没有重复的数据值。值必须是唯一的如ID类数据及时性Timeliness对于数据更新频率的满足程度,针对用户对信息获取的时间及时性要求,确保数据及时更新有效性Validity对于数据的值、格式...
数据质量维度
目前业界对于数据质量的衡量标准,分为以下六大维度:
名称 |
英文 |
描述 |
---|---|---|
完整性 | Completeness | 衡量所必须的数据的完整程度,如不能缺失的空值检查 |
唯一性 | Uniqueness | 针对某个数据项或某组数据,没有重复的数据值。值必须是唯一的如ID类数据 |
及时性 | Timeliness | 对于数据更新频率的满足程度,针对用户对信息获取的时间及时性要求,确保数据及时更新 |
有效性 | Validity | 对于数据的值、格式要求符合数据定义或业务定义的要求,如某些电话、邮箱的格式 |
准确性 | Accuracy | 确保数据必须反映真实的业务内容。不仅仅与原始文本或单据比较准确性,也可以是数据的源头与目标作比较 |
一致性 | Consistency | 数据元素的类型和含义必须一致和清晰,如数据迁移或加工的前后数据表大小一致性对比 |
数据质量评分探索
父级对象(库对表、表对字段)加权取平均值
单个规则对象(库、表、字段)按六个质量维度划分
总分=∑ 维度权重*维度分数/维度总数(加权取平均值)
初级阶段推荐:
每个维度采用正向加分机制,即规则运行通过加分(每个规则通过+合法性比率分),无合法性规则为1
后期阶段推荐:
每个维度采用负向减分机制,即规则运行不通过减分(每个规则不通过-合法性比率分,满分为规则总数)
最终得分softmax算法(为了保证分数结果0-1之间,总和为1,可以灵活放大或缩小单个规则对总分的影响)进行归一化计算:
https://zh.wikipedia.org/wiki/Softmax%E5%87%BD%E6%95%B0,此算法适合凸显有问题的数据,但不适合都有问题的数据场景
得到0-1之间的小数,然后根据用户设置的满分区间进行放大(支持5分满分、10分满分、100分满分随意设置)
示例:
数据库A总计2张表, 分别对应2个字段
对数据库A配置了完整性扫描,结果每个表有1个字段为空
正向加分机制:
为空字段完整性得分 = 0
不为空字段完整性得分 = 1
负向减分机制:
为空字段完整性得分 = 1-1 = 0
不为空字段完整性得分 = 1
单完整性表得分 = (0+1)/2 = 0.5
库完整性得分 = ∑ 单表得分/2 = 0.5
其他维度没有计算默认为--
【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)