数据治理:数据质量的度量维度!
来源:数据专题
全文共 2541 个字,建议阅读 3 分钟
关于数据质量的度量维度,业内还没有一个统一的标准,以下分享几个常见的数据质量度量维度。
1、记录数完整
记录数:正在评估数据集的记录数值。
检查记录数量是否与预期数量相负。如果不符,调查却是记录的根本原因并再次剖析数据集。
2、完整性&填充率
完整性或填充率:包含值的字段的数量和百分比的测量标准。
完整性或填充率只基于数值的存在性。需要另外的分析以确定这些值是否有效。
要诠释结果,需要知道那些字段是必须的(强制性的)、可选择的或有条件的。如果字段是必填的(应用必填、业务必填或者该字段是主键),其填充率应是100%。
如果必填字段的填充率小于100%,请调查以下原因:
如果是业务必填字段,查看应用软件是否需要登录;
如果应用软件不需登录,查看其是否可针对需要的数据进行修改;
如果应用软件不能修改,对那些录入数据的人的资料进行归档,并对他们进行培训。这种情况下,应密切监视数据;
检查在数据库中实施“非空”的可行性;
在两个不同层面上检查完整性/填充率:
单个列或字段:确定字段中是否存在数据;
一组数据:确定完成特定基本流程所需一系列字段的填充率。
3、空值/空字段
空:空字段(空是因为字段中什么也没有)的数量和百分比的测量标准。
空是与完整性和填充率相反的。完整性或填充率的分析同样适用于此,只需用相反的观点来进行评判。
4、唯一值列表
唯一值列表:字段中不同或唯一值的列表。
确定数值是允许的或有效的。不同的字段的有效值集也不同。有效值集也被看成数据域或值域集。
检查该字段中不同值的数目与有效值的数目。
可能的话,比较实际的不同值列表与预期有效值列表。预期有效值可来自诸如参考表格或编码列表的数值列表,也可来自主题专家,或来自公司遵循的外部标准。
如果业务没有有效值列表,请使用来自剖析的列表作为起点来开发一个有效值列表。
寻找默认值,将默认值归档;
寻找有重复含义的值;
如果对数值列表进行变更,将所有数值映射归档,并用需要变更的值更新记录。
5、数据有效性
有效性:对字段中的值是否在允许的或有效的数值集中的测试。
对每个字段的“有效的”含义进行定义和归档;不同字段的有效性构成不同。
合法性测试可包括格式或样式、域、有效编码、类型(字母的/数字的)、依赖关系、业务规则、数据录入标准、最大和最小范围,等等。
例如,记录中的所有编码是否被系统编码表中的业务定义为有效编码;如果是数字字段,字段中是否有字幕;日期字段中的日期是否在必需的范围内。
有效性测试结果可以完整性/填充率的百分比来报告。
6、频率分布
频率分布:字段中唯一值的分布,通过数量和百分比来度量。
频率分布给出了一个使用思路,评判最高和最低数量值。
可考虑放弃那些使用频率低的数值,并改用一个常用的可比价的数值。
研究所发现的常量。常量是指每个记录有相同数值的任一列,这可以是从未使用或不再使用的数据元素的标志。
确定数值分布是否是所期望的分布。
如果对数值列表已做变更,请将数值映射归档,并用需要变更的数值更新记录。
寻找在分析信息环境时可能已发现的且正被业务广泛使用的那些异常数值的发生频率。
观察默认值或假值的频率分布,使用频率分布来确定待选主键。
如果不同值的比重较低,等值字段可能是相关的,许多空值或零值可能就有问题了。通常50%的不同值将由其他列确定是否为纯业务数据。
有特定值的字段(例如,所有记录在该字段的值均相等)是潜在无用的或具有常数属性,确定是否应为此在数据库中占用一定空间。考虑输入到一个常数表中。
7、最大数值和最小数值范围
最大数值和最小数值范围:由最大数值和最小数值表示的数值范围。
数值范围上界和下界的任何数值可快速显示数据质量问题;
观察重要日期字段的最大值和最小值;
寻找期望之外的或归档范围以外的数值。
8、数据新鲜度
新鲜度:关键日期字段或日期范围的频率分布。
与日期字段或数据范围相关的一类频率分布;
还被用于向两个其他数据质量维度模拟或提供输入数据:及时性(数据的及时程度)和数据衰变(数据的负面变化率)。
9、内容
内容:数据内容与列或字段名称的匹配。
比较列或字段名与数据内容;
字段包含的是否是预期数据。
10、重复
重复:确定是否存在意外重复。
通过评判重复含义数值列表来获取重复数据的高层视图;
有些工具提供不同列间的数据值比较,以及通常基于不同数值精确字符串匹配的重叠百分比;
有些数据剖析工具强调仅基于精确字符串匹配的重复数据,但其他工具使用经常被称为“模糊匹配”的工具。
11、数据类型
寻找通过剖析工具推断的、预期数据类型和实际数据类型之间的差异。
工具可显示归档的数据类型(或每个元数据的预期数据类型),并与从实际数据内容中推断出的数据类型进行比较;该工具也标记源数据类型和目标数据类型之间的不相容性,该问题需在迁移数据时予以解决。
对数据模型而言,该工具也呈现数据类型以及可用于该模型中的替代数据类型实例。
12、大小或长度
大小或长度:字段中数据的长度。
寻找实际数据大小与预期数据大小之间的差异;
寻找大量具有完全相同大小的记录,这可显示出在该字段中已被缩减了的数据;
如果源和目标系统之间的大小存在差异,确定超出目标大小的源记录的数目和百分比:如果数目小,需人工更新记录;如果数目大,需了解如果数据在迁移时被删减将会对业务产生什么影响。
13、样式
样式:数据中发现的唯一式样的数量和百分比。
寻找意外的样式;
预期的或有效的样式将根据字段的不同而不同;
寻找ID字段的同一样式。
14、精度
对数字数据,要确定小数点的位置是否在所需精度的位置。
15、一致性
一致性:同一记录中相关字段的合理性测试。引用完整性。
评判记录中数据的一致性;
评判记录之间数据的一致性;
评判高层业务规则以了解其关联关系,并寻找符合性;
寻找其他依赖关系。一个字段中具有正确格式的值与另一个字段中的值相关联;
寻找计算:作为每一个源元素的存储计算值是正确的。
16、并发性和及时性
并发性和及时性:各种数据库、应用软件和流程之间的数据同步和数据时延,剖析多个数据库,并比较其结果的差异。
17、业务规则
确定是否没被植入进数据结构中的业务/数据规则正在由应用程序逻辑实施。
这通常都是针对有自身规则的数据子集。例如,可能有具有特定规则的不同当事者类型(组织、合同等),这些规则需要某些列为空,而其他列要输入。
长按以识别二维码,加入大数据微信号群~
公众号推送规则变了
点击上方公众号名片,收藏公众号,不错过精彩内容推送!
往期推荐
文章来源: dataclub.blog.csdn.net,作者:数据社,版权归原作者所有,如需转载,请联系作者。
原文链接:dataclub.blog.csdn.net/article/details/126239487
- 点赞
- 收藏
- 关注作者
评论(0)