什么是数据质量管理?
世界正处于在数据时代。这意味着今天产生的数据比人类历史上过去 5000 年的数据还要多——每天大约产生2.5 万亿字节的数据。每次有人发送电子邮件或文本、下载应用程序、发送任何数量看似微不足道的事情时,都会创建数据,而数百万人的这些交互的复合数量造成了数据的爆炸式增长。企业可以需要数据驱动,而不是被数据淹没。数据驱动型企业的一个共同特征是,他们都制定了数据质量管理计划,以确保使用最优质的数据源。
一、为什么企业需要数据质量管理
企业开始意识到数据质量管理的重要性。推动数据质量需求的共同点有:将新数据源,尤其是非结构化数据与现有系统集成;利用所有可用的企业数据所需的财务投资和竞争压力:以及从数据所在的孤岛中提取数据的难度等。哈佛商学院发布一项研究显示,47% 的新创建数据记录至少包含一个严重错误。麻省理工学院斯隆进行的一项惊人研究指出,不良数据的处理成本可能高达总收入的 15-25%,且是长期的无用成本损耗。一个可靠的数据质量管理计划将确保数据的高度完整性,并且任何需要它的人都可以以安全和受监管的方式随时获得数据。数据质量管理就是找到正确的组合,让合适的人员按照正确的方法配备正确的工具。
二、人员:通向数据质量的协作路径
数据质量管理计划不应该依赖于一个小型 IT 团队或几个摇滚明星数据人员来执行。数据是一项团队运动;从 IT 到数据科学家,从应用程序集成商到业务分析师,每个人都应该能够参与并从持续可用的高质量数据中提取有价值的见解。
在开始实施数据质量管理计划时,作为一个团队处理数据很重要,否则您可能会被验证可信数据所需的工作量压得喘不过气来。通过引入一种类似于维基百科的方法,任何人都可以在数据管理方面进行潜在的协作,有机会让企业参与到将原始数据转化为可信任、记录和准备共享的内容的过程中。
IT 和其他支持企业(例如 CDO 办公室)需要制定规则,并在需要时(例如出于合规性或数据隐私)提供权威的治理方法。
您需要同时建立一种更具协作性的方法,以便您的业务用户中知识最渊博的人可以成为内容提供者和策展人。通过利用具有嵌入式数据质量分析控制的智能和工作流驱动的自助服务工具,您可以实施可扩展的信任系统。
三、工具:统一的数据质量管理平台
有很多数据准备和管理工具可以提供多种好处来对抗不良数据。但其中只有少数涵盖了所有人的数据质量。这些专门的、独立的数据质量管理工具通常具有复杂的用户界面,需要深厚的专业知识才能成功部署。当然,这些工具可能很强大,但如果团队只有短期的数据质量处理优先级,那么项目的进度将大打折扣。
另一方面,您可能会发现简单且通常强大的应用程序可能过于孤立,无法注入到全面的数据质量流程中。即使他们通过简单的 UI 成功地专注服务业务人员,他们也会错过重要的部分——协作数据管理。而这正是挑战所在。成功不仅取决于工具和能力本身,还取决于他们相互交流的能力。因此,您需要一个基于平台的解决方案来共享、操作和传输数据、操作和模型。
企业将面临多个用例,其中一个人或团队无法成功管理您的数据。与业务用户合作并在数据生命周期中赋予他们权力,将使您和您的团队克服传统障碍,例如清理、协调、匹配或解决您的数据。以下是数据质量工具可以支持您的数据驱动型企业的方式:
· 分析您的数据环境: 数据剖析——衡量整个企业中以各种形式存储的数据的特征和状况的过程——通常被认为是获得对企业数据的控制权的重要第一步。
· 安全共享质量数据:使用本地或基于云的应用程序有选择地共享生产质量数据,而不会将个人身份信息 (PII) 暴露给未经授权的人员。
· 管理数据生命周期: 数据管理是定义和维护数据模型、记录数据、清理数据以及定义其规则和策略的过程。它支持实施定义明确的数据治理流程,涵盖多项活动,包括监控、协调、优化、重复数据删除、清理和聚合,以帮助向应用程序和最终用户提供高质量的数据。
· 快速准备和共享数据:太多人仍然花费太多时间在 Excel 中处理数据或期望他们的同事代表他们这样做。数据准备工具可能允许任何人访问数据集,然后清理、标准化、转换或丰富数据——这种共享所有权最终推动了业务和 IT 之间的协作。
不良数据质量的可能造成市场竞争能力的下降、错误的决策以及寻找、清理和纠正不良错误所需的时间、人力、资源、经济成本。
- 点赞
- 收藏
- 关注作者
评论(0)