数据权限还靠人批?构建数据使用审批与血缘驱动的自动化工作流,才是大数据平台的未来

举报
Echo_Wish 发表于 2026/06/23 08:20:37 2026/06/23
【摘要】 数据权限还靠人批?构建数据使用审批与血缘驱动的自动化工作流,才是大数据平台的未来

数据权限还靠人批?构建数据使用审批与血缘驱动的自动化工作流,才是大数据平台的未来

大家有没有发现一个现象?

很多企业花了几百万搭建了数据平台,也做了数据湖、数据仓库、数据中台,甚至连AI分析平台都上线了。

结果最后最慢的,不是计算,不是存储,而是——数据审批。

一个分析师想查一张用户表。

提交申请。

部门主管审批。

数据负责人审批。

安全负责人审批。

管理员开权限。

最后可能等了三天,真正查询SQL只执行了3秒钟。

更离谱的是。

审批完以后,这个人到底查了哪些字段?这些数据又流向了哪里?有没有继续被下游模型使用?有没有导出Excel?

没人知道。

所以越来越多的大厂开始从"权限管理"升级到了"数据使用治理"。

真正先进的数据平台,关注的不只是能不能访问数据,而是:

为什么访问?访问之后流向哪里?是否符合数据血缘?是否还能自动回收权限?

今天我们就聊聊一个越来越热门的话题:

构建数据使用审批 + 数据血缘驱动的自动化工作流。

这也是未来数据治理平台的发展方向。


为什么传统审批越来越低效?

先来看传统流程。

申请人
   │
提交申请
   │
主管审批
   │
数据Owner审批
   │
安全审批
   │
管理员配置权限
   │
通知申请人

整个流程像接力赛。

每一个环节都靠人工。

问题也非常明显。

例如:

  • 审批慢
  • 权限容易忘记回收
  • 同样的数据重复审批
  • 无法判断数据真正用途
  • 数据流向不可追踪

很多企业一年审批几十万次。

管理员每天干的事情几乎就是:

开权限
关权限
开权限
关权限

技术含量并不高。

真正应该自动化。


什么叫数据血缘?

很多朋友第一次听到这个词,会觉得很玄乎。

其实非常简单。

假设有这样一个流程。

订单表
    │
ETLODSDWDADS销售报表
    │
BI看板

这里的数据来源关系就是:

订单表
   ↓
ODSDWDADSBI

这就是数据血缘(Lineage)。

它记录的是:

数据从哪里来,又流向哪里。

不仅能知道:

A表来自B

还能知道:

A字段来自B字段

甚至:

某个指标来源于哪些SQL计算

所以血缘本质就是:

整个数据生命周期的关系图。


为什么审批必须结合血缘?

举一个真实一点的例子。

某同事申请:

customer_name
customer_phone

审批系统发现:

customer_phone

来自:

CRM

而CRM属于:

一级敏感数据

继续向下分析。

发现:

customer_phone

最终还会进入:

AI推荐模型

这时候系统可以自动判断:

申请用途:
模型训练

那么审批策略立即升级。

例如:

普通分析
      ↓
主管审批

模型训练
      ↓
主管+安全+数据Owner

整个流程完全自动。

而不是靠人工经验。


一个简单的数据血缘模型

例如可以设计如下结构。

from dataclasses import dataclass

@dataclass
class LineageNode:
    table: str
    parent: list
    sensitivity: str

初始化。

lineages = {
    "ads_sales": LineageNode(
        table="ads_sales",
        parent=["dwd_order"],
        sensitivity="middle"
    ),

    "dwd_order": LineageNode(
        table="dwd_order",
        parent=["ods_order"],
        sensitivity="high"
    ),

    "ods_order": LineageNode(
        table="ods_order",
        parent=["mysql_order"],
        sensitivity="high"
    )
}

递归寻找所有上游。

def find_upstream(table):
    result = []

    node = lineages.get(table)

    if not node:
        return result

    for p in node.parent:
        result.append(p)
        result.extend(find_upstream(p))

    return result

print(find_upstream("ads_sales"))

输出:

[
'dwd_order',
'ods_order',
'mysql_order'
]

这就是最基础的数据血缘分析。


审批系统如何自动决策?

假设审批申请如下。

request = {
    "user": "Echo",
    "table": "ads_sales",
    "purpose": "模型训练"
}

审批规则。

def approve(req):

    upstream = find_upstream(req["table"])

    if "mysql_order" in upstream:
        return "需要安全审批"

    if req["purpose"] == "模型训练":
        return "需要数据委员会审批"

    return "自动审批"

运行。

print(approve(request))

输出:

需要安全审批

是不是很简单?

真正的平台其实也是类似思想。

只不过规则更多。


再进一步:自动生成审批流程

很多企业已经开始采用规则引擎。

例如:

rules = [
    {
        "level": "PII",
        "approval": [
            "部门主管",
            "安全负责人"
        ]
    },
    {
        "level": "金融数据",
        "approval": [
            "法务",
            "数据Owner"
        ]
    }
]

审批引擎。

def workflow(level):

    for rule in rules:
        if rule["level"] == level:
            return rule["approval"]

    return ["自动通过"]

输出。

[
部门主管,
安全负责人
]

整个流程不用开发写死。

后续运营人员自己配置即可。


数据使用结束以后怎么办?

很多平台最容易忽略这一点。

权限不是批完就结束了。

真正成熟的平台还要支持:

审批完成
      │
自动授权
      │
开始使用
      │
审计日志
      │
权限到期
      │
自动回收

例如。

from datetime import datetime, timedelta

expire = datetime.now() + timedelta(days=7)

permission = {
    "user": "Echo",
    "expire": expire
}

print(permission)

七天以后。

自动任务检测。

权限过期

↓

自动删除ACL

↓

记录日志

↓

通知用户

整个过程完全无人值守。


再结合AI,会发生什么?

未来的数据审批,不会再是:

申请

↓

审批

而会变成:

申请

↓

AI识别用途

↓

血缘分析

↓

敏感等级判断

↓

自动生成审批链

↓

审批完成

↓

自动授权

↓

实时监控

↓

异常行为检测

↓

自动收回权限

AI可以根据用户历史行为、申请理由、数据敏感级别、访问频率以及数据血缘关系,动态调整审批策略。例如,一位数据分析师过去长期只访问销售汇总数据,突然申请包含身份证号、手机号等敏感字段的明细数据,系统就可以自动提高审批等级,甚至触发安全告警。这种能力,比固定规则更智能,也更符合现代企业的数据安全需求。

与此同时,结合机器学习还能不断优化审批效率。对于大量历史上都能快速通过、风险极低的申请,系统可以逐步学习形成"自动审批"策略;而对于高风险、高价值的数据访问,则始终保持人工复核,实现效率与安全之间的平衡。


写在最后

过去,我们一直把数据审批理解成一道"门禁"。

谁能进,谁不能进,仅此而已。

但随着数据资产价值越来越高,审批已经不再是一个简单的权限控制动作,而是整个数据治理体系中的关键一环。

真正先进的数据平台,应该做到的是:

  • 让审批有依据:结合数据血缘、敏感等级、数据分类自动判断风险,而不是完全依赖人工经验。
  • 让流程能自适应:根据数据用途、申请人角色、历史行为动态生成审批链,而不是所有人走同一套流程。
  • 让权限有生命周期:自动授权、自动到期、自动回收、全程留痕,避免"永久权限"成为安全隐患。
  • 让数据可追溯:任何一次访问,都能够沿着血缘关系追踪来源、去向和影响范围,真正做到可审计、可解释、可治理。

未来的数据治理竞争,不再是谁的数据更多,而是谁能够让数据流动得更安全、更透明、更高效

当审批流程能够理解数据血缘,血缘关系能够驱动审批决策,AI又能够持续学习和优化规则时,数据平台才真正从"人工管理"迈向了"智能治理"。

我是 Echo_Wish。

技术的发展,从来不是让人做更多重复劳动,而是让系统承担重复工作,让工程师把更多时间投入到真正创造价值的地方。这,或许才是构建下一代智能数据平台最值得努力的方向。

【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。