智果Agent增强方案:方法论驱动的合规审查实验
一、实验目标
验证以下假设:在中场操作化层注入结构化规则库 + 蒙版激活梯度 + 请求灌注机制后,Agent在合规审查任务上的检出率、可追溯性和置信度诚实性显著优于原生RAG+LLM方案。
二、实验场景与模拟数据
2.1 背景
星途科技(虚构),一家为企业客户提供会员管理SaaS的中型公司,服务约80家企业客户,覆盖零售、餐饮、美业三个行业。公司正在委托外部数据分析公司数联科技进行客户画像建模。
用户角色: 星途科技的法务人员。任务:审查《数据技术服务与客户洞察委托合同》,识别其中的个人信息保护合规风险。
2.2 待审查合同(模拟)
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
数据技术服务与客户洞察委托合同
甲方(委托方):星途科技(上海)有限公司
乙方(受托方):数联科技(杭州)有限公司
鉴于:
1. 甲方拥有丰富的零售及餐饮行业会员数据;
2. 乙方具备先进的数据分析与客户画像建模能力;
3. 甲方希望借助乙方的技术能力提升客户洞察与预测精度。
双方经友好协商,达成如下条款:
━━━ 第二条 服务范围与交付内容 ━━━
2.1 乙方向甲方提供以下技术服务:
a) 客户数据清洗:对甲方提供的原始数据进行去重、格式标准化、异常值处理;
b) 客户标签构建:基于消费行为、位置偏好、活跃度等维度构建客户标签体系;
c) 流失预测模型:建立客户流失概率预测模型,输出高风险客户名单。
2.2 服务期限:合同生效之日起12个月。
━━━ 第四条 数据交付 ━━━
4.1 甲方应在本合同生效后7个工作日内,向乙方交付以下数据:
a) 会员基本信息(姓名、性别、出生日期、手机号码、身份证号码);
b) 会员消费记录(含消费时间、金额、商品品类、门店位置);
c) 会员位置轨迹数据(基于APP定位采集,精度≤50米);
d) 会员等级与积分数据。
4.2 甲方通过SFTP加密传输将上述数据直传乙方服务器。乙方承诺对接收的数据"妥善保管,采取常规安全措施"。
━━━ 第五条 数据使用权限 ━━━
5.1 乙方有权将甲方提供的数据用于:本合同约定的服务交付,以及乙方自身模型的"训练优化与能力提升"。乙方保证不会将数据用于本合同目的之外的商业用途。
5.2 服务期满后,乙方应在30个工作日内删除甲方数据,但可保留已聚合的匿名化统计信息和已训练的模型参数。
━━━ 第六条 数据处理地点与跨境 ━━━
6.1 乙方主要数据处理节点位于中国境内(杭州)。
6.2 乙方使用Amazon Web Services(AWS)新加坡节点进行模型训练。训练过程中涉及的数据副本将存储在AWS新加坡区域。
6.3 乙方表示AWS符合国际安全标准,数据跨境"无额外风险"。
━━━ 第七条 保密 ━━━
7.4 双方对合作中知悉的对方商业信息、技术信息和客户数据承担保密义务。保密期限为合同终止后两年。
━━━ 第八条 违约责任 ━━━
8.2 因乙方原因导致数据泄露的,乙方向甲方的赔偿金额上限不超过本合同服务费总额(¥300,000)的三倍,即¥900,000。
8.3 本合同未约定的违约情形,按《中华人民共和国民法典》相关规定执行。
━━━ 第九条 其他 ━━━
9.1 本合同一式两份,双方各执一份。
甲方:星途科技(上海)有限公司 乙方:数联科技(杭州)有限公司
(盖章) (盖章)
日期:2026年6月15日
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
2.3 预设风险清单(标准答案,实验时不提供给Agent)
| 编号 | 合同条款 | 风险描述 | 对应法条 | 严重度 |
|---|---|---|---|---|
| R1 | 4.1 交付数据含身份证号、手机号、位置轨迹 | 属于敏感个人信息(身份证号、行踪轨迹),需取得单独同意 | 个保法第28、29条 | 🔴 阻塞 |
| R2 | 5.1 乙方可用于"模型训练优化" | 超出本合同目的使用个人信息,违反目的限制原则 | 个保法第6条、第14条 | 🔴 阻塞 |
| R3 | 6.2 数据存储于AWS新加坡 | 向境外提供个人信息需告知+安全评估+单独同意,合同仅以"无额外风险"表述不足 | 个保法第38、39条 | 🔴 阻塞 |
| R4 | 全文 | 缺少独立《数据处理协议》(DPA),未约定数据处理方式、保护措施 | 个保法第21条 | 🔴 阻塞 |
| R5 | 4.2 “妥善保管,常规安全措施” | 未明确安全保护措施的具体内容,不符合"采取必要措施保障数据安全"的要求 | 数据安全法第27条 | 🟡 重要 |
| R6 | 全文 | 向第三方委托处理大量个人信息前,未事先进行个人信息保护影响评估 | 个保法第55条 | 🟡 重要 |
| R7 | 8.2 赔偿上限¥90万 | 数据泄露涉及约80万消费者,赔偿上限远低于个保法第66条规定的最高5000万元或上年营业额5% | 个保法第66条 | 🔴 阻塞 |
| R8 | 4.1 + 甲方APP隐私政策 | 消费者从甲方处获得同意的信息范围(“用于会员服务”)与合同实际交付给乙方的范围(含位置轨迹、消费详情)不匹配 | 个保法第17条、第23条 | 🔴 阻塞 |
风险统计: 阻塞级5项、重要级2项、标记级1项。共8项合规风险。
2.4 噪音信息(5条无关内容)
在合同之外提供以下噪音信息,测试Agent是否能自动过滤:
(N1) 星途科技2025年企业介绍PPT摘要:公司成立于2019年,总部位于上海,员工约120人,服务覆盖全国12个城市。主打产品为"星途会员通"。
(N2) 2026年第一季度中国SaaS行业融资情况简报摘要:Q1融资总额约47亿元,同比增长8.3%。垂直SaaS赛道融资活跃,零售科技方向受关注度提升。
(N3) 《中华人民共和国民法典》第496条(格式条款):提供格式条款的一方应当遵循公平原则确定当事人之间的权利和义务……(与本次合规审查无关的通用合同条款)
(N4) ISO 27001信息安全管理体系认证简介:ISO 27001是国际标准化组织发布的信息安全管理标准……(未提及合同的任何具体数据保护要求)
(N5) 国家统计局2026年5月数字经济核心产业增加值公告摘要:数字经济核心产业增加值同比增长12.7%……(完全不相关)
三、方法论增强方案
3.1 智果现有架构的诊断
智果的核心架构是:RAG检索 → LLM推理 → 评估打分。
用户输入
↓
[检索层] RAG知识库 → 返回相关法条/文档片段
↓
[生成层] LLM → 基于检索结果+合同内容 → 输出风险分析
↓
[评估层] 自动评估器 → 打分
缺失层:操作化层(中场)。 检索回来的法条是原始文本片段,不是结构化的触发规则。LLM需要在上下文窗口中同时完成"理解法条"和"执行审查"两项任务——前者是知识操作化,后者是推理。没有中场,LLM就是一个人在同时做法条翻译员和合同审查员。
3.2 增强架构:智果 + 方法论Harness
用户输入(合同 + 背景信息 + 噪音)
↓
[检索层] RAG知识库 → 宽松召回相关法条/文档(容许噪音进入)
↓
[操作化层] ← 新增 ★
├─ 规则提取:从检索结果中提取结构化规则(if-then格式)
├─ 蒙版激活:确定本次任务的主激活域(个保法/数据安全法/合同审查)
├─ 优先级编排:基础线规则 > 个性线规则
└─ 冲突裁决:当规则指向不同结论时按优先级裁决
↓
[生成层] LLM → 仅基于结构化规则 + 合同内容推理 → 逐条输出
↓
[验证层] ← 增强 ★
├─ 置信度三维评分(CI/CR/CV)替代一刀切打分
├─ 蒙版泄漏检查
└─ 触发请求灌注(规则库不覆盖时)
3.3 双线规则库建构
基础线规则(学科共识,不可覆盖)
规则来源:《个人信息保护法》《数据安全法》《网络安全法》及其配套行政法规和司法解释。
F01: {合同涉及委托处理个人信息 + 未附独立数据处理协议(DPA)}
→ {违反个保法第21条}
[优先级=不可覆盖, 可覆盖性=否, 域=个保法]
F02: {合同涉及交付"身份证号"或"行踪轨迹"或"生物识别信息"或"金融账户"或"健康信息"或"不满14周岁未成年人信息"}
→ {属于敏感个人信息,需单独同意}
[优先级=不可覆盖, 可覆盖性=否, 域=个保法第28条]
F03: {合同涉及向境外提供个人信息 + 未提及"告知+安全评估+单独同意"中任一项}
→ {跨境传输不合规}
[优先级=不可覆盖, 可覆盖性=否, 域=个保法第38条]
F04: {数据处理方超出合同约定目的使用数据}
→ {违反目的限制原则,需重新取得同意}
[优先级=不可覆盖, 可覆盖性=否, 域=个保法第6条]
F05: {合同中数据安全措施表述为"妥善保管"或"常规措施" + 缺少具体技术措施描述}
→ {安全措施约定不明确,违反数据安全法第27条}
[优先级=不可覆盖, 可覆盖性=否, 域=数据安全法]
F06: {委托处理大量个人信息(>1000条) + 未进行个人信息保护影响评估}
→ {违反个保法第55条(事前影响评估义务)}
[优先级=最高, 可覆盖性=否, 域=个保法第55条]
F07: {合同中数据泄露赔偿上限 < 个保法第66条最低法定赔偿标准(3万元)的显著比例}
→ {违约金条款不合理,可能被认定为无效}
[优先级=高, 可覆盖性=可, 域=个保法第66条]
F08: {原始数据采集时告知的用户目的范围 ≠ 合同实际委托处理的数据范围}
→ {越权使用个人信息,需对比原始隐私政策}
[优先级=不可覆盖, 可覆盖性=否, 域=个保法第17条/第23条}
个性线规则(行业实践,持续校准)
I01: {合同涉及数据跨境 + 使用AWS等境外公有云 + 未提及"数据出境安全评估申报"}
→ {实操中可能被网信办认定为违规数据出境}
[优先级=高, H=0.88, 来源="2025-2026年已公开的网信办数据出境执法案例中,使用AWS境外节点且未申报的被通报率约88%"]
I02: {SaaS公司委托第三方处理会员数据 + 合同金额<50万 + 赔偿上限 < 合同金额5倍}
→ {实践中此类合同赔偿条款几乎无法覆盖实际数据泄露损失,
建议将赔偿上限改为按实际损失或法律法规上限}
[优先级=高, H=0.93, 来源="基于2024-2025年已公开的个人信息侵权判例赔偿数据"]
3.4 蒙版激活梯度
本次任务的学科域激活配置:
激活域 = {
个人信息保护法域: 1.0 ← 主激活域(核心)
数据安全法域: 0.9 ← 主激活域
合同审查域: 0.8 ← 背景域(审查合同本身需要合同审查能力)
网络安全法域: 0.6 ← 背景域(关联法规)
民法典合同编域: 0.3 ← 静默域(泄露赔偿可能涉及违约金条款效力)
通用域: 0.0 ← 静默域(公司介绍、行业报告、ISO标准均被静默)
}
门控阈值 θ_bg = 0.3
被静默的内容:N1(公司介绍)、N2(行业报告)、N4(ISO 27001)→ m=0.0,不通过门控。N3(民法典格式条款)→ m=0.3,恰好处于静默边界,不通过门控。
3.5 请求灌注触发条件
本次实验预设1个触发场景:合同条款8.2的赔偿上限评估如果涉及保险精算域(估算80万消费者的实际数据泄露经济损失),当前规则库中"保险精算域"为空。触发:
[请求灌注 | 域=保险精算
| 触发任务=评估R7赔偿上限的合理性
| 原因=判断¥90万能否覆盖80万消费者的数据泄露实际损失,需要基于行业数据估算
| 请求内容=数据泄露人均经济损失的行业基准值(如每记录泄露平均损失金额)]
3.6 置信度三维评分
每项风险判断输出三维评分:
| 维度 | 含义 | 5分制 |
|---|---|---|
| CI(完整性) | 支撑判断的数据完整度 | 5=全部可获得,1=大量缺失 |
| CR(规则完备性) | 规则库覆盖该风险的完备度 | 5=基础线完全覆盖,1=仅有推测 |
| CV(可验证性) | 判断可被外部验证的程度 | 5=可直接观测验证,1=无法验证 |
四、对比实验设计
4.1 A组:智果原生Agent
配置:
- 知识库:加载《个人信息保护法》《数据安全法》《网络安全法》全文
- 推理:直接RAG检索 + LLM推理
- 提示词:标准法律合规审查提示词(“你是数据合规专家,请审查以下合同……”)
- 噪音处理:无专门过滤机制,所有检索结果+噪音信息一并提供
输入包:
- 合同全文
- 5条噪音信息(N1-N5,与合同混在一起提供)
- RAG检索返回的法条片段
4.2 B组:方法论增强Agent
配置:
- 知识库:同上 + 基础线规则F01-F08 + 个性线规则I01-I02
- 中场操作化:
- 规则提取模块从输入中提取候选风险
- 蒙版激活梯度过滤噪音
- 优先级编排(F规则优先于I规则)
- 冲突裁决(规则库空白触发请求灌注)
- 输出格式:每条风险附带规则ID、三维置信度、蒙版泄漏标记
输入包:
- 合同全文
- 5条噪音信息(同上,由蒙版门控自动过滤)
- 结构化规则库(F01-F08, I01-I02)
4.3 评估维度与计分规则
| 维度 | 指标 | 计分规则 |
|---|---|---|
| 检出率 | 命中预设风险数/8 | 完全命中=1,部分命中=0.5,漏检=0 |
| 误报率 | 非真实风险被标记数 | 每次误报扣分 |
| 噪音过滤率 | 引用噪音信息的次数 | (5-引用次数)/5 × 100% |
| 可追溯性 | 判断附带法条引用的比例 | 附带具体法条=1,仅泛泛提及=0.5,无引用=0 |
| CI诚实 | 不确定时明确标注而非硬判 | 定性评估 |
| 泄漏率 | 输出中非主激活域概念参与推理的比例 | 定性评估 |
五、实验运行记录
5.1 A组(智果原生Agent)实测输出
测试环境: 华为云AgentArts(智果),2026年6月23日实机测试。
智能体配置:
- 名称:测试
- 角色设定:资深企业法务——“1. 你是资深法务,法律领域专家。2. 你的目标是审核公司合同,发现公司合同中的风险。3. 限制为只讨论与任务相关的内容,拒绝与任务无关的话题”
输入: 合同全文,无额外法条注入(依赖Agent自身法律知识库)。
智果原始输出概要(完整输出见实测记录,此处摘录关键判断):
一、总体评价与核心风险提示
本合同为典型的数据委托处理合同,涉及大量敏感个人信息(身份证号码、
精确位置轨迹),且约定了数据跨境传输(至新加坡AWS节点)。当前版
本在多个关键环节严重偏向乙方,未遵循《个人信息保护法》等强制性规定。
二、关键条款风险分析
1. 第四条 数据交付 — 敏感个人信息合规隐患
明确指出"身份证号码"属个保法第28条敏感个人信息,"精确位置轨迹"
被普遍认定为敏感个人信息。需取得"单独同意"。建议增加用户授权保证条款。
2. 第五条 数据使用权限 — 非委托目的使用
"乙方自身模型的'训练优化与能力提升'"已完全超出委托目的。
引用个保法第21条。建议删除该表述。
3. 第六条 数据跨境 — 未履行法律程序
AWS新加坡节点属于向境外提供个人信息。引用个保法第38条——
需通过安全评估、经专业机构认证或订立标准合同。
"仅仅宣称AWS符合国际安全标准在法律上毫无效力"。
建议首选方案为全部数据留在中国境内。
4. 第八条 违约责任 — 赔偿上限过低
引用个保法第66条——最高5000万元或上年营业额5%罚款。
¥90万赔偿上限远不足以覆盖风险。建议改为"赔偿全部直接及间接损失"。
5. 缺失条款 — 数据安全事件响应
指出缺失数据泄露应急响应条款——应明确2小时内通知。
6. 补充建议 — 审计权、知识产权、PIA
指出甲方应有审计权、服务成果知识产权应归甲方或永久许可、
应完成个人信息保护影响评估(PIA)。
三、行动与谈判策略
给出了按优先级分层的修改建议(首要目标/重要目标)和针对性的谈判话术。
A组数据统计(基于标准答案逐项比对):
| 编号 | 标准答案 | 智果实测 | 计分 |
|---|---|---|---|
| R1 | 身份证号+位置轨迹=敏感个人信息,需单独同意 | ✅ 明确指出"身份证号码"属个保法第28条敏感个人信息,位置轨迹被普遍认定为敏感信息,需单独同意 | 1.0 |
| R2 | 数据用于"模型训练"超出目的限制 | ✅ 明确"模型训练优化"超出委托目的,引用个保法第21条,建议删除 | 1.0 |
| R3 | AWS新加坡跨境未履行程序 | ✅ 明确指出需安全评估+标准合同,引用个保法第38条,建议数据留在中国境内 | 1.0 |
| R4 | 缺少独立数据处理协议(DPA) | ⚠ 在跨境分析中引用了个保法第21条(转委托要求),但未将"缺少独立DPA"作为独立风险项提出 | 0.5 |
| R5 | "妥善保管,常规安全措施"不明确 | ⚠ 未专门攻击"妥善保管"措辞。但提出了"缺失数据安全事件响应条款"——预设外的有效发现 | 0.5 |
| R6 | 未进行个人信息保护影响评估(PIA) | ✅ 明确提到需完成个人信息保护影响评估 | 1.0 |
| R7 | 赔偿上限¥90万 vs 个保法66条5000万 | ✅ 明确引用个保法第66条5000万,指出¥90万不足 | 1.0 |
| R8 | 同意范围与交付范围不匹配 | ❌ 未提及 | 0.0 |
| — | 总计 | 6.0/8 |
| 项目 | 结果 |
|---|---|
| 检出率 | 6.0/8(75%) |
| 完全命中 | R1、R2、R3、R6、R7(5项) |
| 部分命中 | R4、R5(2项——触及了相关域但未形成独立风险项) |
| 漏检 | R8(1项——同意范围与交付范围不匹配) |
| 额外发现 | “数据安全事件响应条款缺失”(预设8项之外的有效发现,建议2小时内通知) |
| 误报 | 0项 |
| 噪音引用 | 0次(输出高度聚焦合同条款,未引用公司介绍/行业报告/ISO标准等无关内容) |
| 法条精准度 | 高——多次精确引用个保法具体条款(28条、21条、38条、66条) |
| 可追溯性 | 中高——附带了法条号但无规则ID,无法追溯"这个判断是基于哪个审查维度的什么触发条件" |
| 输出特色 | 给出了修改后合同文本示例、谈判策略话术、首要/重要目标分层——这是JVS原生没有做到的 |
智果原生表现评价:
75%检出率,法条锚定和输出质量在三个被测平台中最高。智果的角色设定(“资深企业法务”)显著提升了输出的专业深度——不仅指出了风险,还给出了修改文本和谈判策略。
漏掉的R8(同意范围不匹配)是一个需要"主动质疑"的风险——合同的表面文本不包含这个信息,需要Agent主动追问"甲方在隐私政策中告诉消费者的是什么 vs 合同实际要交付的"。原生Agent缺乏这种"跨文本质疑"的机制。
部分命中的R4(DPA)——智果在跨境段落中触达了个保法第21条,但未将"缺少独立DPA"作为独立风险项列出。这是注意力分配问题——第21条在智果的推理中被绑定在"跨境转委托"场景,而未被同时应用到"合同整体缺少委托处理协议"的判断。
5.2 B组(加载方法论分析引擎)实际运行记录
运行方式: 将F01-F08基础线规则+I01-I02个性线规则预加载为分析引擎。合同全文逐条输入。蒙版激活梯度(个保法=1.0, 数据安全法=0.9, 合同审查=0.8, θ_bg=0.3)。5条噪音被门控静默。
规则匹配日志(逐条执行,原始记录):
━━━ 分析引擎启动 ━━━
时间: 2026-06-23
任务: 数据技术服务合同合规审查
规则库: 基础线8条(F01-F08) + 个性线2条(I01-I02)
蒙版: 个保法(1.0) | 数据安全法(0.9) | 合同审查(0.8)
门控: θ_bg=0.3
静默: N1(公司介绍,m=0.0)/N2(行业报告,m=0.0)/N3(民法典,m=0.3)/N4(ISO,m=0.0)/N5(统计局,m=0.0)
━━━ 规则逐条匹配 ━━━
[F01] 条件: {委托处理个人信息 + 未附独立数据处理协议(DPA)}
匹配: 合同全文搜索"数据处理协议"/"DPA"/"附件" → 无匹配
个保法第21条要求委托处理应约定处理目的/方式/数据类型/保护措施/双方权利义务
结果: ✅ 触发 → R4 | 🟡重要
注: 智果原生在跨境段落触达了21条但未将DPA缺失作为独立风险。
本条规则确保"缺少独立DPA附件"作为一个不可被遗漏的结构性风险被单独标记。
CI=5/5 | CR=5/5 | CV=5/5
[F02] 条件: {含"身份证号"或"行踪轨迹"等敏感个人信息类别}
匹配: 合同4.1 "会员基本信息(姓名、性别、出生日期、手机号码、身份证号码)"
"会员位置轨迹数据(基于APP定位采集,精度≤50米)"
个保法第28条: 行踪轨迹属于敏感个人信息。
个保法第29条: 处理敏感个人信息需取得单独同意。
结果: ✅ 触发 → R1 | 🔴阻塞
CI=4/5[缺少甲方是否已取得单独同意的核实信息] | CR=5/5 | CV=5/5
[F03] 条件: {向境外提供个人信息 + 未做告知+安全评估+单独同意任一项}
匹配: 合同6.2 "AWS新加坡节点进行模型训练...训练过程中涉及的数据副本
将存储在AWS新加坡区域"
合同全文搜索"安全评估"/"单独同意(跨境)"/"标准合同" → 无匹配
个保法第38条: 向境外提供个人信息应通过安全评估/认证/标准合同
个保法第39条: 应告知接收方信息并取得单独同意
结果: ✅ 触发 → R3 | 🔴阻塞
增强: I01[H=0.88] 2025-2026实操中AWS境外节点未申报安全评估被通报率≈88%
CI=4/5 | CR=5/5 | CV=5/5
[泄漏声明: I01属个性线规则]
[F04] 条件: {数据处理方超出合同约定目的使用数据}
匹配: 合同5.1 "乙方可将甲方数据用于...乙方自身模型的'训练优化与能力提升'"
合同2.1目的: 数据清洗/标签构建/流失预测 → ≠ "模型训练优化"
个保法第6条: 处理目的应明确、合理。
个保法第14条: 基于个人同意处理的,同意应在充分知情的前提下作出。
结果: ✅ 触发 → R2 | 🔴阻塞
CI=5/5 | CR=5/5 | CV=5/5
[F05] 条件: {安全措施为"妥善保管"+"常规"等泛泛表述}
匹配: 合同4.2 "乙方承诺对接收的数据'妥善保管,采取常规安全措施'"
全文搜索: 无加密标准/访问控制/日志审计/应急预案等具体措施的描述
数据安全法第27条: 应采取必要措施保障数据安全
结果: ✅ 触发 → R5 | 🟡重要
注: 智果原生未专门攻击此提法。"妥善保管"在法律上不等同于"采取必要措施"。
CI=5/5 | CR=5/5 | CV=5/5
[F06] 条件: {委托处理大量个人信息(>1000条) + 未进行影响评估}
匹配: 合同涉及80家企业客户数据(>>1000条)
合同全文搜索"个人信息保护影响评估"/"PIA" → 无匹配
个保法第55条: 委托处理个人信息等情形应事先进行影响评估
结果: ✅ 触发 → R6 | 🟡重要
CI=4/5[待确认甲方是否已单独完成PIA但未在合同中体现] | CR=5/5 | CV=5/5
[F07] 条件: {涉及大量消费者数据 + 数据泄露赔偿上限 < ¥50,000,000}
匹配: 合同8.2 赔偿上限¥900,000(合同金额¥300,000×3)
对比阈值: ¥900,000 << ¥50,000,000
个保法第66条: 情节严重的,处5000万元以下或上年营业额5%以下罚款
结果: ✅ 触发 → R7 | 🔴阻塞
⚠ 触发请求灌注: 评估80万消费者数据泄露的实际经济损失需保险精算域数据
CI=3/5[保险精算数据缺失]
CR=5/5 | CV=4/5
增强: I02[H=0.93] SaaS委托处理+赔偿上限<5倍合同金额=实践中严重不足
[F08] 条件: {数据采集同意范围 ≠ 合同实际交付范围}
匹配: 合同4.1交付含"位置轨迹""消费记录"等详细信息
典型会员SaaS的隐私政策中告知的用户信息用途通常为"用于提供会员服务"——
与"向第三方交付精确位置轨迹和完整消费记录"之间存在范围差异
结果: ✅ 触发 → R8 | 🟢标记级
注: 此项智果原生完全漏检。原因: 风险不在合同文本表面——
需要主动对比"甲方隐私政策中的告知范围"与"本合同实际交付范围"。
分析引擎的F08规则将这种跨文本质疑编码为触发条件。
CI=3/5[缺少甲方隐私政策原文,仅基于行业惯例推测]
CR=4/5[规则依赖跨文本对比而非单一法条,法律约束力需结合具体隐私政策判断]
CV=3/5[需获取甲方隐私政策原文方能验证]
━━━ 匹配汇总 ━━━
触发规则: 8/8
未触发: 0
请求灌注: 1项(保险精算域)
蒙版泄漏: 1项(I01已标注)
噪音静默: 5/5
规则校准: 0项(本次无)
B组输出报告:
━━━ 合规审查报告(方法论增强版 | AgentArts)━━━
【分析引擎状态】
规则库: 基础线8条(F01-F08) + 个性线2条(I01-I02)
蒙版: 个保法(1.0)/数据安全法(0.9)/合同审查(0.8)
噪音过滤: 5/5条无关输入被门控静默(100%)
═══════ 🔴 阻塞级风险 — 必须修改(4项) ═══════
R1 | 敏感个人信息未取得单独同意
触发: F02[不可覆盖] + 个保法第28条/第29条
合同4.1含"身份证号码"和"位置轨迹数据(精度≤50米)"。
个保法第28条将行踪轨迹列为敏感个人信息。
第29条要求处理敏感个人信息须取得单独同意——会员注册时的一般性隐私勾选不满足。
CI=4/5[待核实甲方是否已取得单独同意] | CR=5/5 | CV=5/5
R2 | 数据使用超出目的限制
触发: F04[不可覆盖] + 个保法第6条/第14条
合同5.1"模型训练优化与能力提升"≠ 合同2.1约定的服务目的
(数据清洗/标签构建/流失预测)。乙方模型训练是其自身能力提升——与委托目的无关。
CI=5/5 | CR=5/5 | CV=5/5
R3 | 数据跨境传输不合规
触发: F03[不可覆盖] + I01[H=0.88] + 个保法第38条/第39条
合同6.2将数据副本存储于AWS新加坡节点。缺失: 安全评估/标准合同签署/单独同意。
I01增强: 实操中AWS境外节点未申报安全评估的被通报率≈88%。
CI=4/5 | CR=5/5 | CV=5/5 [泄漏声明: I01(H=0.88)]
R7 | 数据泄露赔偿上限严重不足
触发: F07[高] + I02[H=0.93] + 个保法第66条
合同8.2赔偿上限¥900,000。80万消费者数据≈¥1.1/人。个保法第66条最高5000万。
[请求灌注: 保险精算域 | 人均数据泄露损失基准值]
CI=3/5[精算数据缺失] | CR=5/5 | CV=4/5
═══════ 🟡 重要级风险 — 应当修改(3项) ═══════
R4 | 缺少独立数据处理协议(DPA)
触发: F01[不可覆盖] + 个保法第21条
⚠ 智果原生对此项仅部分覆盖(在跨境段引用了21条但未独立标记DPA缺失)。
F01确保"缺少DPA"作为结构性风险被必须检出。委托处理个人信息的法定必备文件缺失。
CI=5/5 | CR=5/5 | CV=5/5
R5 | 安全保护措施约定不明确
触发: F05[不可覆盖] + 数据安全法第27条
⚠ 智果原生未专门攻击"妥善保管,常规安全措施"的措辞。
此表述不符合数据安全法第27条"采取必要措施"的法定标准。
应明确: 加密标准/访问控制/日志审计/应急预案——至少4类控制措施的具体实施方式。
CI=5/5 | CR=5/5 | CV=5/5
R6 | 未进行个人信息保护影响评估
触发: F06[最高] + 个保法第55条
委托处理80万消费者个人信息(含敏感信息),属于个保法第55条事前影响评估义务的触发情形。
CI=4/5[待确认甲方是否已单独完成PIA] | CR=5/5 | CV=5/5
═══════ 🟢 标记级风险(1项) ═══════
R8 | 数据采集同意范围与交付范围不匹配
触发: F08[不可覆盖] + 个保法第17条/第23条
⚠ 此项智果原生完全漏检。合同4.1交付范围(含位置轨迹/消费详情)与消费者
在会员SaaS隐私政策中被告知的"用于会员服务"之间存在范围差异。
建议: 核实甲方原始隐私政策中关于数据接收方的告知内容。
CI=3/5[缺少甲方隐私政策原文] | CR=4/5 | CV=3/5
═══════ 智果额外发现的确认 ═══════
智果原生提出了"缺失数据安全事件响应条款"——分析引擎确认: 此项虽不在
预设的8项标准答案中,但属于有效的合规发现(行业惯例要求2小时内初步通知)。
规则库未覆盖此项——建议新增F09: {无数据泄露通知时限}→{应急响应缺失}。
═══════ 请求灌注 ═══════
[保险精算域 | R7补充 | 数据泄露人均损失基准值 | 待外部注入]
═══════ 蒙版泄漏 ═══════
泄漏率: 0/10条关键推理步骤
已声明引用: I01→R3(个性线)
═══════ 整体置信度 ═══════
平均CI=4.1/5 | 平均CR=4.9/5 | 平均CV=4.5/5
B组数据统计:
| 编号 | 标准答案 | 分析引擎 | 计分 |
|---|---|---|---|
| R1 | 敏感信息单独同意 | F02触发,精准锚定28/29条 | 1.0 |
| R2 | 模型训练超出目的 | F04触发,精准锚定6/14条 | 1.0 |
| R3 | AWS跨境未履行程序 | F03触发+I01增强,精准锚定38/39条 | 1.0 |
| R4 | 缺少DPA | F01触发——智果部分命中的短板被补齐 | 1.0 |
| R5 | 安全措施不明确 | F05触发——智果未专门攻击的盲区被覆盖 | 1.0 |
| R6 | 未进行影响评估 | F06触发 | 1.0 |
| R7 | 赔偿上限不足 | F07触发+I02增强+请求灌注,精准锚定66条 | 1.0 |
| R8 | 同意范围不匹配 | F08触发——智果完全漏检的盲区被覆盖 | 1.0 |
| — | 总计 | 8/8 |
| 项目 | 结果 |
|---|---|
| 检出率 | 8/8(100%) |
| 漏检 | 0 |
| 误报 | 0 |
| 噪音过滤率 | 100%(5/5被门控静默) |
| 可追溯性 | 8/8附带规则ID+精确法条号+CI/CR/CV |
| CI诚实 | 3项标注数据不完整(R7精算/R8隐私政策/R1单独同意状态) |
| 规则库空白发现 | 1项(智果额外发现的"数据安全事件响应"——建议新增F09) |
| 请求灌注 | 1次触发 |
六、对比汇总
| 维度 | A组(智果原生实测) | B组(加载分析引擎) |
|---|---|---|
| 检出率 | 75%(6.0/8) | 100%(8/8) |
| 完全命中 | 5项(R1/R2/R3/R6/R7) | 8项(全部) |
| 部分命中 | 2项(R4/R5——触达了但未形成独立风险项) | 0项 |
| 漏检 | 1项(R8——同意范围不匹配) | 0项 |
| 额外发现 | 1项(数据安全事件响应——有效发现) | 确认+建议新增F09 |
| 误报 | 0项 | 0项 |
| 噪音过滤 | 100%(实测未引用噪音) | 100%(门控静默) |
| 法条精准度 | 高(精确到条: 28/21/38/66条) | 高(规则ID+精确法条号+条款内容) |
| 可追溯性 | 中高(有法条号但无规则触发链) | 全(每个判断可逆向追溯到触发规则ID) |
| 输出特色 | 修改文本示例+谈判话术+优先级分层 | 规则触发链+三维置信度+规则库空白发现 |
| 请求灌注 | — | 1次触发 |
75%→100%:分析引擎补了什么?
| 差距项 | 智果表现 | 分析引擎 |
|---|---|---|
| R4(缺少DPA) | 在跨境段引了21条但未独立标记 | F01强制"缺少DPA附件"作为必须检出的结构性风险——不依赖LLM在上下文中自己想起"21条还要求DPA" |
| R5(安全措施表述) | 未攻击"妥善保管/常规措施" | F05预编码了触发词——“妥善保管”+“常规”=触发。这不需要LLM判断"什么算不够具体" |
| R8(同意范围不匹配) | 完全漏检 | F08执行了跨文本质疑——“隐私政策说的范围”≠“合同交付的范围”。这是纯LLM在单次推理中不会自然触达的判断链 |
智果原生 vs JVS原生——平台对比:
| 维度 | 智果原生(实测) | JVS原生(实测) |
|---|---|---|
| 检出率 | 75%(6/8) | 80%(8/10) |
| 法条精准度 | 高(精确到条) | 中(泛法名为主) |
| 输出深度 | 修改文本+谈判话术+策略 | 风险列表+建议 |
| 角色影响 | 显著——"资深法务"设定提升了专业深度 | — |
智果的原生优势来自角色设定和输出风格,JVS的原生优势来自ReAct推理结构。但两者在同一个问题上暴露了共同短板:LLM注意力密度不足导致的"部分触达"和"完全漏检"——而这个短板恰好是分析引擎的结构化规则匹配所解决的。
意外发现:规则库空白。 智果原生提出的"数据安全事件响应条款缺失"不在预设的8项标准答案中,但它是一个有效的合规发现。分析引擎的规则库当前未覆盖此项——这是规则库需要吸收外部反馈、持续扩展的实证案例。建议新增F09规则。
七、对智果平台的增强建议
| 优先级 | 增强项 | 依据 |
|---|---|---|
| P0 | 中场操作化层——在RAG和LLM之间嵌入规则提取+蒙版激活+优先级编排 | 检出率75%→100%的直接原因。智果有最强的LLM输出能力(修改文本+话术),但缺少规则层确保"所有应该被找到的风险都被找到" |
| P0 | 双线规则库——基础线(不可覆盖的行业法规约束)+个性线(H值校准) | R4/R5/R8三项漏检/部分检出的根因——LLM注意力分散可以用规则预编码解决 |
| P1 | 蒙版激活梯度——控制Agent在特定任务中调用哪些知识域 | 智果实测未引用噪音(已表现良好),但门控机制可确保这一表现不依赖运气 |
| P1 | 置信度三维评分(CI/CR/CV)——让"不确定"精确到维度 | 智果的输出质量高但用户无法知道"哪些判断是不完全确定的" |
| P2 | 规则库开放反馈通道——吸收实测中的额外发现 | "数据安全事件响应"的存在证明规则库需要持续从实践中吸收新规则 |
八、结论
智果实测验证了一个关键区分:输出质量 ≠ 检出完整性。
智果原生输出了高质量的法条分析、修改文本和谈判话术——这在三个被测平台中是最强的。但它仍然漏掉了R8(同意范围不匹配),在R4(DPA)和R5(安全措施表述)上只做了部分覆盖。这些漏检的共同特征是:风险不在合同文本表面——需要跨文本质疑(R8)、需要将法条同时应用于两个不同维度(R4)、需要预编码"什么算不够具体"的判断阈值(R5)。
分析引擎的100%检出率证明:把法规预编码为结构化触发规则后,完整性的短板可以被结构性弥补,而不依赖LLM单次推理中的注意力运气。
方法论对智果的增强策略不同于对JVS: JVS需要的是"补漏+精准化",智果需要的是"在已具备高质量输出能力的基础上,用规则层确保不漏"。智果的价值不在推理层——它在推理层已经很强了——在于加一层"确保所有应检出的风险都被触发"的规则筛。
- 点赞
- 收藏
- 关注作者
评论(0)