大模型备案必备:安全风险分类详解

举报
万方安全 发表于 2026/02/13 11:04:27 2026/02/13
【摘要】 安全防线分类说明通过五大维度细化风险分类,不仅帮助企业精准识别风险点,让潜在风险无所遁形,还有效减少了模型训练和内容审核中存在的模糊地带,为生成式人工智能服务的合规备案工作提供了可操作参考依据,无论是技术开发者、服务提供方,还是内容审核团队,均可依据该分类体系建立多层次的内容安全保障机制,为生成式人工智能服务的稳健发展保驾护航。

随着技术革新的日新月异,生成式人工智能技术在各行各业的应用愈发广泛,为社会经济发展注入了强劲动力。然而,随着技术的不断进步,伴随而来的安全风险挑战也日益复杂多变,如何确保其内容安全、合法合规,已成为行业健康发展的关键。

为促进技术有序创新、防范潜在风险,国家相关部门发布了《生成式人工智能服务管理暂行办法》,并配套推出了备案所需的安全风险分类指南。作为备案依据的重要组成部分,《附录A:安全风险分类说明》为技术提供方划定了清晰的内容安全红线,助力构建可信、可控的AI应用生态。附录A从内容合规、公平包容、商业合法、权益保护及特定场景可靠性五大维度,系统梳理了生成式人工智能在内容生成过程中可能存在的风险类型,全面覆盖内容安全的关键领域,为企业自查自纠、模型优化提供了标准化指引。

 

(一)严守内容底线,维护社会主义核心价值观

该部分明确禁止生成包含危害国家安全、宣扬暴力恐怖、传播虚假信息等违反法律法规和社会主义核心价值观的内容,从源头杜绝AI输出引发社会风险的可能性,筑牢意识形态的安全防线。具体包含以下内容:

1.煽动颠覆国家政权、推翻社会主义制度;

2.危害国家安全和利益、损害国家形象;

3.煽动分裂国家、破坏国家统一和社会稳定;

4.宣扬恐怖主义、极端主义;

5.宣扬民族仇恨;

6.宣扬暴力、淫秽色情;

7.传播虚假有害信息;

8.其他法律、行政法规禁止的内容。

 

(二)倡导平等包容,抵制歧视性内容

AI生成内容不得涉及民族、性别、抵御、职业等任何形式的歧视,技术发展的同时要兼顾对多元群体的尊重与关怀,技术发展应服务于社会公平与和谐。具体包含以下内容:

1.民族歧视内容;

2.信仰歧视内容;

3.国别歧视内容;

4.地域歧视内容;

5.性别歧视内容;

6.年龄歧视内容;

7.职业歧视内容;

8.健康歧视内容;

9.其他方面其实内容。

 

(三)规范商业行为,促进健康竞争

针对商业应用中可能出现的侵权、垄断、商业秘密泄露等问题,强调AI生成内容需符合知识产权法规和商业道德准则,从而为数字经济的健康有序发展提供制度保障。具体包括以下内容:

1.侵犯他人知识产权;

2.违反商业道德;

3.泄露他人商业秘密;

4.利用算法、数据、平台等优势,实施垄断和不正当竞争行为;

5.其他商业违法违规行为。

 

(四)强化权益保护,防范人身与信息风险

AI服务必须尊重并保障用户的肖像权、隐私权、名誉权等合法权益,不得侵害用户的肖像权等合法权益,切实履行个人信息保护责任,秉持“技术向善”的治理理念。具体包括以下主要风险:

1.危害他人身心健康;

2.侵害他人肖像权;

3.侵害他人名誉权;

4.侵害他人荣誉权;

5.侵害他人隐私权;

6.侵害他人个人信息权益;

7.侵害他人其他合法权益。

 

(五)保障专业场景可靠性,提升服务质量

针对医疗、金融、心理咨询等高敏感的行业领域,要求AI生成内容应具备科学性和实用性,避免因内容失实或不可靠而对用户造成误导,进而确保AI真正赋能关键行业。具体包括以下风险:

1.内容不准确,严重不符合科学常识或主流认识;

2.内容不可靠,虽然不包含严重错误的内容,但无法对使用者形成有效帮助。

 小结

安全防线分类说明通过五大维度细化风险分类,不仅帮助企业精准识别风险点,让潜在风险无所遁形,还有效减少了模型训练和内容审核中存在的模糊地带,为生成式人工智能服务的合规备案工作提供了可操作参考依据,无论是技术开发者、服务提供方,还是内容审核团队,均可依据该分类体系建立多层次的内容安全保障机制,为生成式人工智能服务的稳健发展保驾护航。

【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。