Safe AI/ML/AGI 的研究趋势和热点

举报
荷籽 发表于 2020/10/26 16:56:56 2020/10/26
【摘要】 构建可靠,可解释,可信的人工智能技术(Safe AI/ML/AGI )是 AI 走向大规模应用的必经之路。本文总结了国内外 Safe AI/ML/AGI 的研究趋势和热点。

构建可靠,可解释,可信的人工智能技术(Safe AI/ML/AGI )是 AI 走向大规模应用的必经之路。本文首先从介绍了国内外知名研究机构对 Safety in AGI 的关注点,汇总得到了其分类。紧接着分析了国外知名研究机构在这个领域的侧重点,汇总了国际上近年来的学术活动及研究热点。


Safe AI/ML/AGI 分类


下图引用自文献【1】,它汇总了国内外知名研究机构对 Safety in AGI 的关注点,总的来说通过归纳汇总,可以分成以下几个方面:

image.png

ØValue specification 如何让AGI朝着正确的目标前进

reward gaming 恶意刷分; negative side effects

( DeepMind & OpenAI 定义了以上子问题)

ØReliability 怎么让智能体保持不断追逐设定的目标

Self-modification; highly reliable agent design

ØCorrigibility 如果智能体在设计上有不合理的地方,智能体是否可以和我们合作来修正?

error-tolerant design; corrigibility; safe interruptibility (DeepMind,人可随时中断智能体的行为或智能体在出发某条件时可被中断)

ØSecurity 如何设计AGI,可以在对抗环境下也够鲁棒

building AGI robust to adversarial inputsBerkeley, DeepMind(对抗样本,输入样本加入很小的扰动会导致严重的分类错误

ØSafe Learning 在学习阶段避免犯致命性的错误

safe exploration and distributional shift (DeepMind, OpenAI) continual learning (Berkeley)

ØInterpretability 对决策的可解释性

explainable decisions (Berkeley) informed oversight (MIRI)

ØSocietal consequences 重大的法律、经济、政治和军事后果(道德,法律层面的)


国内研究目前关注的重点主要是:

Adversarial examples/attack/Defense 

Backdoor attack/detection 

Data poisoning/Poison detection 

Fairness 

Privacy data/model 


这些研究点是目前各大AI会议上的一些热点,但是我们看看像DeepMind,Stanford以及OpenAI他们都关注些什么呢?首先我们可以看到,这三大研究机构都程磊专门的Safety研究组,也就是说大家对这个话题非常的关注和重视。然后我们分别看看他们都在重点研究些什么?

image.png

Classify current safety research into three areas:

specification, robustness, and assurance


Specification 明确目标


Robustness  鲁棒性 distributional shift, adversarial inputs, and unsafe exploration


Assurance 监视,理解和控制系统的行动(事前及事中),interpretability interruptibility


偏向于强化学习


Stanford专门成立了一个研究中心 Standford Center for AI Safety  http://aisafety.stanford.edu/


image.png

The mission is to develop rigorous techniques for building safe and trustworthy AI systems and establishing confidence in their behavior and robustness, thereby facilitating their successful adoption in society.


Research Directions

ØFormal Techniques for AI Safety

Formal specifications for systems with AI components

Formal verification of systems with AI components

Analysis of adversarial robustness

Automatic test-case generation

ØLearning and Control for AI Safety

Safe exploration and learning for better perception by AI systems

Safe control of AI agents 不确定和动态环境下,安全和鲁邦的优化控制技术

ØTransparency for AI Safety

Explainable, accountable, and fair AI

Diagnosis and repair for systems with AI components


OpenAI 有一个专门的团队:Safety Team

 image.png

他们正在构建一些Safey相关的Benchmark来促进这个方向的技术发展,如下:

image.png

Benchmark 环境: SafetyGym (2019-12)

操纵小车、机器狗移动到目的地或推东西到目的地。不能触碰花瓶或进入毒区。

image.png

(1)考虑约束的 RL agent 能达到高收益,但 cost 也很高

(2) 考虑约束的 RL agent 收益很低甚至没有收益,但仍然无法保证 cost 满足约束。

总之:现有方法当中,几乎没有哪种能在满足约束的同时达到合理的 reward.


看完几大国外研究机构,我们再关注到一个论文【2】上,这个论文是四大学术机构 Google Brain & Stanford University & UC Berkeley & OpenAI 共同撰写的,他说到了 AI Safety 中会存在一些具体的问题,用扫地机器人的例子把这些问题解释的非常通透,当然这些问题任然是一些开放性问题,也没有很好的解决方案。但是这个文章中提到的一些解决思路都非常有启发性,很值得反复阅读。

Safe AI 具体问题及难点

image.png

Safe AI 可能的解决思路

Ø Avoiding Negative Side Effects

Define an Impact Regularizer 如果对环境造成影响的话就对它施加惩罚

Learn an Impact Regularizer 迁移学习,比如涂油漆机器人和扫地机器人都要避免碰撞物体,这种避免副作用的任务可以进行迁移

Multi-agent Approches 有时候副作用是对其它个体造成了影响,这时可以通过了解所有智能体包括人类在内的行为,避免副作用

Ø Avoiding Reward Hacking

Adversarial Reward Functions 目前考虑的奖励函数都是静态的,而ML系统是动态的,它希望找到途径来获得高回报,而不管这个行为是否符合奖励制定者的意图。如果奖励函数也是一个智能体,能够采取行动探索环境,它可能就更难被愚弄了,比如找出ML系统觉得是高回报,但是人类觉得是低回报的场景。

Model Lookahead 比如利用model-basedRL模型,通过预测出未来长序列的行为,通过未来的状态来给出当前的奖励

Multiple Reward 通过多个奖励函数组合

Ø  Scalable Oversight

Semi-supervised or Active Reward Learning 信息有限情况下,利用半监督或者主动学习来快速学习奖励估计器

Hierarchical reinforcement learning 奖励函数稀疏情况下进行分层强化学习

Ø  Safe Exploration

Risk-Sensitive Performance Criteria 比如优化最糟糕情况的表现,mean/variance

Bounded Exploration 如果我们知道哪些状态空间是安全的,并且即使在状态空间中最坏的行为也可以从中恢复或或者伤害有限,我们就可以允许智能体在这些范围内自由运行。例如,离地面足够远的四旋翼机可能能够安全地探索,因为即使出了问题,也有足够的时间让人类或其他政策来拯救

Use Demonstrations 采用Inverse RL或者专家示例学习,它学习到一个基准策略,从而在一定程度上限制了探索的范围

Ø Robustness to Distributional Shift

Well-specified models: covariate shift 如果能够满足covariate shift假设,可以通过importance weight的方法来做修正

How to respond when out-of-distribution 当碰到OOD的时候如何处理?中断or请求人类帮助?

Counterfactual reasoning 反事实推理在OOD预测的时候起到关键的作用,因为分布偏移其实可以看做是一个典型的反事实推理的案例


Safe AI 相关学术活动及热点

AAAI workshop SafeAI 2019,2020,2021

2019 best paper

Detecting Backdoor Attacks on Deep Neural Networks by Activation Clustering

2020 best paper

1.Benchmarking Uncertainty Estimation Methods for Deep Learning With Safety-Related Metrics 2.PURSS: Towards Perceptual Uncertainty Aware Responsibility Sensitive Safety with ML

神经网络缺乏对输出结果的可靠性程度的估计,不知道自己不知道什么。不确定性的估计对于关注安全的应用来说非常重要。


ICML workshop Safe Machine Learning 2019 DeepMind

ICLR workshop SafeML 2019 DeepMind

Classify current safety research into three areas: specification, robustness, and assurance

specification 明确目标 robustness  承受扰动 assurance 监视,理解和控制系统的行动(事前及事中)

Robustnessdistributional shift, adversarial inputs, and unsafe exploration assuranceinterpretability interruptibility


ECAI 2020 SafeML

Bias in Machine LearningFairness and/or Safety in Machine LearningSafe Reinforcement LearningSafe Exploration for Optimization

Safe Robot ControlAdversarial Machine Learning and AI/ML robustnessAdversarial examples and evasion attacksData poisoning

Backdoors in Machine LearningReward HackingEthical and legal consequences of using Machine Learning in real-world systems

Transparency in Machine Learning


可以看到国外的顶级研究机构主要从一个 AI SystemAGI)层面考虑可能面临的安全问题 。


参考文献

【1】Tom Everitt, Gary Lea, and Marcus Hutter (2018). “AGI Safety Literature Review”. IJCAI

【2】Amodei D, Olah C, Steinhardt J, et al. Concrete problems in AI safety[J]. arXiv preprint arXiv:1606.06565, 2016. (Google Brain & Stanford University & UC Berkeley & OpenAI)


【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。