深度学习+迁移学习+强化学习的区别分享

简单坚持 发表于 2020/09/21 12:21:27 2020/09/21
【摘要】 深度学习:基于卷积神经网络的深度学习(包括CNN、RNN),主要应用于图像、文本、语音等领域。 迁移学习:用相关的,类似数据来训练,通过迁移学习来实现模型本身的泛化能力。 强化学习:让机器有了自我学习、自我思考的能力。

一. 深度学习:

     深度学习的成功和发展,得益于算力的显著提升和大数据,数字化后产生大量的数据,可通过大量的数据训练来发现数据的规律,从而实现基于监督学习的数据预测。

      基于神经网络的深度学习主要应用于图像、文本、语音等领域。

     2016年的 NIPS 会议上,吴恩达给出了一个未来AI方向的技术发展图:

   监督学习(Supervised learning)是目前商用场景最多,成熟度最高的AI技术,而下一个商用的AI技术将会是迁移学习(Transfer Learning),这也是 Andrew 预测未来五年最有可能走向商用的AI技术。


二. 迁移学习:

    迁移学习:用相关的、类似数据来训练,通过迁移学习来实现模型本身的泛化能力,是如何将学习到知识从一个场景迁移到另一个场景。

   拿图像识别来说,从白天到晚上,从冬天到夏天,从识别中国人到 识别外国人……

   借用一张示意图(From:A Survey on Transfer Learning)来进行说明:


       迁移学习的价值体现在:

1.一些场景的数据根本无法采集,这时迁移学习就很有价值;

2.复用现有知识域数据,已有的大量工作不至于完全丢弃;

3.不需要再去花费巨大代价去重新采集和标定庞大的新数据集;

4.对于快速出现的新领域,能够快速迁移和应用,体现时效性优势;

       关于迁移学习算法的实践总结:

1. 通过 原有数据 和 少量新领域数据混淆训练;

2. 将原训练模型进行分割,保留基础模型(数据)部分作为新领域的迁移基础;

3. 通过三维仿真来得到新的场景图像(OpenAI的Universe平台借助赛车游戏来训练);

4. 借助对抗网络 GAN 进行迁移学习 的方法;


三. 强化学习:

   强化学习:全称是 Deep Reinforcement Learning(DRL),让机器有了自我学习、自我思考的能力。


   目前强化学习主要用在游戏 AI 领域,最出名的应该算AlphaGo的围棋大战。强化学习是个复杂的命题,Deepmind 大神 David Silver 将其理解为这样一种交叉学科:


   实际上,强化学习是一种探索式的学习方法,通过不断 “试错” 来得到改进,不同于监督学习的地方是 强化学习本身没有 Label,每一步的 Action 之后它无法得到明确的反馈(在这一点上,监督学习每一步都能进行 Label 比对,得到 True or False)。


   强化学习是通过以下几个元素来进行组合描述的:

对象(Agent)

     也就是我们的智能主题,比如 AlphaGo。

环境(Environment)

     Agent 所处的场景-比如下围棋的棋盘,以及其所对应的状态(State)-比如当前所对应的棋局。

     Agent 需要从 Environment 感知来获取反馈(当前局势对我是否更有利)。

动作 (Actions) 

    在每个State下,可以采取什么行动,针对每一个 Action 分析其影响。

奖励 (Rewards) 

    执行 Action 之后,得到的奖励或惩罚,Reward 是通过对 环境的观察得到。

       

说明:此文章为AI学习笔记,部分内容参考/转载于互联网。

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件至:cloudbbs@huaweicloud.com进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容。
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。