《深度强化学习原理与实践》作者陈仲铭、何明将图书首印稿费捐助公益项目
据悉,《深度强化学习原理与实践》作者陈仲铭、何明将图书首印稿费21100元捐赠给中国儿童少年基金会春蕾计划项目。
1989年,在全国妇联领导下,中国儿童少年基金会发起并组织实施了"春蕾计划"儿童公益项目,汇聚社会爱心,资助贫困地区失辍学女童继续学业,改善贫困地区办学条件,辅助国家发展儿童少年教育福利事业。感谢《深度强化学习原理与实践》作者陈仲铭、何明在图书创作过程中的辛苦付出,感谢他们对教育公益事业的爱心,人民邮电出版社期待与他们以及更多的作者、译者一起,为读者出版更多的好书!
《深度强化学习原理与实践》创作初衷
2014年1月,Google斥巨资收购了位于英国伦敦的人工智能公司——DeepMind。DeepMind在深度强化学习领域中,设计出第一个深度强化学习算法DQN,并开发出战胜了人类最为顶尖的围棋职业选手李世石的AlphaGo围棋程序,震惊了世人。
随着AlphaGo的成名,深度强化学习开始吸引众多研究者的关注和研究。大量与深度强化学习相关的技术论文开始出现在人工智能领域的学术会议上,如IJCAI(国际人工智能联合会议)、AAAI(美国人工智能协会年会)、ICML(国际机器学习大会)和NIPS(神经信息处理系统大会)等。此外,越来越多的企业也开始加码对深度强化学习的布局和研究,致力于降低深度强化学习的准入门槛。如Google于2018年开源的深度强化学习框架——多巴胺(Dopamine),旨在为入门或资深的深度强化学习研究人员提供具备灵活性、稳定性和可重复性的研究平台。
不可否认的是,深度强化学习在实际应用中依然存在着一定的约束和弊端,如面临维数灾难、奖励稀疏等挑战。但基于深度强化学习所拥有的强大表征优势和决策优势,能够为人工智能领域的发展带来更多的可能:医疗领域,通过深度强化学习能够对恶性肿瘤进行精确检测,其检测准确率比普通医生提高了20%;自动驾驶领域,通过深度强化学习能够进一步提升出行和驾驶体验;智能终端领域,通过深度强化学习能够让数字设备更加人性化。
回顾过去十年,云计算的兴起和数据的爆炸式增长,极大地推动了深度强化学习的发展。尤其是随着越来越多从业者的加入和研究,相信深度强化学习能够在更多领域取得如AlphaGo一样的成就。
“数风流人物,还看今朝!”
强化学习
强化学习是一门具有50多年历史的学科。该学科从生物学的试错方式和数学的最优控制问题开始萌芽。直到20世纪90年代,受马尔可夫决策过程理论的影响,强化学习的现代形式才逐渐兴起和趋于完善,并于20世纪90年代后期在Sutton和Barto的努力下,建立了完整的学科体系。
近年来,DeepMind团队提出了第一个深度强化学习算法(DQN),开发出了首次战胜人类职业棋手的围棋程序(AlphaGo)。受到DeepMind团队关于深度强化学习研究的影响,深度强化学习领域得到空前关注。据统计,在国际机器学习大会(ICML 2018)提交的论文中,强化学习相关的论文提交数量仅次于深度学习,成为ICML 2018第二大研究主题。
深度强化学习是深度学习和强化学习的结合,这两种学习方式在很大程度上是正交的,其数学结合方式非常优美。强化学习需要通过数据逼近函数的方法来部署价值函数、策略、环境模型和更新状态,而深度学习则是近年来最热、最成功的函数逼近器,两者的结合能够显著提升深度强化学习的应用范围。另外,在人工智能算法中,理想的智能系统能够在不接受持续监督的情况下自主学习、自主判断对错,而深度强化学习正是其中的最佳代表之一。
《深度强化学习原理与实践》一书对深度强化学习的基本概念、原理和应用技术做了深入浅出的讲解。相信本书的出版会对从事人工智能相关研究的工作者和研究人员大有裨益,能够在一定程度上促进国内深度强化学习的研究和应用。希望我国能够有更多的研究者参与到科研工作中,同时我也很高兴可以看到我国新一代人工智能创新活动的蓬勃发展。
《强化深度学习原理与实践》内容提要
本书构建了一个完整的深度强化学习理论和实践体系:从马尔可夫决策过程开始,根据价值函数、策略函数求解贝尔曼方程,到利用深度学习模拟价值网络和策略网络。书中详细介绍了深度强化学习相关最新算法,如Rainbow、Ape-X算法等,并阐述了相关算法的具体实现方式和代表性应用(如AlphaGo)。此外,本书还深度剖析了强化学习各算法之间的联系,有助于读者举一反三。 本书分为四篇:初探强化学习、求解强化学习、求解强化学习进阶和深度强化学习。涉及基础理论到深度强化学习算法框架的各方面内容,反映了深度强化学习领域过去的发展历程和最新的研究进展,有助于读者发现该领域中新的研究问题和方向。
作者简介
**陈仲铭,**西安电子科技大学硕士,OPPO研究院人工智能算法研究员。主要研究方向为强化学习与深度学习、数据挖掘、图像算法及其应用。曾参与激光点云三维扫描、个性化推荐系统、多传感器融合系统等大型项目,多次获国家级创新项目奖,并在国内外发表多篇相关论文。此外,作为技术顾问为多家科研机构和企业提供关于数学建模、深度学习等方面的咨询和培训。著有《深度学习原理与实践》一书。
**何明,**重庆大学学士,中国科学技术大学博士,曾于美国北卡罗来纳大学夏洛特分校访问交流,目前为上海交通大学电子科学与技术方向博士后研究人员、OPPO研究院人工智能算法研究员。主要研究方向为深度强化学习、数据挖掘与知识发现、机器学习方法及其应用,侧重于移动端用户行为分析与建模。在TIP、TWEB、DASFAA、IEEE Access等国际学术会议和期刊共发表论文10余篇,曾获数据挖掘领域国际会议KSEM2018的最佳论文奖。
本文转载自异步社区。
原文链接:https://www.epubit.com/articleDetails?id=NN8d3150d1-097c-4dc9-8715-adae9f3fd09a
- 点赞
- 收藏
- 关注作者
评论(0)