奇迹小说
深度强化学习核心算法与应用

深度强化学习核心算法与应用

作者: 陈世勇,苏博览,杨敬文

8.14万50人 正在读

已完结现代当代当代文学
作品简介

强化学习是实现决策智能的主要途径之一。经历数十年的发展,强化学习领域已经枝繁叶茂,技术内容纷繁复杂,这也为初学者快速入门造成障碍。 本书是一本深度强化学习领域的入门读物。全书分为四部分。第一部分主要阐述强化学习领域的基本理论知识;第二部分讲解深度强化学习常用算法的原理、各算法之间的继承与发展,以及各自的算法流程;第三部分总结深度强化学习算法在游戏、推荐系统等领域的应用;第四部分探讨了该领域存在的问题和发展前景。 本书适合对强化学习感兴趣的读者阅读。

目录 (108章)
倒序
正文
1 马尔可夫决策过程1.1 马尔可夫性1.2 一些基本定义1.3 值函数1.4 基于策略的值函数1.5 贝尔曼方程1.6 策略迭代与值迭代2 无模型的强化学习2.1 蒙特卡罗方法2.1.1 蒙特卡罗方法预测状态V值2.1.2 蒙特卡罗方法预测Q值2.1.3 蒙特卡罗策略优化算法2.1.4 探索和利用2.1.5 异策略蒙特卡罗方法2.2 时间差分方法2.2.1 基本思想2.2.2 Sarsa算法2.2.3 Q-Learning算法2.3 值函数估计和策略搜索2.3.1 值函数估计2.3.2 策略搜索3 有模型的强化学习3.1 什么是模型3.2 基本思路3.3 有模型方法和无模型方法的区别3.4 典型算法4 DQN算法4.1 算法介绍4.1.1 背景4.1.2 核心技术4.1.3 算法流程4.2 相关改进4.2.1 DoubleQ-Learning4.2.2 优先级回放4.2.3 DuelingNetworks4.3 实验效果与小结5 A3C算法5.1 Actor-Critic方法5.2 基线减法与优势函数5.3 博采众长的A3C算法5.4 实验效果与小结6 确定性策略梯度方法6.1 随机性策略梯度与确定性策略梯度6.2 异策略的确定性策略梯度6.3 深度确定性策略梯度6.4 D4PG算法6.4.1 分布式6.4.2 值函数分布6.4.3 N-stepTD误差和优先级的经验回放6.5 实验效果与小结7 PPO算法7.1 PPO算法的核心7.2 TRPO算法7.3 PPO算法7.4 实验效果与小结7.4.1 替代函数的对比7.4.2 在连续空间中与其他算法的对比7.4.3 小结8 IMPALA算法8.1 算法架构8.2 V-trace算法8.3 V-traceActor-Critic算法8.4.1 计算性能8.4.2 单任务训练性能8.4.3 多任务训练性能8.4.4 小结9 深度强化学习在棋牌游戏中的应用9.1.1 AlphaGo:战胜人类围棋冠军9.1.2 AlphaGoZero:不使用人类数据,从头学习9.1.3 AlphaZero:从围棋到更多9.2 牌类游戏9.2.1 Suphx的五个模型9.2.2 Suphx的训练过程和算法优化9.2.3 Suphx的线上实战表现10 深度强化学习在电子游戏中的应用10.1.1 单机游戏10.1.2 对战游戏10.1.3 小结10.2 制作游戏动画10.3 其他应用11 深度强化学习在推荐系统中的应用11.1.1 动态变化11.1.2 考虑长期利益11.2.1 淘宝锦囊推荐介绍11.2.2 问题建模与推荐框架11.2.3 算法设计与实验12 深度强化学习在其他领域中的应用12.1 在无人驾驶中的应用12.2 金融交易中的应用12.3 信息安全中的应用12.4 自动调参中的应用12.5 交通控制中的应用13 问题与挑战13.1 样本利用率低13.2 奖赏函数难以设计13.3 实验效果难复现13.4 行为不完全可控14 深度强化学习往何处去14.1.1 有模型的方法潜力巨大14.1.2 模仿学习14.1.3 迁移学习的引入14.1.4 分层强化学习14.2 审慎乐观,大有可为参考资料(1)参考资料(2)参考资料(3)参考资料(4)参考资料(5)
精选推荐
领导力法则

领导力法则

[中国纺织出版社]

陆禹萌

已完结当代文学

销售心理学

销售心理学

[中国纺织出版社]

兰华

已完结当代文学

销售就是玩转情商

销售就是玩转情商

[中国纺织出版社]

王威

已完结当代文学

销售员情商实战训练

销售员情商实战训练

成功的销售需要高智商,更需要高情商。一个销售员的销售业绩,往往与他的情商成正比。本书从十个方面详细讲述了有效运用情商,提高销售业绩的方法和技巧。通过实际销售案例和销售心理学理论指导,以及实战点拨和情商拓展训练,帮助读者全方位、快速提高情商。故事性、多版块、碎片化的内容设置,有效降低读者阅读疲劳,提高阅读兴趣,不论是奔波在路上的销售小白,还是带领团队奋勇向前的销售经理,都能从中找到适合自己的销售软技巧。

刘军

已完结当代文学

让未来的你,感谢现在勇敢的自己

让未来的你,感谢现在勇敢的自己

[中国纺织出版社]

王介威

已完结当代文学

行为心理学:华生的实用心理学课

行为心理学:华生的实用心理学课

[中国纺织出版社]

(美)约翰·华生著.倪彩

已完结当代文学

行为心理学入门(完全图解版)

行为心理学入门(完全图解版)

行为心理学入门(完全图解版)是以作者多来年的心理辅导和咨询数据为素材,对现实生活中的行为心理学应用进行了形象、深入、全面的论述和解读。本书与日本心理学图解书形式相同,浅显易读,有趣又益。

武莉

已完结当代文学

自卑与超越

自卑与超越

《自卑与(全译插图典藏版)》是个体心理学研究领域的著作,也是人本主义心理学先驱阿尔弗雷德·阿德勒的很好著作。阿德勒的学说以“自卑感”与“创造性自我”为中心,并强调“社会意识”。全书立足个人心理学的观点,从教育、家庭、婚姻、伦理、社交等多个领域,以大量的实例为论述基础,阐明了人生意义的真谛,帮助人们克服自卑、不断超自己,正确对待职业,正确理解社会与性。本书直接促进了亲子教育、人格培养、婚姻与爱情、职业生涯、家庭建设、人际关系等诸多领域的长足发展,成为人们了解心理学的经典读物。

(奥)阿尔弗雷德·阿德勒

已完结当代文学

自制力:道理我都懂,为什么就是过不好人生

自制力:道理我都懂,为什么就是过不好人生

[中国纺织出版社]

邱开杰

已完结当代文学