奇迹小说
深度强化学习算法与实践:基于PyTorch的实现

深度强化学习算法与实践:基于PyTorch的实现

作者: 张校捷 编著

15.61万24人 正在读

已完结现代当代当代文学
作品简介

《深度强化学习算法与实践:基于PyTorch的实现》从强化学习的基础知识出发,结合PyTorch 深度学习框架,介绍深度强化学习算法各种模型的相关算法原理和基于PyTorch 的代码实现。作为一本介绍深度强化学习知识的相关图书,本书介绍了常用的强化学习环境,基于价值网络的强化学习算法和基于策略梯度的强化学习算法,以及一些常用的比较流行的深度强化学习算法(如蒙特卡洛树搜索)等。另外,还介绍了深度强化学习算法在实际问题中的一些应用。 作为一本深度强化学习的入门书籍,本书主要面向有深度学习和Python 基础,并且希望对深度强化学习有所了解的读者。读者不仅可以从本书中获取深度强化学习有关的理论知识,还可以得到深度强化学习领域的实践知识。

目录 (145章)
倒序
正文
1.1强化学习的历史1.1.1人工智能的历史1.1.2强化学习和人工智能的关系1.2强化学习基本概念1.2.1智能体相关概念1.2.2马尔可夫决策过程1.2.3动作价值函数和状态-动作价值函数1.3强化学习算法的分类1.3.1基于模型的(Model-Based)和无模型的(Model-Free)1.3.2基于策略的(Policy-Based)和基于价值的(Value-Based)1.3.3在线(On-policy)算法和离线(Off-policy)算法1.4深度强化学习基本概念1.5强化学习的优缺点1.6蒙特卡洛梯度估计1.7总结第2章深入了解强化学习2.1强化学习基本要素2.1.1马尔可夫决策过程和回溯图2.1.2贪心策略和最优策略2.1.3最优策略的迭代算法2.2强化学习的探索和利用2.3.1策略迭代2.3.2价值迭代2.4贝尔曼方程及其应用2.5总结第3章强化学习环境3.1简单的强化学习环境3.1.1网格世界(GridWorld)3.1.2多臂赌博机(Multi-armedBandit)3.1.3井字棋(Tic-Tac-Toe)3.2OpenAIGym环境3.2.1Gym环境的安装和基本接口3.2.2Gym的经典控制环境3.2.3Gym的Atari强化学习环境3.2.4Gym的MuJoCo环境3.2.5自定义Gym强化学习环境3.3DeepMindLab强化学习环境3.4其他强化学习环境3.4.1PySC2强化学习环境3.4.2OpenSpiel强化学习环境3.5深度强化学习框架简介3.5.1Dopamine框架3.5.1ReAgent框架3.6总结第4章深度Q函数强化学习算法4.1经典深度Q网络算法(DQN)4.1.1DQN算法理论背景4.1.2DQN模型结构4.1.3DQN模型的输入4.1.4DQN模型的训练4.1.5结合DQN算法的采样和模型的训练4.2双网络Q学习算法(DoubleQ-Learning)4.2.1算法原理4.2.2算法实现4.2.3算法效果4.3优先经验回放(PrioritizedExperienceReplay)4.3.1算法原理4.3.2算法实现4.3.3算法效果4.4竞争DQN算法(DuelDQN)4.4.1算法原理4.4.2算法实现4.4.3算法效果4.5分布形式的DQN算法(DistributionalDQN)4.5.1分类DQN模型4.5.2分类DQN模型算法实现4.5.3分类DQN模型算法效果4.5.4分位数回归DQN模型4.5.5分位数回归DQN模型算法实现4.5.6分位数回归DQN模型算法效果4.5.7分类DQN模型小结4.6彩虹算法(Rainbow)4.6.1彩虹算法对DQN的优化4.6.2彩虹算法的部分实现4.6.3彩虹算法的模型效果4.7总结第5章策略梯度强化学习算法5.1经典策略梯度算法(VPG)5.1.1算法原理5.1.2基于离散动作空间算法的模型实现5.1.3基于离散动作空间算法的运行结果5.1.4基于连续动作空间算法的实现5.1.5基于连续动作空间算法的运行结果5.1.6小结5.2优势演员-评论家算法(A2C和A3C)5.2.1算法原理5.2.2泛化优势估计(GeneralizedAdvantageEstimation)5.2.3熵正则化方法5.2.4优势演员-评论家算法的实现(离散动作空间)5.2.5优势演员-评论家算法运行效果(离散动作空间)5.2.6算法实现(连续动作空间)5.2.7运行效果(连续动作空间)5.2.8异步优势演员-评论家算法的实现5.2.9异步优势演员-评论家算法的效果5.3置信区间策略优化算法5.3.1算法原理5.3.2近端策略优化算法的实现5.3.3近端策略优化算法的效果(离散动作空间)5.4克罗内克分解近似置信区间算法(ACKTR)5.4.1算法原理5.4.2算法实现5.4.3算法效果5.5软演员-评论家算法(SAC)5.5.1算法的基本原理5.5.2算法的实现(连续动作空间)5.5.3算法的效果(连续动作空间)5.6总结第6章其他强化学习算法6.1噪声网络(NoisyNetworks)6.1.1噪声网络的原理6.1.2噪声网络的实现6.1.3噪声网络的效果6.2深度确定性策略梯度算法(DDPG)6.2.1算法原理6.2.2算法实现6.2.3算法效果6.3双延迟深度确定性策略梯度算法(TD3)6.3.1算法原理6.3.2算法实现6.3.3算法效果6.4蒙特卡洛树搜索(MCTS)6.4.1算法原理6.4.2算法的基本步骤6.4.3算法使用的模型6.4.4算法的博弈树表示6.4.5算法的搜索执行过程6.5总结第7章深度强化学习在实践中的应用7.1神经网络结构搜索(NAS)7.1.1算法原理7.1.2算法效果7.1.3小结7.2超分辨率模型(SRGAN)7.2.1算法原理7.2.2小结7.3.1算法原理7.3.2小结7.4基于深度强化学习的推荐系统7.4.1推荐系统的强化学习环境构建7.4.2推荐系统的强化学习算法7.4.3小结7.5基于深度强化学习的交易系统7.5.1算法原理7.5.2小结7.6总结
精选推荐
领导力法则

领导力法则

[中国纺织出版社]

陆禹萌

已完结当代文学

销售心理学

销售心理学

[中国纺织出版社]

兰华

已完结当代文学

销售就是玩转情商

销售就是玩转情商

[中国纺织出版社]

王威

已完结当代文学

销售员情商实战训练

销售员情商实战训练

成功的销售需要高智商,更需要高情商。一个销售员的销售业绩,往往与他的情商成正比。本书从十个方面详细讲述了有效运用情商,提高销售业绩的方法和技巧。通过实际销售案例和销售心理学理论指导,以及实战点拨和情商拓展训练,帮助读者全方位、快速提高情商。故事性、多版块、碎片化的内容设置,有效降低读者阅读疲劳,提高阅读兴趣,不论是奔波在路上的销售小白,还是带领团队奋勇向前的销售经理,都能从中找到适合自己的销售软技巧。

刘军

已完结当代文学

让未来的你,感谢现在勇敢的自己

让未来的你,感谢现在勇敢的自己

[中国纺织出版社]

王介威

已完结当代文学

行为心理学:华生的实用心理学课

行为心理学:华生的实用心理学课

[中国纺织出版社]

(美)约翰·华生著.倪彩

已完结当代文学

行为心理学入门(完全图解版)

行为心理学入门(完全图解版)

行为心理学入门(完全图解版)是以作者多来年的心理辅导和咨询数据为素材,对现实生活中的行为心理学应用进行了形象、深入、全面的论述和解读。本书与日本心理学图解书形式相同,浅显易读,有趣又益。

武莉

已完结当代文学

自卑与超越

自卑与超越

《自卑与(全译插图典藏版)》是个体心理学研究领域的著作,也是人本主义心理学先驱阿尔弗雷德·阿德勒的很好著作。阿德勒的学说以“自卑感”与“创造性自我”为中心,并强调“社会意识”。全书立足个人心理学的观点,从教育、家庭、婚姻、伦理、社交等多个领域,以大量的实例为论述基础,阐明了人生意义的真谛,帮助人们克服自卑、不断超自己,正确对待职业,正确理解社会与性。本书直接促进了亲子教育、人格培养、婚姻与爱情、职业生涯、家庭建设、人际关系等诸多领域的长足发展,成为人们了解心理学的经典读物。

(奥)阿尔弗雷德·阿德勒

已完结当代文学

自制力:道理我都懂,为什么就是过不好人生

自制力:道理我都懂,为什么就是过不好人生

[中国纺织出版社]

邱开杰

已完结当代文学