深度强化学习算法与实践：基于PyTorch的实现

作者: 张校捷　编著

15.61万字94人正在读

已完结现代当代当代文学

作品简介

《深度强化学习算法与实践：基于PyTorch的实现》从强化学习的基础知识出发，结合PyTorch 深度学习框架，介绍深度强化学习算法各种模型的相关算法原理和基于PyTorch 的代码实现。作为一本介绍深度强化学习知识的相关图书，本书介绍了常用的强化学习环境，基于价值网络的强化学习算法和基于策略梯度的强化学习算法，以及一些常用的比较流行的深度强化学习算法（如蒙特卡洛树搜索）等。另外，还介绍了深度强化学习算法在实际问题中的一些应用。作为一本深度强化学习的入门书籍，本书主要面向有深度学习和Python 基础，并且希望对深度强化学习有所了解的读者。读者不仅可以从本书中获取深度强化学习有关的理论知识，还可以得到深度强化学习领域的实践知识。

目录 (145章)

倒序

正文

1.1强化学习的历史 1.1.1人工智能的历史 1.1.2强化学习和人工智能的关系 1.2强化学习基本概念 1.2.1智能体相关概念 1.2.2马尔可夫决策过程 1.2.3动作价值函数和状态-动作价值函数 1.3强化学习算法的分类 1.3.1基于模型的（Model-Based）和无模型的（Model-Free）1.3.2基于策略的（Policy-Based）和基于价值的（Value-Based）1.3.3在线（On-policy）算法和离线（Off-policy）算法 1.4深度强化学习基本概念 1.5强化学习的优缺点 1.6蒙特卡洛梯度估计 1.7总结第2章深入了解强化学习 2.1强化学习基本要素 2.1.1马尔可夫决策过程和回溯图 2.1.2贪心策略和最优策略 2.1.3最优策略的迭代算法 2.2强化学习的探索和利用 2.3.1策略迭代 2.3.2价值迭代 2.4贝尔曼方程及其应用 2.5总结第3章强化学习环境 3.1简单的强化学习环境 3.1.1网格世界（GridWorld）3.1.2多臂赌博机（Multi-armedBandit）3.1.3井字棋（Tic-Tac-Toe）3.2OpenAIGym环境 3.2.1Gym环境的安装和基本接口 3.2.2Gym的经典控制环境 3.2.3Gym的Atari强化学习环境 3.2.4Gym的MuJoCo环境 3.2.5自定义Gym强化学习环境 3.3DeepMindLab强化学习环境 3.4其他强化学习环境 3.4.1PySC2强化学习环境 3.4.2OpenSpiel强化学习环境 3.5深度强化学习框架简介 3.5.1Dopamine框架 3.5.1ReAgent框架 3.6总结第4章深度Q函数强化学习算法 4.1经典深度Q网络算法（DQN）4.1.1DQN算法理论背景 4.1.2DQN模型结构 4.1.3DQN模型的输入 4.1.4DQN模型的训练 4.1.5结合DQN算法的采样和模型的训练 4.2双网络Q学习算法（DoubleQ-Learning）4.2.1算法原理 4.2.2算法实现 4.2.3算法效果 4.3优先经验回放（PrioritizedExperienceReplay）4.3.1算法原理 4.3.2算法实现 4.3.3算法效果 4.4竞争DQN算法（DuelDQN）4.4.1算法原理 4.4.2算法实现 4.4.3算法效果 4.5分布形式的DQN算法（DistributionalDQN）4.5.1分类DQN模型 4.5.2分类DQN模型算法实现 4.5.3分类DQN模型算法效果 4.5.4分位数回归DQN模型 4.5.5分位数回归DQN模型算法实现 4.5.6分位数回归DQN模型算法效果 4.5.7分类DQN模型小结 4.6彩虹算法（Rainbow）4.6.1彩虹算法对DQN的优化 4.6.2彩虹算法的部分实现 4.6.3彩虹算法的模型效果 4.7总结第5章策略梯度强化学习算法 5.1经典策略梯度算法（VPG）5.1.1算法原理 5.1.2基于离散动作空间算法的模型实现 5.1.3基于离散动作空间算法的运行结果 5.1.4基于连续动作空间算法的实现 5.1.5基于连续动作空间算法的运行结果 5.1.6小结 5.2优势演员-评论家算法（A2C和A3C）5.2.1算法原理 5.2.2泛化优势估计（GeneralizedAdvantageEstimation）5.2.3熵正则化方法 5.2.4优势演员-评论家算法的实现（离散动作空间）5.2.5优势演员-评论家算法运行效果（离散动作空间）5.2.6算法实现（连续动作空间）5.2.7运行效果（连续动作空间）5.2.8异步优势演员-评论家算法的实现 5.2.9异步优势演员-评论家算法的效果 5.3置信区间策略优化算法 5.3.1算法原理 5.3.2近端策略优化算法的实现 5.3.3近端策略优化算法的效果（离散动作空间）5.4克罗内克分解近似置信区间算法（ACKTR）5.4.1算法原理 5.4.2算法实现 5.4.3算法效果 5.5软演员-评论家算法（SAC）5.5.1算法的基本原理 5.5.2算法的实现（连续动作空间）5.5.3算法的效果（连续动作空间）5.6总结第6章其他强化学习算法 6.1噪声网络（NoisyNetworks）6.1.1噪声网络的原理 6.1.2噪声网络的实现 6.1.3噪声网络的效果 6.2深度确定性策略梯度算法（DDPG）6.2.1算法原理 6.2.2算法实现 6.2.3算法效果 6.3双延迟深度确定性策略梯度算法（TD3）6.3.1算法原理 6.3.2算法实现 6.3.3算法效果 6.4蒙特卡洛树搜索（MCTS）6.4.1算法原理 6.4.2算法的基本步骤 6.4.3算法使用的模型 6.4.4算法的博弈树表示 6.4.5算法的搜索执行过程 6.5总结第7章深度强化学习在实践中的应用 7.1神经网络结构搜索（NAS）7.1.1算法原理 7.1.2算法效果 7.1.3小结 7.2超分辨率模型（SRGAN）7.2.1算法原理 7.2.2小结 7.3.1算法原理 7.3.2小结 7.4基于深度强化学习的推荐系统 7.4.1推荐系统的强化学习环境构建 7.4.2推荐系统的强化学习算法 7.4.3小结 7.5基于深度强化学习的交易系统 7.5.1算法原理 7.5.2小结 7.6总结

精选推荐

领导力法则

[中国纺织出版社]

陆禹萌

已完结当代文学

销售心理学

[中国纺织出版社]

兰华

已完结当代文学

销售就是玩转情商

[中国纺织出版社]

王威

已完结当代文学

销售员情商实战训练

成功的销售需要高智商，更需要高情商。一个销售员的销售业绩，往往与他的情商成正比。本书从十个方面详细讲述了有效运用情商，提高销售业绩的方法和技巧。通过实际销售案例和销售心理学理论指导，以及实战点拨和情商拓展训练，帮助读者全方位、快速提高情商。故事性、多版块、碎片化的内容设置，有效降低读者阅读疲劳，提高阅读兴趣，不论是奔波在路上的销售小白，还是带领团队奋勇向前的销售经理，都能从中找到适合自己的销售软技巧。

刘军

已完结当代文学

让未来的你，感谢现在勇敢的自己

[中国纺织出版社]

王介威

已完结当代文学

行为心理学：华生的实用心理学课

[中国纺织出版社]

（美）约翰·华生著.倪彩

已完结当代文学

行为心理学入门（完全图解版）

行为心理学入门（完全图解版）是以作者多来年的心理辅导和咨询数据为素材，对现实生活中的行为心理学应用进行了形象、深入、全面的论述和解读。本书与日本心理学图解书形式相同，浅显易读，有趣又益。

武莉

已完结当代文学

自卑与超越

《自卑与（全译插图典藏版）》是个体心理学研究领域的著作，也是人本主义心理学先驱阿尔弗雷德·阿德勒的很好著作。阿德勒的学说以“自卑感”与“创造性自我”为中心，并强调“社会意识”。全书立足个人心理学的观点，从教育、家庭、婚姻、伦理、社交等多个领域，以大量的实例为论述基础，阐明了人生意义的真谛，帮助人们克服自卑、不断超自己，正确对待职业，正确理解社会与性。本书直接促进了亲子教育、人格培养、婚姻与爱情、职业生涯、家庭建设、人际关系等诸多领域的长足发展，成为人们了解心理学的经典读物。

（奥）阿尔弗雷德·阿德勒

已完结当代文学

自制力：道理我都懂，为什么就是过不好人生

[中国纺织出版社]

邱开杰

已完结当代文学