奇迹小说
搜索历史
统计策略搜索强化学习方法及应用

统计策略搜索强化学习方法及应用

作者: 赵婷婷 著

8.12万52人 正在读

已完结现代当代当代文学
作品简介

智能体AlphaGo战胜人类围棋专家刷新了人类对人工智能的认识,也使得其核心技术强化学习受到学术界的广泛关注。本书正是在如此背景下,围绕作者多年从事强化学习理论及应用的研究内容及国内外关于强化学习的最近动态等方面展开介绍,是为数不多的强化学习领域的专业著作。该著作侧重于基于直接策略搜索的强化学习方法,结合了统计学习的诸多方法对相关技术及方法进行分析、改进及应用。本书以一个全新的现代角度描述策略搜索强化学习算法。从不同的强化学习场景出发,讲述了强化学习在实际应用中所面临的诸多难题。针对不同场景,给定具体的策略搜索算法,分析算法中估计量和学习参数的统计特性,并对算法进行应用实例展示及定量比较。特别地,本书结合强化学习前沿技术将策略搜索算法应用到机器人控制及数字艺术渲染领域,给人以耳目一新的感觉。最后根据作者长期研究经验,对强化学习的发展趋势进行了简要介绍和总结。本书取材经典、全面,概念清楚,推导严密,以期形成一个集基础理论、算法和应用为一体的完备知识体系。

目录 (93章)
倒序
正文
第1章强化学习概述1.1机器学习中的强化学习1.2智能控制中的强化学习1.3强化学习分支1.4本书贡献1.5本书结构第2章相关研究及背景知识2.1马尔可夫决策过程2.2基于值函数的策略学习算法2.2.1值函数2.2.2策略迭代和值迭代2.2.3Q-learning2.2.4基于最小二乘法的策略迭代算法2.2.5基于值函数的深度强化学习方法2.3策略搜索算法2.3.1策略搜索算法建模2.3.2传统策略梯度算法(REINFORCE算法)2.3.3自然策略梯度方法(NaturalPolicyGradient)2.3.4期望最大化的策略搜索方法2.3.5基于策略的深度强化学习方法2.4本章小结第3章策略梯度估计的分析与改进3.1研究背景3.2基于参数探索的策略梯度算法(PGPE算法)3.3梯度估计方差分析3.4基于最优基线的算法改进及分析3.4.1最优基线的基本思想3.4.2PGPE算法的最优基线3.5实验结果3.5.1示例3.5.2倒立摆平衡问题3.6总结与讨论第4章基于重要性采样的参数探索策略梯度算法4.1研究背景4.2异策略场景下的PGPE算法4.2.1重要性加权PGPE算法4.2.2IW-PGPE算法的最优基线4.3实验结果4.3.1示例4.3.2山地车任务4.3.3机器人仿真控制任务4.4总结和讨论第5章方差正则化策略梯度算法5.1研究背景5.2正则化策略梯度算法5.2.1目标函数5.2.2梯度计算方法5.3实验结果5.3.1数值示例5.3.2山地车任务5.4总结和讨论第6章基于参数探索的策略梯度算法的采样技术6.1研究背景6.2基于参数探索的策略梯度算法中的采样技术6.2.1基线采样6.2.2最优基线采样6.2.3对称采样6.2.4超对称采样6.2.5多模态超对称采样6.2.6SupSymPGPE的奖励归一化6.3实验结果6.3.1平方函数6.3.2Rastrigin函数6.4本章总结第7章基于样本有效重用的人形机器人的运动技能学习7.1研究背景:真实环境下的运动技能学习7.2.1机器人的运动路径和回报7.2.2策略模型7.2.3基于PGPE算法的策略学习方法7.3.1基于重要性加权的参数探索策略梯度算法(IW-PGPE算法)7.3.2基于IW-PGPE算法的运动技能学习过程7.3.3递归型IW-PGPE算法7.4虚拟环境中的车杆摆动任务7.5篮球射击任务7.6讨论与结论第8章基于逆强化学习的艺术风格学习及水墨画渲染8.1研究背景8.1.1计算机图形学背景8.1.2人工智能背景8.1.3面向艺术风格化的渲染系统8.2基于强化学习的笔刷智能体建模8.2.1动作的设计8.2.2状态的设计8.3离线艺术风格学习阶段8.3.1数据采集8.3.2基于逆强化学习的奖励函数学习8.3.3基于R-PGPE算法的渲染策略学习8.4A4系统用户界面8.5实验与结果8.5.1渲染策略学习结果8.5.2基于IRL进行笔画绘制的渲染结果8.6本章小结彩插
精选推荐
领导力法则

领导力法则

[中国纺织出版社]

陆禹萌

已完结当代文学

销售心理学

销售心理学

[中国纺织出版社]

兰华

已完结当代文学

销售就是玩转情商

销售就是玩转情商

[中国纺织出版社]

王威

已完结当代文学

销售员情商实战训练

销售员情商实战训练

成功的销售需要高智商,更需要高情商。一个销售员的销售业绩,往往与他的情商成正比。本书从十个方面详细讲述了有效运用情商,提高销售业绩的方法和技巧。通过实际销售案例和销售心理学理论指导,以及实战点拨和情商拓展训练,帮助读者全方位、快速提高情商。故事性、多版块、碎片化的内容设置,有效降低读者阅读疲劳,提高阅读兴趣,不论是奔波在路上的销售小白,还是带领团队奋勇向前的销售经理,都能从中找到适合自己的销售软技巧。

刘军

已完结当代文学

让未来的你,感谢现在勇敢的自己

让未来的你,感谢现在勇敢的自己

[中国纺织出版社]

王介威

已完结当代文学

行为心理学:华生的实用心理学课

行为心理学:华生的实用心理学课

[中国纺织出版社]

(美)约翰·华生著.倪彩

已完结当代文学

行为心理学入门(完全图解版)

行为心理学入门(完全图解版)

行为心理学入门(完全图解版)是以作者多来年的心理辅导和咨询数据为素材,对现实生活中的行为心理学应用进行了形象、深入、全面的论述和解读。本书与日本心理学图解书形式相同,浅显易读,有趣又益。

武莉

已完结当代文学

自卑与超越

自卑与超越

《自卑与(全译插图典藏版)》是个体心理学研究领域的著作,也是人本主义心理学先驱阿尔弗雷德·阿德勒的很好著作。阿德勒的学说以“自卑感”与“创造性自我”为中心,并强调“社会意识”。全书立足个人心理学的观点,从教育、家庭、婚姻、伦理、社交等多个领域,以大量的实例为论述基础,阐明了人生意义的真谛,帮助人们克服自卑、不断超自己,正确对待职业,正确理解社会与性。本书直接促进了亲子教育、人格培养、婚姻与爱情、职业生涯、家庭建设、人际关系等诸多领域的长足发展,成为人们了解心理学的经典读物。

(奥)阿尔弗雷德·阿德勒

已完结当代文学

自制力:道理我都懂,为什么就是过不好人生

自制力:道理我都懂,为什么就是过不好人生

[中国纺织出版社]

邱开杰

已完结当代文学