热门搜索: 中考 高考 考试 开卷17
服务电话 024-96192/23945006
 

强化学习(第2版)

编号:
wx1201937575
销售价:
¥146.16
(市场价: ¥168.00)
赠送积分:
146
数量:
   
商品介绍

《强化学习(第2版)》被业界认可为任何对人工智能领域感兴趣的人员的推荐阅读书。
《强化学习(第2版)》是被称为“强化学习教父”的Richard Sutton在强化学习领域的开创性、奠基性著作。自1998年版出版以来,一直是强化学习领域的经典导论性教材,培育了好几代强化学习领域的研究人员。
在第2版中,随着强化学习近来的蓬勃发展,作者补充了很多新的内容:人工神经网络、蒙特卡洛树搜索、平均收益优选化……涵盖了当今很关键的核心算法和理论。不仅如此,作者还以真实世界的应用为例阐述了这些内容。

《强化学习(第2版)》作为强化学习思想的深度解剖之作,被业内认可为是一本强化学习基础理论的经典著作。它从强化学习的基本思想出发,深入浅出又严谨细致地介绍了马尔可夫决策过程、蒙特卡洛方法、时序差分方法、同轨离轨策略等强化学习的基本概念和方法,并以大量的实例帮助读者理解强化学习的问题建模过程以及核心的算法细节。
《强化学习(第2版)》适合所有对强化学习感兴趣的读者阅读、收藏。

Richard Sutton(理查德?萨顿)
埃德蒙顿 DeepMind 公司的杰出科学家,阿尔伯塔大学计算科学系教授。他于2003年加入阿尔伯塔大学,2017年加入DeepMind。之前,曾在美国电话电报公司(AT&T)和通用电话电子公司(GTE)实验室工作,在马萨诸塞大学做学术研究。
1978年获得斯坦福大学心理学学士学位,1984年获得马萨诸塞大学计算机科学博士学位,加拿大皇家学会院士和人工智能促进会的会士。
主要研究兴趣是在决策者与环境相互作用时所面临的学习问题,他认为这是智能的核心问题。其他研究兴趣有:动物学习心理学、联结主义网络,以及能够不断学习和改进环境表征和环境模型的系统。
他的科学出版物被引用超过7万次。
他也是一名自由主义者,靠前象棋选手和癌症幸存者。
Andrew Barto (安德鲁?巴图)
马萨诸塞大学阿默斯特分校信息与计算机科学学院名誉教授。1970年获得密歇根大学数学专业的杰出学士学位,并于1975年获该校计算机科学专业的博士学位。1977年他加入马萨诸塞州阿默斯特大学计算机科学系。在2012年退休之前,他带领了马萨诸塞大学的自主学习实验室,该实验室培养了许多有名的机器学习研究者。
目前担任Neural Computation (《神经计算》)期刊的副主编,Journal of Machine Learning Research (《机器学习研究》)期刊的顾问委员会成员,以及Adaptive Behavior (《自适应行为》)期刊的编委员会成员。
他是美国科学促进会的会员,IEEE(靠前电子电气工程师协会)的终身会士(Life Fellow),也是神经科学学会的成员。
2004年,因强化学习领域的贡献荣获IEEE神经网络学会先锋奖,并因在强化学习理论和应用方面的开创、富有影响力的研究获得 IJCAI-17很好研究奖;2019年获得马萨诸塞大学神经科学终身成就奖。
他在各类期刊、会议和研讨会上发表了100多篇论文,参与撰写多部图书的相关章

目录
章 导论?? ? ? ? 1
1.1 强化学习?? ? ? ? 1
1.2 示例?? ? ? ? 4
1.3 强化学习要素?? ? ? ? 5
1.4 局限性与适用范围?? ? ? ? 7
1.5 扩展实例:井字棋 ? ??? ? ? ?? 8
1.6 本章小结?? ? ? ? 12
1.7 强化学习的早期历史?? ? ? ? 13

第I部分 表格型求解方法?? ? ? ? 23

第2章 多臂赌博机?? ? ? ? 25
2.1 一个 k 臂赌博机问题?? ? ? ? 25
2.2 动作-价值方法?? ? ? ? ? 27
2.3 10 臂测试平台?? ? ? ? 28
2.4 增量式实现?? ? ? ? 30
2.5 跟踪一个非平稳问题??? ? ? ? 32
2.6 乐观初始值?? ? ? ? 34
2.7 基于置信度上界的动作选择 ??? ? ? ? 35
2.8 梯度赌博机算法?? ? ? ? 37
2.9 关联搜索 (上下文相关的赌博机) ?? ? ? ? ? 40
2.10 本章小结?? ? ? ? 41

第3章 有限马尔可夫决策过程?? 45
3.1 “智能体-环境”交互接口 ?? ? ? ? 45
3.2 目标和收益 ?? ? ? ? ? ? ? ? ? ? 51
3.3 回报和分幕? ? ? ? ? ? 52
3.4 分幕式和持续性任务的统一表示法 ?? ?? 54
3.5 策略和价值函数 ?? ? ? ? ? 55
3.6 最优策略和最优价值函数 ? ?? ? 60
3.7 最优性和近似算法 ? ? ? ? ?? ? ? ? ? ? ? ? 65
3.8 本章小结? ? ?? ? 66

第4章 动态规划 ? ?? ? 71
4.1 策略评估 (预测) ? ?? ? ? 72
4.2 策略改进? ?? ? 75
4.3 策略迭代? ?? ? 78
4.4 价值迭代? ?? ? 80
4.5 异步动态规划 ?? ? 83
4.6 广义策略迭代 ?? 84
4.7 动态规划的效率? ? ? ? 85
4.8 本章小结?? ? ? 86

第5章 蒙特卡洛方法 ?? ? 89
5.1 蒙特卡洛预测 ? ? ? 90
5.2 动作价值的蒙特卡洛估计 ?? ? ? ? ? ? ? 94
5.3 蒙特卡洛控制 ? ?? ? ? ? 95
5.4 没有试探性出发假设的蒙特卡洛控制 ? ?? ? ? ? ? ? 98
5.5 基于重要度采样的离轨策略 ? ?? ? ? ? ? ? 101
5.6 增量式实现 ? ?? 107
5.7 离轨策略蒙特卡洛控制 ? ?? ? ? ??? ? ? ? ? 108
5.8 ? 折扣敏感的重要度采样?? ? ? ? ? ?110
5.9 ? 每次决策型重要度采样?? ? ? ? ? 112
5.10 本章小结?? ? ? ? ? 113

第 6 章 时序差分学习 ? ?? ? ? 117
6.1 时序差分预测 ?? 117
6.2 时序差分预测方法的优势 ? ?? ? ? 122
6.3 TD(0) 的最优性 ?? ? ? ? ? ? ? ? ? ? ? 124
6.4 Sarsa:同轨策略下的时序差分控制 ? ? ? ?? ? 127
6.5 Q 学习:离轨策略下的时序差分控制 ? ?? ? ? 129
6.6 期望 Sarsa ? ?? ? 131
6.7 优选化偏差与双学习? ? ? ?? ? ? ? 133
6.8 游戏、后位状态和其他特殊例子? ?? ? 135
6.9 本章小结? ?? ? 136

第7章 n 步自举法 ?? ? ? 139
7.1 n 步时序差分预测 ?? ? ? ? ? ? ? ? 140
7.2 n 步 Sarsa ? ?? ? ? 144
7.3 n 步离轨策略学习 ? ? ? ? ? ? ? ?146
7.4 ? 带控制变量的每次决策型方法? ?? ? ?148
7.5 不需要使用重要度采样的离轨策略学习方法:n 步树回溯算法? ?? ? ?150
7.6 ? 一个统一的算法:n 步 Q(σ) ? ?? ? ?153
7.7 本章小结?? ?? ? ?155

第8章 基于表格型方法的规划和学习 ?? ? ?? ? 157
8.1 模型和规划 ? ?? ? 157
8.2 Dyna:集成在一起的规划、动作和学习?? ? ? ? ? 159
8.3 当模型错误的时候 ?? ?? ? ? ? 164
8.4 优先遍历? ? ?? ? ? 166
8.5 期望更新与采样更新的对比 ?? ? ?? 170
8.6 轨迹采样?? ? ? 173
8.7 实时动态规划 ?? ? 176
8.8 决策时规划 ?? ? 179
8.9 启发式搜索 ? ?? ? ? 180
8.10 预演算法? ? ? ? 182
8.11 蒙特卡洛树搜索? ? ? ? ? ? ? ? 184
8.12 本章小结 ? ?? ? ? 187
8.13 第I部分总结 ?? ? ? ? ? ? ? 188

第II部分 表格型近似求解方法? ?? ? ? ? ? ? ? ? 193

第9章 基于函数逼近的同轨策略预测 ?? ? ? ? ? ? ? ? 195
9.1 价值函数逼近 ? ? ?? ? 195
9.2 预测目标 (VE ) ?? ? ? ? ? ? ? 196
9.3 随机梯度和半梯度方法 ? ?? ? ? 198
9.4 线性方法? ? ? ? ? ?? ? ? ? 202
9.5 线性方法的特征构造? ?? ? ? ? ? ? ? ? 207
9.5.1 多项式基 ? ?? ? ? ? 208
9.5.2 傅立叶基 ? ? ?? ? ? ? 209
9.5.3 粗编码? ? ? ? ? ? ?? ? ? 212
9.5.4 瓦片编码? ? ?? ?214
9.5.5 径向基函数 ?? ? ? ? ? ? ? ? 218
9.6 手动选择步长参数 ? ? ? ?? ? ? ? ? 219
9.7 非线性函数逼近:人工神经网络? ? ? ?? ? ? 220
9.8 最小二乘时序差分 ? ? ? ?? ? ? ? 225
9.9 基于记忆的函数逼近? ? ? ? ?? ? 227
9.10 基于核函数的函数逼近 ? ? ? ?? ? 229
9.11 深入了解同轨策略学习:“兴趣”与“强调” ? ? ?? ? ? 230
9.12 本章小结 ? ? ?? ? ? ? 232

0章 基于函数逼近的同轨策略控制? ?? ? ? ? ? ? 239
10.1 分幕式半梯度控制 ? ? ?? 239
10.2 半梯度 n 步 Sarsa? ?? ? ? ? ? ? ? ? 242
10.3 平均收益:持续性任务中的新的问题设定? ? ?? ? 245
10.4 弃用折扣 ? ? ? ?? ? ? ? ? 249
10.5 差分半梯度 n 步 Sarsa ? ? ? ?? 251
10.6 本章小结 ? ?? ? ? ? ? ? 252

1 章 ? 基于函数逼近的离轨策略方法? ? ? ?? 253
11.1 半梯度方法? ? ? ?? 254
11.2 离轨策略发散的例子? ? ? ?? 256
11.3 致命三要素? ? ? ?? 260
11.4 线性价值函数的几何性质 ? ? ? ? ? ? ? ?? ? 262
11.5 对贝尔曼误差做梯度下降 ? ? ? ? ? ? ?? ? 266
11.6 贝尔曼误差是不可学习的 ? ? ? ? ? ? ? ? ? 270
11.7 梯度 TD 方法 ? ? ? ?? ? ? ? ? ? 274
11.8 强调 TD 方法 ? ??? 278
11.9 减小方差 ? ? ?? ? ? ? ? ? ? 279
11.10 本章小结 ? ? ? ? ?? ? ? ? ? ? 280

2章 资格迹 ? ? ? ? ?? ? ? ? 283
12.1 λ-回报? ? ? ? ?? ? ? ? ? 284
12.2 TD(λ)? ? ? ?? ? 287
12.3 n-步截断 λ- 回报方法 ? ? ?291
12.4 重做更新:在线 λ-回报算法? ? ? ? ?? ? 292
12.5 真实的在线 TD(λ) ? ? ? ? ?? ? 294
12.6 ? 蒙特卡洛学习中的荷兰迹? ? ? ? ?? ? 296
12.7 Sarsa(λ)?? ? ? ? ?? ?? 298
12.8 变量 λ 和 γ ? ? ? ? ?? ? 303
12.9 带有控制变量的离轨策略资格迹 ? ?? ? ? ? ? ? 304
12.10 从 Watkins 的 Q(λ) 到树回溯 TB(λ)? ? ? ? ?? ? ? 308
12.11 采用资格迹保障离轨策略方法的稳定性 ? ? ?? ? 310
12.12 实现中的问题 ? ? ? ?? ? ? ? ? ? ? ? ? ? ? 312
12.13 本章小结 ? ?? ? ? ? ? ? ? ? ? ? ? ? ? ? 312

3章 策略梯度方法? ? ?? ? 317
13.1 策略近似及其优势 ? ? ? ? ??? ? 318
13.2 策略梯度定理 ?? ?? 320
13.3 REINFORCE:蒙特卡洛策略梯度 ? ? ? ?? ? ? 322
13.4 带有基线的 REINFORCE ? ? ?? ? ? ? 325
13.5 “行动器-评判器”方法 ? ? ? ? ?? ? ? 327
13.6 持续性问题的策略梯度 ? ? ? ??? ? ? 329
13.7 针对连续动作的策略参数化方法 ? ? ??? ? 332
13.8 本章小结 ? ? ? ? ?? ?? ? ? 333

第III部分 表格型深入研究 ? ? ? ?? ?? ? 337

4章 心理学 ? ?? ? ? ? ? ? ? ? 339
14.1 预测与控制 ? ?? ? ? ? ? ? ? ? ? ? ? 340
14.2 经典条件反射 ? ? ? ?? ? ? ? ? ? 341
14.2.1 阻塞与不错条件反射? ? ? ? ?? ? ? 342
14.2.2 Rescorla-Wagner 模型? ? ? ? ?? ? 344
14.2.3 TD 模型 ? ? ?? ? 347
14.2.4 TD 模型模拟 ? ? ? ?? ? ? ? ? ? 348
14.3 工具性条件反射? ?? ? ? ? ? 355
14.4 延迟强化 ?? ? ? 359
14.5 认知图 ? ? ? ?? ? 361
14.6 习惯行为与目标导向行为 ? ? ?? ? ? ? ?362
14.7 本章小结 ? ? ?? ? ? ? 366

5章 神经科学 ? ? ?? ? ? 373
15.1 神经科学基础 ? ? ? ?? ? ? ? 374
15.2 收益信号、强化信号、价值和预测误差 ? ?? ? ? 375
15.3 收益预测误差假说 ? ? ? ? ? ?? ? ? 377
15.4 多巴胺 ? ? ?? ? ? ? 379
15.5 收益预测误差假说的实验支持? ? ? ?? ? ? 382
15.6 TD 误差/多巴胺对应 ? ?? ? ? ? ? ? 385
15.7 神经“行动器-评判器” ? ?? ? ? ? ? ? 390
15.8 行动器与评判器学习规则 ? ? ? ?? ? ? 393
15.9 享乐主义神经元? ? ? ? ? ? ?? ? ? 397
15.10 集体强化学习 ? ? ?? ? ? ? ? 399
15.11 大脑中的基于模型的算法 ? ?? ? ? 402
15.12 成瘾? ?? ? ? ? ? ? ? 403
15.13 本章小结 ?? ? ? ? ? 404

第 16 章 应用及案例分析 ? ?? ? ? ? 413
16.1 TD-Gammon ? ? ? ?? ? 413
16.2 Samuel 的跳棋程序 ? ? ? ? ? ? ?? 418
16.3 Watson 的每日双倍投注 ? ? ? ? ? ?? ? ? ? ? 421
16.4 优化内存控制 ? ? ? ?? ? ? ? ? 424
16.5 人类级别的视频游戏 ? ? ? ? ? ? ?? ? ? ? 428
16.6 主宰围棋游戏 ? ? ? ? ?? ? ? ? ? 433
16.6.1 AlphaGo ? ? ? ?? ? ? ? ? 436
16.6.2 AlphaGo Zero ? ? ? ?? ? ? ? ?439
16.7 个性化网络服务? ? ?? ? 442
16.8 热气流滑翔 ? ?? ? ? ? ? 446

7章 前沿技术 ? ? ? ? ?? ? ? ? ? ? ? ? ? ? 451
17.1 广义价值函数和辅助任务 ? ? ?? ? 451
17.2 基于选项理论的时序摘要 ? ? ? ? ? ? ? ? ? ?? ? ? 453
17.3 观测量和状态 ? ? ? ? ?? ? ? ? 456
17.4 设计收益信号 ? ?? ? ? ? ? ? ? ? ? 460
17.5 遗留问题 ? ?? ? ? 464
17.6 人工智能的未来? ? ? ? ? ? ?? 467

参考文献 ? ?? ? ? ?? 473

本书版出版的20年以来,在机器学习(包括强化学习) 前沿技术发展的推动下,人工智能取得了重大进展。这些进展不仅归功于这些年迅猛发展起来的计算机强大的计算能力,也受益于许多理论和算法上的创新。面对这些进展,我们早有对1998年版书进行更新再版的打算,但直到2012年才开始真正着手编纂。第2版的目标与版一致:为强化学习的核心概念与算法提供清晰简明的解释,以供所有相关学科的读者学习。这一版仍然是一本概要介绍性的读物,仍然关注最核心的在线学习算法,同时增加了一些近年来日趋重要的话题,并拓展了部分内容,给出了更新的理解。强化学习领域可以延伸出很多不同的方向,但我们并不想包罗万象,在此为可能出现的些许遗漏表示歉意。

第2版记号变化
和版一样,我们没有以最严谨的形式化的方式来定义强化学习,也没有采用特别抽象的术语表达,但是为了大家能更深入地理解,有些话题仍然需要用数学来解释。无数学需求的读者可以选择跳过灰色框中的数学原理部分。在教学过程中,我们发现一些新的记号可以消除一些共同的疑惑点,因此本书的部分记号和上一版相比略有差异。首先我们对随机变量进行了区分,以大写字母表示变量本身,小写字母表示对应的实例。比如时刻t的状态、动作和收益被表示为St、At和Rt,而它们可能的取值被表示为s、a和r。与之相伴随,我们用小写字母的形式(例如vπ)来表示价值函数,用大写字母表示其表格型的估计值,比如Qt(s,a)。近似价值函数是具有随机参数的确定性函数,因此用小写字母表示,比如v?(s,wt)≈vπ(s)。向量用粗体的小写字母表示(包括随机变量),比如权值向量wt(先前用θt表示)、特征向量xt(先前用?t表示)。大写粗体用以表示矩阵。在版中我们使用了特殊记号Paass′来表示转移概率和期望收益。但这种记号并不能完整地表示出收益的动态性,只表示了期望值,因此只适用于动态规划而不适用于强化学习。另一个缺点是上下标的过度使用。因此,在这一版中我们明确采用p(s′,r|s,a)的记 号来表示给定当前状态s和动作a后,下一时刻的状态s′和收r的联合概率分布。所有的记号变化都收录在稍后的“符号列表”中。

第2版内容结构
第2版在原先的基础上进行了许多拓展,整体结构也有所变化。章是导论性的介绍,其后分为三个部分。第I部分(第2~8 章)会尽可能多地用表格型的案例讲解强化学习,主要包括针对表格型案例的学习和规划算法,以及它们在n步法和Dyna中的统一表达。这部分介绍的许多算法是第2版的新增内容,包括UCB、期望Sarsa、双重学习、树回溯、Q(σ)、RTDP和MCTS。从介绍表格型案例开始,可以在最简单的情况下理解算法的核心思想。本书的第II部分(第9~13章)致力于将这些思想从表格型的情况扩展到函数逼近,包含人工神经网络、傅立叶变换基础、LSTD、核方法、梯度TD和强调TD方法、平均收益方法、真实的在线TD(λ)和策略梯度方法等新内容。第2版大幅拓展了对离轨策略的介绍,首先是第5~7章讲解表格型的案例,之后在1章和2章讲解函数逼近法。另一个变化是,这一版将n步自举法(在第7章中详细阐述)中的前向视图思想与资格迹(在2章中单独阐述)中的后向视图思想分开详细讲解。本书的第III部分加入了大量阐述强化学习与心理学(4章)、神经科学(5章)联系的新章节,更新了针对多种案例,包括Atari游戏、Watson的投注策略和围棋人工智能AlphaGo、AlphaGo Zero (6章)的研究章节。尽管如此,本书涵盖的内容仍然只是该领域的一小部分,只反映了我们长期以来对低成本无模型方法的兴趣,这些方法可以很好地适应大规模的应用。最后一章包括了对强化学习未来的社会影响的讨论。无论好坏,第2版的篇幅达到了版的两倍。
本书旨在作为一到两学期强化学习课程的初级教材。一个学期的课程可以着重对前10章进行讨论,掌握核心思想,根据需要再将其他章节,或者其他书籍的某些章节,比如Bertsekas和Tsitsiklis(1996)、Wiering和van Otterlo(2012),以及Szepesvári(2010)或其他文献作为辅助材料。根据学生的背景,在线有监督学习的一些额外材料可能会对学习这门课有所帮助。比如“选项”的概念和模型(Sutton、Precup和Singh,1999)就是一个很好的补充。两学期的课程可以使用所有章节内容及补充材料。本书还可以作为机器 学习、人工智能或神经网络等课程的一部分。这种情况只需要讲述部分内容,我们推荐对章进行简要概述,然后学习第2章到2.4节和第3章,随后根据时间和兴趣选择其余章节。第6章的内容对于本书和相关课程来说是最重要的。关于机器学习或神经网络的课程应该使用第9章和0章的内容,而关于人工智能或规划算法的课程应该使用第8章的内容。在整本书中,相对比较难且对于其他课程不那么重要的章节和部分已用?注明。这些部分在次阅读时可以跳过,这不会影响后续阅读。练习中一些进阶的、对理解基础概念不那么重要的问题也已经用?标识。
大多数章节最后会出现题为“参考文献和历史备注”的部分,在这部分中,我们针对本章中一些值得深入探究的概念和观点提供了进一步阅读和研究的材料,并描述了相关的历史背景。尽管我们试图使这些部分内容具有权威性和完整性,但也不免会忽略一些重要的前期工作。为此,我们再次表示歉意,也欢迎读者提出更正和扩展。

We are most pleased that Professor Kai Yu has produced this Chinese translation of our textbook, which we hope will enable more Chinese students to self-study reinforcement learning and lead to the development of new ideas within China that contribute to the diversity and vigour of worldwide reinforcement learning research.
——Richard Sutton and Andrew Barto


我们很好高兴俞凯教授将我们的教材翻译成中文,希望这本教材能够帮助更多的中国学生自学强化学习,并且促进更多的新思想在中国产生,为世界范围的强化学习研究的多样性和生机活力做出贡献。
——理查德?萨顿  安德鲁?巴图


一代又一代的强化学习研究人员都是在萨顿和巴图的版书的启发下成长起来的。新老读者都将从第2版中受益:这一新版本大大扩展了覆盖的主题范围(新主题包括人工神经网络、蒙特卡洛树搜索、平均收益优选化以及关于强化学习的经典应用和近期新应用的章节),不仅增加了内容的广度,同时作者也在尝试用更加简洁的符号理清这些繁杂主题的各个方面,从而增加讲解的深度。此外,新版本保留了解释的简洁性和直观性,使各种背景的读者都能使用本书。总之,这是一本很棒的书,我衷心推荐给那些对使用、开发或理解强化学习感兴趣的人。
——乔鲍?塞派什瓦里(Csaba Szepesvari)
DeepMind研究科学家,阿尔伯塔大学计算机科学教授


本书仍然是关于强化学习的开创性教材——强化学习作为日益重要的技术,是当今许多优选进的人工智能系统背后的技术基础。本书是任何对人工智能科学抱有真正兴趣的人的推荐阅读书。
——杰米斯?哈萨比斯(Demis Hassabis)
DeepMind联合创始人兼首席执行官


强化学习是极具发展前景的重要机器学习范式。近年来通过与深度学习的结合,强化学习在棋类游戏、机器人控制和人机对话等领域的重大进展使得人们对它在人工智能未来发展中的作用极为关注和期待。本书是深入理解强化学习基本概念和算法的经典之作,也是迄今为止很系统很完整地描述强化学习领域的教材。俞凯教授是将深度强化学习成功用于人机对话系统的很好研究者,具有丰富的强化学习和深度学习的实践经验。现在他将《强化学习》(第 2 版) 的这本英文原著的思想和内容以符合中国人理解习惯的方式进行了翻译,忠于原著而又行文流畅,对促进强化学习在中国的研究和应用具有很大的价值。
——邓力
美国城堡基金首席人工智能官 (Chief AI Offiffifficer)
美国微软公司原首席人工智能科学家


强化学习是 AlphaGo 采用的主要技术,也是人工智能的主流领域之一。本书是所有想要深入了解强化学习的有志之士推荐阅读的经典。作者用严谨又深入浅出的方式建构起强化学习的核心理论,并附以大量的实例帮助读者理解。我衷心推荐这本好书给大家。
——黃士傑(Aja Huang)
AlphaGo首席工程师(Lead Programmer of AlphaGo)


这本书是强化学习的圣经。该领域正蓬勃发展,新版的出版正当其时。任何对学习决策问题感兴趣的人——学生、研究者、实践者或者其他感兴趣的非专业人士都应该拥有它。
——佩德罗?多明戈斯(Pedro Domingos)
华盛顿大学计算机科学教授,《优选算法》作者


强化学习是人工智能领域的一颗明珠。本书是强化学习领军人物 Richad Sutton 所写的经典教材,不仅系统介绍了强化学习算法,讨论了强化学习和心理学及神经科学的关系,而且包括了强化学习和深度学习结合的近期新进展与应用。感谢俞凯等人的翻译,感谢电子工业出版社的工作,把这本好书介绍给靠前的读者们。强烈推荐!
—— 漆远
蚂蚁金服副总裁,首席 AI 科学家


我向所有想了解这个日益重要的机器学习分支的人推荐萨顿和巴图的新版《强化学习》这一经典著作。该第2版扩展了广为流行的版的内容,涵盖了当今的关键算法和理论,并以真实世界的应用为例讲解了这些概念——从学习如何控制机器人,到如何编写一个击败人类围棋世界优选的程序。此外,第2版还讨论了这些计算机算法与心理学和神经科学中关于人类学习规律的研究成果之间的本质性联系。
——汤姆?米切尔(Tom Mitchell)
卡内基梅隆大学计算机科学教授


记得在2018年的IJCAI大会上, 我作为靠前人工智能联合会的理事会主席给 Andrew Barto 教授颁发2018年杰出研究贡献奖(Research Excellence Award)。这个奖每年颁发给一位长期在人工智能界探索并做出杰出贡献的科学家。我当时问Barto教授,看到现在AlphaGo和AlphaZero凭强化学习横扫围棋界,有什么感受? 他说,一直到现在退休,强化学习都是小众研究领域。现在虽然已退休,但赶上AlphaGo/AlphaZero的成功,还是很感慨的!
在人工智能界,Richard Sutton(Barto的学生)和 Andrew Barto 是认可的强化学习的鼻祖,是他们师徒把强化学习作为一个机器学习的重要分支,搬上大雅之堂。这部《强化学习》(第2版)也凝聚了他们的心血。如文中所述,强化学习模拟人类学习的策略,利用积累的经验来改进决策系统的性能,就像靠前象棋大师的走子一样,其是通过反复考虑对手可能的反应而进行多步的判断来给出的。这些观察通过用数学,特别是概率论对智能体、对手和环境进行简练的表达,可以解释如何通过不断的训练,逐步提高智能体的能力。
全书对读者的机器学习背景没有做太多的假设,从头娓娓道来,不仅把强化学习重要的理念讲得极为清晰,而且细致回顾了一些强化学习背后的科学家的小故事,生动活泼。同时,书中也不时地指出脑科学的近期新发现对强化学习研究的启迪,让读者从多学科的角度得到全面的知识。书中还有无数的小例子,用以帮助读者理解复杂的概念,比如井字棋游戏。此外,书中引用近期新的人工智能进展,对强化学习的经典算法(如蒙特卡洛搜索树算法)加以系统的解释,让读者理解这些算法如何应用在有名的IBM的WATSON系统和AlphaGo/AlphaZero系统中。
中文版特别值得一提的是上海交通大学俞凯教授及其团队所做的高质量的中文翻译。本书的翻译涉及众多强化学习概念的抢先发售中文翻译,这需要译者同时具有深厚的机器学习和翻译功底。毫不夸张地说,中文版的面世为机器学习领域的中国学者和学生架起了一座通往强化学习经典知识宝库的桥梁。
——杨强
前海微众银行首席人工智能官,香港科技大学讲座教授
靠前人工智能联合会理事会主席(2017―2019)


萨顿和巴图合著的第2版《强化学习》的出版正当其时。这个领域在过去20年里发生了巨大的变化,机器学习研究人员对强化学习的兴趣从来没有像现在这样强烈。如果你想完整理解智能体学习的基本原理,你可以从这本教科书开始。第2版包括了许多深度强化学习的新进展,同时也将该领域的学术历史延伸到了当前。我肯定会把它推荐给我所有的学生,以及其他想了解当前强化学习热潮的来龙去脉的研究生和科研人员。
——约舒亚?本吉奥(Yoshua Bengio)
蒙特利尔大学计算机科学与运筹学教授


《强化学习》(第 2 版)旨在描述强化学习的核心概念与算法,以供所有相关学科的读者学习。本书不仅包含机器学习、神经网络等人工智能诸多方面的内容,还涉及心理学与神经科学等内容,新概念、新词汇很多,给翻译带来一定的困难。严复提出翻译要做到“信、达、雅”,这部译著达到了这些要求,即准确、通顺与自然,感谢译者的努力与付出。我愿推荐此译著给广大对人工智能感兴趣的中国读者。
——张钹
中国科学院院士,清华大学人工智能研究院院长


版出版20年后,Sutton和Barto的这本经典教科书终于出了第2版,篇幅约为版的两倍,增加了AlphaGo围棋等许多新内容,值得所有关心强化学习的读者阅读收藏。
——周志华
南京大学计算机系主任/人工智能学院院长,欧洲科学院外籍院士

商品参数
基本信息
出版社 电子工业出版社
ISBN 9787121295164
条码 9787121295164
编者 【加】RichardS.Sutton(理查德?桑顿)【美】AndrewG.Barto(安德鲁?巴图)
译者
出版年月 2018-03-01 00:00:00.0
开本 16开
装帧 平装
页数 519
字数
版次 1
印次 1
纸张 一般胶版纸
商品评论

暂无商品评论信息 [发表商品评论]

商品咨询

暂无商品咨询信息 [发表商品咨询]