暂无商品咨询信息 [发表商品咨询]
《多智能体强化学习:基础与现代方法》是多智能体强化学习领域的权威之作,作者巧妙地将强化学习与博弈论相结合,为该领域的研究和应用奠定了坚实基础。本书不仅适合初学者入门,更为成熟研究人员提供了深度洞察和真知灼见,是多智能体强化学习不可或缺的参考书。
多智能体强化学习(Multi-Agent Reinforcement Learning, MARL)是机器学习中的一个领域,研究多个智能体如何在共享环境中学习最优的交互方式。这一领域在现代生活中有着广泛的应用,包括自动驾驶、多机器人工厂、自动化交易和能源网络管理等。
本书是一部系统阐述多智能体强化学习理论与技术的权威著作,清晰而严谨地介绍了MARL的模型、解决方案概念、算法思想、技术挑战以及现代方法。书中首先介绍了该领域的基础知识,包括强化学习理论和算法的基础、交互式博弈模型、博弈中的不同解决方案概念以及支撑MARL研究的算法思想。随后,书中详细介绍了利用深度学习技术的现代MARL算法,涵盖集中训练与分散执行、价值分解、参数共享和自博弈等思想。本书还附带了一个用Python编写的MARL代码库,其中包括自包含且易于阅读的MARL算法实现。
本书技术内容以易于理解的语言解释,并通过大量示例进行说明,既为初学者阐明了MARL的概念,也为专业的读者提供了高层次的见解。
目 录<br />译者序<br />前言<br />符号总览<br />第1章 引言1<br /> 1.1 多智能体系统1<br /> 1.2 多智能体强化学习4<br /> 1.3 应用示例6<br />1.3.1 多机器人仓库管理6<br />1.3.2 棋盘游戏和电子游戏中的<br />竞争性对战7<br />1.3.3 自动驾驶7<br />1.3.4 电子市场中的自动化<br />交易7<br /> 1.4 多智能体强化学习的挑战8<br /> 1.5 多智能体强化学习的议题9<br /> 1.6 本书内容和结构10第一部分 多智能体强化学习的基础<br />第2章 强化学习12<br /> 2.1 一般定义12<br /> 2.2 马尔可夫决策过程14<br /> 2.3 期望折扣回报和最优策略16<br /> 2.4 价值函数与贝尔曼方程17<br /> 2.5 动态规划18<br /> 2.6 时序差分学习21<br /> 2.7 学习曲线评估23<br /> 2.8 R(s,a,s′)和R(s,a)的等价性26<br /> 2.9 总结27<br />第3章 博弈:多智能体交互模型28<br /> 3.1 标准式博弈29<br /> 3.2 重复标准式博弈30<br /> 3.3 随机博弈31<br /> 3.4 部分可观测随机博弈33<br /> 3.5 建模通信35<br /> 3.6 博弈中的知识假设36<br /> 3.7 词典:强化学习与博弈论37<br /> 3.8 总结38<br />第4章 博弈的解概念40<br /> 4.1 联合策略与期望回报41<br /> 4.2 最佳响应42<br /> 4.3 极小极大算法43<br /> 4.4 纳什均衡44<br /> 4.5 -纳什均衡46<br /> 4.6 (粗)相关均衡47<br /> 4.7 均衡解的概念局限性49<br /> 4.8 帕雷托最优50<br /> 4.9 社会福利和公平51<br /> 4.10 无悔53<br /> 4.11 均衡计算的复杂性54<br />4.11.1 PPAD复杂性类55<br />4.11.2 计算-纳什均衡是PPAD-完全问题56<br /> 4.12 总结57<br />第5章 博弈中的多智能体强化<br />学习:第一步与挑战58<br /> 5.1 一般学习过程58<br /> 5.2 收敛类型60<br /> 5.3 单智能体强化学习的简化62<br />5.3.1 中心学习62<br />5.3.2 独立学习63<br />5.3.3 示例:基于等级的搜寻65<br /> 5.4 多智能体强化学习的挑战66<br />5.4.1 非平稳性67<br />5.4.2 均衡选择68<br />5.4.3 多智能体信用分配69<br />5.4.4 扩展到多个智能体71<br /> 5.5 智能体使用哪些算法71<br />5.5.1 自博弈72<br />5.5.2 混合博弈72<br /> 5.6 总结73<br />第6章 多智能体强化学习:基础算法75<br /> 6.1 博弈的动态规划:价值迭代75<br /> 6.2 博弈中的时序差分:联合动作学习77<br />6.2.1 极小极大Q学习79<br />6.2.2 纳什Q学习80<br />6.2.3 相关Q学习81<br />6.2.4 联合动作学习的局限性81<br /> 6.3 智能体建模82<br />6.3.1 虚拟博弈83<br />6.3.2 智能体建模的联合动作学习85<br />6.3.3 贝叶斯学习与信息价值87<br /> 6.4 基于策略的学习92<br />6.4.1 期望奖励中的梯度上升92<br />6.4.2 无穷小梯度上升的学习动态93<br />6.4.3 赢或快速学习94<br />6.4.4 用策略爬山算法实现赢或快速学习96<br />6.4.5 广义无穷小梯度上升98<br /> 6.5 无悔学习99<br />6.5.1 无条件与有条件的遗憾匹配99<br />6.5.2 遗憾匹配的收敛性100<br /> 6.6 总结103<br />第二部分 多智能体深度强化学习:算法与实践<br />第7章 深度学习106<br /> 7.1 强化学习的函数逼近106<br /> 7.2 线性函数逼近107<br /> 7.3 前馈神经网络108<br />7.3.1 神经元109<br />7.3.2 激活函数109<br />7.3.3 由层和单元构成网络110<br /> 7.4 基于梯度的优化111<br />7.4.1 损失函数111<br />7.4.2 梯度下降112<br />7.4.3 反向传播114<br /> 7.5 卷积神经网络与递归神经网络114<br />7.5.1 从图像中学习——利用数据中的空间关系115<br />7.5.2 利用记忆从序列中学习116<br /> 7.6 总结117<br />第8章 深度强化学习119<br /> 8.1 深度价值函数逼近119<br />8.1.1 深度Q学习——可能出现什么问题120<br />8.1.2 目标值变动问题121<br />8.1.3 打破相关性123<br />8.1.4 汇总:深度Q网络124<br />8.1.5 超越深度Q网络126<br /> 8.2 策略梯度算法126<br />8.2.1 学习策略的优势127<br />8.2.2 策略梯度定理128<br />8.2.3 REINFORCE:蒙特卡罗策略梯度129<br />8.2.4 演员-评论家算法131<br />8.2.5 A2C:优势演员-评论家132<br />8.2.6 近端策略优化134<br />8.2.7 策略梯度算法在实践中的应用135<br />8.2.8 策略的并行训练136<br /> 8.3 实践中的观测、状态和历史记录139<br /> 8.4 总结140<br />第9章 多智能体深度强化学习142<br /> 9.1 训练和执行模式142<br />9.1.1 集中式训练和执行143<br />9.1.2 分散式训练和执行143<br />9.1.3 集中式训练与分散式执行144<br /> 9.2 多智能体深度强化学习的符号表示144<br /> 9.3 独立学习145<br />9.3.1 基于独立价值的学习145<br />9.3.2 独立策略梯度方法146<br />9.3.3 示例:大型任务中的深度独立学习149<br /> 9.4 多智能体策略梯度算法150<br />9.4.1 多智能体策略梯度定理150<br />9.4.2 集中式评论家151<br />9.4.3 集中式动作-价值评论家153<br />9.4.4 反事实动作-价值估计154<br />9.4.5 使用集中式动作-价值评论家的均衡选择155<br /> 9.5 共享奖励博弈中的价值分解157<br />9.5.1 个体-全局-最大化性质159<br />9.5.2 线性价值分解159<br />9.5.3 单调价值分解162<br />9.5.4 实践中的价值分解166<br />9.5.5 超越单调价值分解170<br /> 9.6 使用神经网络的智能体建模173<br />9.6.1 用深度智能体模型进行联合动作学习173<br />9.6.2 学习智能体策略的表示176<br /> 9.7 具有同质智能体的环境178<br />9.7.1 参数共享179<br />9.7.2 经验共享180<br /> 9.8 零和博弈中的策略自博弈182<br />9.8.1 蒙特卡罗树搜索183<br />9.8.2 自博弈蒙特卡罗树搜索186<br />9.8.3 带有深度神经网络的自博弈MCTS:AlphaZero187<br /> 9.9 基于种群的训练188<br />9.9.1 策略空间响应预言家189<br />9.9.2 PSRO的收敛性192<br />9.9.3 《星际争霸Ⅱ》中的宗师级别:AlphaStar194<br /> 9.10 总结196<br />第10章 实践中的多智能体深度强化学习198<br /> 10.1 智能体环境接口198<br /> 10.2 PyTorch中的多智能体强化学习神经网络199<br />10.2.1 无缝参数共享实现201<br />10.2.2 定义模型:IDQN的一个示例201<br /> 10.3 集中式价值函数203<br /> 10.4 价值分解204<br /> 10.5 多智能体强化学习算法的实用技巧205<br />10.5.1 堆叠时间步与循环网络205<br />10.5.2 标准化奖励205<br />10.5.3 集中式优化206<br /> 10.6 实验结果的展示206<br />10.6.1 学习曲线206<br />10.6.2 超参数搜索207<br />第11章 多智能体环境209<br /> 11.1 选择环境的标准209<br /> 11.2 结构不同的2×2矩阵博弈210<br />11.2.1 无冲突博弈210<br />11.2.2 冲突博弈211<br /> 11.3 复杂环境212<br />11.3.1 基于等级的搜寻213<br />11.3.2 多智能体粒子环境214<br />11.3.3 星际争霸多智能体挑战215<br />11.3.4 多机器人仓库216<br />11.3.5 谷歌足球217<br />11.3.6 《花火》217<br />11.3.7 《胡闹厨房》218<br /> 11.4 环境集合218<br />11.4.1 熔炉219<br />11.4.2 OpenSpiel219<br />11.4.3 Petting Zoo220多智能体强化学习研究综述221<br />参 考 文 献224
基本信息 | |
---|---|
出版社 | 机械工业出版社 |
ISBN | 9787111776871 |
条码 | 9787111776871 |
编者 | [德]斯特凡诺·V. 阿尔布莱希特(Stefano V. Albrecht)[希]菲利波斯·克里斯蒂安诺斯(Filippos Christianos)[德]卢卡斯·舍费尔(Lukas Sch?fer) 著 |
译者 | |
出版年月 | 2025-04-01 00:00:00.0 |
开本 | 16开 |
装帧 | 平装 |
页数 | 244 |
字数 | 403 |
版次 | 1 |
印次 | 1 |
纸张 | 一般胶版纸 |
暂无商品评论信息 [发表商品评论]
暂无商品咨询信息 [发表商品咨询]