热门搜索: 中考 高考 考试 开卷17
服务电话 024-23945002/96192
 

控制系统与强化学习

编号:
wx1203606689
销售价:
¥131.12
(市场价: ¥149.00)
赠送积分:
131
数量:
   
商品介绍

本书旨在以一种易于理解的方式解释强化学习和最优控制背后的科学,读者只需要具有微积分和矩阵代数背景即可。本书的独特之处在于通过算法设计来获得学习算法最快收敛速度,以及对为什么强化学习有时会失败的洞见。本书通过使用更直观的确定性探索代替随机探索进行学习,从一开始就避免了高级随机过程理论。一旦读者理解了这些思想,就不难掌握植根于随机控制的技术。本书共分为两部分:第一部分介绍无噪声情况下的基础知识;第二部分介绍强化学习与随机控制。本书适合控制相关专业研究生、高年级本科生,以及对控制工程和强化学习感兴趣的工程师阅读。

一个高中生可以创建深度的Q-learning代码来控制她的机器人,却不了解 "深度 "或 "Q "的含义,也不知道为什么代码有时会失败。本书旨在以具有微积分和矩阵代数背景的学生可以理解的方式,解释强化学习和优化控制背后的科学。本书的一个独特重点是算法设计,以获得学习算法的快收敛速度,以及对强化学习有时失败的原因的洞察。一开始就避开了高级随机过程理论,用更直观的确定性探测来代替学习的随机探索。一旦理解了这些思想,掌握植根于随机控制的技术就不难了。这些主题在本书的第二部分有所涉及,从马尔科夫链理论开始,以对强化学习的行为者批评方法的全新审视结束。

目录<br />译者序<br />前言<br /><br />第1章引言1<br />1.1本书涵盖的内容1<br />1.2未深入探讨的内容4<br />1.3参考资料5<br />第一部分无噪声情况下的基础知识<br />第2章控制理论概述8<br />2.1身边的控制问题8<br />2.2该怎么办10<br />2.3状态空间模型11<br />2.3.1充分统计量与非线性状态空间模型11<br />2.3.2状态增广和学习12<br />2.3.3线性状态空间模型13<br />2.3.4向牛顿和莱布尼茨致敬15<br />2.4稳定性和性能16<br />2.4.1总成本16<br />2.4.2平衡点的稳定性17<br />2.4.3李雅普诺夫函数18<br />2.4.4技术证明21<br />2.4.5连续时间域的几何22<br />2.4.6线性状态空间模型24<br />2.5展望未来:从控制理论到强化学习28<br />2.5.1演员-评论家29<br />2.5.2时间差分29<br />2.5.3老虎机与探索30<br />2.6如何忽略噪声31<br />2.7示例31<br />2.7.1华尔街31<br />2.7.2山地车33<br />2.7.3磁球35<br />2.7.4倒立摆37<br />2.7.5Pendubot和Acrobot38<br />2.7.6合作赛艇40<br />2.8习题41<br />2.9注记49<br />第3章最优控制50<br />3.1总成本的价值函数50<br />3.2贝尔曼方程51<br />3.2.1值迭代53<br />3.2.2策略改进55<br />3.2.3佩龙-弗罗贝尼乌斯定理:简单介绍*55<br />3.3各种变形58<br />3.3.1折扣成本58<br />3.3.2最短路径问题58<br />3.3.3有限时域60<br />3.3.4模型预测控制61<br />3.4逆动态规划61<br />3.5贝尔曼方程是一个线性规划63<br />3.6线性二次调节器64<br />3.7再向前看一些66<br />3.8连续时间最优控制*67<br />3.9示例69<br />3.9.1山地车69<br />3.9.2蜘蛛和苍蝇71<br />3.9.3资源争夺与不稳定性72<br />3.9.4求解HJB方程75<br />3.10习题77<br />3.11注记83<br />第4章算法设计的ODE方法84<br />4.1常微分方程84<br />4.2回顾欧拉方法87<br />4.3牛顿-拉弗森流88<br />4.4最优化90<br />4.4.1凸性的作用91<br />4.4.2Polyakojasiewicz条件93<br />4.4.3欧拉近似93<br />4.4.4含约束的优化95<br />4.5拟随机近似98<br />4.5.1拟蒙特卡罗方法100<br />4.5.2系统辨识101<br />4.5.3近似策略改进103<br />4.5.4QSA理论简介107<br />4.5.5恒定增益算法111<br />4.5.6Zap QSA113<br />4.6无梯度优化113<br />4.6.1模拟退火114<br />4.6.2算法菜单115<br />4.7拟策略梯度算法118<br />4.7.1山地车118<br />4.7.2LQR121<br />4.7.3高维的情况123<br />4.8ODE的稳定性*123<br />4.8.1伽罗瓦不等式123<br />4.8.2李雅普诺夫函数125<br />4.8.3梯度流126<br />4.8.4在∞处的ODE129<br />4.9QSA的收敛性理论*132<br />4.9.1主要结果和一些见解133<br />4.9.2ODE的整体性136<br />4.9.3稳定性判据140<br />4.9.4确定性马尔可夫模型144<br />4.9.5收敛速度145<br />4.10习题150<br />4.11注记156<br />4.11.1算法设计的ODE 方法156<br />4.11.2最优化157<br />4.11.3QSA157<br />4.11.4SGD与极值搜索控制158<br />第5章价值函数近似161<br />5.1函数近似架构162<br />5.1.1基于训练数据的函数近似163<br />5.1.2线性函数近似164<br />5.1.3神经网络165<br />5.1.4核166<br />5.1.5我们完成了吗168<br />5.2探索和ODE近似169<br />5.3TD学习和线性回归172<br />5.3.1既定策略的时间差分172<br />5.3.2最小二乘和线性回归173<br />5.3.3递归LSTD和Zap176<br />5.4投影贝尔曼方程和TD算法177<br />5.4.1伽辽金松弛和投影178<br />5.4.2TD(λ)学习178<br />5.4.3投影贝尔曼算子和Q学习182<br />5.4.4GQ学习183<br />5.4.5批处理方法和DQN184<br />5.5凸Q学习186<br />5.5.1有限维函数类的凸Q学习187<br />5.5.2BCQL和核方法190<br />5.6连续时间下的Q学习*191<br />5.7对偶性*193<br />5.8习题195<br />5.9注记199<br />5.9.1机器学习199<br />5.9.2TD学习199<br />5.9.3Q学习200<br />第二部分强化学习与随机控制<br />第6章马尔可夫链204<br />6.1马尔可夫模型是状态空间模型204<br />6.2简单示例207<br />6.3谱和遍历性210<br />6.4随机向前看一些213<br />6.4.1评论家方法213<br />6.4.2演员方法214<br />6.5泊松方程214<br />6.6李雅普诺夫函数216<br />6.6.1平均成本217<br />6.6.2折扣成本218<br />6.7模拟:置信边界和控制变量220<br />6.7.1有限的渐近统计量220<br />6.7.2渐近方差和混合时间222<br />6.7.3样本复杂度224<br />6.7.4一个简单示例224<br />6.7.5通过设计消除方差226<br />6.8灵敏度和纯演员方法228<br />6.9一般马尔可夫链的遍历理论*230<br />6.9.1分类230<br />6.9.2李雅普诺夫理论231<br />6.10习题233<br />6.11注记241<br />第7章随机控制242<br />7.1MDP:简要介绍242<br />7.2流体模型近似245<br />7.3队列248<br />7.4速度缩放250<br />7.4.1流体模型251<br />7.4.2计算和完整性252<br />7.4.3完整性详解254<br />7.5LQG255<br />7.5.1流体模型动力学255<br />7.5.2DP方程256<br />7.5.3部分可观测257<br />7.6一个排队游戏258<br />7.7用部分信息控制漫游车261<br />7.8老虎机263<br />7.8.1老虎机模型264<br />7.8.2贝叶斯老虎机264<br />7.8.3天真的乐观可以成功267<br />7.9习题268<br />7.10注记276<br />第8章随机近似277<br />8.1渐近协方差278<br />8.2主题与路线图279<br />8.2.1ODE设计280<br />8.2.2ODE近似281<br />8.2.3步长选择283<br />8.2.4多时间尺度284<br />8.2.5算法性能285<br />8.2.6渐近与瞬态性能287<br />8.3示例289<br />8.3.1蒙特卡罗289<br />8.3.2随机梯度下降290<br />8.3.3经验风险最小化292<br />8.4算法设计示例293<br />8.4.1增益选择293<br />8.4.2方差公式294<br />8.4.3模拟295<br />8.5Zap随机近似297<br />8.5.1近似牛顿-拉弗森流297<br />8.5.2Zap零298<br />8.5.3随机牛顿-拉弗森算法299<br />8.6买方责任自负300<br />8.6.1条件数灾难300<br />8.6.2马尔可夫记忆的灾难302<br />8.7一些理论*303<br />8.7.1稳定性和收敛性304<br />8.7.2线性化和收敛速率304<br />8.7.3PolyakRuppert平均306<br />8.8习题310<br />8.9注记311<br />8.9.1SA和RL311<br />8.9.2稳定性312<br />8.9.3渐近统计312<br />8.9.4更少的渐近统计312<br />第9章时间差分法314<br />9.1策略改进315<br />9.1.1既定策略价值函数和DP方程315<br />9.1.2PIA与Q函数316<br />9.1.3优势函数317<br />9.2函数逼近和光滑318<br />9.2.1条件期望和投影319<br />9.2.2线性独立性320<br />9.3损失函数321<br />9.3.1均方贝尔曼误差321<br />9.3.2均方价值函数误差322<br />9.3.3投影贝尔曼误差323<br />9.4TD(λ)学习323<br />9.4.1线性函数类323<br />9.4.2非线性参数化325<br />9.5回归Q函数326<br />9.5.1探索326<br />9.5.2异同策略算法327<br />9.5.3相对TD(λ)329<br />9.5.4优势函数的TD(λ)332<br />9.6沃特金斯的Q学习333<br />9.6.1最优控制要素333<br />9.6.2沃特金斯算法334<br />9.6.3探索335<br />9.6.4ODE分析336<br />9.6.5方差问题339<br />9.7相对Q学习340<br />9.7.1增益选择341<br />9.7.2诚实的结论342<br />9.8GQ和Zap343<br />9.8.1GQ学习344<br />9.8.2Zap Q学习346<br />9.9技术证明*349<br />9.9.1优势函数349<br />9.9.2TD稳定性理论349<br />9.10习题353<br />9.11注记354<br />9.11.1时间差分方法354<br />9.11.2Q学习354<br />9.11.3GQ和Zap355<br />9.11.4凸Q学习356<br />第10章搭建舞台,演员回归357<br />10.1舞台、投影和伴随矩阵358<br />10.1.1线性算子和伴随矩阵358<br />10.1.2伴随矩阵和资格向量359<br />10.1.3加权范数和加权资格向量360<br />10.2优势函数与新息362<br />10.2.1优势函数的投影及其值362<br />10.2.2加权范数363<br />10.3再生364<br />10.4平均成本及其他指标365<br />10.4.1其他指标365<br />10.4.2平均成本算法368<br />10.5集结演员370<br />10.5.1平均成本的演员-评论家370<br />10.5.2一些警告和补救措施372<br />10.6无偏SGD373<br />10.7优势函数和控制变量375<br />10.7.1通过优势函数减少方差375<br />10.7.2更好的优势函数376<br />10.8自然梯度和Zap377<br />10.9技术证明*379<br />10.10注记382<br />10.10.1伴随矩阵和TD学习382<br />10.10.2演员-评论家方法383<br />10.10.3一些历史384<br />10.10.4费歇耳信息384<br />附录<br />附录A数学背景386<br />附录B马尔可夫决策过程392<br />附录C部分观测和置信状态399<br /><br />参考文献405

商品参数
基本信息
出版社 机械工业出版社
ISBN 9787111775768
条码 9787111775768
编者 [美]肖恩·梅恩(Sean Meyn) 著
译者
出版年月 2025-04-01 00:00:00.0
开本 16开
装帧 平装
页数 422
字数 638
版次 1
印次 1
纸张
商品评论

暂无商品评论信息 [发表商品评论]

商品咨询

暂无商品咨询信息 [发表商品咨询]