暂无商品咨询信息 [发表商品咨询]
谷歌研究科学家墨菲经典图书MLAPP新版,全球AI领域20多位知名专家联袂推荐!
本书通过概率建模和贝叶斯决策理论的统一视角,详细且与时俱进地介绍了机器学习(包括深度学习)的理论和方法。书中涵盖了数学背景(包括线性代数和优化理论)、基础的监督学习方法(包括线性回归、逻辑回归和深度神经网络),以及更高级的主题(包括迁移学习和无监督学习)。章节末尾的练习让读者能够应用所学知识,附录部分则对书中使用的符号进行了说明。<br />本书源自作者2012年的著作《机器学习:概率视角》,它不仅仅是一个简单的更新版本,更是一本全新的著作,反映了自2012年以来该领域的巨大发展,尤其是深度学习方面的进展。由于篇幅限制,新版分为上下两卷:《概率机器学习:基础篇》和《概率机器学习:进阶篇》,本书是上卷基础篇,下卷进阶篇将继续采用相同的概率方法,深入探讨更高级的主题。<br />新版的另一个主要变化是所有的软件代码都使用Python而不是MATLAB来实现,新代码使用了标准的Python库,例如NumPy、Scikit-learn、JAX、PyTorch、TensorFlow等,这些代码不需要本地安装,它们可以在云端笔记本中运行,这为书中讨论的理论主题提供了实用的补充。
凯文·P. 墨菲<br />(Kevin P. Murphy)<br />先后获得剑桥大学文学学士学位、宾夕法尼亚大学工程硕士学位以及加州大学伯克利分校博士学位。此后他在麻省理工学院完成博士后研究,并于2004至2012年间担任加拿大温哥华不列颠哥伦比亚大学计算机科学与统计学副教授。获得终身教职后,他在学术休假期间加入谷歌公司,最终选择留任。目前,凯文担任谷歌Deepmind首席研究科学家兼总监,领导着由28名研究人员和工程师组成的团队,专注生成模型(包括扩散模型和大语言模型)、强化学习、机器人技术、贝叶斯推断等前沿领域。他已在学术会议和期刊上发表140余篇论文,并于2012、2022和2023年通过麻省理工学院出版社出版了三部机器学习教材(Machine Learning: A Probabilistic Perspective,Probabilistic Machine Learning: An Introduction,Probabilistic Machine Learning: Advanced Topics),其中2012年版本教材获得了统计科学领域最佳书籍的DeGroot奖。凯文曾于2014至2017年间担任机器学习领域顶级期刊Journal of Machine Learning Research(JMLR)联合主编,现任ACM/IMS期刊Data Science及期刊Foundations and Trends in Machine Learning高级编辑。
对本书的赞誉<br />译者序<br />前言<br />第1章 导论1 <br />1.1 什么是机器学习1<br />1.2 监督学习1<br /> 1.2.1 分类2<br /> 1.2.2 回归7<br /> 1.2.3 过拟合和泛化10<br /> 1.2.4 “没有免费的午餐”定理11<br />1.3 无监督学习11<br /> 1.3.1 聚类12<br /> 1.3.2 发现潜在的“变异因子”12<br /> 1.3.3 自监督学习13<br /> 1.3.4 评估无监督学习13<br />1.4 强化学习14<br />1.5 数据16<br /> 1.5.1 常见的图像数据集16<br /> 1.5.2 常见的文本数据集18<br /> 1.5.3 离散输入数据的预处理19<br /> 1.5.4 预处理文本数据20<br /> 1.5.5 处理缺失数据23<br />1.6 进一步讨论23<br /> 1.6.1 机器学习与其他领域的关系23<br /> 1.6.2 本书的组织结构24<br /> 1.6.3 注意事项24<br /><br />第一部分 理论基础<br /><br />第2章 概率:单变量模型26 <br />2.1 概述26<br /> 2.1.1 什么是概率26<br /> 2.1.2 不确定性的类型26<br /> 2.1.3 概率的基本规则27<br />2.2 随机变量28<br /> 2.2.1 离散随机变量28<br /> 2.2.2 连续随机变量29<br /> 2.2.3 相关随机变量集30<br /> 2.2.4 独立性和条件独立性31<br /> 2.2.5 分布的矩32<br /> 2.2.6 汇总统计信息的局限性*34<br />2.3 贝叶斯规则36<br /> 2.3.1 示例:病毒检测37<br /> 2.3.2 示例:三门问题38<br /> 2.3.3 逆问题*39<br />2.4 伯努利分布和二项分布40<br /> 2.4.1 定义40<br /> 2.4.2 sigmoid函数41<br /> 2.4.3 二元逻辑回归42<br />2.5 分类分布和多项式分布43<br /> 2.5.1 定义43<br /> 2.5.2 softmax函数44<br /> 2.5.3 多类逻辑回归44<br /> 2.5.4 对数求和自然指数技巧46<br />2.6 单变量高斯分布46<br /> 2.6.1 累积分布函数46<br /> 2.6.2 概率密度函数47<br /> 2.6.3 回归48<br /> 2.6.4 为什么高斯分布被广泛使用49<br /> 2.6.5 作为限制情形的Dirac-δ函数49<br />2.7 其他常见的单变量分布*50<br /> 2.7.1 学生t分布50<br /> 2.7.2 柯西分布51<br /> 2.7.3 拉普拉斯分布52<br /> 2.7.4 贝塔分布52<br /> 2.7.5 伽马分布53<br /> 2.7.6 经验分布53<br />2.8 随机变量的变换*54<br /> 2.8.1 离散情况54<br /> 2.8.2 连续情况55<br /> 2.8.3 可逆变换(双射)55<br /> 2.8.4 线性变换的矩57<br /> 2.8.5 卷积定理57<br /> 2.8.6 中心极限定理59<br /> 2.8.7 蒙特卡罗近似59<br />2.9 练习题60<br /><br />第3章 概率:多元模型63 <br />3.1 多个随机变量的联合分布63<br /> 3.1.1 协方差63<br /> 3.1.2 相关性63<br /> 3.1.3 不相关并不意味着独立64<br /> 3.1.4 相关性并不意味着因果关系64<br /> 3.1.5 Simpson悖论65<br />3.2 多元高斯分布66<br /> 3.2.1 定义66<br /> 3.2.2 马哈拉诺比斯距离68<br /> 3.2.3 多元正态分布的边缘概率和条件概率*69<br /> 3.2.4 示例:条件二维高斯分布69<br /> 3.2.5 示例:处理缺失值*70<br />3.3 线性高斯系统*71<br /> 3.3.1 高斯贝叶斯规则71<br /> 3.3.2 推导*71<br /> 3.3.3 示例:推理未知标量72<br /> 3.3.4 示例:推理未知向量74<br /> 3.3.5 示例:传感器融合75<br />3.4 指数概率分布族*76<br /> 3.4.1 定义76<br /> 3.4.2 示例76<br /> 3.4.3 对数配分函数为累积量生成函数77<br /> 3.4.4 指数概率分布族的最大熵推导77<br />3.5 混合模型78<br /> 3.5.1 高斯混合模型78<br /> 3.5.2 伯努利混合模型80<br />3.6 概率图模型*81<br /> 3.6.1 表示81<br /> 3.6.2 推理83<br /> 3.6.3 学习83<br />3.7 练习题84<br /><br />第4章 统计学86 <br />4.1 概述86<br />4.2 最大似然估计86<br /> 4.2.1 定义86<br /> 4.2.2 最大似然估计的论证87<br /> 4.2.3 示例:伯努利分布的最大似然估计88<br /> 4.2.4 示例:分类分布的最大似然估计89<br /> 4.2.5 示例:单变量高斯分布的最大似然估计89<br /> 4.2.6 示例:多元高斯分布的最大似然估计90<br /> 4.2.7 示例:线性回归的最大似然估计92<br />4.3 经验风险最小化92<br /> 4.3.1 示例:最小化错误分类率93<br /> 4.3.2 代理损失93<br />4.4 其他估计方法*94<br /> 4.4.1 矩量法94<br /> 4.4.2 在线估计95<br />4.5 正则化96<br /> 4.5.1 示例:伯努利分布的最大后验估计97<br /> 4.5.2 示例:多元高斯分布的最大后验估计*97<br /> 4.5.3 示例:权重衰减99<br /> 4.5.4 使用验证集选择正则化因子100<br /> 4.5.5 交叉验证100<br /> 4.5.6 提前终止法102<br /> 4.5.7 使用更多数据102<br />4.6 贝叶斯统计学*103<br /> 4.6.1 共轭先验104<br /> 4.6.2 贝塔二项式模型104<br /> 4.6.3 狄利克雷多项式模型110<br /> 4.6.4 高斯高斯模型113<br /> 4.6.5 非共轭先验116<br /> 4.6.6 可信区间117<br /> 4.6.7 贝叶斯机器学习119<br /> 4.6.8 计算问题122<br />4.7 频率学派统计学*124<br /> 4.7.1 采样分布124<br /> 4.7.2 最大似然估计采样分布的高斯近似125<br /> 4.7.3 任何估计器采样分布的自举法近似125<br /> 4.7.4 置信区间127<br /> 4.7.5 请注意:置信区间不可信128<br /> 4.7.6 偏差方差权衡129<br />4.8 练习题132<br /><br />第5章 决策理论135 <br />5.1 贝叶斯决策理论135<br /> 5.1.1 基本概念135<br /> 5.1.2 分类问题137<br /> 5.1.3 ROC曲线138<br /> 5.1.4 精确率召回率曲线140<br /> 5.1.5 回归问题142<br /> 5.1.6 概率预测问题144<br />5.2 贝叶斯假设检验145<br /> 5.2.1 示例:测试硬币是否均匀146<br /> 5.2.2 贝叶斯模型选择146<br /> 5.2.3 奥卡姆剃刀原理148<br /> 5.2.4 交叉验证与边缘可能性之间的联系149<br /> 5.2.5 信息标准150<br />5.3 频率学派决策理论151<br /> 5.3.1 估计器的风险计算151<br /> 5.3.2 一致估计器153<br /> 5.3.3 可容许估计器153<br />5.4 经验风险最小化154<br /> 5.4.1 经验风险154<br /> 5.4.2 结构风险156<br /> 5.4.3 交叉验证156<br /> 5.4.4 统计学习理论*157<br />5.5 频率学派假设检验*158<br /> 5.5.1 似然比测试158<br /> 5.5.2 无效假设显著性检验159<br /> 5.5.3 p-值160<br /> 5.5.4 被认为有害的p-值160<br /> 5.5.5 为什么有人不坚持贝叶斯学派统计学理论161<br />5.6 练习题163<br /><br />第6章 信息论165 <br />6.1 熵165<br /> 6.1.1 离散随机变量的熵165<br /> 6.1.2 交叉熵167<br /> 6.1.3 联合熵167<br /> 6.1.4 条件熵168<br /> 6.1.5 困惑度168<br /> 6.1.6 连续随机变量的微分熵*169<br />6.2 相对熵*170<br /> 6.2.1 定义170<br /> 6.2.2 解释170<br /> 6.2.3 示例:两个高斯分布之间的KL散度171<br /> 6.2.4 KL散度的非负性171<br /> 6.2.5 KL散度和最大似然估计172<br /> 6.2.6 正向KL与反向KL172<br />6.3 互信息*173<br /> 6.3.1 定义173<br /> 6.3.2 解释174<br /> 6.3.3 示例174<br /> 6.3.4 条件互信息175<br /> 6.3.5 互信息作为“广义相关系数”175<br /> 6.3.6 归一化互信息176<br /> 6.3.7 最大信息系数177<br /> 6.3.8 数据处理不等式179<br /> 6.3.9 充分统计量179<br /> 6.3.10 法诺不等式*180<br />6.4 练习题180<br /><br />第7章 线性代数183 <br />7.1 概述183<br /> 7.1.1 符号说明183<br /> 7.1.2 向量空间185<br /> 7.1.3 向量和矩阵的范数187<br /> 7.1.4 矩阵的性质188<br /> 7.1.5 特殊类型的矩阵190<br />7.2 矩阵乘法193<br /> 7.2.1 向量向量的乘积193<br /> 7.2.2 矩阵向量的乘积193<br /> 7.2.3 矩阵矩阵的乘积194<br /> 7.2.4 应用:数据矩阵的操作195<br /> 7.2.5 克罗内克乘积*198<br /> 7.2.6 爱因斯坦求和*198<br />7.3 矩阵求逆199<br /> 7.3.1 方阵的逆199<br /> 7.3.2 舒尔补*199<br /> 7.3.3 矩阵求逆引理*200<br /> 7.3.4 矩阵行列式引理*201<br /> 7.3.5 应用:推导多元正态分布的条件*201<br />7.4 特征值分解202<br /> 7.4.1 基础202<br /> 7.4.2 矩阵对角化203<br /> 7.4.3 对称矩阵的特征值和特征向量203<br /> 7.4.4 二次型的几何特性204<br /> 7.4.5 标准化和白化数据204<br /> 7.4.6 幂方法206<br /> 7.4.7 矩阵收缩206<br /> 7.4.8 特征向量优化二次型207<br />7.5 奇异值分解207<br /> 7.5.1 基础207<br /> 7.5.2 奇异值分解与特征值分解的联系208<br /> 7.5.3 伪逆208<br /> 7.5.4 奇异值分解与矩阵的值域空间和零空间*209<br /> 7.5.5 截断奇异值分解209<br />7.6 其他矩阵分解*210<br /> 7.6.1 LU分解211<br /> 7.6.2 正交三角分解211<br /> 7.6.3 Cholesky分解212<br />7.7 求解线性方程组*212<br /> 7.7.1 求解方阵线性方程组213<br /> 7.7.2 求解欠约束线性方程组213<br /> 7.7.3 求解过度约束线性方程组214<br />7.8 矩阵微积分215<br /> 7.8.1 导数215<br /> 7.8.2 梯度215<br /> 7.8.3 方向导数216<br /> 7.8.4 全导数*216<br /> 7.8.5 雅可比矩阵216<br /> 7.8.6 黑塞矩阵217<br /> 7.8.7 常用函数的梯度218<br />7.9 练习题219<br /><br />第8章 优化理论220 <br />8.1 概述220<br /> 8.1.1 局部优化与全局优化220<br /> 8.1.2 约束优化与无约束优化221<br /> 8.1.3 凸优化与非凸优化222<br /> 8.1.4 平滑优化与非平滑优化224<br />8.2 一阶方法226<br /> 8.2.1 下降方向226<br /> 8.2.2 步长227<br /> 8.2.3 收敛速度228<br /> 8.2.4 动量方法229<br />8.3 二阶方法230<br /> 8.3.1 牛顿法231<br /> 8.3.2 BFGS和其他拟牛顿方法232<br /> 8.3.3 信任区域方法232<br />8.4 随机梯度下降233<br /> 8.4.1 应用于有限和问题234<br /> 8.4.2 示例:用于拟合线性回归的随机梯度下降234<br /> 8.4.3 选择步长235<br /> 8.4.4 迭代平均237<br /> 8.4.5 方差缩减技术*237<br /> 8.4.6 预处理随机梯度下降238<br />8.5 约束优化241<br /> 8.5.1 拉格朗日乘子241<br /> 8.5.2 KKT条件242<br /> 8.5.3 线性规划243<br /> 8.5.4 二次型规划244<br /> 8.5.5 混合整数线性规划*245<br />8.6 近端梯度法*245<br /> 8.6.1 投影梯度下降246<br /> 8.6.2 1范数正则化因子的近端算子247<br /> 8.6.3 量化的近端算子247<br /> 8.6.4 增量近端方法248<br />8.7 边界优化*248<br /> 8.7.1 通用算法248<br /> 8.7.2 期望最大化算法250<br /> 8.7.3 示例:高斯混合模型的期望最大化251<br />8.8 黑盒和无梯度优化255<br />8.9 练习题255<br /><br />第二部分 线性模型<br /><br />第9章 线性判别分析258 <br />9.1 概述258<br />9.2 高斯判别分析258<br /> 9.2.1 二次型决策边界258<br /> 9.2.2 线性决策边界259<br /> 9.2.3 线性判别分析与逻辑回归之间的联系260<br /> 9.2.4 模型拟合261<br /> 9.2.5 最近邻质心分类器262<br /> 9.2.6 Fisher线性判别分析*262<br />9.3 朴素贝叶斯分类器266<br /> 9.3.1 示例模型266<br /> 9.3.2 模型拟合267<br /> 9.3.3 贝叶斯朴素贝叶斯267<br /> 9.3.4 朴素贝叶斯与逻辑回归之间的联系268<br />9.4 生成式分类器与判别式分类器的比较269<br /> 9.4.1 判别式分类器的优点269<br /> 9.4.2 生成式分类器的优点269<br /> 9.4.3 处理缺失特征270<br />9.5 练习题270<br /><br />第10章 逻辑回归271 <br />10.1 概述271<br />10.2 二元逻辑回归271<br /> 10.2.1 线性分类器271<br /> 10.2.2 非线性分类器272<br /> 10.2.3 最大似然估计274<br /> 10.2.4 随机梯度下降276<br /> 10.2.5 感知器算法277<br /> 10.2.6 迭代重加权最小二乘法277<br /> 10.2.7 最大后验估计279<br /> 10.2.8 标准化280<br />10.3 多项式逻辑回归280<br /> 10.3.1 线性分类器和非线性分类器281<br /> 10.3.2 最大似然估计281<br /> 10.3.3 基于梯度的优化283<br /> 10.3.4 边界优化283<br /> 10.3.5 最大后验估计284<br /> 10.3.6 最大熵分类器285<br /> 10.3.7 层次分类286<br /> 10.3.8 处理大量的类287<br />10.4 鲁棒逻辑回归*288<br /> 10.4.1 似然的混合模型289<br /> 10.4.2 双稳态损失289<br />10.5 贝叶斯逻辑回归*291<br /> 10.5.1 拉普拉斯近似292<br /> 10.5.2 近似后验预测294<br />10.6 练习题295<br /><br />第11章 线性回归297 <br />11.1 概述297<br />11.2 最小二乘线性回归297<br /> 11.2.1 术语297<br /> 11.2.2 最小二乘估计298<br /> 11.2.3 计算最大似然估计的其他方法301<br /> 11.2.4 测量拟合优度304<br />11.3 岭回归305<br /> 11.3.1 计算最大后验估计306<br /> 11.3.2 岭回归与主成分分析之间的联系307<br /> 11.3.3 选择正则化因子的强度308<br />11.4 套索回归309<br /> 11.4.1 拉普拉斯先验的最大后验估计309<br /> 11.4.2 为什么1正则化产生稀疏解310<br /> 11.4.3 硬阈值与软阈值310<br /> 11.4.4 正则化路径312<br /> 11.4.5 最小二乘法、套索回归、岭回归和子集选择的比较313<br /> 11.4.6 变量选择一致性314<br /> 11.4.7 群组套索回归315<br /> 11.4.8 弹性网络317<br /> 11.4.9 优化算法318<br />11.5 回归样条法*320<br /> 11.5.1 B-样条基函数320<br /> 11.5.2 使用样条基函数拟合线性模型322<br /> 11.5.3 平滑样条法322<br /> 11.5.4 广义加性模型322<br />11.6 鲁棒线性回归*322<br /> 11.6.1 拉普拉斯似然分布323<br /> 11.6.2 学生t似然分布324<br /> 11.6.3 Huber损失324<br /> 11.6.4 RANSAC324<br />11.7 贝叶斯线性回归*325<br /> 11.7.1 先验概率325<br /> 11.7.2 后验概率325<br /> 11.7.3 示例325<br /> 11.7.4 计算后验预测327<br /> 11.7.5 中心化的优势328<br /> 11.7.6 处理多重共线性329<br /> 11.7.7 自动相关性确定*330<br />11.8 练习题330<br /><br />第12章 广义线性模型*333 <br />12.1 概述333<br />12.2 示例333<br /> 12.2.1 线性回归333<br /> 12.2.2 二项回归334<br /> 12.2.3 泊松回归334<br />12.3 具有非规范链接函数的广义线性模型335<br />12.4 最大似然估计336<br />12.5 示例:预测保险理赔336<br /><br />第三部分 深度神经网络<br />第13章 结构化数据的神经网络340 <br />13.1 概述340<br />13.2 多层感知器341<br /> 13.2.1 XOR问题341<br /> 13.2.2 可微的多层感知器342<br /> 13.2.3 激活函数343<br /> 13.2.4 示例模型343<br /> 13.2.5 深度的重要性347<br /> 13.2.6 “深度学习革命”348<br /> 13.2.7 与生物学的联系349<br />13.3 反向传播351<br /> 13.3.1 正向模式与反向模式的差异351<br /> 13.3.2 多层感知器的反向模式微分352<br /> 13.3.3 普通层的向量雅可比乘积354<br /> 13.3.4 计算图356<br />13.4 训练神经网络357<br /> 13.4.1 调整学习率358<br /> 13.4.2 梯度消失和梯度爆炸358<br /> 13.4.3 非饱和激活函数359<br /> 13.4.4 残差连接361<br /> 13.4.5 参数初始化362<br /> 13.4.6 并行训练363<br />13.5 正则化364<br /> 13.5.1 提前终止364<br /> 13.5.2 权重衰减365<br /> 13.5.3 稀疏深度神经网络365<br /> 13.5.4 丢弃法365<br /> 13.5.5 贝叶斯神经网络366<br /> 13.5.6 (随机)梯度下降的正则化效应*367<br />13.6 其他类型的前馈网络*368<br /> 13.6.1 径向基函数网络368<br /> 13.6.2 专家混合模型370<br />13.7 练习题373<br /><br />第14章 用于图像处理的神经网络374 <br />14.1 概述374<br />14.2 普通层375<br /> 14.2.1 卷积层375<br /> 14.2.2 池化层380<br /> 14.2.3 整合所有部分380<br /> 14.2.4 归一化层381<br />14.3 图像分类的通用架构383<br /> 14.3.1 LeNet383<br /> 14.3.2 AlexNet385<br /> 14.3.3 GoogLeNet385<br /> 14.3.4 ResNet385<br /> 14.3.5 DenseNet387<br /> 14.3.6 神经架构搜索388<br />14.4 其他形式的卷积*388<br /> 14.4.1 空洞卷积388<br /> 14.4.2 转置卷积389<br /> 14.4.3 深度可分离卷积390<br />14.5 使用卷积神经网络解决其他判别式视觉任务*391<br /> 14.5.1 图像标记391<br /> 14.5.2 目标检测391<br /> 14.5.3 实例分割392<br /> 14.5.4 语义分割393<br /> 14.5.5 人体姿态估计394<br />14.6 通过反转卷积神经网络生成图像*395<br /> 14.6.1 将经过训练的分类器转换为生成模型395<br /> 14.6.2 图像先验396<br /> 14.6.3 可视化卷积神经网络学习到的特征397<br /> 14.6.4 Deep Dream397<br /> 14.6.5 神经风格迁移399<br /><br />第15章 用于序列处理的神经网络402 <br />15.1 概述402<br />15.2 循环神经网络402<br /> 15.2.1 vec2seq:序列生成402<br /> 15.2.2 seq2vec:序列分类404<br /> 15.2.3 seq2seq:序列翻译405<br /> 15.2.4 教师强制407<br /> 15.2.5 时序反向传播407<br /> 15.2.6 梯度消失和梯度爆炸408<br /> 15.2.7 门控和长期记忆409<br /> 15.2.8 波束搜索411<br />15.3 一维卷积神经网络412<br /> 15.3.1 用于序列分类的一维卷积神经网络412<br /> 15.3.2 用于序列生成的因果一维卷积神经网络413<br />15.4 注意力414<br /> 15.4.1 作为软字典查找的注意力414<br /> 15.4.2 作为非参数化注意力的核回归415<br /> 15.4.3 参数化注意力416<br /> 15.4.4 基于注意力机制的seq2seq417<br /> 15.4.5 基于注意力机制的seq2vec:文本分类418<br /> 15.4.6 基于注意力机制的seq+seq2vec:文本对分类418<br /> 15.4.7 软注意力与硬注意力420<br />15.5 Transformer421<br /> 15.5.1 自注意力421<br /> 15.5.2 多头注意力422<br /> 15.5.3 位置编码423<br /> 15.5.4 整合所有部分424<br /> 15.5.5 比较Transformer、CNN和RNN425<br /> 15.5.6 用于图像处理的Transformer*426<br /> 15.5.7 其他Transformer变体*427<br />15.6 高效Transformer*427<br /> 15.6.1 固定的不可学习的局部注意力模式427<br /> 15.6.2 可学习的稀疏注意力模式427<br /> 15.6.3 记忆和循环方法428<br /> 15.6.4 低秩和核方法428<br />15.7 语言模型和无监督表示学习430<br /> 15.7.1 语言模型嵌入430<br /> 15.7.2 Transformer的双向编码器表示431<br /> 15.7.3 生成式预训练Transformer434<br /> 15.7.4 文本到文本的转换Transformer435<br /> 15.7.5 讨论435<br /><br />第四部分 非参数化模型<br />第16章 基于样例的方法438 <br />16.1 K-最近邻分类438<br /> 16.1.1 示例438<br /> 16.1.2 维度灾难440<br /> 16.1.3 降低速度和内存要求440<br /> 16.1.4 开放集识别441<br />16.2 学习距离度量442<br /> 16.2.1 线性和凸方法442<br /> 16.2.2 深度度量学习443<br /> 16.2.3 分类损失444<br /> 16.2.4 排名损失444<br /> 16.2.5 加速排名损失优化446<br /> 16.2.6 深度度量学习的其他训练技巧448<br />16.3 核密度估计448<br /> 16.3.1 密度核449<br /> 16.3.2 Parzen窗口密度估计器450<br /> 16.3.3 如何选择带宽参数450<br /> 16.3.4 从核密度估计到K-最近邻分类451<br /> 16.3.5 核回归452<br /><br />第17章 核方法*454 <br />17.1 Mercer核454<br /> 17.1.1 Mercer定理455<br /> 17.1.2 一些流行的Mercer核455<br />17.2 高斯过程459<br /> 17.2.1 无噪声观测459<br /> 17.2.2 噪声观测461<br /> 17.2.3 与核回归的比较461<br /> 17.2.4 权重空间与函数空间462<br /> 17.2.5 数值问题462<br /> 17.2.6 估计核463<br /> 17.2.7 用于分类的高斯过程465<br /> 17.2.8 与深度学习的联系466<br /> 17.2.9 将高斯过程扩展到大型数据集467<br />17.3 支持向量机468<br /> 17.3.1 大间距分类器469<br /> 17.3.2 对偶问题470<br /> 17.3.3 软间距分类器472<br /> 17.3.4 核技巧473<br /> 17.3.5 将支持向量机的输出转换为概率473<br /> 17.3.6 与逻辑回归的联系473<br /> 17.3.7 支持向量机的多类别分类474<br /> 17.3.8 如何选择正则化因子C475<br /> 17.3.9 核岭回归476<br /> 17.3.10 用于回归的支持向量机477<br />17.4 稀疏向量机479<br /> 17.4.1 相关向量机479<br /> 17.4.2 稀疏核方法和稠密核方法的比较479<br />17.5 练习题482<br /><br />第18章 树、森林、装袋法和提升法483 <br />18.1 分类和回归树483<br /> 18.1.1 模型定义483<br /> 18.1.2 模型拟合484<br /> 18.1.3 正则化485<br /> 18.1.4 处理缺失的输入特性486<br /> 18.1.5 优点和缺点486<br />18.2 集成学习487<br /> 18.2.1 堆叠法487<br /> 18.2.2 集成不是贝叶斯模型平均488<br />18.3 装袋法488<br />18.4 随机森林489<br />18.5 提升法490<br /> 18.5.1 前向分段加法建模491<br /> 18.5.2 二次型损失和最小二乘提升法491<br /> 18.5.3 指数损失和AdaBoost491<br /> 18.5.4 logitBoost494<br /> 18.5.5 梯度提升算法495<br />18.6 树集成的解释498<br /> 18.6.1 特征重要性498<br /> 18.6.2 部分依赖关系图499<br /><br />第五部分 其他的机器学习方法<br /><br />第19章 基于少量标记样例的学习502 <br />19.1 数据增强502<br /> 19.1.1 示例502<br /> 19.1.2 理论论证503<br />19.2 迁移学习503<br /> 19.2.1 微调503<br /> 19.2.2 适配器504<br /> 19.2.3 监督预训练505<br /> 19.2.4 无监督预训练506<br /> 19.2.5 域自适应510<br />19.3 半监督学习511<br /> 19.3.1 自我训练和伪标签512<br /> 19.3.2 熵最小化512<br /> 19.3.3 协同训练514<br /> 19.3.4 图上的标签传播515<br /> 19.3.5 一致性正则化516<br /> 19.3.6 深度生成式模型517<br /> 19.3.7 结合自监督和半监督学习520<br />19.4 主动学习521<br /> 19.4.1 决策理论方法521<br /> 19.4.2 信息理论方法521<br /> 19.4.3 批次主动学习522<br />19.5 元学习522<br /> 19.5.1 模型不可知的元学习522<br />19.6 少量样本学习523<br /> 19.6.1 匹配网络524<br />19.7 弱监督学习525<br />19.8 练习题526<br /><br />第20章 数据降维527 <br />20.1 主成分分析527<br /> 20.1.1 示例527<br /> 20.1.2 算法的推导528<br /> 20.1.3 计算问题531<br /> 20.1.4 选择潜在维度的数量532<br />20.2 因子分析534<br /> 20.2.1 生成式模型534<br /> 20.2.2 概率主成分分析536<br /> 20.2.3 FA/PPCA的期望最大化算法537<br /> 20.2.4 参数的不可识别性539<br /> 20.2.5 非线性因子分析540<br /> 20.2.6 因子分析器的混合模型540<br /> 20.2.7 指数族因子分析541<br /> 20.2.8 配对数据的因子分析模型543<br />20.3 自动编码器545<br /> 20.3.1 瓶颈自动编码器545<br /> 20.3.2 去噪自动编码器546<br /> 20.3.3 收缩式自动编码器547<br /> 20.3.4 稀疏自动编码器547<br /> 20.3.5 变分自动编码器548<br />20.4 流形学习552<br /> 20.4.1 什么是流形553<br /> 20.4.2 流形假设553<br /> 20.4.3 流形学习的方法554<br /> 20.4.4 多维尺度变换554<br /> 20.4.5 Isomap557<br /> 20.4.6 核主成分分析558<br /> 20.4.7 最大方差展开559<br /> 20.4.8 局部线性嵌入560<br /> 20.4.9 拉普拉斯特征映射560<br /> 20.4.10 t-SNE563<br />20.5 词嵌入566<br /> 20.5.1 潜在语义分析/索引566<br /> 20.5.2 word2vec568<br /> 20.5.3 GloVe569<br /> 20.5.4 单词类比570<br /> 20.5.5 单词嵌入的RAND-WALK模型571<br /> 20.5.6 上下文单词嵌入571<br />20.6 练习题572<br /><br />第21章 聚类574 <br />21.1 概述574<br />21.1.1 评价聚类方法的输出574<br />21.2 层次聚合聚类576<br /> 21.2.1 算法576<br /> 21.2.2 示例578<br /> 21.2.3 扩展579<br />21.3 K-均值聚类579<br /> 21.3.1 算法580<br /> 21.3.2 示例580<br /> 21.3.3 向量量化581<br /> 21.3.4 K-均值聚类++算法582<br /> 21.3.5 K-中心点算法582<br /> 21.3.6 加速技巧583<br /> 21.3.7 选择簇数K583<br />21.4 使用混合模型进行聚类586<br /> 21.4.1 高斯混合模型587<br /> 21.4.2 伯努利混合模型591<br />21.5 谱聚类591<br /> 21.5.1 归一化切割591<br /> 21.5.2 图拉普拉斯算子的特征向量编码聚类591<br /> 21.5.3 示例592<br /> 21.5.4 与其他方法的联系592<br />21.6 双聚类593<br /> 21.6.1 基本双聚类594<br /> 21.6.2 嵌套划分模型594<br /><br />第22章 推荐系统597 <br />22.1 明确反馈597<br /> 22.1.1 数据集598<br /> 22.1.2 协同过滤598<br /> 22.1.3 矩阵分解598<br /> 22.1.4 自动编码器600<br />22.2 隐式反馈601<br /> 22.2.1 贝叶斯个性化排序602<br /> 22.2.2 因子分解机602<br /> 22.2.3 神经矩阵分解603<br />22.3 利用辅助信息604<br />22.4 “探索利用”权衡605<br /><br />第23章 图嵌入606 <br />23.1 概述606<br />23.2 图嵌入作为编码器/解码器问题607<br />23.3 浅层图嵌入608<br /> 23.3.1 无监督嵌入609<br /> 23.3.2 基于距离:欧几里得方法609<br /> 23.3.3 基于距离:非欧几里得方法609<br /> 23.3.4 基于外积:矩阵分解方法610<br /> 23.3.5 基于外积:skip-gram方法611<br /> 23.3.6 有监督嵌入612<br />23.4 图神经网络613<br /> 23.4.1 消息传递图神经网络613<br /> 23.4.2 谱图卷积614<br /> 23.4.3 空间图卷积614<br /> 23.4.4 非欧几里得图卷积615<br />23.5 深度图嵌入616<br /> 23.5.1 无监督嵌入616<br /> 23.5.2 半监督嵌入617<br />23.6 应用618<br /> 23.6.1 无监督的应用618<br /> 23.6.2 有监督的应用620<br /><br />附录 符号对照表621<br />参考文献628
| 基本信息 | |
|---|---|
| 出版社 | 机械工业出版社 |
| ISBN | 9787111784968 |
| 条码 | 9787111784968 |
| 编者 | [美]凯文·P. 墨菲(Kevin P. Murphy) 著 |
| 译者 | |
| 出版年月 | 2025-11-01 00:00:00.0 |
| 开本 | 16开 |
| 装帧 | 平装 |
| 页数 | 655 |
| 字数 | 1078 |
| 版次 | 1 |
| 印次 | 1 |
| 纸张 | 一般胶版纸 |
暂无商品评论信息 [发表商品评论]
暂无商品咨询信息 [发表商品咨询]