暂无商品咨询信息 [发表商品咨询]
本书由深度学习和计算机视觉领域的杰出专家撰写,内容涵盖从基础的向量和矩阵到前沿的生成模型、自编码器等话题。本书不仅传授深度学习的应用技能,更从数学角度培养读者对深度学习问题的直觉,这种直觉是成为领域专家的关键。书中通过精心设计的章节,逐步带领读者从基础数学工具深入复杂深度学习架构,提供详尽的数学分析和代码示例。理论与实践相结合的方式,有助于读者理解算法底层机制,并在实际操作中加深理解。无论你是初学者还是具备一定经验的从业者,这本书都能够帮助你在深度学习的世界里更进一步。
本书详细阐释深度学习的数学基础与架构设计,通过精心设计的章节,逐步带领读者从基础的数学工具深入复杂的深度学习架构,涵盖从向量和矩阵到神经网络的训练、优化和正则化,再到生成模型、自编码器等前沿主题,并提供详尽的数学分析和代码示例。作者团队结合Adobe、Google等企业的前沿实践,通过PyTorch代码逐层拆解卷积神经网络、变分自编码器等核心架构,揭示“为何这样设计”的底层逻辑。书中独创的“数学-代码对照学习法”与可视化工具,将帮助读者突破“知其然不知其所以然”的困境,适合希望从调参工程师进阶为架构设计师的深度学习从业者、研究者及高阶学习者。
目录
译者序
序
前言
致谢
第1章机器学习和深度学习概述1
1.1初探机器学习和深度学习:计算范式的转变1
1.2机器学习的函数逼近视角:模型及其训练4
1.3一个简单的机器学习模型:猫脑模型5
1.3.1输入特征5
1.3.2输出决策6
1.3.3模型估计6
1.3.4模型架构选择6
1.3.5模型训练6
1.3.6推理8
1.4机器学习的几何视角8
1.5机器学习中的回归与分类10
1.6线性模型与非线性模型10
1.7通过多个非线性层提高表达能力:深度神经网络11
1.8本章总结13
第2章机器学习中的向量、矩阵和张量14
2.1向量及其在机器学习中的作用14
2.2用于向量操作的PyTorch代码17
2.3矩阵及其在机器学习中的作用18
2.4 Python代码:如何用PyTorch表示矩阵、张量和图像20
2.5机器学习中向量和矩阵的基本运算21
2.5.1矩阵和向量的转置21
2.5.2两个向量的点积及其在机器学习中的作用23
2.5.3矩阵乘法与机器学习24
2.5.4向量的长度(L2范数):模型误差26
2.5.5向量长度的直观几何解释28
2.5.6点积的直观几何解释:特征相似性28
2.6向量的正交性及其物理意义31
2.7 Python代码:通过PyTorch进行基本的向量和矩阵操作31
2.7.1用于矩阵转置的PyTorch代码31
2.7.2用于点积运算的PyTorch代码32
2.7.3用于矩阵-向量乘法的PyTorch代码32
2.7.4用于矩阵-矩阵乘法的PyTorch代码33
2.7.5用于矩阵乘积转置的PyTorch代码34
2.8多维直线方程和平面方程以及机器学习34
2.8.1多维直线方程34
2.8.2多维平面方程及其在机器
学习中的作用35
2.9线性组合、向量生成、基向量和共线性保持37
2.9.1线性相关37
2.9.2向量组的生成空间38
2.9.3向量空间、基向量与封闭性38
2.10线性变换:几何和代数解释40
2.10.1线性变换的通用多维定义41
2.10.2所有矩阵-向量乘法都是线性变换41
2.11多维数组、多线性变换和张量42
2.12线性系统和矩阵求逆43
2.12.1行列式为零或接近零的线性系统,以及病态系统45
2.12.2用于逆矩阵、行列式以及奇异性测试的PyTorch代码46
2.12.3机器学习中的超定和欠定线性系统47
2.12.4矩阵的Moore-Penrose伪逆48
2.12.5矩阵的伪逆:一个美丽的几何直观表示48
2.12.6使用PyTorch代码求解超定系统50
2.13特征值与特征向量:机器学习的最强武器50
2.13.1特征向量与线性无关53
2.13.2对称矩阵与正交特征向量54
2.13.3用于计算特征向量和特征值的PyTorch代码54
2.14正交(旋转)矩阵及其特征值和特征向量55
2.14.1旋转矩阵55
2.14.2旋转矩阵的正交性57
2.14.3用于验证旋转矩阵正交性的PyTorch代码58
2.14.4旋转矩阵的特征值和特征向量:找到旋转轴59
2.14.5用于计算旋转矩阵特征值和特征向量的PyTorch代码59
2.15矩阵对角化60
2.15.1矩阵对角化的PyTorch代码61
2.15.2不使用逆运算,通过对角化求解线性系统62
2.15.3通过对角化求解线性方程组的PyTorch代码63
2.15.4使用对角化计算矩阵的幂64
2.16对称矩阵的谱分解65
2.17一个与机器学习相关的应用:寻找超椭圆的轴66
2.18本章总结68
第3章分类器和向量积分70
3.1图像分类的几何视角70
3.1.1输入表示70
3.1.2分类器作为决策边界71
3.1.3建模简介72
3.1.4二元分类中曲面函数的符号73
3.2误差或损失函数74
3.3最小化损失函数:梯度向量75
3.3.1梯度:以机器学习为中心的介绍76
3.3.2等高面表示和损失最小化81
3.4损失函数的局部近似83
3.4.1一维泰勒级数回顾83
3.4.2多维泰勒级数和黑塞矩阵84
3.5梯度下降、误差最小化和模型训练的PyTorch代码实现84
3.5.1线性模型的PyTorch代码实现85
3.5.2 Autograd:PyTorch自动梯度计算86
3.5.3使用PyTorch实现非线性模型86
3.5.4使用PyTorch构建猫脑线性模型91
3.6凸函数与非凸函数以及全局最小值与局部最小值92
3.7凸集和凸函数92
3.7.1凸集92
3.7.2凸曲线与凸曲面93
3.7.3凸性与泰勒级数95
3.7.4凸函数的例子95
3.8本章总结96
第4章机器学习中的线性代数工具97
4.1特征数据点的分布和真实维度97
4.2二次型及其最小化98
4.2.1最小化二次型100
4.2.2对称正(半正)定矩阵102
4.3矩阵的谱范数和弗罗贝尼乌斯范数102
4.3.1谱范数102
4.3.2弗罗贝尼乌斯范数103
4.4主成分分析103
4.4.1最大方差方向105
4.4.2 PCA与降维106
4.4.3 PyTorch代码:PCA和降维107
4.4.4 PCA的局限性109
4.4.5 PCA与数据压缩109
4.5奇异值分解110
4.5.1 SVD定理的非形式化证明110
4.5.2 SVD定理的证明112
4.5.3应用SVD:PCA计算113
4.5.4应用SVD:求解任意线性方程组114
4.5.5矩阵的秩115
4.5.6使用SVD求解线性方程组的PyTorch代码
116
4.5.7通过SVD计算PCA的PyTorch代码116
4.5.8应用SVD:矩阵的最佳低秩近似118
4.6机器学习应用:文档检索119
4.6.1使用TF-IDF和余弦相似度119
4.6.2潜在语义分析120
4.6.3执行LSA的PyTorch代码122
4.6.4在大型数据集上计算LSA和SVD的PyTorch代码123
4.7本章总结124
第5章机器学习中的概率分布126
5.1概率:经典频率论观点126
5.1.1随机变量127
5.1.2人口直方图128
5.2概率分布129
5.3概率论的基本概念129
5.3.1不可能事件和必然事件的概率130
5.3.2互斥且完备事件130
5.3.3独立事件130
5.4联合概率及其分布130
5.4.1边际概率132
5.4.2相关事件及其联合概率分布133
5.5几何视角:独立变量和非独立变量的样本点分布133
5.6连续随机变量和概率密度135
5.7分布的性质:期望值、方差和协方差136
5.7.1期望值136
5.7.2方差、协方差与标准差138
5.8从分布中抽样140
5.9一些著名的概率分布142
5.9.1随机均匀分布142
5.9.2高斯(正态)分布145
5.9.3二项分布152
5.9.4多项分布157
5.9.5伯努利分布159
5.9.6分类分布和独热向量160
5.10本章总结162
第6章机器学习中的贝叶斯工具164
6.1条件概率与贝叶斯定理164
6.1.1联合概率与边际概率回顾165
6.1.2条件概率166
6.1.3贝叶斯定理167
6.2熵168
6.2.1熵的几何直觉171
6.2.2高斯分布的熵171
6.3交叉熵173
6.4 KL散度176
6.5条件熵179
6.6模型参数估计181
6.6.1似然、证据以及后验概率和先验概率181
6.6.2最大似然估计182
6.6.3最大后验概率估计和正则化183
6.7潜在变量与证据最大化183
6.8高斯分布的最大似然估计184
6.8.1用于最大似然估计的PyTorch代码186
6.8.2使用梯度下降进行最大似然估计的PyTorch代码186
6.9高斯混合模型189
6.9.1高斯混合模型的概率密度函数191
6.9.2用于类别选择的潜在变量194
6.9.3通过GMM进行分类196
6.9.4 GMM参数的最大似然估计(GMM拟合)196
6.10本章总结203
第7章函数逼近:神经网络如何建模世界204
7.1神经网络概览204
7.2现实问题的表达:目标函数205
7.2.1现实问题中的逻辑函数206
7.2.2现实问题中的分类器函数208
7.2.3现实问题中的一般函数214
7.3基本构建块或神经元:感知机214
7.3.1 Heaviside阶跃函数215
7.3.2超平面215
7.3.3感知机与分类216
7.3.4使用感知机建模常见的逻辑门217
7.4实现更强的表达能力:多层感知机219
7.5层叠的感知机网络:多层感知机或神经网络220
7.5.1分层221
7.5.2使用MLP模拟逻辑函数221
7.5.3 Cybenko通用逼近定理222
7.5.4用于构建多边形决策边界的多层感知机230
7.6本章总结231
第8章神经网络训练:前向传播和反向传播233
8.1可微分的阶跃函数233
8.1.1 sigmoid函数234
8.1.2 tanh函数235
8.2为什么要采用分层结构237
8.3线性层237
8.3.1线性层的矩阵-向量乘法表示238
8.3.2线性多层感知机的前向传播和输出239
8.4训练与反向传播240
8.4.1损失及其最小化:训练的目标241
8.4.2损失曲面与梯度下降242
8.4.3为什么梯度提供了最佳的下降方向243
8.4.4梯度下降与局部最小值243
8.4.5反向传播算法243
8.4.6整体训练过程251
8.5用PyTorch训练神经网络252
8.6本章总结255
第9章损失、优化和正则化257
9.1损失函数257
9.1.1损失的量化与几何视图257
9.1.2回归损失258
9.1.3交叉熵损失259
9.1.4图像和向量的二元交叉熵损失260
9.1.5 softmax 261
9.1.6 softmax交叉熵损失264
9.1.7焦点损失265
9.1.8铰链损失267
9.2优化268
9.2.1优化的几何视角269
9.2.2随机梯度下降和小批量训练269
9.2.3使用PyTorch实现SGD 270
9.2.4动量法273
9.2.5几何视角:损失等高图、梯度下降与动量法275
9.2.6 Nesterov加速梯度277
9.2.7 AdaGrad 277
9.2.8 RMSProp算法279
9.2.9 Adam优化器281
9.3正则化282
9.3.1奥卡姆剃刀原理在优化中的应用282
9.3.2L2正则化284
9.3.3L1正则化284
9.3.4稀疏性:L1与L2正则化284
9.3.5贝叶斯定理与随机优化286
9.3.6 Dropout 287
9.4本章总结290
第10章神经网络中的卷积293
10.1一维卷积:图形和代数视角294
10.1.1通过一维卷积平滑曲线295
10.1.2通过一维卷积进行曲线边缘检测296
10.1.3一维卷积作为矩阵乘法297
10.1.4 PyTorch:具有自定义权重的一维卷积302
10.2卷积输出大小303
10.3二维卷积:图形和代数视角304
10.3.1通过二维卷积平滑图像309
10.3.2通过二维卷积进行图像边缘检测309
10.3.3 PyTorch:使用自定义权重的二维卷积310
10.3.4二维卷积作为矩阵乘法313
10.4三维卷积315
10.4.1通过三维卷积进行视频运动检测316
10.4.2 PyTorch:带自定义权重的三维卷积317
10.5转置卷积或分数步长卷积319
10.5.1转置卷积的应用:自编码器和嵌入320
10.5.2转置卷积的输出大小321
10.5.3通过转置卷积进行上抽样322
10.6向神经网络添加卷积层324
10.7池化325
10.8本章总结327
第11章用于图像分类和目标检测的神经网络329
11.1用于图像分类的CNN:LeNet 330
11.2迈向更深的神经网络332
11.2.1 VGG网络333
11.2.2 Inception:网络中的网络范式339
11.2.3 ResNet:为什么无法扩展叠加层的深度342
11.2.4 PyTorch Lightning框架347
11.3目标检测:一个简短的历史352
11.3.1 R-CNN 352
11.3.2 Fast R-CNN 352
11.3.3 Faster R-CNN 353
11.4 Faster R-CNN:深入探讨353
11.4.1卷积主干354
11.4.2候选区域网络354
11.4.3 Fast R-CNN 365
11.4.4训练Faster R-CNN 371
11.4.5其他的目标检测方法372
11.5本章总结373
第12章流形、同胚和神经网络375
12.1流形375
12.1.1豪斯多夫性质377
12.1.2第二可数性质377
12.2同胚379
12.3神经网络和流形之间的同胚379
12.4本章总结380
第13章全贝叶斯模型参数估计382
13.1全贝叶斯估计:非形式化介绍382
13.2高斯参数值的最大似然估计回顾383
13.3全贝叶斯参数估计:精度已知但均值未知的高斯分布384
13.4少量和大量的训练数据,以及强先验和弱先验386
13.5共轭先验387
13.6全贝叶斯参数估计:均值已知
但精度未知的高斯分布387
13.7全贝叶斯参数估计:均值和精度都未知的高斯分布390
13.7.1正态-伽马分布390
13.7.2估计均值和精度390
13.8示例:全贝叶斯推断393
13.8.1最大似然估计393
13.8.2贝叶斯推断393
13.9全贝叶斯参数估计:精度已知但均值未知的多元高斯分布394
13.10全贝叶斯参数估计:均值已知但精度未知的多变量情况396
13.10.1 Wishart分布396
13.10.2估计精度397
13.11本章总结399
第14章潜在空间与生成建模、自编码器和变分自编码器401
14.1潜在空间的几何视角401
14.2生成式分类器403
14.3潜在空间建模的好处和应用404
14.4线性潜在空间流形与PCA 405
14.5自编码器408
14.6潜在空间的平滑性、连续性和正则化411
14.7变分自编码器412
14.7.1 VAE的几何概述413
14.7.2 VAE训练、损失和推理414
14.7.3 VAE与贝叶斯定理415
14.7.4随机映射会实现潜在空间的平滑性416
14.7.5直接最小化后验概率需要防止计算成本高昂的
归一化处理416
14.7.6 ELBO与VAE 416
14.7.7先验的选择:均值为零、协方差矩阵为单位矩阵的高斯分布418
14.7.8重参数化技巧419
14.8本章总结423
附录424
符号说明432
| 基本信息 | |
|---|---|
| 出版社 | 机械工业出版社 |
| ISBN | 9787111790341 |
| 条码 | 9787111790341 |
| 编者 | [美]克里希南杜·乔杜里(Krishnendu Chaudhury)阿纳尼亚·H.阿肖克(Ananya H. Ashok)苏贾伊·纳鲁曼奇(Sujay Narumanchi)德瓦希什·尚卡尔(Devashish Shankar) 著 |
| 译者 | |
| 出版年月 | 2025-10-01 00:00:00.0 |
| 开本 | 16开 |
| 装帧 | 平装 |
| 页数 | 432 |
| 字数 | 593 |
| 版次 | 1 |
| 印次 | 1 |
| 纸张 | 一般胶版纸 |
暂无商品评论信息 [发表商品评论]
暂无商品咨询信息 [发表商品咨询]