深度学习黑箱：数学基础与架构设计

编号:: wx1203909769

销售价:: ￥108.77; (市场价: ~~￥149.00~~)

赠送积分:: 109

数量:: 件

商品介绍
商品参数
商品评论
商品咨询

商品介绍

本书由深度学习和计算机视觉领域的杰出专家撰写，内容涵盖从基础的向量和矩阵到前沿的生成模型、自编码器等话题。本书不仅传授深度学习的应用技能，更从数学角度培养读者对深度学习问题的直觉，这种直觉是成为领域专家的关键。书中通过精心设计的章节，逐步带领读者从基础数学工具深入复杂深度学习架构，提供详尽的数学分析和代码示例。理论与实践相结合的方式，有助于读者理解算法底层机制，并在实际操作中加深理解。无论你是初学者还是具备一定经验的从业者，这本书都能够帮助你在深度学习的世界里更进一步。

本书详细阐释深度学习的数学基础与架构设计，通过精心设计的章节，逐步带领读者从基础的数学工具深入复杂的深度学习架构，涵盖从向量和矩阵到神经网络的训练、优化和正则化，再到生成模型、自编码器等前沿主题，并提供详尽的数学分析和代码示例。作者团队结合Adobe、Google等企业的前沿实践，通过PyTorch代码逐层拆解卷积神经网络、变分自编码器等核心架构，揭示“为何这样设计”的底层逻辑。书中独创的“数学-代码对照学习法”与可视化工具，将帮助读者突破“知其然不知其所以然”的困境，适合希望从调参工程师进阶为架构设计师的深度学习从业者、研究者及高阶学习者。

目录
译者序
序
前言
致谢
第1章机器学习和深度学习概述1
1.1初探机器学习和深度学习：计算范式的转变1
1.2机器学习的函数逼近视角：模型及其训练4
1.3一个简单的机器学习模型：猫脑模型5
1.3.1输入特征5
1.3.2输出决策6
1.3.3模型估计6
1.3.4模型架构选择6
1.3.5模型训练6
1.3.6推理8
1.4机器学习的几何视角8
1.5机器学习中的回归与分类10
1.6线性模型与非线性模型10
1.7通过多个非线性层提高表达能力：深度神经网络11
1.8本章总结13
第2章机器学习中的向量、矩阵和张量14
2.1向量及其在机器学习中的作用14
2.2用于向量操作的PyTorch代码17
2.3矩阵及其在机器学习中的作用18
2.4 Python代码：如何用PyTorch表示矩阵、张量和图像20
2.5机器学习中向量和矩阵的基本运算21
2.5.1矩阵和向量的转置21
2.5.2两个向量的点积及其在机器学习中的作用23
2.5.3矩阵乘法与机器学习24
2.5.4向量的长度（L2范数）：模型误差26
2.5.5向量长度的直观几何解释28
2.5.6点积的直观几何解释：特征相似性28
2.6向量的正交性及其物理意义31
2.7 Python代码：通过PyTorch进行基本的向量和矩阵操作31
2.7.1用于矩阵转置的PyTorch代码31
2.7.2用于点积运算的PyTorch代码32
2.7.3用于矩阵-向量乘法的PyTorch代码32
2.7.4用于矩阵-矩阵乘法的PyTorch代码33
2.7.5用于矩阵乘积转置的PyTorch代码34
2.8多维直线方程和平面方程以及机器学习34
2.8.1多维直线方程34
2.8.2多维平面方程及其在机器
学习中的作用35
2.9线性组合、向量生成、基向量和共线性保持37
2.9.1线性相关37
2.9.2向量组的生成空间38
2.9.3向量空间、基向量与封闭性38
2.10线性变换：几何和代数解释40
2.10.1线性变换的通用多维定义41
2.10.2所有矩阵-向量乘法都是线性变换41
2.11多维数组、多线性变换和张量42
2.12线性系统和矩阵求逆43
2.12.1行列式为零或接近零的线性系统，以及病态系统45
2.12.2用于逆矩阵、行列式以及奇异性测试的PyTorch代码46
2.12.3机器学习中的超定和欠定线性系统47
2.12.4矩阵的Moore-Penrose伪逆48
2.12.5矩阵的伪逆：一个美丽的几何直观表示48
2.12.6使用PyTorch代码求解超定系统50
2.13特征值与特征向量：机器学习的最强武器50
2.13.1特征向量与线性无关53
2.13.2对称矩阵与正交特征向量54
2.13.3用于计算特征向量和特征值的PyTorch代码54
2.14正交（旋转）矩阵及其特征值和特征向量55
2.14.1旋转矩阵55
2.14.2旋转矩阵的正交性57
2.14.3用于验证旋转矩阵正交性的PyTorch代码58
2.14.4旋转矩阵的特征值和特征向量：找到旋转轴59
2.14.5用于计算旋转矩阵特征值和特征向量的PyTorch代码59
2.15矩阵对角化60
2.15.1矩阵对角化的PyTorch代码61
2.15.2不使用逆运算，通过对角化求解线性系统62
2.15.3通过对角化求解线性方程组的PyTorch代码63
2.15.4使用对角化计算矩阵的幂64
2.16对称矩阵的谱分解65
2.17一个与机器学习相关的应用：寻找超椭圆的轴66
2.18本章总结68
第3章分类器和向量积分70
3.1图像分类的几何视角70
3.1.1输入表示70
3.1.2分类器作为决策边界71
3.1.3建模简介72
3.1.4二元分类中曲面函数的符号73
3.2误差或损失函数74
3.3最小化损失函数：梯度向量75
3.3.1梯度：以机器学习为中心的介绍76
3.3.2等高面表示和损失最小化81
3.4损失函数的局部近似83
3.4.1一维泰勒级数回顾83
3.4.2多维泰勒级数和黑塞矩阵84
3.5梯度下降、误差最小化和模型训练的PyTorch代码实现84
3.5.1线性模型的PyTorch代码实现85
3.5.2 Autograd：PyTorch自动梯度计算86
3.5.3使用PyTorch实现非线性模型86
3.5.4使用PyTorch构建猫脑线性模型91
3.6凸函数与非凸函数以及全局最小值与局部最小值92
3.7凸集和凸函数92
3.7.1凸集92
3.7.2凸曲线与凸曲面93
3.7.3凸性与泰勒级数95
3.7.4凸函数的例子95
3.8本章总结96
第4章机器学习中的线性代数工具97
4.1特征数据点的分布和真实维度97
4.2二次型及其最小化98
4.2.1最小化二次型100
4.2.2对称正（半正）定矩阵102
4.3矩阵的谱范数和弗罗贝尼乌斯范数102
4.3.1谱范数102
4.3.2弗罗贝尼乌斯范数103
4.4主成分分析103
4.4.1最大方差方向105
4.4.2 PCA与降维106
4.4.3 PyTorch代码：PCA和降维107
4.4.4 PCA的局限性109
4.4.5 PCA与数据压缩109
4.5奇异值分解110
4.5.1 SVD定理的非形式化证明110
4.5.2 SVD定理的证明112
4.5.3应用SVD：PCA计算113
4.5.4应用SVD：求解任意线性方程组114
4.5.5矩阵的秩115
4.5.6使用SVD求解线性方程组的PyTorch代码
116
4.5.7通过SVD计算PCA的PyTorch代码116
4.5.8应用SVD：矩阵的最佳低秩近似118
4.6机器学习应用：文档检索119
4.6.1使用TF-IDF和余弦相似度119
4.6.2潜在语义分析120
4.6.3执行LSA的PyTorch代码122
4.6.4在大型数据集上计算LSA和SVD的PyTorch代码123
4.7本章总结124
第5章机器学习中的概率分布126
5.1概率：经典频率论观点126
5.1.1随机变量127
5.1.2人口直方图128
5.2概率分布129
5.3概率论的基本概念129
5.3.1不可能事件和必然事件的概率130
5.3.2互斥且完备事件130
5.3.3独立事件130
5.4联合概率及其分布130
5.4.1边际概率132
5.4.2相关事件及其联合概率分布133
5.5几何视角：独立变量和非独立变量的样本点分布133
5.6连续随机变量和概率密度135
5.7分布的性质：期望值、方差和协方差136
5.7.1期望值136
5.7.2方差、协方差与标准差138
5.8从分布中抽样140
5.9一些著名的概率分布142
5.9.1随机均匀分布142
5.9.2高斯（正态）分布145
5.9.3二项分布152
5.9.4多项分布157
5.9.5伯努利分布159
5.9.6分类分布和独热向量160
5.10本章总结162
第6章机器学习中的贝叶斯工具164
6.1条件概率与贝叶斯定理164
6.1.1联合概率与边际概率回顾165
6.1.2条件概率166
6.1.3贝叶斯定理167
6.2熵168
6.2.1熵的几何直觉171
6.2.2高斯分布的熵171
6.3交叉熵173
6.4 KL散度176
6.5条件熵179
6.6模型参数估计181
6.6.1似然、证据以及后验概率和先验概率181
6.6.2最大似然估计182
6.6.3最大后验概率估计和正则化183
6.7潜在变量与证据最大化183
6.8高斯分布的最大似然估计184
6.8.1用于最大似然估计的PyTorch代码186
6.8.2使用梯度下降进行最大似然估计的PyTorch代码186
6.9高斯混合模型189
6.9.1高斯混合模型的概率密度函数191
6.9.2用于类别选择的潜在变量194
6.9.3通过GMM进行分类196
6.9.4 GMM参数的最大似然估计（GMM拟合）196
6.10本章总结203
第7章函数逼近：神经网络如何建模世界204
7.1神经网络概览204
7.2现实问题的表达：目标函数205
7.2.1现实问题中的逻辑函数206
7.2.2现实问题中的分类器函数208
7.2.3现实问题中的一般函数214
7.3基本构建块或神经元：感知机214
7.3.1 Heaviside阶跃函数215
7.3.2超平面215
7.3.3感知机与分类216
7.3.4使用感知机建模常见的逻辑门217
7.4实现更强的表达能力：多层感知机219
7.5层叠的感知机网络：多层感知机或神经网络220
7.5.1分层221
7.5.2使用MLP模拟逻辑函数221
7.5.3 Cybenko通用逼近定理222
7.5.4用于构建多边形决策边界的多层感知机230
7.6本章总结231
第8章神经网络训练：前向传播和反向传播233
8.1可微分的阶跃函数233
8.1.1 sigmoid函数234
8.1.2 tanh函数235
8.2为什么要采用分层结构237
8.3线性层237
8.3.1线性层的矩阵-向量乘法表示238
8.3.2线性多层感知机的前向传播和输出239
8.4训练与反向传播240
8.4.1损失及其最小化：训练的目标241
8.4.2损失曲面与梯度下降242
8.4.3为什么梯度提供了最佳的下降方向243
8.4.4梯度下降与局部最小值243
8.4.5反向传播算法243
8.4.6整体训练过程251
8.5用PyTorch训练神经网络252
8.6本章总结255
第9章损失、优化和正则化257
9.1损失函数257
9.1.1损失的量化与几何视图257
9.1.2回归损失258
9.1.3交叉熵损失259
9.1.4图像和向量的二元交叉熵损失260
9.1.5 softmax 261
9.1.6 softmax交叉熵损失264
9.1.7焦点损失265
9.1.8铰链损失267
9.2优化268
9.2.1优化的几何视角269
9.2.2随机梯度下降和小批量训练269
9.2.3使用PyTorch实现SGD 270
9.2.4动量法273
9.2.5几何视角：损失等高图、梯度下降与动量法275
9.2.6 Nesterov加速梯度277
9.2.7 AdaGrad 277
9.2.8 RMSProp算法279
9.2.9 Adam优化器281
9.3正则化282
9.3.1奥卡姆剃刀原理在优化中的应用282
9.3.2L2正则化284
9.3.3L1正则化284
9.3.4稀疏性：L1与L2正则化284
9.3.5贝叶斯定理与随机优化286
9.3.6 Dropout 287
9.4本章总结290
第10章神经网络中的卷积293
10.1一维卷积：图形和代数视角294
10.1.1通过一维卷积平滑曲线295
10.1.2通过一维卷积进行曲线边缘检测296
10.1.3一维卷积作为矩阵乘法297
10.1.4 PyTorch：具有自定义权重的一维卷积302
10.2卷积输出大小303
10.3二维卷积：图形和代数视角304
10.3.1通过二维卷积平滑图像309
10.3.2通过二维卷积进行图像边缘检测309
10.3.3 PyTorch：使用自定义权重的二维卷积310
10.3.4二维卷积作为矩阵乘法313
10.4三维卷积315
10.4.1通过三维卷积进行视频运动检测316
10.4.2 PyTorch：带自定义权重的三维卷积317
10.5转置卷积或分数步长卷积319
10.5.1转置卷积的应用：自编码器和嵌入320
10.5.2转置卷积的输出大小321
10.5.3通过转置卷积进行上抽样322
10.6向神经网络添加卷积层324
10.7池化325
10.8本章总结327
第11章用于图像分类和目标检测的神经网络329
11.1用于图像分类的CNN：LeNet 330
11.2迈向更深的神经网络332
11.2.1 VGG网络333
11.2.2 Inception：网络中的网络范式339
11.2.3 ResNet：为什么无法扩展叠加层的深度342
11.2.4 PyTorch Lightning框架347
11.3目标检测：一个简短的历史352
11.3.1 R-CNN 352
11.3.2 Fast R-CNN 352
11.3.3 Faster R-CNN 353
11.4 Faster R-CNN：深入探讨353
11.4.1卷积主干354
11.4.2候选区域网络354
11.4.3 Fast R-CNN 365
11.4.4训练Faster R-CNN 371
11.4.5其他的目标检测方法372
11.5本章总结373
第12章流形、同胚和神经网络375
12.1流形375
12.1.1豪斯多夫性质377
12.1.2第二可数性质377
12.2同胚379
12.3神经网络和流形之间的同胚379
12.4本章总结380
第13章全贝叶斯模型参数估计382
13.1全贝叶斯估计：非形式化介绍382
13.2高斯参数值的最大似然估计回顾383
13.3全贝叶斯参数估计：精度已知但均值未知的高斯分布384
13.4少量和大量的训练数据，以及强先验和弱先验386
13.5共轭先验387
13.6全贝叶斯参数估计：均值已知
但精度未知的高斯分布387
13.7全贝叶斯参数估计：均值和精度都未知的高斯分布390
13.7.1正态-伽马分布390
13.7.2估计均值和精度390
13.8示例：全贝叶斯推断393
13.8.1最大似然估计393
13.8.2贝叶斯推断393
13.9全贝叶斯参数估计：精度已知但均值未知的多元高斯分布394
13.10全贝叶斯参数估计：均值已知但精度未知的多变量情况396
13.10.1 Wishart分布396
13.10.2估计精度397
13.11本章总结399
第14章潜在空间与生成建模、自编码器和变分自编码器401
14.1潜在空间的几何视角401
14.2生成式分类器403
14.3潜在空间建模的好处和应用404
14.4线性潜在空间流形与PCA 405
14.5自编码器408
14.6潜在空间的平滑性、连续性和正则化411
14.7变分自编码器412
14.7.1 VAE的几何概述413
14.7.2 VAE训练、损失和推理414
14.7.3 VAE与贝叶斯定理415
14.7.4随机映射会实现潜在空间的平滑性416
14.7.5直接最小化后验概率需要防止计算成本高昂的
归一化处理416
14.7.6 ELBO与VAE 416
14.7.7先验的选择：均值为零、协方差矩阵为单位矩阵的高斯分布418
14.7.8重参数化技巧419

14.8本章总结423
附录424
符号说明432

商品参数

基本信息
出版社	机械工业出版社
ISBN	9787111790341
条码	9787111790341
编者	[美]克里希南杜·乔杜里(Krishnendu Chaudhury)阿纳尼亚·H.阿肖克（Ananya H. Ashok）苏贾伊·纳鲁曼奇（Sujay Narumanchi）德瓦希什·尚卡尔（Devashish Shankar）著
译者
出版年月	2025-10-01 00:00:00.0
开本	16开
装帧	平装
页数	432
字数	593
版次	1
印次	1
纸张	一般胶版纸

商品评论

暂无商品评论信息 [发表商品评论]

商品咨询

暂无商品咨询信息 [发表商品咨询]