从零开始构建大模型：架构设计、模型训练与高效部署

编号:: wx1204303099

销售价:: ￥78.21; (市场价: ~~￥89.90~~)

赠送积分:: 78

数量:: 件

商品介绍
商品参数
商品评论
商品咨询

商品介绍

本书系统阐述了从零构建大语言模型（LLM）的全流程技术体系，覆盖模型架构设计、训练机制、微调方法、高效部署及应用实战。全书共分12章，首先围绕大模型发展脉络、Transformer架构、预训练语料构建与分布式训练架构，厘清了大模型的基本工作原理与工程落地基础。随后聚焦指令微调、RLHF对齐、多模态扩展等关键能力，剖析了当前主流模型在认知任务、视觉语言任务中的关键优化路径。同时本书还深入介绍了RAG检索增强机制、智能体编排、模型协同通信、安全性与对齐机制，为构建稳健可靠的大模型系统提供参考。最后重点落地于部署优化与实际场景，如企业问答、私有化部署、智能代码生成等。本书内容兼顾理论性与工程实用性，涵盖典型算法、主流框架、实现逻辑与调优策略，适合大模型从业者、研究人员、一线开发工程师等不同读者用于系统掌握大模型核心技术。

第1章大模型技术概览与体系构成001

1.1 大模型技术发展简介 002

1.1.1 从统计语言模型到深度神经网络 002

1.1.2 Transformer的诞生与影响 004

1.1.3 Scaling Law与大参数模型 006

1.2 大模型生态分类 008

1.2.1 编码器与解码器 008

1.2.2 自回归模型（GPT）与自编码模型（BERT） 010

1.2.3 常见模型：GPT、LLaMA、DeepSeek、Doubao等 013

1.3 如何构建大语言模型？ 017

1.3.1 大模型构建基本流程简介 017

1.3.2 训练数据规模与分布 019

1.3.3 网络结构复杂度与参数规模 020

1.3.4 训练与对齐 020

1.4 LLM工程系统基本组成 022

1.4.1 模型构建与预训练 022

1.4.2 微调机制与对齐技术 025

1.4.3 推理部署与多模态扩展 027

1.5 本章小结 028

第2章Transformer结构原理与模型机制029

2.1 Transformer结构总览 030

2.1.1 模型对称设计 030

2.1.2 子层结构：注意力与前馈模块 032

2.1.3 残差连接与层归一化 033

2.2 自注意力机制详解 035

2.2.1 Query、Key、Value详解 035

2.2.2 多头注意力机制 038

2.2.3 掩码机制与位置依赖建模 040

2.3 位置编码方式比较 042

2.3.1 正余弦位置编码 043

2.3.2 Rotary Positional Embedding（RoPE） 043

2.3.3 相对位置偏移（如T5、ALiBi） 045

2.4 模型计算与参数设计 046

2.4.1 维度设定：表示维度、头数与隐藏层 046

2.4.2 激活函数：ReLU、GELU与SiLU 047

2.4.3 参数共享与层归一化策略 048

2.5 本章小结 049

第3章预训练任务与数据构建流程 050

3.1 语言建模任务基础 051

3.1.1 自回归语言模型训练目标 051

3.1.2 掩码语言模型与双向建模方式 053

3.1.3 统一建模框架与多任务目标 055

3.2 预训练语料采集与清洗 057

3.2.1 Web文本抓取与语料爬取策略 057

3.2.2 清洗规则：去噪、去重、筛选 059

3.2.3 文本质量评估与分布平衡 061

3.3 Tokenization机制与词表设计 063

3.3.1 Byte Pair Encoding（BPE）原理 063

3.3.2 SentencePiece工具与Unigram模型 064

3.3.3 词表大小与覆盖率权衡 065

3.4 数据格式化与采样策略 067

3.4.1 文本切分与Window策略 068

3.4.2 PackedSequence与Efficient Collator 069

3.4.3 长文本上下文接续处理 071

3.5 本章小结 073

第4章大模型训练系统设计 074

4.1 模型训练架构概览 075

4.1.1 数据并行与模型并行基本原理 075

4.1.2 混合精度与FP16训练机制 077

4.1.3 Checkpoint恢复与中断续训 079

4.2 分布式训练技术 081

4.2.1 ZeRO系列：阶段划分与优化策略 081

4.2.2 Fully Sharded Data Parallel (FSDP) 082

4.2.3 流水线并行与重叠计算 084

4.3 大规模训练框架工具 086

4.3.1 DeepSpeed与Megatron-LM使用流程 086

4.3.2 PyTorch Lightning分布式训练实战 087

4.3.3 张量并行与推理优化 090

4.4 性能调优与硬件适配 091

4.4.1 A100/H100集群部署与带宽配置 092

4.4.2 GPU监控与训练日志分析 092

4.4.3 梯度裁剪与学习率调度 094

4.5 本章小结 096

第5章指令微调与人类反馈强化学习 097

5.1 指令微调的背景与目标 098

5.1.1 Prompt与Instruction简介 098

5.1.2 Supervised Fine-Tuning（SFT）流程 099

5.1.3 InstructGPT数据构造方法 100

5.2 强化学习与偏好建模 102

5.2.1 奖励模型构建方式 102

5.2.2 PPO算法与策略更新 105

5.2.3 比较学习（DPO/RLHF/Best-of-N） 107

5.3 参数高效微调方法 108

5.3.1 LoRA机制与代码实现 108

5.3.2 QLoRA在量化基础上的微调 110

5.3.3 Adapter Tuning、Prefix Tuning与Prompt Tuning 112

5.4 多任务与多阶段对齐机制 113

5.4.1 多任务混合训练策略 113

5.4.2 Instruction Template构建 114

5.4.3 评测驱动与对齐流程 115

5.5 本章小结 117

第6章模型压缩、量化与加速推理 118

6.1 推理成本与部署瓶颈分析 119

6.1.1 KV Cache对推理速度的影响 119

6.1.2 内存占用与模型激活缓存结构 121

6.1.3 多卡并行推理调度 123

6.2 权重量化方法详解 124

6.2.1 INT8静态量化与GPTQ算法 125

6.2.2 AWQ、SmoothQuant等算法性能分析 126

6.2.3 量化后推理精度评估 128

6.3 模型剪枝与稀疏化技术 130

6.3.1 权重剪枝简介 130

6.3.2 激活稀疏性与动态路由机制 131

6.3.3 稀疏注意力结构简介 132

6.4 推理引擎与部署框架 133

6.4.1 vLLM与PagedAttention机制 133

6.4.2 TensorRT-LLM部署流程 135

6.4.3 ONNX导出与服务封装 136

6.5 本章小结 138

第7章多模态与视觉语言模型构建 139

7.1 多模态模型体系结构 140

7.1.1 图像编码器与视觉特征嵌入 140

7.1.2 文本、图像对齐方式 143

7.1.3 CLIP、BLIP与ImageBind原理 145

7.2 图文联合训练机制 148

7.2.1 图文对数据采集与标注 148

7.2.2 CrossAttention融合策略 151

7.2.3 多模态对比学习任务 153

7.3 LLM与VLM集成方法 154

7.3.1 特征对齐层设计 154

7.3.2 多模态Adapter插入机制 156

7.3.3 多模态指令微调 158

7.4 典型多模态模型剖析 160

7.4.1 MiniGPT-4模型结构与训练 160

7.4.2 LLaVA系列多模态调优流程 160

7.4.3 Gemini、KOSMOS与多模态接入策略 162

7.5 本章小结 164

第8章检索增强生成（RAG）系统与知识注入机制 165

8.1 RAG技术引入与应用场景 166

8.1.1 大模型的“遗忘”与知识补全 166

8.1.2 检索增强生成基本流程 168

8.2 文档分块与向量化机制 170

8.2.1 文档切分策略 170

8.2.2 向量编码模型 173

8.2.3 嵌入维度与相似度函数设计 176

8.3 向量数据库与召回架构 178

8.3.1 FAISS索引构建与近似检索 178

8.3.2 向量数据库部署流程 181

8.3.3 多段文档召回与Ranking排序 181

8.4 RAG管道融合与生成控制 184

8.4.1 LangChain、LlamaIndex框架整合方法 184

8.4.2 Prompt模板控制与文档上下文压缩 186

8.5 本章小结 189

第9章 Agent系统与多模型协同机制 190

9.1 智能体架构与运行机制 191

9.1.1 什么是AI Agent？—核心组件解析 191

9.1.2 状态感知与任务规划模型 193

9.1.3 Prompt路由与子Agent调度 195

9.2 插件调用与执行器集成 197

9.2.1 工具使用权的控制与权限调度 198

9.2.2 Function Calling与工具集注册 198

9.2.3 代码执行型Agent的沙箱机制 201

9.3 上下文管理与记忆机制 203

9.3.1 Conversation Memory结构体设计 203

9.3.2 工作记忆与长期记忆 205

9.4 模型协同与MCP协议 206

9.4.1 Model Context Protocol（MCP）协议简介 206

9.4.2 多模型并发、顺序调用流程 208

9.4.3 异步执行与响应流集成设计 209

9.5 本章小结 210

第10章大模型对齐机制与安全审查体系 211

10.1 大模型行为不确定性分析 212

10.1.1 模型幻觉与不一致响应案例 212

10.1.2 社会偏见、歧视与攻击性输出风险 214

10.1.3 Prompt Injection与越权调用分析 215

10.2 模型对齐技术路径 219

10.2.1 RLHF人类偏好建模 219

10.2.2 RLAIF与合成反馈优化方法 221

10.2.3 DPO直接策略优化分析 223

10.3 安全机制与审查流程设计 224

10.3.1 OWASP for LLM威胁模型引入 224

10.3.2 Prompt输入过滤与输出拦截 225

10.3.3 日志审计与可解释性溯源 227

10.4 数据隐私保护与合规策略 227

10.4.1 企业级部署中的数据脱敏方法简介 227

10.4.2 客户数据隔离与模型使用授权 228

10.4.3 GDPR、中国网络数据安全相关法规要点解析 229

10.5 本章小结 230

第11章服务化部署与模型调用接口设计 231

11.1 推理服务端架构基础 232

11.1.1 典型推理架构组成 232

11.1.2 Batch推理与并发Session管理 233

11.1.3 KV缓存复用与动态Token裁剪 235

11.2 模型封装与API调用设计 237

11.2.1 使用FastAPI构建标准LLM接口 237

11.2.2 OpenAI接口实现 238

11.2.3 流式输出与Token流推理 240

11.3 部署优化与负载调度 242

11.3.1 模型冷启动优化策略 242

11.3.2 GPU资源复用与多模型托管 243

11.3.3 动态伸缩与服务弹性部署 243

11.4 多模型网关与调用路由 246

11.4.1 模型路由器设计：规则、性能、上下文适配 246

11.4.2 多版本模型灰度发布与降级策略 248

11.4.3 API限流与鉴权机制实现 250

11.5 本章小结 252

第12章大模型典型应用场景工程实战 253

12.1 企业文档问答系统 254

12.1.1 RAG问答、权限控制系统搭建流程 254

12.1.2 多部门文档向量索引构建 255

12.1.3 基于大模型的多轮追问支持 257

12.2 智能代码生成与辅助开发 259

12.2.1 如何设计类似Copilot的智能补全架构？ 259

12.2.2 代码上下文识别与函数补全机制 259

12.2.3 多语言（Python、Java、C++）代码生成对齐 261

12.3 嵌入式私有化部署 263

12.3.1 使用LoRA模型部署在CPU设备 263

12.3.2 企业内网模型服务容器化部署 265

12.3.3 高安全环境的离线推理系统设计 267

12.4 本章小结 268

商品参数

基本信息
出版社	化学工业出版社
ISBN	9787122497222
条码	9787122497222
编者	睿思科技编著编
译者	--
出版年月	2026-03-01 00:00:00.0
开本	16开
装帧	平装
页数	268
字数	328000
版次	1
印次	1
纸张	一般胶版纸

商品评论

暂无商品评论信息 [发表商品评论]

商品咨询

暂无商品咨询信息 [发表商品咨询]