暂无商品咨询信息 [发表商品咨询]
大语言模型作为人工智能革命的核心驱动力,正深刻重构自然语言处理与多模态领域的技术范式。本书系统构建了从理论基石到产业实践的全栈知识体系,深入解析语言模型演进脉络与Transformer核心架构,剖析大规模训练中的工程挑战与优化方案,阐释跨语言迁移能力的实现机制,并重点通过医疗、金融、法律等领域的真实案例,揭示模型定制化应用与场景落地的完整路径。本书立足技术前沿,兼顾算法深度与实践创新,致力为人工智能研究者、工程师与技术决策者提供兼具系统性与实用性的实践指南。
黄河燕,1963年10月生,籍贯湖南。1986年1月加入中国共产党,1989年3月参加工作。1983年毕业于武汉测绘科技大学计算机系获学士学位,1986年毕业于国防科技大学计算机系获硕士学位,1989年毕业于中国科学院计算技术研究所获博士学位,后留所工作,先后任助理研究员、副研究员、研究员;1997年至2009年在中科院计算机语言信息工程研究中心任副主任、研究员并先后兼任中科院华建集团党委委员、副书记,2009年至今任北京理工大学计算机学院院长、教授,兼北京市海量语言信息处理与云计算应用工程技术研究中心主任及中-德语言信息处理联合实验室主任;现为国家"863计划”主题专家组成员、中国人工智能学会及中国中文信息学会副理事长、教育部计算机教学指导委员会委员、北京市学位委员会委员。主持承担了国家自科基金重点项目、"973计划”课题、"863计划”项目等20多项国家级科研攻关项目,获得了国家科技进步一等奖等8项国家级和省部级奖励,1997年享受国务院政府特殊津贴,2014年当选全国优秀科技工作者。
第1章 大语言模型概况 1
1.1 研究背景及意义 1
1.1.1 研究背景 1
1.1.2 研究意义 2
1.2 基本概念及问题描述 5
1.2.1 语言模型 6
1.2.2 Transformer架构 7
1.2.3 预训练语言模型 10
1.2.4 仅编码器架构 11
1.2.5 编码器-解码器架构 12
1.2.6 仅解码器架构 13
1.2.7 微调与上下文学习 13
1.3 典型方法与代表性系统 14
1.3.1 统计语言模型 15
1.3.2 循环神经网络语言模型 17
1.3.3 基于Transformer架构的语言模型 18
1.3.4 掩码语言模型 19
1.3.5 自回归语言模型 20
1.3.6 指令微调训练 21
1.3.7 基于人类反馈的强化学习训练 22
1.4 相关数据与评测指标 23
1.4.1 Pile数据集 24
1.4.2 ROOTS数据集 27
1.4.3 RedPajama和SlimPajama数据集 28
1.4.4 RefineWeb数据集 29
1.4.5 CLUECorpus数据集 31
1.4.6 WuDao数据集 32
1.4.7 性能评测 33
1.5 参考文献 35
第2章 大语言模型的基础理论 43
2.1 Transformer架构 43
2.2 词表示 43
2.2.1 字节对编码分词 43
2.2.2 单字语言模型分词 44
2.3 位置编码 45
2.3.1 绝对位置编码 45
2.3.2 相对位置编码 46
2.4 Transformer架构组成 46
2.4.1 编码器与解码器 46
2.4.2 多头注意力机制 47
2.5 大语言模型训练 48
2.6 语言模型应用 49
2.6.1 自然语言理解 49
2.6.2 上下文学习 51
2.6.3 多模态 52
2.6.4 智能体 53
2.7 参考文献 54
第3章 大语言模型架构与训练技术 58
3.1 大语言模型发展现状 58
3.2 大语言模型架构 61
3.2.1 位置编码 61
3.2.2 归一化 63
3.2.3 注意力机制 65
3.2.4 前馈神经网络 67
3.3 大语言模型预训练数据 68
3.3.1 多源数据收集 68
3.3.2 数据处理与过滤 70
3.3.3 数据影响分析 70
3.4 大语言模型训练技术 74
3.4.1 分布式训练 74
3.4.2 并行训练策略分析 76
3.4.3 DeepSpeed训练实践 78
3.4.4 预训练大语言模型评估实践 79
3.5 有监督下游任务指令微调 87
3.5.1 指令微调数据 87
3.5.2 有监督指令微调实践与评估 88
3.6 本章小结 93
3.7 参考文献 94
第4章 大语言模型的效率优化 100
4.1 大语言模型的效率问题 100
4.1.1 研究背景及意义 100
4.1.2 本章问题描述及解决思路 101
4.2 摘要场景下的大语言模型效率优化 101
4.2.1 引言 101
4.2.2 模型架构 103
4.2.3 实验验证 109
4.3 基于上下文压缩的效率优化 117
4.3.1 引言 117
4.3.2 模型架构 119
4.3.3 实验验证 121
4.4 参考文献 130
第5章 大语言模型跨语言迁移性能分析 137
5.1 多语言模型预训练任务分析 137
5.1.1 概述 137
5.1.2 多语言掩码建模 137
5.1.3 翻译语言模型 138
5.2 衡量语言模型的跨语言迁移能力 139
5.2.1 引言 139
5.2.2 传统指标:跨语言迁移差距 140
5.2.3 跨语言迁移性指标IGAP 141
5.2.4 实验与分析 143
5.2.5 小结 151
5.3 高资源语言无监督训练对模型多语言表现的影响 151
5.3.1 引言 151
5.3.2 方法 154
5.3.3 实验验证:上游知识迁移 158
5.3.4 实验验证:下游知识迁移 161
5.4 本章小结 163
5.5 参考文献 163
第6章 基于预训练的跨语言迁移学习模型 166
6.1 引言 166
6.2 基于跨语言对比训练的多语言模型 167
6.2.1 概述 167
6.2.2 方法 168
6.2.3 实验验证 170
6.2.4 分析与讨论 175
6.2.5 小结 178
6.3 面向文本生成的跨语言迁移学习 178
6.3.1 XNLG的预训练任务 179
6.3.2 XNLG的预训练步骤 182
6.3.3 在下游自然语言生成任务上微调 183
6.3.4 问题生成的跨语言迁移 183
6.3.5 文本摘要的跨语言迁移 184
6.3.6 小结 186
6.4 面向文本理解及生成的跨语言迁移学习 186
6.4.1 概述 186
6.4.2 多语言文本转换 187
6.4.3 MT6:基于翻译句对的跨语言预训练 188
6.4.4 实验验证 190
6.4.5 小结 195
6.5 基于词对齐监督的多语言模型 195
6.5.1 方法 196
6.5.2 实验验证 199
6.5.3 小结 202
6.6 参考文献 202
第7章 基于大语言模型的跨语言文本摘要研究 206
7.1 跨语言文本摘要任务简介 206
7.1.1 研究背景及意义 206
7.1.2 本章问题描述及解决思路 206
7.2 低资源场景下的跨语言文本摘要 207
7.2.1 引言 207
7.2.2 模型架构 210
7.2.3 实验验证 213
7.3 翻译语料加持的跨语言文本摘要 221
7.3.1 引言 221
7.3.2 模型架构 223
7.3.3 实验验证 228
7.4 参考文献 237
第8章 基于领域迁移的大语言模型场景应用 243
8.1 大语言模型的基础能力 243
8.2 大语言模型在生物医疗领域的应用实例 245
8.2.1 大语言模型在医疗领域的应用 245
8.2.2 大语言模型在计算生物学的应用 247
8.3 大语言模型在社会科学的应用实例 248
8.3.1 大语言模型在法律领域的应用 248
8.3.2 大语言模型在心理学的应用 250
8.3.3 大语言模型在社会计算的应用 251
8.3.4 大语言模型在金融领域的应用 251
8.4 大语言模型在计算机领域的应用实例 252
8.4.1 大语言模型在编程领域的应用 252
8.4.2 大语言模型在软件工程领域的应用 253
8.4.3 大语言模型在智能体领域的应用 254
8.5 大语言模型在学科发展与艺术创作领域的应用实例 256
8.5.1 大语言模型在促进学科发展的应用 256
8.5.2 大语言模型在艺术创作领域的应用 257
8.6 大语言模型在法律和金融领域的应用实例 259
8.6.1 大语言模型在法律领域的应用 259
8.6.2 大语言模型在金融领域的应用 262
8.7 本章小结 265
8.8 参考文献 265
| 基本信息 | |
|---|---|
| 出版社 | 电子工业出版社 |
| ISBN | 9787121516139 |
| 条码 | 9787121516139 |
| 编者 | 黄河燕 等 编著 编 |
| 译者 | -- |
| 出版年月 | 2026-01-01 00:00:00.0 |
| 开本 | 16开 |
| 装帧 | 平装 |
| 页数 | 280 |
| 字数 | 368000 |
| 版次 | 1 |
| 印次 | 1 |
| 纸张 | |
暂无商品评论信息 [发表商品评论]
暂无商品咨询信息 [发表商品咨询]