视觉大模型——从理论到实践

编号:: wx1204348325

销售价:: ￥51.92; (市场价: ~~￥59.00~~)

赠送积分:: 52

数量:: 件

商品介绍
商品参数
商品评论
商品咨询

商品介绍

"本书全而且系统地呈现视觉大模型的理论基础、应用实践与未来发展趋势。开篇深入剖析视觉大模型内核——视觉Transformer模型，详述其基本原理、架构，涵盖注意力机制、位置编码、编码器-解码器架构等关键要素，同时细致解读自监督学习在视觉大模型中的应用，如对比学习、生成式学习、预测性学习等前沿方法，助力读者迅速把握视觉大模型精髓。在应用实践板块，书中依托丰富案例，详尽展示视觉大模型在图像分类、语义分割、目标检测等计算机视觉核心任务中的实战应用。不仅如此，书中还深入探讨视觉大模型训练与优化的关键考量因素，包括数据增强策略、正则化技术、知识蒸馏、迁移学习等，为读者提供实用的实践经验，助其在实际应用中高效运用视觉大模型。为了提升读者对视觉大模型的理解与实践能力，书中提供了大量代码示例，覆盖从基础模型搭建到复杂模型优化的全流程，读者可通过实践这些代码，深化对视觉大模型理论与应用的认知。
本书受众广泛，既适配计算机、自动化、电子、通信、数学、物理等专业背景的研究生及高年级本科生，也契合欲从事或转型至人工智能与计算机视觉领域的专业技术人员。

"

"王书浩清华大学博士，清华大学交叉信息研究院博士后，现为透彻未来联合创始人与首席技术官，曾先后于百度、异构智能（NovuMind）、京东从事数据科学与人工智能研究，拥有国家发明专利20余项，并于Nature Communications、Modern Pathology、ICCV等顶级期刊/会议发表十余篇学术论文。曾获得2019年乌镇互联网峰会“30位新生代数字经济人才”精英奖、Year 2022 Fall Asia-Pacific Signal and Information Processing Association Industrial Distinguished Leaders、阿里云“看见新力量”2022年度人物。
王伟毕业于中国人民大学，拥有概率论与数理统计硕士学位，现为透彻未来算法科学家，曾于清华大学电子工程系、中国科学院半导体研究所、中国石油勘探开发研究院从事深度学习基础理论探索与产业实践研究，并发表多篇学术论文；曾主持北京市自然科学基金1项，申请国家发明专利10余项，荣获“2017中国大数据人工智能创新创业大赛病理切片识别AI挑战赛”冠军。"

目录

本书源码

第1章开启视觉大模型的大门

1.1深度学习在计算机视觉中的应用

1.2Transformer模型概要

1.3Transformer的发展历程

1.4Transformer在视觉任务中的应用

1.5自监督学习简介

第2章Transformer原理与架构

2.1注意力机制

2.1.1自注意力机制的数学原理

2.1.2QKV与注意力汇聚

2.1.3注意力评分与掩码

2.1.4多头自注意力

2.2位置编码

2.3Transformer架构

2.3.1残差与正则化

2.3.2FFN

2.3.3编码器与解码器

第3章Transformer在自然语言处理中的应用

3.1编码器

3.1.1BERT

3.1.2BERT的改进模型

3.2解码器

3.2.1GPT

3.2.2GPT的演进

3.3编码器与解码器结合

3.4Prompt与Chain of Thought

3.5Scaling Law

第4章Transformer在计算机视觉中的应用

4.1图像分类

4.1.1Vision Transformer

4.1.2Swin Transformer

4.1.3MobileFormer

4.2图像分割

4.2.1SwinUnet

4.2.2SegFormer

4.2.3Mask2Former

4.2.4Segment Anything Model

4.3目标检测DETR

4.4基于卷积的视觉大模型

第5章基于视觉Transformer的自监督学习

5.1自监督学习基本概念

5.2对比学习

5.3生成式学习

5.4典型自监督架构

5.4.1SimCLR

5.4.2MoCo

5.4.3BYOL

5.4.4DINO

5.4.5iBOT

5.4.6DINO v2

第6章视觉Transformer的优化与训练技巧

6.1数据增强策略

6.2正则化技术

6.3知识蒸馏

6.4迁移学习

第7章Transformer模型的改进与发展

7.1Transformer的改进

7.1.1FlashAttention

7.1.2Longformer

7.1.3TransformerXL

7.2混合专家模型

7.2.1MoE模型定义

7.2.2MoE模型架构详解

7.2.3图像方面的应用

7.2.4技术挑战和未来发展方向

第8章未来在哪里

8.1Transformer未来发展趋势

8.2Transformer在视觉任务中的局限性

8.3未来研究方向展望

参考文献

商品参数

基本信息
出版社	清华大学出版社
ISBN	9787302710714
条码	9787302710714
编者	王书浩、王伟著
译者	--
出版年月	2026-03-01 00:00:00.0
开本	其他
装帧	平装
页数	192
字数	280
版次	1
印次	1
纸张	80g胶版纸

商品评论

暂无商品评论信息 [发表商品评论]

商品咨询

暂无商品咨询信息 [发表商品咨询]