暂无商品咨询信息 [发表商品咨询]
(1)作者经验丰富:作者是滴普科技合伙人兼首席架构师,在ClickHouse方面积累了大量的实战经验。
(2)重在授人以渔:通过剖析ClickHouse底层引擎的架构设计来解密ClickHouse高性能背后的底层逻辑。
(3)同时授人以渔:结合ClickHouse的应用场景,总结了大量的使用技巧和性能优化方法。
(4)近10位专家联袂推荐:滴普科技联合创始人杨磊、京东云数据库研发负责人高新刚、ClickHouse 中国社区创始人郭炜等近10位专家强烈推荐。
这是一本通过分析ClickHouse底层引擎架构来解读ClickHouse极--致性能的底层逻辑的著作,同时还总结了ClickHouse在各种适用场景中的使用技巧和性能调优方法,让读者知其然,也能知其所以然。
全书一共12章,分为两个部分:
第1部分 架构篇(第1-7章)
简要地介绍了数据仓库的核心技术和思路,系统讲解了ClickHouse的查询性能优势、适用场景、架构设计和运作过程,深入地剖析了ClickHouse的存储引擎架构、计算引擎架构以及决定ClickHouse性能的关键因素,还将ClickHouse与其他数仓架构进行了深度对比,不仅阐明了ClickHouse查询速度快的底层逻辑,也推导出了ClickHouse的适用场景。
第2部分 实战篇(第8-12章)
针对ClickHouse的适用场景,讲解了它的各种使用技巧以及存算分离架构、分布式架构等云计算时代的全新架构,更重要的是,从数据结构、内存、磁盘、网络、CPU、查询等方面全面总结了ClickHouse的性能优化方法和原则。
赞誉<br />序1<br />序2<br />自序<br />前言<br />第一部分 架构篇<br />第1章 数据仓库的核心技术 3<br />1.1 OLAP和OLTP的本质区别 4<br />1.1.1 数据三范式 4<br />1.1.2 规范化的意义 6<br />1.1.3 规范化的局限 7<br />1.1.4 数仓建模的本质 7<br />1.1.5 OLAP和OLTP的底层数据模型 8<br />1.1.6 维度建模 8<br />1.2 典型大数据数仓技术及其核心思路 10<br />1.2.1 Hive 10<br />1.2.2 HBase 11<br />1.2.3 Kylin 12<br />1.2.4 其他数仓 13<br />1.3 传统数仓的缺陷 13<br />1.3.1 效率低 13<br />1.3.2 延迟高 14<br />1.3.3 成本高 14<br />1.4 ClickHouse查询性能的优势 15<br />1.4.1 向量化引擎 15<br />1.4.2 高效的数据压缩 16<br />1.4.3 高效的I/O优化 17<br />1.5 本章小结 18<br />第2章 ClickHouse简介 19<br />2.1 ClickHouse的4个标签 19<br />2.1.1 性能强大 19<br />2.1.2 单机处理能力强 20<br />2.1.3 成本低 21<br />2.1.4 不支持事务 21<br />2.2 ClickHouse的3个适用场景 22<br />2.2.1 BI报表的交互式分析 22<br />2.2.2 互联网日志分析 22<br />2.2.3 广告营销 23<br />2.3 本章小结 24<br />第3章 ClickHouse架构概览 25<br />3.1 ClickHouse架构简介 26<br />3.2 ClickHouse的核心抽象 27<br />3.2.1 列和字段 27<br />3.2.2 数据类型 28<br />3.2.3 块 32<br />3.2.4 表 33<br />3.3 ClickHouse的运作过程 35<br />3.3.1 数据插入过程 35<br />3.3.2 数据查询过程 35<br />3.3.3 数据更新和数据删除过程 36<br />3.4 本章小结 37<br />第4章 MergeTree存储引擎架构 39<br />4.1 MergeTree存储引擎的三大特点 40<br />4.2 MergeTree的数据组织 41<br />4.2.1 块 41<br />4.2.2 数据堆放方式 41<br />4.3 MergeTree的文件组织 43<br />4.3.1 数据文件、元数据文件、索引文件和其他文件 45<br />4.3.2 分区 47<br />4.3.3 数据库和表 48<br />4.4 索引 49<br />4.4.1 主键索引 49<br />4.4.2 标记 49<br />4.5 与事务数据库存储引擎的对比 50<br />4.6 存储引擎如何影响查询速度 52<br />4.6.1 预排序 52<br />4.6.2 列存 52<br />4.6.3 压缩 53<br />4.7 MergeTree存储引擎的工作过程 53<br />4.7.1 数据库、数据表的创建过程 54<br />4.7.2 数据插入过程 54<br />4.7.3 分区合并和删除过程 54<br />4.7.4 数据读取过程 56<br />4.8 本章小结 59<br />第5章 ClickHouse计算引擎架构 61<br />5.1 ClickHouse计算引擎的架构简介与设计思想 61<br />5.1.1 整体架构 62<br />5.1.2 SQL解析器 62<br />5.1.3 解释器 63<br />5.1.4 执行器 63<br />5.1.5 设计思想 64<br />5.2 火山模型 65<br />5.2.1 火山模型概述 65<br />5.2.2 火山模型的原理 66<br />5.2.3 火山模型的优点与缺点 67<br />5.3 向量化引擎 67<br />5.3.1 向量化引擎的实现方式 68<br />5.3.2 ClickHouse中的向量化算子 69<br />5.3.3 向量化引擎的前提 70<br />5.4 计算引擎如何影响查询速度 72<br />5.4.1 ClickHouse查询速度快的前提 72<br />5.4.2 ClickHouse查询速度快的本质 74<br />5.5 本章小结 74<br />第6章 ClickHouse与其他数仓架构的对比 75<br />6.1 ClickHouse与Hive的对比 75<br />6.1.1 Hive的数据文件 76<br />6.1.2 Hive的存储系统 82<br />6.1.3 Hive计算引擎与ClickHouse计算引擎的差异 84<br />6.1.4 ClickHouse比Hive查询速度快的原因 85<br />6.2 ClickHouse与HBase的对比 86<br />6.2.1 HBase的数据模型 86<br />6.2.2 HBase的存储系统与ClickHouse的异同 87<br />6.2.3 HBase的适用场景及ClickHouse不适合的原因 87<br />6.3 ClickHouse与Kylin的对比 88<br />6.3.1 Kylin的架构 88<br />6.3.2 Kylin解决性能问题的思路 88<br />6.3.3 Kylin方案的缺陷 89<br />6.3.4 ClickHouse的方案 89<br />6.4 本章小结 91<br />第7章 深度思考:决定外在能力的因素 93<br />7.1 从架构层面分析ClickHouse 93<br />7.1.1 ClickHouse速度快的前提 93<br />7.1.2 对ClickHouse的一些误解 94<br />7.2 结构决定功能 95<br />7.2.1 方法论 96<br />7.2.2 意义 97<br />7.2.3 不要过度设计 98<br />7.3 从ClickHouse的设计来理解 99<br />7.3.1 结构决定能力的上限 99<br />7.3.2 结构决定应用层算法 99<br />7.4 本章小结 100<br />第二部分 实战篇<br />第8章 ClickHouse使用技巧 105<br />8.1 数据导入、导出技巧 105<br />8.1.1 外部文件导入、导出技巧 105<br />8.1.2 灵活使用集成表引擎导入、导出数据 109<br />8.2 建表技巧 117<br />8.2.1 表引擎选择技巧 118<br />8.2.2 分区键选择技巧 120<br />8.2.3 数据结构选择技巧 120<br />8.2.4 分区技巧 121<br />8.3 高级技巧 121<br />8.3.1 物化视图 121<br />8.3.2 投影 122<br />8.3.3 位图 122<br />8.3.4 变更数据捕获 123<br />8.4 常见报错及处理方法 123<br />8.5 本章小结 124<br />第9章 ClickHouse实现用户画像系统 125<br />9.1 用户画像概述 125<br />9.1.1 用户画像系统介绍 125<br />9.1.2 用户画像系统的需求描述 127<br />9.1.3 用户画像系统的需求分析 127<br />9.1.4 用户画像系统的架构 128<br />9.2 用户画像系统的关键技术实现 129<br />9.2.1 技术选型 129<br />9.2.2 分析阶段 130<br />9.2.3 运营阶段 136<br />9.3 基于ClickHouse的用户画像系统的优点 137<br />9.4 本章小结 139<br />第10章 ClickHouse的存算分离架构 141<br />10.1 存算分离架构背景 141<br />10.1.1 相关概述 141<br />10.1.2 存算分离的典型架构 142<br />10.1.3 存算分离的意义 143<br />10.1.4 存算分离的局限 145<br />10.2 ClickHouse中的存算分离 147<br />10.2.1 实现方式 147<br />10.2.2 注意事项 150<br />10.3 存算分离架构给ClickHouse带来的优势 151<br />10.4 本章小结 152<br />第11章 ClickHouse的分布式架构 153<br />11.1 架构特点及对比 153<br />11.1.1 ClickHouse分布式架构的优点 154<br />11.1.2 ClickHouse分布式架构的缺点 155<br />11.1.3 ClickHouse与Hadoop的分布式架构对比 156<br />11.2 基本概念 156<br />11.2.1 集群 157<br />11.2.2 副本 158<br />11.2.3 分片 159<br />11.3 ClickHouse的复制表引擎 160<br />11.3.1 创建复制表 160<br />11.3.2 复制表复制 161<br />11.3.3 复制表查询 161<br />11.4 ClickHouse分布式表引擎 162<br />11.4.1 创建分布式表 162<br />11.4.2 分布式表查询原理 163<br />11.4.3 分布式表的数据写入方案 165<br />11.4.4 分布式表中副本的处理方式 165<br />11.5 本章小结 166<br />第12章 ClickHouse性能优化 167<br />12.1 性能优化的原则 167<br />12.2 数据结构优化 168<br />12.3 内存优化 171<br />12.4 磁盘优化 171<br />12.5 网络优化 173<br />12.6 CPU优化 173<br />12.7 查询优化 174<br />12.8 数据迁移优化 176<br />12.9 本章小结 177
基本信息 | |
---|---|
出版社 | 机械工业出版社 |
ISBN | 9787111716587 |
条码 | 9787111716587 |
编者 | 陈峰 著 |
译者 | -- |
出版年月 | 2022-11-01 00:00:00.0 |
开本 | 16开 |
装帧 | 平装 |
页数 | 177 |
字数 | 198 |
版次 | 1 |
印次 | 1 |
纸张 | 一般胶版纸 |
暂无商品评论信息 [发表商品评论]
暂无商品咨询信息 [发表商品咨询]