数据中心级计算：基础架构、设计原理与管理策略

编号:: wx1204041964

销售价:: ￥87.12; (市场价: ~~￥99.00~~)

赠送积分:: 87

数量:: 件

商品介绍
商品参数
商品评论
商品咨询

商品介绍

本书获得国家科学技术学术著作出版基金资助出版。全书以其对现代数据中心的系统化阐述而独具特色，通过“剥洋葱”的方式将数据中心级计算面临的设计要点逐层展现在读者面前。全书跨越从硬件基础设施到软件管理框架的完整技术栈，并深度融合可扩展性、可持续性、可管理性三大核心设计思想，构建了一套层次清晰、相互关联的知识体系。书中借助丰富案例，不仅全面梳理了资源管理、能耗优化等重要方向的核心内容，还前瞻性地讨论了当前技术热点与未来研究方向。本书对计算机系统相关课程教学具有重要参考价值，同时也为科研人员投身算力优化与绿色计算等方面研究提供了宝贵指南。

本书以其对现代数据中心的系统化阐述而独具特色，通过“剥洋葱”的方式将数据中心级计算面临的设计要点逐层展现在读者面前。全书跨越从硬件基础设施到软件管理框架的完整技术栈，并深度融合可扩展性、可持续性、可管理性三大核心设计思想，构建了一套层次清晰、相互关联的知识体系。书中借助丰富案例，不仅全面梳理了资源管理、能耗优化等重要方向的核心内容，还前瞻性地讨论了当前技术热点与未来研究方向。本书对计算机系统相关课程教学具有重要参考价值，同时也为科研人员投身算力优化与绿色计算等方面研究提供了宝贵指南。

李超，上海交通大学教授。致力于研究可持续可扩展的高性能计算机系统，担任中国计算机学会体系结构专委会副主任，IEEE Transactions on Computers副主编。主持基金委优秀青年科学基金等项目十余项，发表学术论文150余篇，多次获得最佳论文奖并入选体系结构顶尖国际会议ISCA名人堂。上海交通大学教学能手，入选全国高校计算机专业优秀教师奖励计划。授权中外发明专利40余项，多项技术落地应用于工业界，获上海市青年科技启明星、中国计算机学会青年科技奖等荣誉。 过敏意，上海交通大学致远讲席教授，CCF会士，IEEE会士。长期从事并行与分布式系统和云计算方面的研究，获得IEEE Edward J. McCluskey技术成就奖、华为奥林帕斯奖等荣誉。上海市优秀学术带头人，教育部创新团队学术带头人，主持国家杰出青年科学基金、973/863、基金委重点、国家重点研发计划等项目，发表学术论文600余篇，著述英文著作6部，获国家技术发明二等奖和省部级科技一等奖多项。曾担任IEEE Transactions on Sustainable Computing期刊主编。

目　　录 序 前　　言 本书导读 作者简介 第一部分　基础概念 第1章　绪论2 1.1　什么是数据中心2 1.1.1　数据中心的功能3 1.1.2　数据中心的组成5 1.2　历史背景和发展轨迹7 1.2.1　微观：从集成电路到处 　　　理器7 1.2.2　宏观：从服务器到数据 　　　中心9 1.2.3　数据中心研发概述10 1.2.4　国内外政策摘要11 1.2.5　发展趋势及统计12 本章小结13 练习思考13 参考文献和引申阅读14 第2章　数据中心级计算15 2.1　浅谈计数与排序15 2.2　系统设计抽象17 2.2.1　计算抽象17 2.2.2　系统分层18 2.2.3　设计考量21 2.3　数据中心级计算全貌：以云为例21 2.3.1　云计算栈21 2.3.2　云计算系统宏观分析22 2.3.3　云计算系统微观分析24 2.4　案例：数据中心级计算服务25 2.4.1　互联网搜索引擎26 2.4.2　大数据批式处理27 2.4.3　大数据流式处理29 2.5　关键设计目标30 2.5.1　服务等级30 2.5.2　资源消耗33 2.5.3　总体成本36 2.5.4　在线时长37 2.5.5　容灾备份42 本章小结44 练习思考44 参考文献和引申阅读46 第二部分　系统架构 第3章　核心计算设施50 3.1　服务器和数据中心51 3.1.1　服务器作为基础单元51 3.1.2　数据中心层次化结构54 3.2　服务器内部综合计算环境56 3.2.1　异构计算单元56 3.2.2　高速设备互连58 3.3　数据中心访存层级扩展60 3.3.1　内存技术概述60 3.3.2　内存性能增强63 3.3.3　内存层级扩展66 3.3.4　统一内存访问68 3.3.5　存算分离架构69 3.4　数据中心存储系统简介70 3.4.1　直连存储系统70 3.4.2　网络接入存储71 3.4.3　存储区域网络71 3.4.4　分布式对象存储72 3.5　数据中心网络拓扑结构73 3.5.1　机房数据通信概述73 3.5.2　机房结构化布线74 3.5.3　典型网络拓扑结构77 3.5.4　网络通信的影响79 3.6　资源共享与融合80 3.6.1　虚拟化计算环境80 3.6.2　资源容器82 3.6.3　超融合基础设施83 本章小结84 练习思考85 参考文献和引申阅读86 第4章　基础支撑设施88 4.1　组成总览89 4.1.1　一幅图全貌89 4.1.2　机房规模和结构90 4.2　机房供电91 4.2.1　层次化供电架构91 4.2.2　双路供电模式92 4.2.3　供电负荷管控93 4.3　储能备电94 4.3.1　不间断电源94 4.3.2　层次化储能架构96 4.4　供电通路能损96 4.4.1　电力转换能损97 4.4.2　储能设备能损98 4.5　用电容量规划100 4.5.1　功耗容量成本100 4.5.2　PDU功率分配101 4.5.3　峰值功耗应对101 4.5.4　超额认购建模103 4.6　制冷系统107 4.6.1　系统概览107 4.6.2　气流规划108 4.6.3　评估指标110 4.6.4　优化途径111 本章小结112 练习思考113 参考文献和引申阅读114 第5章　系统部署模式116 5.1　中央部署场景116 5.1.1　部署模型117 5.1.2　部署层级120 5.1.3　部署效益120 5.1.4　裸机服务器122 5.2　边缘部署场景125 5.2.1　边缘计算简介125 5.2.2　边缘数据中心127 5.2.3　雾计算与Cloudlet130 5.2.4　系统优化视角132 5.3　案例：模块化数据中心135 5.3.1　概念及现状135 5.3.2　容量规划136 5.3.3　特殊运维实践137 本章小结139 练习思考139 参考文献和引申阅读140 第三部分　理念思想 第6章　可扩展性设计要求144 6.1　可扩展性问题144 6.1.1　什么是可扩展性145 6.1.2　可扩展性的一般定义146 6.1.3　超线性加速比150 6.2　可扩展计算研究152 6.2.1　系统扩展模式152 6.2.2　资源利用瓶颈153 6.2.3　横向扩展的体系结构154 6.2.4　集群负载均衡155 6.2.5　墙与性能瓶颈158 6.3　案例：暗硅效应160 6.3.1　芯片级的暗硅161 6.3.2　设施级的暗硅161 本章小结162 练习思考163 参考文献和引申阅读164 第7章　可持续性设计要求166 7.1　可持续性问题166 7.1.1　什么是可持续性166 7.1.2　可持续性要素167 7.1.3　可持续发展理念168 7.1.4　碳足迹与碳中和168 7.2　可持续计算171 7.2.1　能效优先的设计171 7.2.2　可持续计算层次172 7.2.3　系统生命周期管理175 7.2.4　学术界里程碑事件176 7.2.5　业界评估与实践177 7.3　案例：新能源绿色数据中心177 7.3.1　新能源集成方式178 7.3.2　代表性原型系统179 7.3.3　绿色数据中心设计要点180 本章小结181 练习思考181 参考文献和引申阅读183 第8章　可管理性设计要求185 8.1　可管理性简介185 8.1.1　一般概念186 8.1.2　运维管理187 8.2　同构与异构问题188 8.2.1　工艺异构188 8.2.2　架构异构189 8.2.3　系统异构191 8.2.4　应用异构192 8.3　局部与全局问题193 8.3.1　全栈设计193 8.3.2　跨层优化193 8.4　动态与变化问题194 8.4.1　同步/异步194 8.4.2　非确定性195 8.5　计算机系统自主管理197 8.5.1　传统启发式系统管理197 8.5.2　基于反馈控制的管理197 8.5.3　基于机器学习的管理198 8.5.4　自主计算概念和模型198 8.6　案例：数据中心节点功耗控制199 8.6.1　数据中心的层级化功耗 　　　控制199 8.6.2　负载均衡和功耗调控201 本章小结202 练习思考202 参考文献和引申阅读203 第四部分　优化方法 第9章　资源利用206 9.1　集群作业调度207 9.1.1　负载基本问题207 9.1.2　批处理作业208 9.1.3　一般作业调度方法208 9.2　数据中心中的虚拟机211 9.2.1　核心操作概述212 9.2.2　弹性伸缩机制 214 9.2.3　容器资源管理215 9.3　虚拟机分配217 9.3.1　虚拟机供给方式217 9.3.2　资源计费模型219 9.3.3　虚拟机超额分配219 9.3.4　虚拟机分配机制220 9.3.5　虚拟机装箱问题221 9.4　负载迁移整合222 9.4.1　虚拟机热迁移222 9.4.2　虚拟机整合224 9.5　虚拟处理器调度227 9.5.1　一般调度规则227 9.5.2　虚拟SMP调度228 9.5.3　Xen调度策略230 9.6　作业混部与调优231 9.6.1　延时敏感型任务231 9.6.2　尽力而为型任务232 9.6.3　任务干扰与隔离233 9.7　空闲资源挖掘与发现234 9.7.1　资源闲置问题234 9.7.2　资源利用开销235 9.7.3　资源碎片与整合236 9.8　跨数据中心资源利用237 9.8.1　全局资源弹性237 9.8.2　数据中心跨域资源管理238 本章小结240 练习思考240 参考文献和引申阅读241 第10章　电能管理245 10.1　分析模型246 10.1.1　电都用在哪里246 10.1.2　处理器功耗模型246 10.1.3　内存功耗模型248 10.1.4　磁盘功耗模型249 10.1.5　散热设计功耗251 10.1.6　制冷功耗建模252 10.2　功耗管理基础254 10.2.1　配置接口ACPI254 10.2.2　处理器休眠与S状态255 10.2.3　处理器调控与C状态256 10.2.4　性能调节与P状态256 10.2.5　软硬协同的管理机制258 10.3　电能管理策略259 10.3.1　升频还是降频259 10.3.2　负载调度还是硬件调控261 10.3.3　功率封顶与整形262 10.3.4　功耗管理延时开销264 10.4　能耗匀增的计算266 10.4.1　EP的基本概念266 10.4.2　深入分析EP267 10.4.3　设施级EP268 10.5　能耗驱动的系统优化269 10.5.1　应用特征感知269 10.5.2　时空参数调优270 10.5.3　异构架构优化271 10.6　特殊电能管理机制273 10.6.1　近似计算273 10.6.2　间歇计算274 10.6.3　计算冲刺275 10.6.4　电能缓冲276 10.6.5　负载跟随277 10.7　能耗管理分类278 10.7.1　分层管理视角278 10.7.2　功耗管理区间278 本章小结280 练习思考280 参考文献和引申阅读282 第11章　观测感知285 11.1　基础设施管理系统286 11.1.1　基础设施管理286 11.1.2　带内带外监控287 11.2　资源绘像与监控288 11.2.1　资源绘像简介288 11.2.2　资源监控内容288 11.2.3　资源监控方式289 11.2.4　性能事件计数290 11.2.5　功耗能耗监控293 11.3　观测工具294 11.3.1　分布式追踪记录设施294 11.3.2　观测粒度问题294 11.3.3　软硬件绘像工具发展296 11.3.4　资源绘像分析进展298 11.4　案例：异构计算平台监测299 11.4.1　GPU感知工具介绍299 11.4.2　典型感知参数303 11.5　案例：HPC数据中心监测304 11.6　案例：IDC数据中心监测305 11.6.1　谷歌持续绘像接口305 11.6.2　谷歌分布式追踪记录 　　　　设施305 11.6.3　谷歌大规模性能度量 　　　　机制306 本章小结307 练习思考308 参考文献和引申阅读309 第12章　稳定运行312 12.1　异常运行状况的产生313 12.1.1　一般故障分析313 12.1.2　极限任务负载315 12.1.3　极限系统配置318 12.1.4　设计风险评估321 12.2　构建高可用的计算集群322 12.2.1　冗余供电容量322 12.2.2　数据副本管理323 12.2.3　检查点及设置324 12.2.4　故障域和容错325 12.2.5　系统综合感知326 12.3　案例：供电引发的运行风险328 12.3.1　能耗攻击328 12.3.2　功耗攻击329 12.3.3　功率抢夺330 12.4　设备老化与处理331 12.4.1　计算设备老化问题332 12.4.2　老化服务器处理333 12.4.3　基础设施老化问题335 本章小结336 练习思考336 参考文献和引申阅读337 第13章　管理框架340 13.1　数据中心中间件340 13.1.1　中间件的概念340 13.1.2　中间件的类型341 13.1.3　中间件对比调度器343 13.2　调度器的组织架构343 13.2.1　中央式调度架构344 13.2.2　分布式调度架构345 13.2.3　混合式调度架构346 13.3　资源分配模式346 13.3.1　集中式资源分配346 13.3.2　层级式资源分配347 13.3.3　全局式资源分配348 13.4　调度框架优化349 13.4.1　任务队列管理349 13.4.2　调度冲突优化350 13.4.3　管理模糊性思考351 13.5　案例：企业级调度框架352 13.5.1　Omega和Autopilot352 13.5.2　Apollo和Hydra353 本章小结355 练习思考355 参考文献和引申阅读356 第五部分　未来展望 第14章　综合优化360 14.1　软件定义的方法360 14.1.1　软件定义的概念360 14.1.2　软件定义的数据中心361 14.2　大数据分析驱动的方法363 14.2.1　日志分析和挖掘363 14.2.2　数据驱动的系统管理363 14.3　人工智能辅助的设计364 14.3.1　基于机器学习的系统 　　　　优化364 14.3.2　数据中心智能化运维365 14.4　数据中心负载时间序列预测366 14.4.1　传统时间序列预测方法367 14.4.2　机器学习方法367 本章小结368 练习思考368 参考文献369 第15章　趋势讨论371 15.1　计算技术历史视角回望372 15.1.1　机器视角372 15.1.2　用户视角373 15.2　数据中心未来趋势观察374 15.2.1　硬件设施角度观察374 15.2.2　软件系统角度观察376 15.2.3　核心价值角度观察378 15.3　资源高效的数据中心378 15.3.1　资源利用的三个维度379 15.3.2　高维视角380 15.3.3　回顾三个维度381 15.3.4　系统设计有奇点吗382 15.4　结语382 参考文献382 读者技术预测表383 附录 附录A　计算层补充点386 附录B　设施层补充点394 附录C　仿真评估方法402 附录D　工程伦理讨论409 主要概念和术语索引417 重要英文缩写说明424

商品参数

基本信息
出版社	机械工业出版社
ISBN	9787111787471
条码	9787111787471
编者	李超过敏意著
译者	--
出版年月	2025-11-01 00:00:00.0
开本	16开
装帧	平装
页数	428
字数	693
版次	1
印次	1
纸张	一般胶版纸

商品评论

暂无商品评论信息 [发表商品评论]

商品咨询

暂无商品咨询信息 [发表商品咨询]