实战大数据(Hadoop+Spark+Flink从平台构建到交互式数据分析离线实时)

编号:: wx1202381579

销售价:: ￥77.22; (市场价: ~~￥99.00~~)

赠送积分:: 77

数量:: 件

商品介绍
商品参数
商品评论
商品咨询

商品介绍

面向大数据开发工程师，大数据运维工程师围绕Hadoop、Spark、Flink三大主流平台，详解大数据平台的搭建及数据分析（离线/实时）随书配备全套数据集、安装包、配置文件、海量教学视频（近30GB），方便学用

《实战大数据（Hadoop+Spark+Flink）——从平台构建到交互式数据分析（离线/实时）》详细介绍了大数据工程师在实际工作中应该熟练掌握的大数据技术。全书共8章，分别是大数据技术概述、搭建IDEA开发环境及Linux虚拟机、基于Hadoop构建大数据平台、基于HBase和Kafka构建海量数据存储与交换系统、用户行为离线分析—构建日志采集和分析平台、基于Spark的用户行为实时分析、基于Flink的用户行为实时分析、用户行为数据可视化。本书以一个完整的大数据项目为主线，涵盖Hadoop、Spark、Flink等主流大数据技术，按照大数据工程师的项目开发流程，理论与实践结合，逐步推进，使读者在学习大数据核心技术的同时，也能掌握开发大数据项目的完整流程，从而获得大数据项目开发经验。《实战大数据（Hadoop+Spark+Flink）——从平台构建到交互式数据分析（离线/实时）》既可以作为大数据工程师的推荐开发手册，也可以作为高校大数据及相关专业的教材或实验手册。

杨俊，大数据架构师。大数据技术达人， Hadoop源码级技术专家，擅长Hadoop、Spark、Flink等主流大数据生态技术。具有近10年大数据开发经验，参与过10余个重量级大数据项目。曾任广电数据咨询公司大数据不错架构师，负责大数据平台架构设计与实施，并构建企业级数据仓库。畅销书《Hadoop大数据技术基础与应用》作者。51CTO知名培训讲师，拥有20余万粉丝，具有丰富的大数据技术培训经验，为数十家企业、院校开展过大数据技术课程培训。

目录前言章大数据技术概述11.1 什么是大数据11.2 大数据平台架构11.2.1 数据获取21.2.2 数据存储21.2.3 数据处理31.2.4 交互式分析31.2.5 机器学习与数据挖掘41.2.6 资源管理41.3 大数据工程师的技能树41.3.1 大数据主流开发语言51.3.2 大数据平台的构建51.3.3 大数据采集51.3.4 大数据存储与交换51.3.5 大数据离线计算51.3.6 大数据实时计算61.4 大数据项目需求分析与设计61.4.1 项目需求分析61.4.2 系统架构设计71.4.3 离线和实时计算数据流程设计81.4.4 大数据平台规划81.5 本章小结9第2章搭建IDEA开发环境及Linux虚拟机102.1 搭建IDEA开发环境102.1.1 JDK 的安装与配置102.1.2 Maven 的安装与配置122.1.3 IDEA 的安装与配置132.1.4 使用IDEA构建Maven项目172.2 搭建Linux虚拟机192.2.1 安装Linux系统192.2.2 配置Linux静态IP192.2.3 Linux主机名和IP映射202.2.4 关闭Linux防火墙202.2.5 创建Linux用户和用户组202.2.6 Linux SSH免密登录212.3 本章小结22第3章基于Hadoop构建大数据平台233.1 Zookeeper分布式协调服务233.1.1 Zookeeper架构设计及原理233.1.2 Zookeeper集群安装前的准备工作263.1.3 Zookeeper集群的安装部署293.1.4 Zookeeper shell的操作323.2 HDFS分布式文件系统343.2.1 HDFS架构设计及原理343.2.2 HDFS的高可用（HA）423.2.3 HDFS联邦机制443.3 YARN资源管理系统443.3.1 YARN架构设计及原理453.3.2 MapReduce on YARN工作流程483.3.3 YARN的容错性493.3.4 YARN的高可用（HA）493.3.5 YARN的调度器及使用503.4 Hadoop分布式集群的构建533.4.1 HDFS分布式集群的构建533.4.2 YARN分布式集群的构建583.4.3 Hadoop集群运行测试613.4.4 Hadoop集群调优623.5 MapReduce分布式计算框架643.5.1 MapReduce概述643.5.2 MapReduce编程模型673.5.3 MapReduce应用示例683.5.4 WordCount代码实现703.6 本章小结72第4章基于HBase和Kafka构建海量数据存储与交换系统734.1 构建HBase分布式实时数据库734.1.1 HBase概述734.1.2 HBase架构设计764.1.3 HBase分布式集群的构建784.1.4 HBase性能调优824.1.5 HBase新闻业务表建模864.2 搭建Kafka分布式消息系统864.2.1 Kafka概述864.2.2 Kafka架构设计874.2.3 Kafka分布式集群的构建894.2.4 Kafka集群监控924.3 本章小结94第5章用户行为离线分析——构建日志采集和分析平台955.1 搭建Flume日志采集系统955.1.1 Flume概述955.1.2 Flume架构设计965.1.3 Flume环境的搭建985.1.4 构建Flume集群1005.2 使用Flume采集用户行为数据1025.2.1 Flume与Kafka集成1025.2.2 Flume与HBase集成1045.2.3 Flume与Kafka、HBase集成1095.3 基于Hive的离线大数据分析1125.3.1 Hive概述1125.3.2 Hive架构设计1125.3.3 Hive的安装部署1175.3.4 Hive在大数据仓库中的应用1205.3.5 Hive与HBase集成1215.4 基于Hive 的用户行为数据离线分析1225.4.1 离线项目架构设计1225.4.2 用户行为离线分析1235.5 本章小结126第6章基于Spark的用户行为实时分析1276.1 Spark快速入门1276.1.1 Spark概述1276.1.2 Spark的最简安装1286.1.3 Spark实现WordCount1296.2 Spark Core的核心功能1316.2.1 Spark架构的原理1316.2.2 弹性分布式数据集RDD1326.2.3 Spark 算子1336.2.4 Pair RDD及算子1356.3 Spark分布式集群的构建1356.3.1 Spark的运行模式1356.3.2 Standalone模式集群的构建1366.3.3 Spark on YARN模式集群的构建1396.4 基于Spark Streaming的新闻项目实时分析1406.4.1 Spark Streaming概述1406.4.2 Spark Streaming的运行原理1416.4.3 Spark Streaming编程模型1426.4.4 Spark Streaming实时分析用户行为1446.5 基于Spark SQL的新闻项目离线分析1576.5.1 Spark SQL架构的原理1576.5.2 Spark SQL与Hive、MySQL、HBase集成1586.5.3 Spark SQL用户行为离线分析1626.6 基于Spark Structured Streaming 的新闻项目实时分析1676.6.1 Structured Streaming概述1676.6.2 Structured Streaming编程模型1686.6.3 基于Structured Streaming的用户行为实时分析1686.7 本章小结173第7章基于Flink的用户行为实时分析1747.1 Flink快速入门1747.1.1 Flink概述1747.1.2 Flink的最简安装1767.1.3 Flink实现WordCount1777.2 Flink分布式集群的构建1817.2.1 Flink的运行模式1817.2.2 Flink Standalone模式集群的构建1817.2.3 Flink on YARN模式集群的构建1847.3 基于Flink DataStream的新闻项目实时分析1877.3.1 Flink DataStream概述1877.3.2 Flink DataStream 编程模型1887.3.3 Flink DataStream用户行为实时

商品参数

基本信息
出版社	机械工业出版社
ISBN	9787111679660
条码	9787111679660
编者	杨俊
译者	--
出版年月	2021-05-01 00:00:00.0
开本	16开
装帧	平装
页数	236
字数	376000
版次	1
印次	1
纸张	一般胶版纸

商品评论

暂无商品评论信息 [发表商品评论]

商品咨询

暂无商品咨询信息 [发表商品咨询]