暂无商品咨询信息 [发表商品咨询]
数据科学实用入门指南,涵盖核心技能与丰富实用案例,助你应对常见商业挑战。
包含探索性数据分析、A/B 测试、逻辑回归模型、机器学习算法等多方面内容。
通过优化共享单车运营、构建推荐系统等案例,传授数据驱动解决方案,支持商业决策。
只需具备 Python 基础知识和高中数学知识,即可轻松阅读并应用数据科学。
本书通过对数据科学技术基本技能和丰富实用的示例的介绍,展示如何获取、分析和可视化数据,利用数据应对常见的业务挑战。通过优化共享单车公司的业务运营、从网站上提取数据并创建推荐系统等示例,你将学会如何找到数据驱动的解决方案并使用这些方案做出商业决策。本书所涵盖的内容包括进行探索性数据分析、运行 A/B 测试、使用逻辑回归模型进行二分类及使用机器学习算法等。通过本书,你还将学习如何预测客户需求、优化营销活动、减少客户流失、预测网站流量,以及构建推荐系统等。
布拉德福德·塔克菲尔德(Bradford Tuckfield)是一名数据科学顾问兼作家,拥有宾夕法尼亚大学沃顿商学院的博士学位,以及杨百翰大学的数学学士学位。他曾在知名金融公司和初创企业担任数据科学家和技术经理。他著有 Dive Into Algorithms和 Applied Unsupervised Learning with R,还在多家学术期刊发表过研究成果。
1 探索性数据分析 1
1.1 作为 CEO 的第 一天 1
1.1.1 找出数据中的规律 2
1.1.2 使用.csv 文件查看和存储数据 . 4
1.2 用 Python 显示数据 4
1.3 计算汇总统计信息 6
1.4 分析数据子集 8
1.4.1 夜间数据 8
1.4.2 季节性数据 9
1.5 使用 Matplotlib 进行数据可视化 10
1.5.1 绘制并显示一个简单的图表 10
1.5.2 为图表添加标题和标签 11
1.5.3 绘制数据子集图表 12
1.5.4 测试不同绘图类型 13
1.6 探索相关性 18
1.6.1 计算相关系数 18
1.6.2 理解强相关性和弱相关性 18
1.6.3 寻找变量之间的相关性 21
1.7 创建热力图 22
1.8 进一步探索 24
1.9 本章小结 24
2 预测 25
2.1 预测客户需求 25
2.2 清洗错误数据 26
2.3 使用数据绘图从而发现趋势 28
2.4 执行线性回归 29
2.4.1 将代数应用于回归线 30
2.4.2 计算误差测量 32
2.5 使用回归预测未来趋势 35
2.6 尝试更多的回归模型 36
2.6.1 通过多变量线性回归对销售量进行预测 36
2.6.2 用三角函数捕捉变化 38
2.7 选择用于预测的最佳回归模型 41
2.8 进一步探索 44
2.9 本章小结 45
3 分组比较 46
3.1 读取总体数据 46
3.1.1 汇总统计信息 47
3.1.2 随机采样 48
3.1.3 样本数据之间的差异 50
3.2 进行假设检验 53
3.2.1 t 检验 53
3.2.2 假设检验的细微差别 55
3.3 在实际环境中进行组间比较 56
3.4 本章小结 59
4 A/B 测试 60
4.1 实验的必要性 60
4.2 运行实验来检验新的假设 61
4.2.1 理解 A/B 测试的数学原理 64
4.2.2 将数学转化为实践 65
4.3 优化冠军/挑战者框架 66
4.4 用泰曼定律和 A/A 测试预防错误 67
4.5 理解效应值 69
4.6 计算数据的显著性 70
4.7 应用及注意事项 72
4.8 A/B 测试的伦理问题 73
4.9 本章小结 74
5 二分类算法 75
5.1 减少客户流失 75
5.2 利用线性概率模型发现高流失风险客户 76
5.2.1 绘制流失情况数据图表 77
5.2.2 用线性回归确定关系 78
5.2.3 预测未来 80
5.2.4 提出业务建议 81
5.2.5 测量预测准确性 82
5.2.6 使用多变量线性概率模型 84
5.2.7 创建新指标 85
5.2.8 线性概率模型的缺点 87
5.3 用逻辑回归预测二分类结果 87
5.3.1 绘制逻辑曲线 88
5.3.2 逻辑回归 89
5.4 二分类的应用 91
5.5 本章小结 91
6 监督学习 92
6.1 预测网站流量 92
6.2 读取并绘制文章数据 93
6.3 使用线性回归作为预测方法 95
6.4 理解监督学习 96
6.5 k 近邻 98
6.5.1 使用 kNN 99
6.5.2 使用 Python 的 sklearn 执行kNN 100
6.6 使用其他监督学习算法 101
6.6.1 决策树 102
6.6.2 随机森林 104
6.6.3 神经网络 104
6.7 测量预测准确性的指标 106
6.8 使用多变量模型 108
6.9 使用分类代替回归 108
6.10 本章小结 110
7 无监督学习 111
7.1 无监督学习与监督学习 111
7.2 生成和探索数据 112
7.2.1 掷色子 112
7.2.2 使用另一种色子 115
7.3 聚类观测的来源 117
7.4 实际业务中的聚类 120
7.5 分析多维数据 121
7.6 EM 聚类 123
7.6.1 “猜测”步骤 124
7.6.2 “期望”步骤 125
7.6.3 “最大化”步骤 127
7.6.4 “收敛”步骤 129
7.7 其他聚类方法 131
7.8 其他无监督学习方法 133
7.9 本章小结 134
8 网络爬取 135
8.1 理解网站是如何运行的 135
8.2 创建第 一个网页爬虫 137
8.3 解析 HTML 代码 138
8.3.1 爬取电子邮件地址 138
8.3.2 直接搜索地址 139
8.4 使用正则表达式执行搜索 140
8.4.1 使用元字符进行灵活的搜索 142
8.4.2 使用转义序列对搜索进行微调 142
8.4.3 结合文本和元字符进行高级搜索 144
8.5 使用正则表达式搜索电子邮件地址 145
8.6 将爬取的结果转换为可用数据 145
8.7 使用 Beautiful Soup 147
8.7.1 解析 HTML 标签元素 148
8.7.2 爬取和解析 HTML 表格 149
8.8 高级爬取 150
8.9 本章小结 151
9 推荐系统 152
9.1 基于人气的推荐 152
9.2 基于商品的协同过滤 154
9.2.1 量化向量相似性 155
9.2.2 计算余弦相似度 157
9.2.3 实现基于商品的协同过滤 158
9.3 基于用户的协同过滤 159
9.4 案例研究:音乐推荐 162
9.5 用高级系统生成推荐 163
9.6 本章小结 164
10 自然语言处理 . 165
10.1 使用 NLP 技术检测抄袭 165
10.2 理解 word2vec NLP 模型 166
10.2.1 量化单词之间的相 似性 167
10.2.2 创建一个方程组 168
10.3 word2vec 中的数值向量分析 172
10.3.1 通过数学运算来操作向量 174
10.3.2 使用 word2vec 检测抄袭 175
10.4 使用 skip-thoughts 176
10.5 主题建模 178
10.6 其他 NLP 应用 180
10.7 本章小结 180
11 其他语言中的数据科学 181
11.1 用 SQL 赢得足球比赛 181
11.1.1 读取和分析数据 182
11.1.2 熟悉 SQL 183
11.1.3 设置 SQL 数据库 183
11.1.4 运行 SQL 查询 184
11.1.5 使用连接从多张表取得数据 186
11.2 用 R 赢得足球比赛 189
11.2.1 熟悉 R 189
11.2.2 在 R 中使用线性回归 190
11.2.3 使用 R 对数据进行 绘图 191
11.3 获得其他有价值的技能 193
11.4 本章小结 194
基本信息 | |
---|---|
出版社 | 人民邮电出版社 |
ISBN | 9787115636225 |
条码 | 9787115636225 |
编者 | [美]布拉德福德·塔克菲尔德(Bradford Tuckfield) 著 殷海英 译 |
译者 | |
出版年月 | 2025-06-01 00:00:00.0 |
开本 | 16开 |
装帧 | 平装 |
页数 | 194 |
字数 | -1 |
版次 | 1 |
印次 | 1 |
纸张 |
暂无商品评论信息 [发表商品评论]
暂无商品咨询信息 [发表商品咨询]