热门搜索: 中考 高考 考试 开卷17
服务电话 024-23945002/96192
 

AI辅助数据质量监控

编号:
wx1203644416
销售价:
¥69.52
(市场价: ¥79.00)
赠送积分:
70
数量:
   
商品介绍

当ChatGPT因数据噪声输出误导结论,当企业仪表盘数字遭高管质疑——本书正是根治数据信任危机的'手术刀'。译者团队深谙国内数据痛点,将硅谷前沿技术本土化:

技术深度:独创'数据质量四大支柱'框架,详解无监督学习模型调优

行业温度:Discover金融、BuzzFeed等案例验证千倍ROI

人文洞察:以姥鲨隐喻'微小数据缺陷的致命影响',唤醒质量敬畏

数据工程师告别'救火',决策者远离直觉依赖——这或是企业智能化转型中最关键的一本书!

本书主要介绍了如何确保企业所依赖的数据的质量。书中详细阐述了自动化数据质量监控的重要性,并提供了实用的方法,帮助企业高效地覆盖所有数据表,主动发现数据问题,并立即解决。作者们解释了如何构建无监督机器学习模型来检测数据问题,以及如何实施通知机制以减少警报疲劳,并迅速分类和解决这些问题。此外,本书还探讨了如何将自动化数据质量监控与数据目录、BI和ML系统集成,以克服自动化监控的局限性,并在大规模环境中部署和管理监控解决方案。这本书是数据质量领域的实用指南,为企业提供了确保数据质量的有效策略和方法。

目录<br />序1<br />前言3<br />第1章 数据质量监控势在必行9<br />1.1 高质量的数据是新时代的黄金11<br />1.1.1 数据驱动型公司是当今的颠覆者11<br />1.1.2 数据分析的普及12<br />1.1.3 人工智能和机器学习是竞争优势之源13<br />1.1.4 公司正在投资现代数据栈14<br />1.2 数据越多,问题越多 15<br />1.2.1 数据工厂中的问题 15<br />1.2.2 数据迁移17<br />1.2.3 第三方数据源18<br />1.2.4 公司的成长与变化19<br />1.2.5 外界因素21<br />1.3 为什么我们需要数据质量监控23<br />1.3.1 数据疤痕24<br />1.3.2 数据冲击25<br />1.4 自动化数据质量监控:一个全新的领域26<br />第2章 数据质量监控策略与自动化的角色28<br />2.1 监控需求28<br />2.2 数据可观测性:必要但不充分30<br />2.3 传统的数据质量监控方法32<br />2.3.1 人工数据质量检测32<br />2.3.2 基于规则的测试34<br />2.3.3 指标监控39<br />2.4 使用无监督机器学习实现自动化数据质量监控41<br />2.4.1 什么是无监督机器学习42<br />2.4.2 类比:车道偏离警告45<br />2.4.3 自动化的局限性46<br />2.5 数据质量监控的四大支柱方法49<br />第3章 对自动化数据质量监控的商业影响进行评估52<br />3.1 对数据进行评估53<br />3.1.1 数量53<br />3.1.2 种类54<br />3.1.3 速度59<br />3.1.4 真实性60<br />3.1.5 特殊情况61<br />3.2 评估你的行业61<br />3.2.1 监管压力62<br />3.2.2 人工智能/机器学习的风险63<br />3.2.3 数据即产品66<br />3.3 评估你的数据成熟度67<br />3.4 评估对利益相关方的好处69<br />3.4.1 工程师69<br />3.4.2 数据团队领导者70<br />3.4.3 科学家72<br />3.4.4 消费者72<br />3.5 进行投资回报率分析72<br />3.5.1 定量指标73<br />3.5.2 定性指标74<br />3.6 总结77<br />第4章 利用机器学习使数据质量监控自动化78<br />4.1 要求78<br />4.1.1 敏感性79<br />4.1.2 特异性79<br />4.1.3 透明度80<br />4.1.4 可扩展性80<br />4.1.5 非必要需求80<br />4.1.6 数据质量监控不等同于异常检测81<br />4.2 机器学习方法和算法82<br />4.2.1 数据抽样84<br />4.2.2 特征编码89<br />4.2.3 模型开发91<br />4.2.4 模型可解释性95<br />4.3 整体思路的伪代码实现99<br />4.4 其他应用101<br />4.5 总结103<br />第5章 构建一个适用于真实数据的模型105<br />5.1 数据挑战及应对措施105<br />5.1.1 季节性105<br />5.1.2 基于时间的特征106<br />5.1.3 混乱程度107<br />5.1.4 就地更新表格108<br />5.1.5 列之间的相关性111<br />5.2 模型测试112<br />5.2.1 引入合成异常113<br />5.2.2 基准测试117<br />5.2.3 模型改进124<br />5.3 总结125<br />第6章 实施警报机制同时避免警报疲劳126<br />6.1 如何通过通知促进数据问题响应126<br />6.1.1 分类处理127<br />6.1.2 路由127<br />6.1.3 解决方案128<br />6.1.4 文档记录128<br />6.2 在没有通知的情况下采取行动128<br />6.3 一个通知的解析129<br />6.3.1 可视化130<br />6.3.2 操作131<br />6.3.3 文本描述132<br />6.3.4 检查的创建者/最后编辑者133<br />6.4 发送通知133<br />6.4.1 通知的受众133<br />6.4.2 通知的渠道135<br />6.4.3 通知的时机137<br />6.5 避免警报疲劳137<br />6.5.1 合理安排检查顺序138<br />6.5.2 使用机器学习对警报进行聚类138<br />6.5.3 抑制通知140<br />6.6 自动化根因分析144<br />6.7 总结146<br />第7章 集成监控与数据工具和系统148<br />7.1 监控数据堆栈149<br />7.2 数据仓库150<br />7.2.1 与数据仓库集成150<br />7.2.2 安全性154<br />7.2.3 多仓库之间的数据协调 155<br />7.3 数据编排器156<br />7.4 数据目录160<br />7.5 数据使用者163<br />7.5.1 BI和分析工具163<br />7.5.2 MLOps164<br />7.6 总结166<br />第8章 大规模运营解决方案167<br />8.1 自建还是购买167<br />8.2 配置171<br />8.2.1 确定最重要的表格171<br />8.2.2 决定监控表格中的哪些数据172<br />8.2.3 大规模配置173<br />8.3 启用173<br />8.3.1 用户角色和权限173<br />8.3.2 培训、支持与推广174<br />8.4 持续改善数据质量175<br />8.4.1 数据健康计划176<br />8.4.2 衡量指标176<br />8.5 从混乱到清晰178<br />附录 数据质量问题的类型180

商品参数
基本信息
出版社 机械工业出版社
ISBN 9787111780250
条码 9787111780250
编者 [美]杰里米·斯坦利(Jeremy Stanley),[美]佩奇·施瓦茨(Paige Schwartz) 著
译者
出版年月 2025-06-01 00:00:00.0
开本 16开
装帧 平装
页数 204
字数 227
版次 1
印次 1
纸张
商品评论

暂无商品评论信息 [发表商品评论]

商品咨询

暂无商品咨询信息 [发表商品咨询]