暂无商品咨询信息 [发表商品咨询]
复杂性是大数据区别于小数据的本质特性,也是当前大数据质量控制与数据治理面临的核心挑战。本书围绕大数据的复杂性开展研究,旨在探索当前数据资源建设与利用过程中面临的挑战和技术难题,促进数据价值的充分释放。
全书分为6部分,共24章。第1部分概述(第1、2章),综述所研究数据控制技术的基本概念和任务定位,以及国内外的研究进展;第2部分实体分辨技术(第3~13章),研究了高维数据实体分辨、名称分辨、XML数据实体分辨和跨模态数据实体分辨等;第3部分真值发现技术(第14~18章),研究了单真值发现、多真值发现、文本数据真值发现,以及基于多蚁群优化和基于深度神经网络的真值发现等;第4部分基于数据依赖的数据质量控制技术(第19~21章),研究了数据录入辅助预测与推理方法、不一致数据检测与修复方法,以及有限先验知识下的全局数据质量评估;第5部分系统与平台(第22、23章),介绍了数据质量控制系统,以及数据治理平台的设计与实现;第6部分结束语(第24章),归纳总结了当前面临的风险和挑战。
本书务实求新,系统性强,易读性和可操作性好,既可作为数据质量控制与数据治理领域的进阶用书,又可作为数据资源建设与利用、信息技术等相关学科领域的教学参考或工程实践指导用书。
第1部分概述
第1章绪论
1.1研究背景及意义
1.2基本概念和任务定位
1.2.1实体分辨
1.2.2高维数据实体分辨
1.2.3名称分辨
1.2.4XML数据实体分辨
1.2.5跨模态数据实体分辨
1.2.6冲突消解与真值发现
1.2.7不一致数据检测与修复
1.2.8数据录入辅助预测与修复
1.2.9数据质量评估
1.3本书内容结构安排
本章参考文献
第2章国内外研究进展
2.1引言
2.2高维数据实体分辨的研究进展
2.2.1实体分辨方法
2.2.2多目标蚁群算法
2.2.3特征选择稳定性
2.2.4不平衡数据分类方法
……
基本信息 | |
---|---|
出版社 | 清华大学出版社 |
ISBN | 9787302623342 |
条码 | 9787302623342 |
编者 | 曹建军 等 |
译者 | -- |
出版年月 | 2023-09-01 00:00:00.0 |
开本 | 16开 |
装帧 | 精装 |
页数 | 464 |
字数 | 706000 |
版次 | 1 |
印次 | 1 |
纸张 |
暂无商品评论信息 [发表商品评论]
暂无商品咨询信息 [发表商品咨询]