暂无商品咨询信息 [发表商品咨询]
1.技术突破:针对古籍碎片化数据,提出基于深度学习的多模态修复模型,实现破损文字智能补全与语义还原;
2.方法论革新:"三层数据转化模型",打通古籍扫描图像→结构化数据→知识图谱的全链路;
3.数据工程深度解析:详解古籍文本清洗、标注、增强等关键环节,解决训练数据匮乏难题;
4.教育增值:配套数据集+代码案例,支持高校开设"数字人文"跨学科课程,培养懂AI的文献学者与懂古籍的算法工程师
古籍数字化是一项复杂而重要的工作,它不仅有助于保护和传承中华优秀传统文化,还为学术研究和文化传播提供了强有力的支持。本书深入探讨了古籍数字化的重要性及其面临的挑战,详细介绍了古籍数据、深度学习在古籍数字化领域的应用场景及其应用潜力,并针对古籍文本数据的碎片化问题进行了深入分析。此外,书中还讨论了基于深度学习的古籍数字化过程中的数据预处理、数据标注和模型优化等问题,提出了一系列解决方案,为读者提供了可借鉴的经验和方法。
本书适合古籍保护与研究人员、图书馆和档案馆工作人员、计算机科学与技术领域的学者,以及对古籍数字化感兴趣的读者参考和使用。
王秀香,国家图书馆副研究馆员,主要研究方向为图书馆标准化研究、数字图书馆研究、文献资源保护研究等。发表论文10余篇,参编著作两部,参与1个国家标准、4个行业标准的编写,参与多个国家级、省部级科研项目,主持完成国家图书馆科研项目1项。
第 1章 绪论 / 1
1.1 古籍的定义 / 5
1.2 文字 / 14
1.3 深度学习 / 32
1.4 研究说明 / 36
第 2章 古籍数据 / 39
2.1 数据模型 / 39
2.2 数据格式 / 56
第3章 古籍文本数据碎片化 / 85
3.1 碎片数据模型 / 87
3.2 碎片数据特点 / 91
3.3 碎片数据生成 / 107
第4 章 文本分类 / 135
4.1 内容分类 / 136
4.2 题名分类 / 147
第5 章 序列标注 / 159
5.1 专名识别 / 160
5.2 句读标点 / 175
第6 章 余论 / 191
6.1 数据 / 191
6.2 模型 / 206
参考文献 / 219
附 录 / 233
附录1 古籍点校通例(中华书局编辑部1983 年编写) / 233
附录2 古籍字频统计数据 / 236
附录3 古籍传统编目项与MARC 字段对照表 / 238
附录4 古籍元数据规范(CDLS-S05-013) / 241
附录5 古籍索引数据XML Schema / 244
附录6 古籍版式文本数据头文件XML Schema / 244
附录7 古籍版式文本数据叶文件XML Schema / 245
附录8 古籍碎片数据XML Schema / 245
附录9 四部分类法类目表 / 246
基本信息 | |
---|---|
出版社 | 人民邮电出版社 |
ISBN | 9787115663160 |
条码 | 9787115663160 |
编者 | 王秀香 肖禹 著 |
译者 | -- |
出版年月 | 2025-04-01 00:00:00.0 |
开本 | 16开 |
装帧 | 平装 |
页数 | 248 |
字数 | |
版次 | 1 |
印次 | 1 |
纸张 |
暂无商品评论信息 [发表商品评论]
暂无商品咨询信息 [发表商品咨询]