文本机器学习

编号:: wx1202070814

销售价:: ￥113.52; (市场价: ~~￥129.00~~)

赠送积分:: 114

数量:: 件

商品介绍
商品参数
商品评论
商品咨询

商品介绍

不可不读的文本学习经典著作！清华大学计算机系副主任、长聘教授唐杰，百度研究院副院长、美国罗格斯-新泽西州立大学教授熊辉，微众银行首席人工智能官、香港科技大学讲席教授杨强，美国伊利诺伊大学芝加哥分校杰出教授、Wexler信息技术主席俞士纶，联袂推荐！作者为IBM T. J. Watson研究中心杰出研究员、MIT博士，SIAM、ACM和IEEE Fellow；本书详解了文本学习的基本流程、相关算法、实际应用和评估方式等方面知识。

《文本机器学习》系统性地介绍了多个经典的和前沿的机器学习技术及其在文本域中的应用。首先，详细介绍了面向文本数据的预处理技术和经典的机器学习技术（如矩阵分解与主题建模、聚类与分类/回归等），并深入探讨了模型的原理和内在联系以及相应的性能评估；其次，详细介绍了结合异构数据的文本学习技术（如知识共享与迁移学习等），以及面向信息检索与排序的索引和评分等技术；末尾，详细介绍了一些文本应用相关的重要技术，包括序列建模与深度学习、文本摘要与信息提取、意见挖掘与情感分析、文本分割与事件检测等。本书从技术原理到实际应用，综合梳理了文本机器学习的多个技术，深入分析了模型的优缺点和内在联系，并在每章结束时提供了详细的参考资料、软件资源和习题。《文本机器学习》不仅可以作为工具书供具有相关背景的专业人士使用，也可以作为教材帮助具有线性代数和概率论基础的初学者入门。

Charu C. Aggarwal是一名供职于纽约约克镇高地的IBM T. J. Watson研究中心的杰出研究员，他于1993年在坎普尔的印度理工学院获得计算机科学学士学位，并于1996年获得麻省理工学院的博士学位。他在靠前会议和期刊上发表了350多篇论文，并获得了80多项。同时，他还以作者或参编者的身份出版了17本著作，包括数据挖掘、推荐系统和异常值分析方面的教材。他曾三次因的商业价值被IBM授予发明大师的荣誉。他曾获得多项内部和外部奖项，包括EDBT的时间考验奖（2014年）和IEEE ICDM研究贡献奖（2015年）。他还担任数据挖掘领域许多主要会议的程序主席或总主席，同时他还是ACM Transactions on Knowledge Discovery from Data的主编。由于在知识发现和数据挖掘算法方面的贡献，他被授予SIAM、ACM和IEEE的会士（Fellow）荣誉。黎琳，女，1995年3月生，深圳大学计算机与软件学院研究生，多次获得学业奖励。主要研究方向为推荐系统、机器学习和深度学习，在知名靠前研讨会IFUP发表作者科研论文一篇，合作撰写多篇科研论文，并于知名靠前会议RecSys以及知名靠前期刊Neurocomputing发表，参与国家自然科学基金面上项目等科研项目。潘微科，男，1982年3月生，博士，副教授，硕士生导师。主讲《信息检索》等课程，多次获本科教学奖。主要研究方向为迁移学习和推荐系统，发表多篇科研论文，获SDM 2013很好论文提名奖和ACM TiiS 2016很好论文奖，主持国家自然科学基金面上项目等多个科研项目，担任知名靠前期刊的编委、客座编委和杰出审稿人。明仲，男，1967年8月生，博士，教授，博导，深圳大学计算机与软件学院院长，大数据系统计算技术国家工程实验室执行主任，深圳市很好教师。主讲《软件工程》等课程，多次获广东省很好教学成果奖。主要研究方向为人工智能、软件工程和推荐系统，发表多篇科研论文，获2013年度广东省科学技术奖一等奖，主持国家自然科学基金重点项目等多个科研项目，参与组织多个学术会议。

译者序原书前言致谢章文本机器学习导论11.1导论11.1.1本章内容组织结构21.2文本学习有何特别之处31.3文本分析模型41.3.1文本预处理和相似度计算41.3.2降维与矩阵分解61.3.3文本聚类61.3.4文本分类与回归建模81.3.5结合文本与异构数据的联合分析101.3.6信息检索与网页搜索111.3.7序列语言建模与嵌入111.3.8文本摘要111.3.9信息提取111.3.10意见挖掘与情感分析121.3.11文本分割与事件检测121.4本章小结121.5参考资料131.5.1软件资源131.6习题13第2章文本预处理与相似度计算152.1导论152.1.1本章内容组织结构162.2原始文本提取与词条化162.2.1文本提取中与网页相关的问题182.3从词条中提取词项192.3.1停用词移除192.3.2连字符192.3.3大小写转换202.3.4基于用法的合并202.3.5词干提取212.4向量空间表示与归一化212.5文本中的相似度计算232.5.1idf归一化和词干提取是否总是有用252.6本章小结262.7参考资料262.7.1软件资源262.8习题27第3章矩阵分解与主题建模283.1导论283.1.1本章内容组织结构303.1.2将二分解归一化为标准的三分解303.2奇异值分解（SVD)313.2.1SVD的例子333.2.2实现SVD的幂迭代法353.2.3SVD/LSA的应用353.2.4SVD/LSA的优缺点363.3非负矩阵分解363.3.1非负矩阵分解的可解释性383.3.2非负矩阵分解的例子393.3.3融入新文档403.3.4非负矩阵分解的优缺点413.4概率潜在语义分析（PLSA）413.4.1与非负矩阵分解的联系443.4.2与SVD的比较443.4.3PLSA的例子453.4.4PLSA的优缺点453.5隐含狄利克雷分布（LDA）概览463.5.1简化的LDA模型463.5.2平滑的LDA模型493.6非线性变换和特征工程503.6.1选择一个相似度函数523.6.2Nystrom估计583.6.3相似度矩阵的部分可用性603.7本章小结613.8参考资料623.8.1软件资源623.9习题63第4章文本聚类654.1导论654.1.1本章内容组织结构664.2特征选择与特征工程664.2.1特征选择674.2.2特征工程684.3主题建模和矩阵分解704.3.1混合隶属度模型与重叠簇704.3.2非重叠簇与双聚类：矩阵分解的角度704.4面向聚类的生成混合模型744.4.1伯努利模型754.4.2多项式模型764.4.3与混合隶属度主题模型的比较774.4.4与朴素贝叶斯分类模型的联系774.5k均值算法784.5.1收敛与初始化804.5.2计算复杂度804.5.3与概率模型的联系814.6层次聚类算法814.6.1高效实现与计算复杂度834.6.2与k均值的自然联姻844.7聚类集成854.7.1选择集成分量864.7.2混合来自不同分量的结果864.8将文本当作序列来进行聚类874.8.1面向聚类的核方法874.8.2数据相关的核方法：谱聚类904.9聚类到有监督学习的转换914.9.1实际问题924.10聚类评估934.10.1内部有效性度量的缺陷934.10.2外部有效性度量934.11本章小结974.12参考资料974.12.1软件资源984.13习题98第5章文本分类：基本模型1005.1导论1005.1.1标记的类型与回归建模1015.1.2训练与测试1025.1.3归纳、直推和演绎学习器1025.1.4基本模型1035.1.5分类器中与文本相关的挑战1035.2特征选择与特征工程1045.2.1基尼系数1045.2.2条件熵1055.2.3逐点互信息1055.2.4紧密相关的度量方式1065.2.5χ2-统计量1065.2.6嵌入式特征选择模型1085.2.7特征工程技巧1085.3朴素贝叶斯模型1095.3.1伯努利模型1095.3.2多项式模型1115.3.3实际观察1135.3.4利用朴素贝叶斯对输出进行排序1135.3.5朴素贝叶斯的例子1135.3.6半监督朴素贝叶斯1165.4最近邻分类器1185.4.11-最近邻分类器的属性1195.4.2Rocchio与最近质心分类1215.4.3加权最近邻1225.4.4自适应最近邻：一系列有效的方法1245.5决策树与随机森林1265.5.1构造决策树的基本步骤1265.5.2分裂一个节点1275.5.3多变量分裂1285.5.4决策树在文本分类中的问题1295.5.5随机森林1295.5.6把随机森林看作自适应最近邻方法1305.6基于规则的分类器1315.6.1顺序覆盖算法1315.6.2从决策树中生成规则1335.6.3关联分类器1345.6.4预测1355.7本章小结1355.8参考资料1355.8.1软件资源1375.9习题137第6章面向文本的线性分类与回归1406.1导论1406.1.1线性模型的几何解释1416.1.2我们需要偏置变量吗1426.1.3使用正则化的线性模型的一般定义1436.1.4将二值预测推广到多类1446.1.5面向文本的线性模型的特点1456.2最小二乘回归与分类1456.2.1使用L2正则化的最小二乘回归1456.2.2LASSO:使用L1正则化的最小二乘回归1486.2.3Fisher线性判别与最小二乘分类器1506.3支持向量机(SVM)1566.3.1正则优化解释1566.3.2优选间隔解释1576.3.3Pegasos：在原始空间中求解SVM 1596.3.4对偶SVM优化形式1606.3.5对偶SVM的学习算法1626.3.6对偶SVM的自适应最近邻解释1636.4对数几率回归1656.4.1正则优化解释1656.4.2对数几率回归的训练算法1666.4.3对数几率回归的概率解释1676.4.4多元对数几率回归与其他推广

这本著作讨论了当今社交媒体中使用的很多关键技术，如意见挖掘和事件检测，还讨论了极具发展前景的其中一个技术——深度学习。对于想要精通文本挖掘的程序员和研究生来说，这是一个很好好的资源……总的来说，推荐研究生、研究人员和专业人士阅读此书。 J.Brzezinski，《Choice杂志》

商品参数

基本信息
出版社	机械工业出版社
ISBN	9787111648055
条码	9787111648055
编者	[美]查鲁·C.阿加沃尔（CharuC.Aggarwal）
译者
出版年月	2020-05-01 00:00:00.0
开本	16开
装帧	平装
页数	456
字数	689
版次	1
印次	1
纸张

商品评论

暂无商品评论信息 [发表商品评论]

商品咨询

暂无商品咨询信息 [发表商品咨询]