信息科学技术学院.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《信息科学技术学院.ppt》由会员分享,可在线阅读,更多相关《信息科学技术学院.ppt(35页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Text Clustering IText Clustering IWang Wang JiminJiminNov 11,2005 Nov 11,2005 信息科学技术学院信息科学技术学院 网络研究所网络研究所Outlineoo 引言引言oo文本间距离与文本类间的距离文本间距离与文本类间的距离 oo聚类方法聚类方法n n层次方法层次方法层次方法层次方法n n划分方法划分方法划分方法划分方法 oo聚类结果的评价聚类结果的评价ooOn-line clustering On-line clustering ooVisualization via embeddingVisualization via
2、embedding信息科学技术学院信息科学技术学院 网络研究所网络研究所引言oo聚聚类类是是对对数数据据对对象象进进行行划划分分的的一一种种过过程程,与与分分类类不不同同的的是是,它它所所划划分分的的类类是是未未知知的的,故故此此,这这 是是 一一 个个“无无 指指 导导 的的 学学 习习”(unsupervisedunsupervisedlearninglearning)过过程程,即即聚聚类类算算法法不不需需要要“教教师师”的的指指导导,不不需需要要提提供供训训练练数数据据,它它倾倾向向于于数数据据的自然划分。的自然划分。oo文文本本聚聚类类(TextTextclusteringcluste
3、ring):将将文文本本集集合合分分组组成成多多个个类类或或簇簇,使使得得在在同同一一个个簇簇中中的的文文本本内内容容具具有有较较高高的的相相似似度度,而而不不同同簇簇中中的的文文本本内内容容差差别别较较大大。它它是是聚聚类类分分析析技技术术在在文文本本处处理理领领域域的的一种应用。一种应用。信息科学技术学院信息科学技术学院 网络研究所网络研究所引言oo在在IRIR中中的的应应用用:早早期期主主要要是是为为了了提提高高系系统统的的查查准准率率与查全率,并被用于寻找给定文本的相近文本。与查全率,并被用于寻找给定文本的相近文本。oo目目前前主主要要用用于于浏浏览览文文本本、显显示示文文本本集集合合
4、、组组织织搜搜索索引引擎擎的的返返回回结结果果,如如VivisimoVivisimo的的结结果果聚聚类类,这这有有利利于于用户快速定位自己需要的信息。用户快速定位自己需要的信息。oo其其他他应应用用:如如帮帮助助市市场场分分析析人人员员从从客客户户信信息息中中发发现现不不同同的的用用户户群群,并并且且用用购购买买模模式式来来刻刻画画不不同同的的用用户户群的特征。群的特征。oo文文本本聚聚类类的的主主要要方方法法:基基于于划划分分的的、层层次次的的、自自组组织织特征映射、遗传算法等。特征映射、遗传算法等。信息科学技术学院信息科学技术学院 网络研究所网络研究所Requirements of Clu
5、steringRequirements of ClusteringooScalabilityScalabilityooAbility to deal with different types of attributesAbility to deal with different types of attributesooDiscovery of clusters with arbitrary shapeDiscovery of clusters with arbitrary shapeooMinimal requirements for domain knowledge to determin
6、e input Minimal requirements for domain knowledge to determine input parametersparametersooAble to deal with noise and outliersAble to deal with noise and outliersooInsensitive to order of input recordsInsensitive to order of input recordsooHigh dimensionalityHigh dimensionalityooIncorporation of us
7、er-specified constraintsIncorporation of user-specified constraintsooInterpretability and usabilityInterpretability and usability信息科学技术学院信息科学技术学院 网络研究所网络研究所Text clusteringText clusteringooTwo example:nVivisimo SE http:/www.VnMicrosoft Research Asia a group on search and mining信息科学技术学院信息科学技术学院 网络研究所网
8、络研究所Vivisimo Vivisimo SESE信息科学技术学院信息科学技术学院 网络研究所网络研究所Vivisimo Vivisimo SE SE信息科学技术学院信息科学技术学院 网络研究所网络研究所Microsoft Research Asia信息科学技术学院信息科学技术学院 网络研究所网络研究所Microsoft Research Asia信息科学技术学院信息科学技术学院 网络研究所网络研究所文本间距离与文本类间的距离文本间距离与文本类间的距离 oo为了度量文本间的接近或相似程度,需要定义一些用于划分类别的计量指标。oo常用的统计指标有距离和相似系数。“距离”属于相异性测度指标,“相
9、似系数”属于相似性测度指标。oo距 离 和 相 似 系 数 成 反 比,如sim(i,j)=1/(1+dij)。信息科学技术学院信息科学技术学院 网络研究所网络研究所文本间的距离文本间的距离 信息科学技术学院信息科学技术学院 网络研究所网络研究所文本间的距离文本间的距离信息科学技术学院信息科学技术学院 网络研究所网络研究所文本间的距离文本间的距离信息科学技术学院信息科学技术学院 网络研究所网络研究所文本间的相似系数文本间的相似系数 oo对于有n个特征属性的文档集合来说,m个文档可以看作n维空间中的m个向量。oo为此,我们可以用相似系数来度量它们之间的相近程度,用sim(i,j)表示第i个向量与
10、第j个向量之间的相似系数,则我们有:信息科学技术学院信息科学技术学院 网络研究所网络研究所几种常见的文本间相似系数几种常见的文本间相似系数 信息科学技术学院信息科学技术学院 网络研究所网络研究所文本类间的距离文本类间的距离 为了度量两个文本类间的关联或相似程度,在实际应用中有多种定义形式。为了度量两个文本类间的关联或相似程度,在实际应用中有多种定义形式。为了度量两个文本类间的关联或相似程度,在实际应用中有多种定义形式。为了度量两个文本类间的关联或相似程度,在实际应用中有多种定义形式。信息科学技术学院信息科学技术学院 网络研究所网络研究所文本类间的距离文本类间的距离信息科学技术学院信息科学技术学
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息科学 技术学院
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内