文本聚类的开题报告.docx
《文本聚类的开题报告.docx》由会员分享,可在线阅读,更多相关《文本聚类的开题报告.docx(8页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、文本聚类的开题报告 文档聚类可以作为多文档自动文摘等自然语言处理应用的预处理步骤,可以将重要新闻文本进行聚类处理,是一种处理文本信息的重要手段。 文本聚类开题报告 基于KMean文本聚类的探讨 摘 要 文本聚类能够把相像性大的文本聚到同一类中。K-Means常用来聚类文本,但是由于聚类中心的选取对聚类结果有影响,导致聚类不稳定,因此采纳一种基于聚类中心的改进算法分析文本,通过试验,验证算法的有效性。 中国论文网 关键词 文本聚类;k-means;相像性;度量准则 中图分类号:TP391 文献标识码:B 文章编号:1671-489X(20XX)18-0050-03 Research for Te
2、xt Clustering based on K-Mean/ZHANG Yue, LI Baoqing, HU Lingfang, MENG Li Abstract Text clustering can make the text similarity large clustered into the same class, K-Means usually is used in text clustering, because of impacting on the cluster center, which results in the clustering instability. Th
3、erefore, this paper uses a text analysis of improved algorithm based on the clustering center, through the experiment, it verifies the effectiveness of the improved algorithm. Key words text clustering; k-means; similarity; measure criterion 文本聚类是把不同的文本分别聚在不同的类别中,是文本挖掘的重要技术,它是一种无监督的学习技术,每个类中包含的文本之间具
4、有较大的相像性,不同类间的文本相像性比较小。文本聚类是数据挖掘的重要分支,它应用神经网络、机器学习等技术,能够自动地对不同文本进行分类。 在文本聚类分析中,文本特征表示一般采纳向量空间模型1,这种模型能更好表现文本。在对文本聚类的探讨中,Steinbach等人探讨了基于划分的方法和基于层次的方法在文本聚类中的适用程度2-3,得出结论:采纳K-Means算法进行聚类,不仅聚类结果较好,而且适用于数据量比较大的聚类场合。在文章中依据探讨者对K-Means的发觉,结合实际探讨,采纳一种基于K-Means的改进算法来聚类。Dhillod等人对文本聚类进行探讨发觉,采纳余弦夹角作为相像性度量比采纳欧氏距
5、离度量的结果好许多4。 1 文本聚类 文本聚类的方法许多,主要分为基于层次的方法、基于划分的方法、基于密度的方法、基于模型的方法、基于网格的方法5。在这些聚类方法中,基于划分的K-Mean是最常用也是许多改进方法的基础,文章中实行的改进方法也是基于K-Mean的。 K-Mean首先由MacQueent6提出。它能在大数据集中广泛被运用,因为算法效率较高、算法执行过程理解简单。当前进行的许多探讨都是以K-Mean为基础开展进行的,它的计算困难度低,具有与文档数量成线性关系的特性,计算效率不仅高,而且伸缩性较强,适应大数据集的实力也很强。K-Mean以k为初始聚类数,然后把n个文本分到k个聚类中,
6、这样类内的文本具有较高的相像度,不同类间的相像度较小。 K-Mean详细的算法过程如下: 1)首先给定n个数据文本,从其中任选k个文本,这k个数据文本初始地代表了k个类的数据中心; 2)对剩余的每个文本计算其到每个中心的距离,并把它归到最近的中心类中; 3)重新计算已经得到的各个类的中心,通常计算中心的准则函数采纳平方误差准则,这个准则能够使生成的结果类尽可能地独立和紧凑; 4)迭代执行其次步和第三步的动作直至新的中心与原中心相等或小于指定阈值,直到算法结束。 详细的算法流程如图1所示。 2 改进的聚类算法 虽然运用K-Mean算法进行文本聚类时,具有计算困难度低,计算效率不仅高,而且伸缩性较
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 文本 开题 报告
限制150内