基于文本的聚类算法研究毕业论文.doc
《基于文本的聚类算法研究毕业论文.doc》由会员分享,可在线阅读,更多相关《基于文本的聚类算法研究毕业论文.doc(39页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、摘 要聚类作为一种知识发现的重要方法,它广泛地与中文信息处理技术相结合,应用于网络信息处理中以满足用户快捷地从互联网获得自己需要的信息资源。文本聚类是聚类问题在文本挖掘中的有效应用,它根据文本数据的不同特征,按照文本间的相似性,将其分为不同的文本簇。其目的是要使同一类别的文本间的相似度尽可能大,而不同类别的文本间的相似度尽可能的小。整个聚类过程无需指导,事先对数据结构未知,是一种典型的无监督分类。本文首先介绍了文本聚类的相关的技术,包括文本聚类的过程,文本表示模型,相似度计算与常见聚类算法。本文主要研究的聚类主要方法是k-均值和SOM算法,介绍了两种算法的基本思想和实现步骤,并分析两种算法的聚
2、类效果。同时介绍了两种算法的改进算法。关键词:文本聚类 聚类方法 K-MEAN SOM10 / 39AbstractClustering as an important knowledge discovery method, which extensively with Chinese information processing technology, used in network information processing to meet the users to quickly access from the Internet, the information resources t
3、hey need. Text clustering is a clustering problem in the effective application of text mining, which according to the different characteristics of text data, according to the similarity between the text, the text will be divided into different clusters. The aim is to make the same class as large as
4、possible the similarity between the text, and different types of text as small as possible the similarity between. The clustering process without guidance, prior to the data structure is unknown, is a typical unsupervised classification.This paper studies the effect of influencing factors that text
5、clustering, text representation of the model such as the Boolean model, vector space model, probabilistic retrieval model and language model. Also studied the analysis of such text clustering algorithm: hierarchical clustering, agglomerative hierarchical clustering algorithm, hierarchical clustering
6、 algorithm to split and so on. Also studied the text clustering algorithm analysis and methods of improvement.Key words:Text clusteringclustering method k-mean som毕业设计(论文)原创性声明和使用授权说明原创性声明本人重承诺:所呈交的毕业设计(论文),是我个人在指导教师的指导下进行的研究工作与取得的成果。尽我所知,除文中特别加以标注和致的地方外,不包含其他人或组织已经发表或公布过的研究成果,也不包含我为获得与其它教育机构的学位或学历而
7、使用过的材料。对本研究提供过帮助和做出过贡献的个人或集体,均已在文中作了明确的说明并表示了意。作 者 签 名:日 期:指导教师签名: 日期:使用授权说明本人完全了解大学关于收集、保存、使用毕业设计(论文)的规定,即:按照学校要求提交毕业设计(论文)的印刷本和电子版本;学校有权保存毕业设计(论文)的印刷本和电子版,并提供目录检索与阅览服务;学校可以采用影印、缩印、数字化或其它复制手段保存论文;在不以赢利为目的前提下,学校可以公布论文的部分或全部容。作者签名: 日 期:学位论文原创性声明本人重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的容外,本论文
8、不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。作者签名: 日期: 年 月 日学位论文使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权大学可以将本学位论文的全部或部分容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。涉密论文按学校规定处理。作者签名:日期: 年 月 日导师签名: 日期: 年 月 日指导教师评阅书指导教师评价:一、撰写(设计)过程1、学
9、生在论文(设计)过程中的治学态度、工作精神 优 良 中 与格 不与格2、学生掌握专业知识、技能的扎实程度 优 良 中 与格 不与格3、学生综合运用所学知识和专业技能分析和解决问题的能力 优 良 中 与格 不与格4、研究方法的科学性;技术线路的可行性;设计方案的合理性 优 良 中 与格 不与格5、完成毕业论文(设计)期间的出勤情况 优 良 中 与格 不与格二、论文(设计)质量1、论文(设计)的整体结构是否符合撰写规? 优 良 中 与格 不与格2、是否完成指定的论文(设计)任务(包括装订与附件)? 优 良 中 与格 不与格三、论文(设计)水平1、论文(设计)的理论意义或对解决实际问题的指导意义 优
10、 良 中 与格 不与格2、论文的观念是否有新意?设计是否有创意? 优 良 中 与格 不与格3、论文(设计说明书)所体现的整体水平 优 良 中 与格 不与格建议成绩:优 良 中 与格 不与格(在所选等级前的画“”)指导教师: (签名) 单位: (盖章)年 月 日评阅教师评阅书评阅教师评价:一、论文(设计)质量1、论文(设计)的整体结构是否符合撰写规? 优 良 中 与格 不与格2、是否完成指定的论文(设计)任务(包括装订与附件)? 优 良 中 与格 不与格二、论文(设计)水平1、论文(设计)的理论意义或对解决实际问题的指导意义 优 良 中 与格 不与格2、论文的观念是否有新意?设计是否有创意? 优
11、 良 中 与格 不与格3、论文(设计说明书)所体现的整体水平 优 良 中 与格 不与格建议成绩:优 良 中 与格 不与格(在所选等级前的画“”)评阅教师: (签名) 单位: (盖章)年 月 日教研室(或答辩小组)与教学系意见教研室(或答辩小组)评价:一、答辩过程1、毕业论文(设计)的基本要点和见解的叙述情况 优 良 中 与格 不与格2、对答辩问题的反应、理解、表达情况 优 良 中 与格 不与格3、学生答辩过程中的精神状态 优 良 中 与格 不与格二、论文(设计)质量1、论文(设计)的整体结构是否符合撰写规? 优 良 中 与格 不与格2、是否完成指定的论文(设计)任务(包括装订与附件)? 优 良
12、 中 与格 不与格三、论文(设计)水平1、论文(设计)的理论意义或对解决实际问题的指导意义 优 良 中 与格 不与格2、论文的观念是否有新意?设计是否有创意? 优 良 中 与格 不与格3、论文(设计说明书)所体现的整体水平 优 良 中 与格 不与格评定成绩:优 良 中 与格 不与格(在所选等级前的画“”)教研室主任(或答辩小组组长): (签名)年 月 日教学系意见:系主任: (签名)年 月 日目 录摘要IVAbstractV目录VI第一章绪论11.1 课题研究的背景11.2课题研究的意义2第二章文本聚类效果影响因素32.1文本聚类过程32.2文本表示模型42.2.1布尔模型52.2.2向量空间
13、模型52.3 文本相似度计算62.4文本聚类算法82.5本章小结11第三章 k-均值聚类算法123.1 K-均值聚类算法的思想123.1.1 K-均值聚类算法的基本思想123.1.2 K-均值聚类算法的算法流程123.1.3 K-均值算法的优缺点分析133.1.4现有的对于K-均值聚类算法的改进153.1.5现有基于初始中心点改进的K-均值聚类算法163.2 本章小结17第四章 SOM聚类算法184.1 SOM聚类算法的网络特性与基本流程184.1.1 SOM网络的特性184.1.2 SOM网络聚类的基本流程194.1.3 SOM网络聚类的优点与存在的问题194.2改进的SOM聚类方法204.
14、2.1已有的学习策略改进204.2.2等离差理论在神经元获胜策略中的应用改进214.2.3初始化连接权值224.2.4已有的初始化连接权的方法224.2.5新的确定初始权值的方法234.3本章小结25参考文献26致28第一章 绪 论1.1 课题研究的背景随着Internet的迅猛发展,信息的爆炸式增加,信息超载问题变的越来越严重,信息的更新率也越来越高,用户在信息海洋里查找信息就像大海捞针一样。搜索引擎服务应运而生,在一定程度上满足了用户查找信息的需要。然而Internet的深入发展和搜索引擎日趋庞大,进一步凸现出海量信息和人们获取所需信息能力的矛盾。那么,如何从中获取特定容的信息和知识成为摆
15、在人们面前的一道难题。面对互联网时代庞杂无序的海量信息,智能高效地处理和深层次综合利用信息离不开文本挖掘技术,国际上多个国家都抓紧投入文本挖掘技术的研究,以期能对“堆积如山”的信息进行有效的过滤,开发和利用,提取发现具有指导意义的知识。文本挖掘是指从大量文本数据中抽取出事先未知的,可理解的,最终可用的信息或知识的过程,它涉与Web,计算机语言,数据挖掘,信息检索等多个领域,较大程度地解决了信息杂乱的现象,方便用户准确地定位所需的信息和信息分流。文本挖掘可以对大量文档集合的容进行总结,结构分析,分类,聚类,关联分析,分布分析以与利用文档进行趋势预测等,目前已成为一项具有较大实用价值的关键技术,是
16、组织和管理数据和知识的有力手段。聚类作为一种只是发现的重要方法,是数据挖掘中一项重要的研究课题,它广泛地与中文信息处理技术相结合,应用于网络信息处理中以满足用户快捷地从互联网获得自己需要的信息资源,文本聚类则是聚类问题在文本挖掘中的有效应用,是文本挖掘的重要容之一。文本聚类是根据文本数据的不同特征,按照事物间的相似性,将其划分为不同数据类的过程。其目的是使同一类别的文本间相似度尽可能大,而不同类别的文本间的相似度尽可能的小。在这一过程中无需指导,是一种典型的无需督分类,从而打破了在许多实际应用中由于缺少形成模式类别过程的知识,或者模式类别的形成非常困难时的挖掘局限性。随着人们对聚类问题更加深入
17、地了解和重视,国外大量学者不断投身到该项目研究,聚类主要工作集中在寻找针对大型数据库的聚类方法和世界的聚类分析方法上,使得各种成果不断涌现,各个领域的聚类分析算法层出不穷。通过聚类分析可以发现隐藏在数据集中的簇,标识出有意义的模式或分布。不同算法针对与不同规模的数据集而提出,而使用却不仅仅限于某些特定的环境。1.2课题研究的意义文本聚类分析在信息检索领域有相当长的研究历史,近年来在文本数据上的聚类分析研究和应用越来越受到关注。关于文本数据上的聚类分析研究,较早的综合性介绍可以追溯到C.J.van Rijsbergen在IR领域的经典书籍InformationRetrieval中提到的利用文本聚
18、类分析技术来提高信息检索系统的准确率,但近年来此类研究已不多见。上个世纪90年代以来,文本的聚类分析技术研究更多地集中在对大规模的文档集合的浏览上在对用户提出的查询重新组织搜索引擎的查询结果的研究中利用聚类技术重新组织文档集合,用于文档集合的浏览,这是近年来文本聚类中一个广受关注的研究点,2004年SIGIR上MSRA推出的Search Result Clustering技术代表了此类应用研究目前最新的进展。在此类研究中,主要利用K-Means或者后缀树聚类算法的变种来实现其需求。文档聚类分析算法被用于自动产生文档集合的层次结构,比如用于产生类似Yahoo!的网页分类目录结构。近年来,文档聚类
19、算法还在文档分析处理领域中一个新的应用方向话题检测与跟踪中得到了进一步研究与应用。话题检测中利用文档聚类算法从大量的文档中自动地抽取话题,应用于个性化信息服务或者情报分析。在这些应用的推动之下,文本数据上的聚类分析算法层出不穷,各说各的好处,在我们的工程实践中具体该采用哪种算法,如何设计文本聚类算法并对其进行评价都是难以解决的问题。由于算法种类众多,文本聚类算法间缺乏一个进行横向比较与分析的机制,在工程实践中对算法的选择与参数的设定都是经验性的,这对进一步开展研究以与科学地设计算法、分析算法造成了困难。因此,需要对文本聚类分析结果的质量进行评价,利用这种评价机制来指导算法设计、算法选择、算法效
20、能分析、参数优化等。有了文本聚类分析的科学评价机制,我们未来的工作就有据可依,可以更科学地选择算法,分析、设计算法。第二章 文本聚类效果影响因素2.1文本聚类过程影响文本聚类分析效果的因素是多方面的,文本聚类分析全过程中的每个步骤都有可能对聚类结果造成影响。下面通过简要描述聚类分析过程来说明对结果可能造成影响的各种因素,如图2-1所示:图2-1 聚类流程聚类分析过程分成三个步骤,通过这三个步骤可以找到影响聚类分析效果四个方面的因素。聚类流程三个步骤的实际处理容为:(1)文本聚类分析首先将文本表示成机器可计算的形式。不论是抽取文本特征形成一个向量还是抽取文本特征形成一个特殊的结构,对文本的这种机
21、器表示过程简称为文本表示。文本表示过程显然需要领域知识参与,文本中哪些因素可以构成特征,特征中哪些在聚类中可用以与如何使用是文本聚类第一步骤文本表示考察的容;(2)文本聚类分析的第二个步骤是算法。不同的算法有不同的特性,对一样的数据输入,不同的算法会产生出不同的聚类结果。聚类分析算法可以从不同的角度进行比较,比如是否产生层次聚类结构、是否需要参数、是否能够产生模糊聚类、能否识别出不规则形状的簇等等。目前在文献中出现的聚类分析算法数目众多,但在文本数据上效果孰优孰劣仍没有得到有效的研究。这个步骤中算法的时空效率、聚类结果质量是研发中选择算法的主要标准。该步骤还有一个关键因素就是对象距离(或者相似
22、度)如何定义;(3)第三个步骤是算法中参数的选择。不同的算法对参数的敏感性不同,但是基本上参数的好坏对结果的影响都比较显著。从这三个步骤可以看出影响文本聚类分析效果的因素包括四个方面:文本表示模型、距离度量方法、算法模型和参数优化。参数的设定主观性比较强,如何设定才是一个好的参数缺乏有效的方法,利用本文中实现的聚类算法包和聚类评价方法可以通过指标的变化曲线图寻找算法的最佳参数。2.2文本表示模型在实际的文本聚类分析研究,将实际文本容变成机器部表示结构的方法多种多样,可以用词、字、短语、n-Gram、显著性短语等形成向量、树等结构。在经典的研究常利用特征(Term,包括字、词、词组等)的词频信息
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 文本 算法 研究 毕业论文
限制150内