一种文本分类数据挖掘的技术.doc
一种文本分类数据挖掘的技术来源:网店装修 摘要 挖掘的理论和应用研究是数据挖掘领域一个新的重要分支,本文介绍了一种文本数据挖掘方法。并给出了一个基于该方法的文本分类系统的实验结果,实验结果表明了该方法的可行性。 关键词 文本挖掘;文本分类;数据挖掘;VSM 本文首先讨论了文本挖掘技术的定义、功能、分类等问题,接着重点研究了文本分类的关键理论问题,包括分词、特征提取、特征匹配等方面,并简述了我们开发的一个简单的文本分类系统的实验情况,最后是结束语。 1文本挖掘简介 1.1 文本挖掘的定义 文本挖掘作为数据挖掘的一个新主题,引起了人们的极大兴趣,同时,它也是一个富于争议的研究方向,目前其定义尚无统一的结论,需要国内外学者开展更多的研究以便进行精确地定义。类似于我们熟知的数据挖掘定义,我们对文本挖掘作如下定义。 定义1:文本挖掘是指从大量文本数据中抽取事先未知的、可理解的、最终可用的信息或知识的过程。 直观的说,当数据挖掘的对象完全由文本这种数据类型组成时,这个过程就称为文本挖掘。文1已对Web挖掘与信息检索进行了比较研究,在此,我们不再详细讨论文本挖掘与信息检索的关系,我们认为随着文本挖掘技术研究的发展,将之应用到信息检索领域,必将能进一步提高信息检索的精度和效率。 1.2 文本挖掘的分类 文本挖掘从功能上可以分为总结、分类、聚类、趋势预测等。 文本总结是指从文档中抽取关键信息,用简洁的形式对文档内容进行摘要或解释。从而用户不需要浏览全文就可以了解文档或文档集合的总体内容。文本总结在有些场合非常有用,例如,搜索引擎在向用户返回查询结果时,通常需要给出文档的摘要。目前,绝大部分搜索引擎采用的方法是简单地截取文档的前几行。 文本分类是指按照预先定义的分类体系,将文档集合的每个文档归入某个类别。这样,用户不但能够方便浏览文档,而且可以通过限制搜索范围来使文档的查找更为容易。目前,Yahoo仍然是通过人工对Web 文档进行分类,这大大限制了其索引页面的数目和覆盖范围。可以说研究文本分类有着广泛的商业前景和应用价值。 文本聚类与分类的不同在于,聚类没有预先定义的主题类别,是一种典型的无教师的机器学习问题。 它的目标是将文档集合分成若干簇,且同一簇内的文档相似度尽可能大。聚类的结果可以用来指导分类。 文2,3介绍了利用文档进行分布分析和趋势预测的情况。 以上功能的研究在国外研究得比较的多,但都是基于英文环境的。在国内,数据挖掘研究者对中文文本的研究还刚刚开始,如何借鉴现有中文处理技术对文本进行挖掘仍有很多问题亟待解决。 2. 文本分类 我们开发了一个简单的文本分类系统(STCS),下面分别介绍其中的各项关键技术。 2.1 文本信息的预处理 在对文档进行特征提取前,需要先进行文本信息的预处理,对英文而言需进行Stemming处理,中文的情况则不同,因为中文词与词之间没有固有的间隔符,需要进行分词处理。 在中文信息处理领域,对中文自动分词研究已经得比较多了,提出了一些分词方法,如最大匹配法、逐词遍历匹配法、最小匹配法等。文4中采用了基于词典的正向逐词遍历匹配法,在我们设计的分类系统(STCS)中,我们在分析了最大匹配法的特点后,提出了一种改进的算法。该算法在允许一定的分词错误率的情况下,能显著提高分词效率,其速度优于传统的最大匹配法。但是我们忽略了通用词的处理,仅处理专用词典中的词条,从而较好地避免了通用分词的技术问题,此方法适合于专用领域文档的分类。 改进算法的主要思想是对词典建立索引,匹配时,将以第一个字开头的词条均读入内存,以后的回溯匹配均在内存中查找,避免了最大匹配法频繁查词典的缺陷。该算法的详细描述以及效率比较,我们将另文给出。 我们将主词典、同义词词典合二为一,仅建立了一个词典,从而加快查词速度。词典结构如下: 词条编号同义词文档频数 2.2 特征表示与特征提取 特征表示是指以一定特征项(如词条或描述)来代表文档,在文本挖掘时只需对这些特征项进行处理,从而实现对非结构化的文本的处理,这是一个非结构化向结构化转化的处理步骤。特征表示的构造过程就是挖掘模型的构造过程,特征表示模型有多种,常用的有布尔逻辑型、概率型、向量空间型等。我们采用了应用较多的向量空间模型(Vector Space Model ,VSM )。 在VSM中,我们将文本文档视为由一组词条( )构成,每一词条都赋以一定的权值 ,从而每一篇文档被映射为由一组词条矢量形成的向量空间中的一个向量。文本的匹配问题便可转化为向量空间中的向量匹配问题处理。 对于词条权值 的处理,在文本学习中最常用的是TF*IDF表示法,它是一种文档的词集表示法,所有的词从文档中抽取出来,而不考虑词间的次序和文本的结构。综合考虑词条对文档的区分度、词频等因素,我们改进了传统的TF*IDF表示法,提出权值公式(1)。再考虑到高频词、低频词的问题,对权值 进行规范化,得到权值公式(2)。表明公式(2)有较高的合理性和较好的分类效果。 (1) (2) 式中, 表示词条在文档 中的出现频数,N表示分类体系数目, 表示词条的文档频数。 经过以上步骤,得到的特征向量的维数是非常高的,如此高维的特征对即将进行的分类学习未必全是重要、有益的,而且高维的特征会大大增加机器的学习时间而产生与小得多的特征子集相关的学习分类结果。这便是特征提取所要完成的工作。特征提取算法一般是构造一个评价函数,对每个特征进行评估,选取评估分值高的、预定数目的最佳特征作为特征子集. 文5介绍了一些评估函数,我们在系统中简单地选取了权值前50位特征组成最终的特征向量。 2. 3 特征匹配与分类 文本转化为向量形式并经特征提取以后,便可以进行分类挖掘了,即特征匹配。机器学习领域常用的分类算法有:朴素贝叶斯分类法、K-最近邻参照分类法。我们在系统中采用了文献检索技术中的相似度方法。假设样本文档为U,待学习文档为V,两者的相似程度可用向量的夹角来度量,夹角越小则相似度越高。相似度的计算公式为(3)。在大于给定阈值情况下,取相似度高的类别作为文档V的类别,若均低于阈值,则提交给用户请求人工分类。 (3) 2. 4 文本分类系统 我们采用Visual Basic6.0在Windows2000下开发了一个简单的文本分类系统(STCS),并以Access数据库的形式保存词典、特征向量等。系统采用开放式的结构,分类体系能较容易地进行扩充,针对计算机专业技术文档有较高的分类精度,能满足特定专业领域的应用需求。 我们将从网上()下载的500篇计算机类文档作为训练文档和测试文档实验,实验结果表明,当分类体系数目为5时,STCS完成一篇长度为10K的文本的分类大约需要8秒(PC233/256M/windows2000环境下),分类的精度达到79%。 3 结束语 本文介绍了数据挖掘中的新的分支文本挖掘,结合我们所设计的分类系统,重点分析了文本分类的若干关键技术。现阶段我们的系统仅处理文本文档,如何将分类对象扩展到数量巨大的Web文本,这是我们下一阶段工作所要研究的内容。