语言信息处理 文本分类报告.doc
《语言信息处理 文本分类报告.doc》由会员分享,可在线阅读,更多相关《语言信息处理 文本分类报告.doc(10页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、语言信息处理项目作业名 称: 文本分类的研究与应用 学 院: 计算机 专 业: 计算机科学与技术 班 级: 2010级4班 小组成员: 谢宝娣 王怡鸥 万德鹏 指导教师: 鉴萍二 一 一 年 一 月摘 要本文简要分析并介绍了文本分类问题的相关知识。首先,介绍了文本分类的整体框架;然后,详细分析了两种常用的文本分析方法KNN方法和朴素Bayes方法的基本原理与适应场合;之后,通过实验结果验证了这两种分类方法在文本分类问题中的可行性;最后,对未来文本分类的发展方向提出有益的展望。关键词:文本分类;文本特征提取;kNN分类方法;朴素Bayes分类方法AbstractThe thesis analyz
2、es and introduces the problem of text classification knowledge briefly. First, it describes the overall framework of text classification. Then, it analyzes the basic principles and the suitable situations of two common text analysis methods which are KNN method and Naive Bayes method. In addition, i
3、t proves the feasibility of the two classification methods in the research of text classification by the result of experiments. Finally, it makes a meaningful outlook on the future direction of text classification.Key words: Text Classification; Text Feature Extraction; kNN classification; Naive Bay
4、es classification1 引言Internet技术的发展与成熟,使得人们可获得的信息越来越多。面对海量信息,人们已经不能简单地靠人工来处理所有的信息,需要辅助工具来帮助人们更好地发现、过滤和管理这些信息资源。文本分类是基于文本内容将待定文本划分到一个或多个预先定义的类中的方法,它作为处理和组织大量文本数据的关键技术,可在较大程度上解决信息的杂乱问题,对于信息的高效管理和有效利用都具有极其现实的意义。现在,文本分类问题已成为数据挖掘领域中一个重要的研究方向。国外文本数据分类的研究始于20世纪50年代末,H.P.Luhn在这一领域进行了开创性的研究,他首先将词频统计的思想用于文本数据分
5、类中1。1960年Maron、Kuhn在Joumal of ACM上发表了有关文本数据分类的第一篇论文“On Relevance, Probabilistic Indexing and Information Retrieval”2。 1963年Borko等人提出了利用因子分析法进行文献的自动分类。其后许多学者在这一领域进行了卓有成效的研究。目前,文本分类方面的文献也非常丰富,常见于信息检索、机器学习、知识挖掘与发现、模式识别、人工智能、计算机科学与应用等各种国际会议及相关的期刊或杂志。国内文本数据分类研究起步较晚,始于20世纪80年代初期。我国文本分类的研究大体上经历了可行性探讨、辅助分类、
6、自动分类系统三个发展阶段。本次项目作业的任务目标就是按照文本分类的一般过程和整体框架实现对文本的自动分类, 本系统使用的语料库是搜狗语料库。2 文本分类的整体框架文本自动分类是分析待定文本的特征,并与已知类别中文本所具有的共同特征进行比较,然后将待定文本划归为特征最接近的一类并赋予相应的分类号。3 文本分类的一般包括了文本预处理、文本特征提取、分类算法的选择、分类结果的评价与反馈等过程,本节主要介绍文本分类的整体框架,如图2-1所示。图2-1 文本分类的整体框架2.1 文本预处理任何原始数据在计算机中都必须采用特定的数学模型来表示,目前存在众多的文本表示模型,如:布尔模型,向量空间模型,聚类模
7、型,基于知识的模型和概率模型等4。其中向量空间模型(VSM)具有较强的可计算性和可操作性,本节的文本预处理就是基于向量空间模型实现的。对于基于向量空间模型的文本预处理,主要由以下几个步骤来完成:1.中心分词;2.去除停用词;3.文本特征提取。下面主要针对这三个方面介绍如下。1.中文分词中文分词是对中文文本进行分析的第一个步骤,是文本分析的基础。自然语言处理技术在不断的发展中,现在的中文分词技术主要有以下几种:基于字符串匹配的分词技术、基于理解的分词技术和基于统计的分词技术。在本系统中,采用中国科学院计算机技术研究所研制出的基于多层隐马模型的汉语词法分析系统ICTCLAS(Institute o
8、f Computing Technology , Chinese Lexical Analysis System)进行中文分词。2.去除停留词所谓停用词是指汉语中常用到的“的”、“了”、“我们”、“怎样”等,这些词在文本中分布较广,出现频率较高,且大部分为虚词、助词、连词等,这些词对分类的效果影响不大。文本经中文分词之后,得到大量词语,而其中包含了一些频度高但不含语义的词语,比如助词。这时可以利用停用词表将其过滤,以便于文本分类的后续操作。3.文本特征提取文本经过中文分词、去除停留词后得到的词语量特别大,由此构造的文本表示维数也非常大。并且,不同的词语对文本分类的贡献也是不同的。因此,有必要进
9、行特征项选择以及计算特征项的权重。(1)特征项的选择目前,存在多种筛选特征项的算法:文档频率(DF,Document Frequency)、信息获取(IG,Information Gain)、互信息(MI,Mutual Information)、开方拟合检验(CHI,x2-test)、术语强度(TS,Term Strength)。提取效率的高低为:CHI,MIDFTSIG5作为特征选择算法。CHI算法的主要思想是认为词汇与类别之间符合统计,统计量的值越高,词汇与类别之间的独立性就越小。统计量计算公式如下: 公式(2-1)其中,表示训练集中的文档总数,表示属于主题且包含特征项的文档个数,表示属于
10、主题但不包含特征项的文档个数,表示包含特征项但不属于主题的文档个数,表示不包含特征项且不属于主题的文档个数。特征项对主题的统计值越高,与该主题之间的相关性就越大。具体特征项的选择根据特征项的CHI值来判断。当CHI不低于某一阈值时,选择该特征项。(2)特征项权重的计算为了更好的反映词语对文本内容类别的贡献程度,而选择词语包含的信息来实现特征项加权。词包含的信息称为加权因子,一般常用的加权因子有:1)词频因子;2)词的位置因子;3)词性因子;4)词的长度因子;5)词的集合频率因子等6。本系统采用以下公式作为词语权重的计算方法。 公式(2-2)其中表示词语在文本中的权重;表示词语在文本中的频率;表
11、示文本中词频最大的词语的频率;为词语的词长;表示分析的文本集合包含的文本数;表示在分析的文本集中包含词语的文本数;表示文本中词长最大的词语的词长7。2.2 空间向量模型文本表示是指以一定的规则和描述来表示文本或者文本类,在过滤时,用这些规则和描述来评价未知文本与给定文本或文本类的相似度8。目前,存在多种文本表示模型,常用的有:布尔逻辑模型、概率模型和向量空间模型等。本系统中,文本采用向量空间模型表示。向量空间模型用向量的形式来表示文本,其中是文本中的特征项,是的权重。为了简化分析过程,暂时不考虑在文本中的顺序并且互异。此时,若把看成一个维的坐标系,则为相应的坐标值,这样便可将文本向量表示简记为
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语言信息处理 文本分类报告 语言 信息处理 文本 分类 报告
限制150内