《国内外文本分类研究计量分析与综述.pdf》由会员分享,可在线阅读,更多相关《国内外文本分类研究计量分析与综述.pdf(5页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、国内外文本分类研究国内外文本分类研究计量分析计量分析与综述与综述一一发表于图书情报工作发表于图书情报工作2011201120112011年第年第 55555555 卷第卷第 6 6 6 6 期期:78-142:78-142:78-142:78-142,欢迎大家下载、参考和交流,欢迎大家下载、参考和交流胡泽文王效岳白如江山东理工大学科技信息研究所淄博 255049 摘要摘要 运用文献计量分析方法、计算机统计分析技术、社会网络分析软件对文本分类领域的历史文献进行计量分析及可视化,通过绘制文献数量分布图、核心关键词的共现网络,挖掘文本分类领域的发展趋势、目前研究概况、热点及未来研究趋势等信息,并对文
2、本分类领域研究热点和未来研究趋势进行综述。关键词关键词 文本分类计量分析社会网络分析可视化图谱 分类号分类号 G G G G250250250250TP391TP391TP391TP391Q Q Q QuantitativeuantitativeuantitativeuantitativeA A A Analysisnalysisnalysisnalysis andandandand ReviewReviewReviewReview ofofofofTextTextTextText ClassificationClassificationClassificationClassification
3、 ResearchResearchResearchResearchatatatat HomeHomeHomeHome andandandandAbroadAbroadAbroadAbroadHu ZewenWang XiaoyueBai RujiangInstitute of Scientific and Technical Information,Shandong University of Technology,Zibo 255049,ChinaAbstractAbstractAbstractAbstract This paper carries out the quantitative
4、analysis and visualization to the historical literatures of textclassification domain by using the bibliometric analysis method,the computer statistic analysis technology and thesocial network analysis software.By drawing the literature quantity distribution map and co-occurrence network ofthe core
5、keywords,excavates the development trends,the current research situations,hotspots and the futureresearch trends etc in text classification domain,and makes a review on the research hotspots and future researchtrends.KeywordsKeywordsKeywordsKeywords text classificationquantitative analysissocial net
6、work analysisvisualizing map1 1 1 1引言引言随着数字化文档信息总量的快速增长,大规模文本处理已经成为一个挑战。传统向量空间模型表征文本的方法逐渐呈现出一些问题,比如忽视词间语义关系,不能解决同义词、多义词、词间上下位关系等问题,为解决这些问题,国内外学者开始从概念或语义层次上对文本自动分类方法展开广泛的研究,出现一些新的文本分类方法,如基于词典或概念的文本分类、基于本体或语义的文本分类等。随着文本分类领域的快速发展,文本分类领域的总体发展趋势、研究概况、热点及未来发展趋势如何,将是我们关注的焦点。因此关于文本分类领域文献信息的计量分析与综述具有重要的理论、现实
7、和指导意义。2 2 2 2样本与方法样本与方法样本数据检索情况如表 1 所示,共检索到 1851 篇国内外相关文献。在方法运用上,利用文献数量分析方法对国内外文本分类领域的发展趋势进行对比分析;利用 Excel 2007、SQL 语句的数据处理与统计分析功能、社会网络分析软件 Ucinet 和 NetDraw1的数据分析及可视化功能等,对文本分类文献中的关键词进行词频统计与分析、共现频次统计与分析,绘制国内外文本分类领域研究概况和热点的可视化图谱。据此可以解读国内外文本分类领域的发展趋势、研究概况、热点等信息。表表1 1 1 1 样本数据的检索情况样本数据的检索情况数据库检索入口检索词时间范围
8、文献数量一本文系国家社科基金项目“海量网络学术文献自动分类研究”(项目编号:10BTQ047)和教育部人文社会科学研究项目“基于本体集成的文本分类关键技术研究”(项目编号:09YJA870019)的研究成果之一。CompendexTitletext classification ORtext categorization1969-2009954ScienceDirect1969-Present去重:60中国期刊全文数据库(CNKI)篇名文本分类(精确匹配)1999-2009615中国硕博学位论文数据库(CNKI)题名文本分类(精确匹配)1999-20092223 3 3 3分析与结果分析与结果
9、3.13.13.13.1文献数量分析文献数量分析对表 1 中 1980-2009 年 30 年间的国内外文本分类文献数量进行分析(5 年一个区间,30 年共计 6 个区间),具体如图 1 所示。从图 1 可以看出,国外在文本分类方面的研究存在如下特点:起步较早。德国学者 Giere,W.和 Dettmer,H.在 1986 年就提出基于词典的文本分类与检索2。国内在 1999 年才出现文本分类方面的研究文献,比国外晚了 13 年;实际应用成果多,不过理论落后于实践。国外自动分类技术早在1975 年就进入实用化阶段,而理论研究从 1986 才开始,落后于实践 11 年;发展速度快。国外从 199
10、5年开始进入快速增长期,而国内从 2000 年才开始进入快速增长期,比国外晚了 5 年。国内在文本分类方面的研究虽然起步较晚,应用成果少,但是发表的文献数量较多。国外在快速增长期(1995-2009)内共发表文献 510 篇,而国内在快速增长期(2000-2009)内发表文献 1338 篇,比国外多出 828 篇。图图 1 1 1 1 1980-20091980-20091980-20091980-2009 年国内外文本分类文献数量分布图年国内外文本分类文献数量分布图3.23.23.23.2词频分析词频分析利用作者提出的词频统计分析方法3对检索到的文献关键词进行统计分析,获得文本分类领域高频关
11、键词 86 个。对 86 个高频关键词进行词频分析,发现国内外对文本分类领域的研究主要集中在以下几个部分(词汇后括号中的数字为词频):文本分类过程。主要对分词(18)、词汇处理(27)、文本表示(27)、向量空间模型(200)等进行研究。最常用的文本表示方法是向量空间模型,到目前为止,国内外学者重点研究的向量空间模型主要有词向量空间模型、语义向量空间模型。词向量空间模型存在向量空间维度过高、词项之间缺乏语义关系等问题,针对这些问题,国内外学者提出语义向量空间模型,尝试利用潜在语义索引(32)技术或本体(28)的概念语义关系挖掘词项之间的语义关系,构建低维的语义向量空间模型。文本分类算法。目前国
12、内外学者重点研究的文本分类算法有支持向量机算法(257)、K-近邻(102)算法、神经网络算法(90)、朴素贝叶斯(56)算法、决策树算法(28)和遗传算法(24)。未来研究趋势将是各类算法的融合、改进和提高。文本分类降维技术。文本分类的一个核心难题就是特征空间的高维性,因此文本分类降维技术是国内外学者研究的重中之重。降维技术主要分为两大类:特征选择(475)和特征重构(85)。特征选择是去除文档中信息量少的项以提高分类的效率,目前流行的特征选择方法有 TFIDF 方法(11)、主分量分析(6)、互信息(27)、信息增益(20)和信息熵(6)。特征重构是将原有特征集 T 加以联系和转化以构建新
13、特征集T的过程,从而使得降维的效果最大化。目前主要有两种特征重构方法:项聚类(25)、潜在语义索引(32)。文本分类应用领域。主要对文本分类在信息检索(216)、学习系统(205)、数据挖掘(115)、文本挖掘(39)、模式识别(35)、数字图书馆(13)等领域的应用方法、原理和模型进行研究。3.33.33.33.3 共现频次分析共现频次分析利用程序统计“文本分类”与 3.2 节中获得的 86 个高频关键词在文本分类文献标题中共现的频次,根据词汇之间的共现频次,利用 Ucinet6 的矩阵编辑功能构建文本分类与其领域关键词汇的共现矩阵,再利用NetDraw 绘制文本分类与其领域关键词汇的共现网
14、络如图 2 所示。从图 2 可以看出,文本分类领域的研究热点主要有文本分类特征选择方法、文本分类方法如传统的支持向量机分类算法、K-近邻分类算法和目前基于语义的文本分类方法。图图 2 2 2 2文本分类与其领域关键词汇的共现网络文本分类与其领域关键词汇的共现网络4 4 4 4文本分类研究热点综述文本分类研究热点综述4.14.14.14.1文本分类特征选择方法文本分类特征选择方法目前常用特征选择方法有 TFIDF 方法、互信息、信息增益等,其主要利用特征权重统计方法统计文档集中特征项的权重,然后设定阈值,选择特征权重大于等于阈值的特征项构建文档特征空间进行文本分类模型的训练。不过在特征选择过程中
15、,由于没有考虑词间语义关系如同义关系、多义关系、上下位关系等造成特征空间维度较高,文本分类性能无法提高到一个更高水平。针对此问题,国内外学者对传统特征选择方法进行改进和提高,将特征选择方法与特征重构方法如聚类、潜在语义索引等进行融合。如国内学者刘海峰等人将 TFIDF 和互信息特征选择方法分别进行改进,并重新组合,形成一种新的特征选择方法4。季铎、郑伟、蔡东风等人提出融合文档频率和潜在语义索引的文档特征优化方法,首先利用文档频率对文档集合进行特征选择,然后利用潜在语义索引技术挖掘特征之间语义关联,形成低维语义向量空间5。4.24.24.24.2 文本分类方法文本分类方法4.2.14.2.14.
16、2.14.2.1 支持向量机分类算法支持向量机分类算法支持向量机算法是以结构风险最小化原则为基础,通过构造分类超平面进行无序文本的分类,具有很强的学习能力和较好的泛化性能,只需较少的样本就可以迅速训练出具有较高性能指标的分类器,在解决小样本、非线形及高维模式识别问题中表现出许多特有优势6。不过,其对于大规模数据集,训练速度异常缓慢,并且需要占用很多内存。针对此问题,一些学者提出相应的解决方案如利用数据集分解算法如Bagging算法7、Google的Map/Reduce算法8等将大数据集分解成小的数据集分别进行支持向量机的训练,然后通过合并算法将各支持向量机进行两两合并,形成最终的支持向量机分类
17、模型9。4.2.24.2.24.2.24.2.2 K-K-K-K-近邻分类算法近邻分类算法KNN算法的基本思想是在训练样本中找到测试样本的K个最近邻,然后根据这K个最近邻的类别来决定测试样本的类别,具有很好的鲁棒性,简单易用,对于大规模数据非常有效。但是,它存在如下缺点:计算量巨大,要求计算未知文本与所有训练样本间的相似度进而得到K个最近邻样本。针对此问题,吴春颖和王士同提出融合Rocchio和KNN的文本分类方法,其先通过Rocchio分类算法快速得到k0个最有可能的候选类别,然后在k0个类别训练文档中抽取部分代表样本采用KNN算法10。在决定测试样本的类别时,把测试样本的K个最近邻等同对待
18、,没有考虑这K个最近邻在所属类别中的重要程度。针对此问题,江涛、陈小莉等学者提出利用聚类算法,求出训练样本集合中每个训练样本的隶属度,利用隶属度来区别对待测试样本的K个最近邻11。4.2.34.2.34.2.34.2.3 基于语义的文本分类方法基于语义的文本分类方法该方法主要借助本体、项聚类、潜在语义索引等挖掘词间语义关系,将原文档词项之间相互独立的高维特征空间转换为低维的语义特征空间或概念特征空间进行文本分类模型的训练。本体具有丰富的概念语义关系如同义关系、多义关系、上下位关系等和清晰的层次结构,利用本体可以将原文档高维特征向量中词性不同而语义相同的特征映射成相同的特征即本体同义词集,将具体
19、的特征映射成通用特征即本体通用概念,从而建立低维的概念或语义向量空间模型12。项聚类就是试图将在语义方面具有高关联性的项分组,以该分组的表示代替这些项成为向量空间中的维度13。潜在语义索引是一个通过词共现产生语义向量模型的文本分类和文档索引技术,主要通过词文本矩阵的奇异值分解技术解决文档向量维度过高的问题14。5 5 5 5文本分类未来研究趋势文本分类未来研究趋势5.15.15.15.1 特征选择方法与特征重构方法之间的融合特征选择方法与特征重构方法之间的融合特征选择方法在进行特征选择时认为各个特征维度之间是相互独立的,没有考虑特征维度之间的语义关联,从而降低了分类的精度15。目前加强语义信息
20、的特征选择方法如主分量分析或特征重构建方法如项聚类、潜在语义分析等利用统计信息方法来发现文档特征间的关联,这些方法虽然在挖掘特征之间语义关系上占有优势,但它们在特征选择上存在很大的局限性。因此,文本分类特征选择方法的未来研究趋势是传统特征选择方法的改进和提高、特征选择方法与特征重构方法之间的融合,如融合互信息和聚类的特征选择16-17,即通过互信息最大化从原始特征空间中选择次优特征子集,借助特征空间的聚类来剔除冗余特征,从而实现特征空间的再次降维。5.25.25.25.2 文本分类算法之间的融合、改进和提高文本分类算法之间的融合、改进和提高目前已经出现很多有效的文本分类算法,这些算法各有优缺点
21、。因此未来研究趋势是如何将这些算法进行融合、改进和提高,利用它们的优势,摒弃它们的劣势,取长补短,从而有效提高文本分类算法的性能。比如:李蓉、叶世伟等人针对支持向量机(Support Vector Machine,SVM)在对分类超平面附近样本进行分类时,容易将其误分,而KNN很容易将其分开的现象,提出基于SVM和KNN融合的分类方法。该方法对样本在空间中的不同分布使用不同的分类方法,即样本离分界面较远时,用SVM 分类,反之用KNN分类18;美国学者Mitra,Vikramjit等人针对支持向量机在进行大规模样本数据分类时,效率和分类性能非常低,而神经网络具有大规模并行、分布式存储和处理、自
22、组织和自学习的能力,提出一种融合递归神经网络和最小二乘支持向量机的文本分类模型,从而提高SVM训练效率和分类性能,实验显示分类准确率达到99.66%19。5.35.35.35.3 语义或概念向量空间模型文本分类方法语义或概念向量空间模型文本分类方法传统词向量空间模型文本分类方法没有考虑词间语义关系,造成文档向量空间维度高,不能解决同义词和多义词对分类的干扰,因此语义或概念向量空间模型文本分类方法开始成为国内外学者研究的热点和方向。目前已出现很多语义或概念向量空间模型的构建方法,其中比较流行的有潜在语义分析法、本体语义映射法、概念格构建法、规范化概念分析法等。如Deerwester,Scott在
23、1990年提出的潜在语义索引模型,通过奇异值分解技术将原文档词向量空间分解成低维的语义向量空间20。芬兰学者Filip Ginter等人在2004年提出利用本体的概念语义关系将原文档高维特征向量转换成低维语义特征向量21。意大利学者Carpineto,Claudio等人在2009年提出基于概念格的支持向量机文本分类方法,通过规范化概念分析挖掘文档特征之间关系,构建概念格进行文本分类模型的训练22。6 6 6 6结语结语文章从文献计量分析的角度,对文本分类领域的发展趋势、目前研究概况、热点及未来研究趋势进行综述,使读者对该领域有一个直观、清晰的认识,为以后的研究工作提供指引。参考文献:参考文献:
24、12008 NIPS UCINET&NetDraw Workshop.2009-08-20.http:/www.hks.harvard.edu/netgov/files/NIPS/Halgin_NIPS_2008.pdf.2GiereW,Dettmer H.Free text classification and retrieval based on a thesaurus:Eight years ofexperience at the johann-wolfgang-goethe university,medical school/Proceedings-The Tenth AnnualSy
25、mposium on Computer Applications in Medical Care.New York:IEEE,1986:85-88.3胡泽文,王效岳.1998-2008 年国内外本体应用研究计量分析及可视化.现代图书情报技术,2009(12):25-30.4刘海峰,王元元,刘守生.一种组合型中文文本分类特征选择方法.广西师范大学学报:自然科学版,2007,25(4):208-211.5季铎,郑伟,蔡东风.潜在语义索引中特征优化技术的研究.中文信息学报,2009,23(2):69-76.6JoachimsT.Training linear SVMs in linear time/
26、Proceedings of the ACM SIGKDD InternationalConference on Knowledge Discovery and Data Mining.New York:ACM,2006:217-226.7Leo B.Bagging predictors.Machine Learning,1996,24(2):123-140.8Jeffrey D,Sanjay G.MapReduce:Simplified Data Processing on Large Clusters.Communications ofthe ACM,2008,51(1):107-113.
27、9叶菲,罗 景 青,俞 志 富.一 种 改 进 的 并 行 处 理 SVM 学 习 算 法.微 电 子 学 与 计 算机,2009,26(2):40-43.10吴春颖,王士同.一种改进的 KNN Web 文本分类方法.计算机应用研究,2008,25(11):3275-3277.11江涛,陈小莉,张玉芳,熊忠阳.基于聚类算法的 KNN 文本分类算法研究.计算机工程与应用,2009,45(7):153-158.12Filip G,SampoP,Jorma B,et al.Ontology-Based Feature Transformations:AData-DrivenApproach/LNCS
28、 3230:Proceedings of the 4th International Conference,EsTAL 2004-Advances inNatural Language Processing.Berlin:Springer,2004:279-290.13Lewis D.D.,Croft W.B.Term clustering of syntactic phrases/Proceedings of the 13th InternationalConference on Research and Development in Information Retrieval-SIGIR
29、90.New York:ACM,1990:385-404.14Abdelwahab A,Sekiya H,Matsuba I,et al.An efficient collaborative filtering algorithm usingSVD-free latent semantic indexing and particle swarm optimization/2009 International Conference onNatural Language Processing and Knowledge Engineering,NLP-KE 2009.Piscataway:IEEE
30、Computer Society,2009.15YimingY,Jan O.P.AComparative Study on Feature Selection in Text Categorization/Proceedings ofthe 14th International Conference on Machine Learning,ICML 1997.San Francisco:MorganKaufmann,1997:412-420.16MartnezS.J.,PlaF.Supervisedfeatureselectionbyclusteringusingconditionalmutu
31、alinformation-based distances.Pattern Recognition,2010,43(6):2068-2081.17张成彬,唐建.基于互信息最大化和特征聚类的特征选择.现代计算机(专业版),2009:31-33.18李蓉,叶世伟,史忠植.SVM_KNN 分类器一种提高 SVM 分类精度的新方法.电子学报,2002,30(5):745-748.19MitraV,Wang C,Banerjee S.Aneuro-SVM model for text classification using latent semanticindexing/Proceedings of
32、the International Joint Conference on Neural Networks.New York:IEEE,2005:564-569.20Scott D,SusanT.D,George W.F,et al.Indexing by latent semantic analysis.Journal of the AmericanSociety for Information Science.1990,41(6):391.21Filip G,SampoP,Jorma B,et al.Ontology-Based Feature Transformations:AData-
33、DrivenApproach/LNCS 3230:Proceedings of the 4th International Conference,EsTAL 2004-Advances inNatural Language Processing.Berlin:Springer,2004:279-290.22Carpineto C,Michini C,Nicolussi R.Aconcept lattice-based kernel for svm text classification/LNAI5548:Proceedings of the 7th International Conference,ICFCA 2009-Formal Concept Analysis.Berlin:Springer,2009:237-250.作者简介作者简介 胡泽文,男,1985 年生,硕士研究生,发表论文 6 篇;王效岳,男,1961 年生,馆长,教授,发表论文 70 余篇,主编及参编学术著作 6 部;白如江,男,1979 年生,馆员,发表论文 18 篇,被 EI、ISTP索引 7 篇。
限制150内