根据机器知识学习的文本分类技术研究进展苏金树.pdf
《根据机器知识学习的文本分类技术研究进展苏金树.pdf》由会员分享,可在线阅读,更多相关《根据机器知识学习的文本分类技术研究进展苏金树.pdf(12页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 ISSN 1000-9825, CODEN RUXUEW E-mail: Journal of Software, Vol.17, No.9, September 2006, pp.18481859 DOI: 10.1360/jos171848 Tel/Fax: +86-10-62562563 2006 by Journal of Software. All rights reserved. 基于机器学习的文本分类技术研究进展 苏金树 1, 张博锋 1+, 徐 昕 1,2 1(国防科学技术大学 计算机学院,湖南 长沙 410073) 2(国防科学技术大学 机电工程与自动化学院,湖南 长沙 4
2、10073) Advances in Machine Learning Based Text Categorization SU Jin-Shu1, ZHANG Bo-Feng1+, XU Xin1,2 1(School of Computer, National University of Defense Technology, Changsha 410073, China) 2(School of Mechantronics Engineering and Automation, National University of Defense Technology, Changsha 410
3、073, China) + Corresponding author: Phn: +86-731-4513504, E-mail: Su JS, Zhang BF, Xu X. Advances in machine learning based text categorization. Journal of Software, 2006,17(9):1848 1859. Abstract: In recent years, there have been extensive studies and rapid progresses in automatic text categorizati
4、on, which is one of the hotspots and key techniques in the information retrieval and data mining field. Highlighting the state-of-art challenging issues and research trends for content information processing of Internet and other complex applications, this paper presents a survey on the up-to-date d
5、evelopment in text categorization based on machine learning, including model, algorithm and evaluation. It is pointed out that problems such as nonlinearity, skewed data distribution, labeling bottleneck, hierarchical categorization, scalability of algorithms and categorization of Web pages are the
6、key problems to the study of text categorization. Possible solutions to these problems are also discussed respectively. Finally, some future directions of research are given. Key words: automatic text categorization; machine learning; dimensionality reduction; kernel method; unlabeled data set; skew
7、ed data set; hierarchical categorization; large-scale text categorization; Web page categorization 摘 要: 文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速 的发展.提出了基于机器学习的文本分类技术所面临的互联网内容信息处理等复杂应用的挑战,从模型、 算法和 评测等方面对其研究进展进行综述评论.认为非线性、数据集偏斜、标注瓶颈、多层分类、算法的扩展性及 Web 页分类等问题是目前文本分类研究的关键问题,并讨论了这些问题可能采取的方法.最后对研究的方向进 行了
8、展望. 关键词: 自动文本分类;机器学习;降维;核方法;未标注集;偏斜数据集;分级分类;大规模文本分类;Web 页分类 中图法分类号: TP181 文献标识码: A Supported by the National Natural Science Foundation of China under Grant Nos.90604006, 60303012 (国家自然科学基金); the National Research Foundation for the Doctoral Program of Higher Education of China under Grant No.200499
9、98027 (国家教育部高校博 士点基金) Received 2005-12-15; Accepted 2006-04-03 苏金树 等:基于机器学习的文本分类技术研究进展 1849 随着信息技术的发展,互联网数据及资源呈现海量特征.为了有效地管理和利用这些分布的海量信息,基于 内容的信息检索和数据挖掘逐渐成为备受关注的领域.其中,文本分类(text categorization,简称 TC)技术是信息 检索和文本挖掘的重要基础,其主要任务是在预先给定的类别标记(label)集合下,根据文本内容判定它的类别. 文本分类在自然语言处理与理解、信息组织与管理、内容信息过滤等领域都有着广泛的应用.2
10、0 世纪 90 年代 逐渐成熟的基于机器学习的文本分类方法,更注重分类器的模型自动挖掘和生成及动态优化能力,在分类效果 和灵活性上都比之前基于知识工程和专家系统的文本分类模式有所突破,成为相关领域研究和应用的经典 范例1. 基于机器学习文本分类的基础技术由文本的表示(representation)、 分类方法及效果(effectiveness)评估 3 部 分组成.Sebastiani 在文献1中对文本分类发展历程及当时的技术进行了总结,主要内容包括:(1) 文本关于项 (term)或特征的向量空间表示模型(VSM)及特征选择(selection)与特征提取(extraction)两种表示空间
11、降维 (dimensionality reduction)策略,讨论了 2,IG,MI,OR 等用于特征过滤的显著性统计量及项聚类和隐含语义索引 (LSI)等特征提取方法;(2) 当时较成熟的分类模型方法,即分类器的归纳构造(inductive construction)或模型的 挖掘学习过程;(3) 分类效果评估指标,如正确率(precision)、召回率(recall)、均衡点(BEP)、F(常用 F1)和精度 (accuracy)等,以及之前报道的在 Reuters 等基准语料上的效果参考比较. 然而,互联网中分布传播的海量电子化文本所显现出的种类多样、分布偏斜、关系复杂、更新频繁及标注
12、 困难等新的特征,给近年来面向互联网海量信息处理需求的文本分类带来了巨大挑战.文献1对分类技术用于 解决上述问题时在不同程度上遇到的扩展性差、 语料缺乏及精度降低等困难和问题的论述不够,也无法涉及近 几年技术的发展以及信息检索、机器学习和数据挖掘等领域权威学术会议及刊物上讨论的重要问题和成果. 本文介绍基于机器学习文本分类技术的最新研究,重点讨论文本分类在互联网信息处理等实际应用中所 面临的问题及进展,从相关问题、现状和趋势等方面进行归纳和评论.第 1 节介绍基础技术的研究动态.第 2 节 讨论现阶段文本分类面向实际应用挑战的主要研究问题及最新进展.最后给出全文的总结和相关技术的展望. 1 文
13、本分类基础技术研究动态 近年来,将文本简化为所谓的 BOW(bag of words),在特征处理和统计学习算法的基础上获得对文本语义内 容及类别信息的估计与预测,已经成为文本分类的标准模式.通过统计理论和语言学(linguistics)两种途径进行 的文本表示和分类模型的研究也得到进一步拓宽或发展,相关领域的技术也在文本分类中得到新的应用. 1.1 文本表示 VSM 仍是文本表示的主要方法,相关研究仍然集中在以什么语义单元作为项及计算项的权重两个问题上. 大部分工作仍以词(或n-gram)作为项,以项的频率为基础计算权重,如tfidf等1.值得注意的是,Debole提出了有 监督的权重 ST
14、W,利用项的显著性统计量(如用 2等)来平衡其权重2;文献3,4等也使用类似的方法.相对使用 tfidf 权重,某些统计量的引入使得 SVM 及线性分类等方法的分类效果有了不同程度的提高. 除 VSM 以外,还有人提出基于项概率分布、 基于二维视图等模型.Bigi 认为,任意文本 d 和类别 c 均可视为 所有项的一个概率分布 P(ti,d)和 P(ti,c),i=1,|T T |( T T 为所有项或特征的集合),称为项分布概率表示.通过度量分 布间的 Kullback-Leibler 距离(KLD)相似性的分类方法,获得优于 VSM 表示下线性方法的效果5.项分布概率模 型本质上仅是在项的
15、权重计算和规格化(normalization)上与 VSM 不同.Nunzio 使用可视的二维表示方法,将所 有项的信息压缩到由局部能量和全局能量构成的二维平面上,采用启发式算法进一步计算后,在某些测试集上 得到了很高的准确性6;然而,方法仅是在小数据集上进行了测试,实际应用效果还需要进一步加以验证. 还有一些工作希望通过借鉴自然语言处理的技术考虑被 BOW 忽略的语义单元间的联系,因此,词义及短 语等复杂的项被应用到分类方法的文本表示中.但到目前为止,这些表示方法在分类效果上还没有明显的优势, 而且往往需要比较复杂的语言预处理,在分类时影响了分类器的吞吐速度7,8.到目前为止,非 VSM 的
16、表示在理 论上的合理性及面对实际应用的可扩展性还需要深入验证,适合它们的分类方法比较单一,而且未得到广泛的 应用. 1850 Journal of Software 软件学报 Vol.17, No.9, September 2006 1.2 表示空间降维 相关研究主要集中在降维的模型算法与比较,特征集与分类效果的关系,以及降维的幅度 3 个方面. 关于降维的模型和算法,很多研究仍按照传统的思路:(1) 用概率统计方法度量并比较项关于类别分布的 显著性,如 BNS(bi-normal separation)9等;(2) 从信息熵角度研究项分布相似性的项聚类方法,如基于全局信息 (GI)10等;(
17、3) 隐含语义分析途径,即通过矩阵的不同分解和化简来获取将向量语义或统计信息向低维空间压 缩的线性映射,如差量(differential)LSI11,12等.一些新颖的研究思路包括:(1) 多步骤或组合的选择方法,即首先 用基本的特征选择方法确定初始的特征集,然后以某种标准(如考虑其他项与初始集特征的同现(co-occurrence) 等13)进行特征的补充,或者综合其他因素(如依第 2 种显著性选择标准13,14或考虑线性分类器系数值大小15 等)进行冗余特征的删减;(2) 尝试借鉴语言学技术进行的研究有从手工输入的特征中学习特征信息16及基于 WordNet17的特征提取等方法,但方法所产
18、生的效果都不理想. 必须考虑降维对分类的影响,即关注分类器效果指标随特征数目增加的变化趋势.很多文献中914,18,19比 较一致的现象是:合理的降维方法会使多数分类器都呈现出随特征数量增加,效果快速提高并能迅速接近平稳; 但若特征数目过大,性能反而可能出现缓慢降低.这表明:降维不仅能大量降低处理开销,而且在很多情况下可 以改善分类器的效果.Forman 及 Yang 等人分别从有效性、区分能力及获得最好效果的机会等方面对不同的特 征选择方法进行了广泛比较.从结果来看:BNS,2,IG 等统计量及组合方法具有一定的优势;另外,不同分类器倾 向于接受不同的特定降维方法9,13,18,19.常用的
19、特征提取与特征选择算法的效果在不同情况下互有高低或相 当1,10,20.虽然选择方法因为复杂度较低而应用更为广泛,但提取得到的特征更接近文本的语义描述,因此有很 大的研究价值. 降维尺度的确定常用经验估算方法,如给定特征数的经验值(PFC)或比例(THR);或者考虑统计量阈值 (MVS)或向量空间稀疏性(SPA)等因素.Soucy 给出特征数与文本数成比例(PCS)的方法,并在精度标准下与其他 4 种方法做了比较,得出了 MVSPCSSPAPFCTHR 的结论21,传统的标准值得重新审视. 1.3 机器学习分类方法 分类方法研究的主要目标是提高分类效果,实用的系统还必须兼顾存储和计算能力受限等
20、条件下,学习过 程的可扩展性和分类过程的吞吐率(速度)2224.近年来,采用多(multiple)分类器集成学习(ensemble learning)的 方法被普遍接受;而支持向量机(SVM)仍然代表了单重(single)方法的发展水平. SVM 的应用是文本分类近年来最重要的进展之一.虽然 SVM 在大数据集上的训练收敛速度较慢,需要大 量的存储资源和很高的计算能力2428,但它的分隔面模式有效地克服了样本分布、冗余特征以及过拟合 (over-fitting)等因素的影响,具有很好的泛化(generalization)能力.有关文献的比较均显示:相对于其他所有方 法,SVM 占有效果和稳定性
21、上的优势2832.近年来又有很多文献1中未涉及的一些模型或方法被提出或应用, 有的还获得了较好效果,如最大熵模型33,34、模糊理论35,36、项概率分布的 KLD 相似性5、二维文本模型6 以及基于等效半径的方法(SECTILE)26等(见表 1),但它们仍局限于惯用的相似性度量的分类模式. Bayes、线性分类、决策树及 k-NN 等方法的能力相对较弱,但它们的模型简单,效率较高,这些方法的修正 和改进引起了人们持续的关注.Wu 指出分类器关于数据分布的假设是影响分类效果的重要因素,当模型不适 合数据集特点时,性能就可能变得很糟糕.这种模型偏差在弱分类方法中尤为突出,他给出了一种灵活的基于
22、错 误矫正的启发式改进策略25;GIS 方法将样本聚集成不同的实例集(instance set),每个实例集的质心称为推广实 例(GI),以 GI 的集合代替样本集合后减少了实例,使得 k-NN 方法的在线速度大为改善,分类效果也有所提 高37;Tsay 利用与 GIS 相反的思路,他增加类别的数目,实质上为原类别选择多个质心,部分地克服了单个质心 难以适应样本稀疏的弱点38;Tan 使用推拉(drag-pushing)策略对 Bayes 和基于质心的方法进行了改 进39;Chakrabarti 的 SIMPL 方法利用 Fisher 线性判别分析将文本表示投影到低维空间后,再进行决策树的构
23、造24.可以看出,多数分类模型和方法的研究,更侧重在特定测试集上效果基本相当的情况下,获得计算开销上 相对 SVM 的优势. 苏金树 等:基于机器学习的文本分类技术研究进展 1851 集成学习,也称为多重学习或分类器组合,主要通过决策优化(decision optimization)或覆盖优化(coverage optimization)两种手段将若干弱分类器的能力进行综合,以优化分类系统的总体性能.决策优化对于不同的分类 器均采用完整的样本集进行训练,测试时,通过对所有分类器的决策进行投票或评价(如 MV(majority voting),W (weighted)MV 及 WLC (weig
24、hted linear combination)等1,40),确定整个系统输出的类别;Bennett 将特定分类器看 作可靠性的指示(reliability indicator);系统利用概率方法综合不同分类器的输出确定最后的决策41;Xu 和 Zhang提出一种将 SVM与Rocchio算法进行串行集成方法的思想,即在Rocchio算法快速处理全部文本向量后, SVM 对部分感兴趣的类别进行误差校正,用较低的计算代价换取重要类别的精度42;覆盖优化对同一种学习采 用不同的训练子集,形成参数不同的单分类器,这些单分类器决策的某种综合(如WMV等)决定每测试样本的分 类,如 Bagging 和
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 根据 依据 机器 知识 学习 文本 分类 技术研究 进展 苏金树
限制150内