基于卡方特征选择和LDA主题模型的中文短文本分类(共11页).doc
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《基于卡方特征选择和LDA主题模型的中文短文本分类(共11页).doc》由会员分享,可在线阅读,更多相关《基于卡方特征选择和LDA主题模型的中文短文本分类(共11页).doc(11页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选优质文档-倾情为你奉上基于卡方特征选择和LDA主题模型的中文短文本分类 摘要:中文短文本自身包含词汇个数少、描述信息能力弱,常用的文本分类方法对于短文本分类效果不理想。同时传统的文本分类方法在处理大规模文本分类时会出现向量维数很高的情况,造成算法效率低,而且一般用于长文本分类的特征选择方法都是基于数理统计的,忽略了文本中词项之间的语义关系。针对以上问题本文提出基于卡方特征选择和LDA主题模型的中文短文本分类方法,方法使用LDA主题模型的训练结果对传统特征选择方法进行特征扩展,以达到将数理信息和语义信息融入分类算法的目的。对比试验表明,这种方法提高了中文短文本分类效果。 关键词:短文本分类
2、特征选择 主题模型 中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2014)13-3182-04 The Short Text Classification Method Based on CHI Feature Selection and LDA Topic Model ZHENG Cheng, XIONG Da-kang, LIU Qian-qian (School of Computer Science and Technology, Anhui University, Hefei ,China) Abstract: Chinese short texts cont
3、ain few words and describe weak signals. the common text classification methods dont performs well for the short text. In Vector Model, the dimension of the document vector is huge. The huge vector leads to inefficient algorithms. The traditional feature selection methods are based on the mathematic
4、al statistics, ignoring the semantic relationship between terms from text. Then a method based on CHI feature selection and LDA topic model is introduced to classify Chinese short texts. In this method, the result of the LDA topic model is applied to extend the features of data set, which can make c
5、lassification algorithm contains mathematical statistics and semantic information. The experiment result shows that the method in this paper improves the effect of text classification. Key words: short text classification;feature selection;topic model 自然语言处理中的主题模型起源于Deerwester等人在1990年提出的隐性语义索引(Laten
6、t Semantic Indexing,LSI)1,它为主题模型的发展奠定了基础。1999年Hofmann在LSI的基础上提出了概率隐性语义索引(probabilistic Latent Semantic Indexing,pLSI)2,这是一个真正意义上的主题模型。在pLSI的基础上Blei等人在2003年将其扩展得到更为完全的概率生成模型LDA(Latent Dirichlet Allocation)3。LDA主题模型可以用于提取文本隐含主题信息4,因此在文本分类领域受到广泛的关注,越来越多的研究人员对LDA模型进行改进并提出了Labeled-LDA、Link-PLSA-LDA等文本分类模
7、型5-6。除了LDA模型,Xiaohui Yan等人提出了用于短文本分类的BTM(Biterm Topic Model)7模型,取得了较好的分类效果。 目前,短文本分类的一种流行方法是利用一些额外的信息来辅助分类,引入额外信息的目的是是挖掘短文本所表达的信息。例如王鹏8等利用依存关系抽取词扩充短文本特征;宁亚辉9等借助知网提出基于领域词语本体的短文本分类;徐盛10等利用知网上下位关系扩展短文本特征。以上方法都需要大规模背景知识库或语料,处理大规模背景语料费时费力,同时背景知识库更新慢、可扩展性差,难以适应网络短文本词汇新颖、专业的特点。 提高文本分类效果最重要的是如何提取文本特征,常用的特征提
8、取方法有文档频率(DF)、互信息(MI)、信息增益(IG)11、卡方统计(CHI)12等等,大量的实验和研究显示CHI方法的特征选择效果好于其他的方法,因此本文使用CHI方法。LDA模型可以用于挖掘词与词之间的隐含语义关系。该文提出了基于卡方特征选择和LDA主题模型的方法,在此基础上使用SVM13进行分类,并与BTM14的实验结果进行比较。 本文组织如下:第2节介绍CHI特征选择方法;第3节介绍LDA主题模型和BTM模型;第4节介绍本文提出的短文本分类方法实验过程并分析实验结果;最后总结全文并展望下一步工作。 1 CHI特征选择 CHI用于衡量特征词t和类别ci之间的关联程度,方法假设特征t和
9、类别ci之间的非独立关系类似于具有一维自由度的2分布,t对于ci的CHI值计算如公式(1)所示: 2(t,ci)=N(AD-CB)2(A+C)(B+D)(A+B)(C+D) (1) 公式中,N表示训练语料中的文档总数,ci表示类别,t表示特征词,A表示属于ci类且包含t 的文档频数,B表示不属于ci但包含t 的文档频数,C表示属于ci但是不包含t 的文档频数,D是既不属于ci也不包含t的文档频数。2(t,ci)值越高表示t和ci的相关度越大,2(t,ci)值为0表示t和ci不相关。 2 LDA模型和BTM模型 2.1 LDA主题模型 LDA模型是一个三层次的概率模型即“文档-主题-词项”,是对
10、文本中隐含主题的一种建模方法,属于生成模型。它将文档表示成主题的概率分布,主题表示成词的概率分布。LDA模型如图1所示: 图1 LDA模型图 图中M表示语料库中文本个数,L表示一篇文本的长度,z表示主题,表示词项,、是超参数,其中是个kV的矩阵,k为主题个数,V是词项的数目,ij表示第i个主题下第j个词项的概率,表示文档的主题概率分布。 LDA主题模型的基本思想是随机生成一篇有N个词项组成的文档,每个词项以一定的概率选择一个主题,并从这个主题中以一定的概率选择出来。 给定和,LDA模型用概率模型表示如公式(2)所示: P(,z,w|,)=P(|)n=1NP(zn|)P(wn|zn,) (2)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 特征 选择 LDA 主题 模型 中文 短文 分类 11
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内