基于cnn特征空间的微博多标签情感分类-孙松涛.pdf
《基于cnn特征空间的微博多标签情感分类-孙松涛.pdf》由会员分享,可在线阅读,更多相关《基于cnn特征空间的微博多标签情感分类-孙松涛.pdf(8页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第49卷第3期2017年5月工程科学与技术ADVANCED ENGn4EERING SCIENCESV0149No3May 2017信息工程 DOI:1015961jjsuese201600780基于CNN特征空间的微博多标签情感分类孙松涛1,何炎祥12(1武汉大学计算机学院,湖北武汉430072;2武汉大学软件工程国家重点实验室,湖北武汉430072)摘要:面对微博情感评测任务中的多标签分类问题时,基于向量空间模型的传统文本特征表示方法难以提供有效的语义特征。基于深度学习的词向量表示技术,能够很好地体现词语的语法和语义关系,且可以依据语义合成原理有效地构建句子的特征表示向量。作者提出一个针对
2、微博句子的多标签情感分类系统,首先从1个大规模的无标注微博文本数据集中学习中文词语的词向量表示,然后采用卷积神经网络(convolution neural network,CNN)模型进行有监督的多情感分类学习,利用学习到的CNN模型将微博句子中的词向量合成为句子向量,最后将这些句子向量作为特征训练多标签分类器,完成微博的多标签情感分类。2013年NLPCC(Natural Language ProcessingandChineseComputing)会议的微博情感评测公开数据集中,相比最优评测结果的宽松指标和严格指标,本系统的最佳分类性能分别提升了1916和1775;采用RecursiveN
3、euralTensorNetwork模型合成句子向量的方法,取得目前已知文献中的最佳分类性能,系统将2个指标分别提升了366和289。采用多种多标签分类器来对比不同的特征表示方法,发现基于CNN特征空间的句子向量具有最好的情感语义区分度;通过对CNN迭代训练过程的分析,体现了语义合成过程中的模式识别规律。进一步的工作包括引入更多合适的深度学习模型,并深入探索基于词向量的语义合成现象。关键词:情感分类;多标签分类;词向量表示;卷积神经网络;语义合成中图分类号:TP391 文献标志码:A 文章编号:20963246(2017)03一016208Multi-label Emotion Classif
4、ication for Microblog Based OR CNN Feature SpaceSUNSongtao,HE Yanxian91(1School ofComputer,Wuhan Univ,Wuhan 430072,China;2State Key LabofSoftware Eng,Wuhan Univ,Wuhan 430072,China)Abstract:While the evaluation task of microblog emotion is a multi-label classification problem,the traditional text rep
5、resenting methods,whichare usually based on vector space model,fail to provide more effective semantic featuresWord embedding technology is based on deeplearning,which can well capture the syntax and semantic relations between words,and build sentence representing effectively according to semantic c
6、ompositionalityA multilabel emotion classification system was proposedFirst,word embedding for Chinese words was learned from a largescale ofunlabeled Chinese microblog text datasetSecond,the Convolution Neural Network(CNN)model was exploited to train a supervisedmultiemotion classifierThird,the lea
7、rned CNN model was used to composite the feamre vector for sentences from microblogAt last,these sentence vectors were treated as semantic features to train the multilabel classifier,which was used to finish the multilabel emotion classification formicroblogBased on the open dataset from microblog e
8、motion evaluation task ofNLPCC matural Language Processing and Chinese Computing)conference in 2013the best performance ofthe proposed system achieved 1916and 1775improvement in the loose me砸c and the strict metric,respectively,comparing to the best performance of all the evaluation resultsThe state
9、of-art performance,which was achieved by the method ofexploiting Recursive Neural Tensor Network model to composite the sentence vector,was also outperformed by the proposed system up to 366and 289on the two metricsSeveral multi-label classifiers were employed to compare different feature representi
10、ng methodsand the sentencevectors based CNN feature space were showed to have the most discriminative emotion semanticThe pattern recognition in the semantic composition procedure was showed by analyzing the training iteration ofCNN model收稿日期:20160807基金项目:国家自然科学基金资助项目(61303115;61373039;61472290);高等学
11、校博士学科点专项科研基金资助项目(2013014111002512)作者简介:孙松涛(1986一),男。博士生研究方向:自然语言处理、情感分析和机器学习E-mail:stsanwhueducnhttp:8sueseijournalsca http:jsueseSCUeducn万方数据第3期 孙松涛,等:基于CNN特征空间的微博多标签情感分类 163Key words:emotion classification;multilabel classification:word embedding;convolution neural network;semantic compositionalit
12、y近年来,微博已经成为人们沟通交流和情感表达的常用途径之一,产生的海量微博也为文本情感分析【l J提供了很好的数据基础21。相比新闻、电影和产品等评论文本,微博文本的数据量更大,包含的人类情感也更加复杂和多变。随着文本情感分析研究工作的发展,其主要研究对象已经从用户评论3】等文本转移到微博文本上,主要研究任务也从主客观识别和正负情感分类逐步扩展为情感强度判别和多情感分类等更加复杂的问题。2013年NLPCC的微博情感评测数据集中,标注了7种不同的情感,且部分微博还拥有主要和次要两种不同情感,成为了更加复杂的多标签分类问题卜6。基于统计和机器学习的方法,是当前用于文本情感分析的4种主要技术【,J
13、中最流行的一种。这些方法通常需要首先从文本空间丁中提取相关文本属性构建特征空间墨然后利用分类器,完成朋剐标签空间啪映射,flPf:X pj,其中Z足称为输入空间,y又称为输出空间。向量空间模型(vector space model,VSM)瞵J为传统文本特征表示方法,最初在信息检索领域被提出,现已被广泛应用到文本分析的各个研究领域。文本情感分析中常用的文本属性包括ngram、词性、情感词和TFIDF(term frequencyinverse document fre-quency)等。VSM存在非常严重的数据稀疏性问题,使得分类器面临维度灾难,从而大大降低分类性能。此外,VSM采用的文本属性
14、大多只是文本语义的表层形式,如果引入更多的语法和语义属性,就需要采用特征工程选择有效特征。词向量表示(word embedding)p1技术将词语表示为维度较小、数值稠密的实数向量,能够很好地捕捉词语的语法和语义关系。这些实数向量通常被简称为词向量,具有很好的计算特性,即使简单的线性累加或平均后,仍然可以作为文本的有效特征。这样就能够在一定程度上缓解维度灾难。然而,根据计算语言学中的语义合成原理【l,词向量的线性组合操作(由此构建的特征空间简称为EMB)很难有效地捕捉文本语义单元之间的递归性结构关系,并且难以区分词语之间的位置关系(例如“好吃”与“吃好”)。因此,一些具有语义合成能力的深度学习
15、模型被提出来,用以解决利用词向量有效地合成更长文本段的向量表示这一难题,如MvRNN(matrixvector recursive neural network)11】、RNTN(recursive near-al tensor network)1 21、TreeLSTM(treestructured longshortterm memory)network13和cNN【怍15J等。这些使用CNN模型的相关研究直接进行文本情感分析,特别是针对微博的情感分类取得了很好的性能,表明其语义合成能力突出。然而,这些CNN情感分类模型仍然只是传统的单标签分类器,不能直接进行多标签分类。对于传统的有监督分
16、类问题,训练集为D=(而,Yi)llim,xfX,yfY),其中,当IYl=2时为二分类问题,当IYl2时为多分类问题。对于多标签分类问题,训练集D+=of,Y,-)11im,置五KcY,其中通常有IYf2N|y:_|i。可见,传统分类问题包含在多标签分类问题中,两者的特征空间都是一致的,只是标签空间有所不同。然而,一个特征向量对应多个不同标签,则表明其应当具有多种不同语义。相比传统分类方法,多标签分类方法需要具备更强的语义区分能力,或者使用语义区分度更好的特征空间。在现有传统机器学习方法的基础上,研究人员提出两种解决思路【l 6|:第1种是问题转换方法,即把多标签问题首先转换为单标签问题,然
17、后利用现有的成熟方法求解,最后再将结果转换成多标签集合,代表方法有Binary Relevance(BR)J、Classifier Chains【l引、Random klabelsetstl9J和Calibrated Label RankingL川1等;第2种是算法改编方法,即直接改编现有的常用机器学习方法以解决多标签问题,代表方法有MultiLabel KNN(MLKNN)2 1】、Collective MultiLabelCIassification221、RankSVM23】和MultiLabel DecisionTree24培。从国内外文献来看,目前尚未发现利用CNN模型合成句子向量表
18、示以进行微博多标签情感分类的研究和应用。作者围绕CNN模型构建一个多标签情感分类系统,充分利用CNN模型的语义合成能力从训练集中构建具有语义区分度的句子向量,并在此特征表示空间(简称为CNN)中使得多标签情感分类取得极大的性能提升。实验还选用了VSM和EMB两种特征空间作为对比,并从多标签分类方法的两种思路中分别选取BR和MLKNN作为代表。其中,BRaY法采用了NB(naive bayes)、线性核SVM(supportvector machine)和RBF(radial basis function)核SVM3种不同的基础分类器,分别记为BRNB、BRLIN和BRRBF。这样,BRNB和B
19、RLIN为线性分类器,BRRBF和MLKNN则为非线性分类器,从而可从线性可分性角度考察3个特征空间。1多标签情感分类系统11整体框架所提出的多标签情感分类系统的整体框架如图1所示,其中包含3个主要流程,分别使用3种不同风格万方数据164 工程科学与技术 第49卷的线型来区分:第1个流程用实线表示,首先使用Word2Vec工具(https:codegooglecompword2vec)中的Skipgram模型【9】从一个大规模的无标注微博文本数据集u(详见22节)中学习中文词语的词向量表示,构建一个词向量查找表胪后,结合2013年NLPCC的训练集进行CNN模型的有监督情感分类学习。第2个流程
20、用短划线表示,首先使用前一步充分训练的CNN模型,将训练集中的每个句子转化为向量表示,然后将这些句子向量和对应的情感标签输入到多标签分类器进行有监督的多标签情感分类学习。第3个流程用点划线表示,首先利用CNN模型生成测试集的句子向量,然后输入训练好的多标签分类器进行情感分类,最终得到分类结果。 裂篱孳蔷萋 裂藉擎需萋图1整体框架Fig1 Framewo,rk在这3个流程中,前面2个流程需要依次完成CNN模型和多标签分类器的训练,其中训练好的CNN模型将被进一步用来完成句子向量的合成,是整个系统的关键。由于CNN模型是传统的单标签分类器,因而需要将多标签训练集D+转换为单标签训练集=f,Y,)l
21、V(xi,K)D+,Yy,K。12 CNN模型采用一种改进的CNN模型【l 4|,具有多个不同宽度的卷积窗口,具体的模型结构如图2所示。假设中文词典中词语个数为,单个词语的词向量维度为d,We础表示词向量查找表。对于微博句子ST,统一表示为长度为k的词语序列(不足时填充空白符),即有S=(W。,W:,Wk),则第,个词语w,的词向量n通过下面操作获得:句子向量 、商由霾MLP和Sofimax MaxJ p。lingl卷积操作词向量矩阵J 句子的J词语序列图2 CNN模型Fig2 CNN modelrj=W。v (1)式中,l,斥则为一个仅词语w,对应维度取值为1,其他维度全为0的维指示向量。将
22、句子中对应位置词语的词向量依次拼接起来,就得到这条句子的词向量表示矩阵:R8=,10r200“ (2)式中,o表示行向量方向的拼接操作,则Rs础址对应图2中的词向量矩阵。随后,对句子的词向量表示矩阵执行卷积操作。设卷积算子为WfRd。dwm,awi。表示卷积窗口的宽度,则:噶29(川。z+噬) (3)Zj=+1000 ”。式中,吒为第i个卷积算子哪(又称作过滤器)在词语w,处的卷积结果,磊为窗口awi。范围内的词向量矩阵,辨为第i个卷积算子的偏置值,o表示矩阵的内积运算,g()为非线性变换函数Rectifier。接着,对卷积结果执行最大化下采样操作,即获取每个卷积算子对整条句子执行操作后的最强
23、激励信号。运算结果如下:Xi=max一f】,1玉H (4)d”1“s 。式中,朦示卷积算子的个数,最终得到XR日即为句子向量。实验采用多种宽度的卷积算子,运算得到的多个句子向量直接拼接成整个句子向量。如图2所示,采用两种宽度的卷积算子,即氐j。分别为2和3;每种卷积算子都为2个,即2个脯B为2,因而句子向量X的维度为4。将句子向量墒人到一个多层感知器MLP(multilayer perceptron)之后,执行Softmax操作获得情感标签的概率分布,即h=W巾工+bh (5)番卿v万方数据第3期 孙松涛,等:基于CNN特征空间的微博多标签情感分类 165P(yjlS,=意,1s lyl (6
24、)1蚓Za,其中,Wh劂7脚和b“舭分别为MLP的参数矩阵和偏置量,0=(we,Wh,bf,b“)为CNN模型的参数集合。在训练集D+中,通过随机梯度下降算法最小化NLL(negative loglikelihood)学习最优的模型参数口:0卜一109 P(yIS,臼) (7)(Sy)E驴采用AdaDelta优化技术,对句子向量x执行dropout以防止模型过拟合。13多标签分类器BR方法采用问题转换的思路,将多标签分类问题转换为Jl,1个相互独立的二分类问题。为构建针对标签)Y的二元分类器,需要将多标签训练集D+转换为对应的二元相关训练集,即Dj=,(K,Y仂IV(xf,K)D+其中觚幽)=
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 cnn 特征 空间 微博多 标签 情感 分类 松涛
限制150内