基于word2vec的互联网商品评论情感倾向研究-黄仁.pdf
《基于word2vec的互联网商品评论情感倾向研究-黄仁.pdf》由会员分享,可在线阅读,更多相关《基于word2vec的互联网商品评论情感倾向研究-黄仁.pdf(3页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第43卷第6A期2016年6月计算机科学Computer ScienceVol-43 No6AJune 2016基于word2vec的互联网商品评论情感倾向研究黄仁张卫(重庆大学计算机学院 重庆400044)摘要在电子商务蓬勃发展的网络环境下,产品的评论数据已成为企业提高商品质量和提升服务的重要数据源。这些评论中包含用户对产品各个方面的情感倾向,对其进行情感分析可以帮助商家了解产品的优缺点,也能为潜在消费者的购买决策提供数据支持。提出了基于组合神经网络的商品属性聚类及基于word2vec的商品评论情感分析新方法,通过word2vec计算语义相似度,建立情感词典,用构建的情感词典对测试文本进行情
2、感分类。实验验证了该方法在互联网商品评论中的有效性和准确性。关键词word2vec,情感倾向,情感词典,情感分类中图法分类号TP391 文献标识码AStudy on Sentiment Analyzing of Internet Commodities Review Based on Word2vecHUANG Ren ZHANG Wei(Department of Computer Science,Chongqing University,Chongqing 400044China)Abstract With the rapid development of e-commence under
3、 the network environment。product review has become animportant data source for enterprises to improve quality and enhance serviceThe review comprises userS emotionaltendency in all aspects 0f the productEmotional analysis can not only help business to understand the advantages anddisadvantages 0f th
4、e product,but also provide data support for the potential consumerS purchase decisionThis paperpresented a novel method to cluster commodity attribute based on combination neural network and computd sentimentof internet commodities review using word2vecThis essay computed the semantic similarity and
5、 built emotional dictionary based on word2vec,then used the emotional dictionary tO obtain the emotional tendencies of the test textsThe el-fectiveness and accuracy of the method is validated through experimentsKeywm-ds Word2vec。Emotional tendency,Emotional directory,Emotional classification随着互联网电子商
6、务的蓬勃发展,越来越多的人青睐于网络购物。为了提高客户满意度,网络商家通常允许客户对他所购买的商品进行评价,导致商品评价的数剧迅速增长。分析隐藏在这些主观性评论文本中的情感倾向,不仅可以为潜在消费者提供网购指导,而且能帮助生产商和销售商通过反馈信息来改进产品、改善服务,提高竞争力。情感分析就是一种对该类信息进行分类的方法,又称为意见挖掘,是指通过自动分析某种商品评论的文本内容,发现消费者对该商品的褒贬态度和意见_。1 文本情感分析技术目前,文本的情感分析研究内容主要分为3个方面嵋一:文本内容的主客观分类、文本的情感倾向性分类和文本的情感强度计算。其中,本文研究的重点是情感倾向性分类,它的主要研
7、究内容是通过分析主观性文本中的情感词将文本情感分为正面或负面两类。它的研究思路可以归纳为以下两种:1)基于语义的方法。通过统计和分析文本中情感词的褒贬性判断文本的情感倾向。采用的方法主要包括基于语料挖掘的方法3“和基于情感词典的方法。2)基于机器学习的方法。传统的机器学习方法主要应用在文本主题分类,它将k近邻(kNearest Neighbor,KNN)、支持向量机(Support Vector Machine,SVM)、朴素贝叶斯(Naive Bayesian,NB)、最大熵等机器学习方法应用于情感分类。本文提出的商品评论情感分析流程如图1所示。结果分析p-叫情感分析卜叫属性聚类2基于组合神
8、经网络的商品属性聚类众所周知,任何一个词语都有与其相对应的语言环境,即通常所说的上下文6一。如果两个词语之间的上下文越相似,那么它们在应用环境和语义上也越相似。一般地,可以将词语左右各d个词语作为其上下文,或称开辟了一个长度为2d的词语上下文窗口。本文提出了面向商品评论文本的属性自动聚类算法组合神经网络算法,该算法的主要思想如下:黄仁(1962-),男,教授,硕士生导师,CCF会员,主要研究方向为图像处理、嵌入式应用技术;张卫(1990-),男,硕士,主要研究方向为数据挖掘、自然语言处理,Email:xiaoweihongye163com。387万方数据1)对评论文本分词时,对分词后的词语进行
9、词性和词频的标注。2)抽选出标注为名词的词语作为候选属性,构成候选属性集。3)由于统计了分词之后的词语的词频,采用哈夫曼编码对每个词语进行编码,以方便计算机处理。4)设置上下文窗口参数,抽取出候选属性集中名词w在文本中的上下文。将词语w作为第一层BP神经网络的输入,词语w的上下文作为第一层神经网络的输出,对BP神经网络进行训练。因为每个候选名词在评论文本中会出现多次,用BP神经网络对这些多次出现的上下文进行训练,最终得到一个最能代表词语w的上下文窗口向量。5)将BP神经网络的输出作为S()M自组织神经网络的输入,进行SOM神网络的学习,最终S()M神经网络的输出即为属性相似的词语的聚类结果。组
10、合神经网络的结构模型如图2所示。图2组合神经网络模型3 word2vec介绍word2vec_j是Google在2013年开源的一款将词表示为实数值向量的高效工具。通过训练可以把对文本内容的处理简化为K维向量运算,而向量空间上的相似度可以用来表示文本语义上的相似度。word2vec输出的词向量可以用来做很多NI。P相关的研究,比如词聚类、找同近义词、词性分析等。word2vec生成词向量的基本思想来自于Bengio提出的NNLM(Neural Network Language Model),其原理示意图如图3所示。ith output=P(W。=ilcontext)c(w,1)图3 NNI。M
11、原理模型图图3中,每个输入词都被映射为一个向量,该映射用C表示,即C(W。)为词语w,。的词向量。g为一个前馈或递归的神经网络,其输出是一个向量,向量中的第i个元素表示概率P(Wif眦1),目标是学到一个好的模型:388(t,Wt i,Wt一。+2,Wt一。+1)一p(让lt吖一1)需要满足约束条件:,(让,Wt一1,让一。+2,Wt一。+1)O凹厂(i,Wt 1,让。+2,Wt一。+1)一1f=1word2vec采用包含CBOW(Continuous Bag-Of-Words)和Skip-Gram两种算法利用上下文信息来预测当前词的思想来生成词向量。将文本集作为输入,将每个词对应的生成向量作
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 word2vec 互联网 商品 评论 情感 倾向 研究
限制150内