基于语义约束lda的商品特征和情感词提取-彭云.pdf
《基于语义约束lda的商品特征和情感词提取-彭云.pdf》由会员分享,可在线阅读,更多相关《基于语义约束lda的商品特征和情感词提取-彭云.pdf(18页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、软件学报ISSN looO9825,CODEN RUxuEw,o“r”口,可s咖d旭,2017,28(3):676693【doi:1013328巧cnkijos005154中国科学院软件研究所版权所有基于语义约束LDA的商品特征和情感词提取丰彭 云1,2,3,万常选1r,江腾蛟1r,刘德喜1r,刘喜平1r,廖国琼1,31(江西财经大学信息管理学院,江西南昌 330013)2(江西师范大学计算机信息工程学院,江西南昌 330022)3(数据与知识工程江西省高校重点实验室(江西财经大学),江西南昌 330013)通讯作者:万常选,Email:wanchangxuan263_netEmail:jos
2、iscasaccnhttp:wwwJoso唱cnTel:+8610一62562563摘要: 随着网络购物的发展,w曲上产生了大量的商品评论文本数据,其中蕴含着丰富的评价知识如何从这些海量评论文本中有效地提取商品特征和情感词,进而获取特征级别的情感倾向,是进行商品评论细粒度情感分析的关键根据中文商品评论文本的特点,从句法分析、词义理解和语境相关等多角度获取词语间的语义关系,然后将其作为约束知识嵌入到主题模型,提出语义关系约束的主题模型sRcLDA(semantic relation constrainedLDAl用来实现语义指导下LDA的细粒度主题词提取由于sRcLDA改善了标准LDA对于主题词
3、的语义理解和识别能力,从而提高了相同主题下主题词分配的关联度和不同主题下主题词分配的区分度,可以更多地发现细粒度特征词、情感词及其之间的语义关联性疾验结果表明,sRcLDA对于细粒度特征和情感词的发现和提取具有较好的效果关键词: LDA模型;语义约束;商品特征;情感词中图法分类号:TP311中文引用格式:彭云,万常选,江腾蛟,刘德喜,刘喜平,廖国琼基于语义约束LDA的商品特征和情感词提取软件学报,20l 7,28(3):676693http:wwwJosorgcn100098255154htm9芝文弓I用格式:Peng Y,Wan Cx,Jiang TJ,Liu Dx,Liu xP,Liao
4、GQExtracting product aspects and user opinions based onsemantic constrained LDA modelRuan Jian Xue BaoJoumal of Software,2017,28(3):676693(in Chinese)http:wwwJosorgcn1000一98255154htmExtracting Product Aspects and User opinions Based on Semantic Constrained LDA ModelPENG YUnl,2一,WAN ChangXuanlr, JIAN
5、G Teng_Jia01, LIU DeXil,一, LIU XiPin91r, LIA0 GuoQion9131(Sch001 ofInformation and Technology,Jiangxi University ofFinance and Economics,Nanchang 330013,China)2(school of Computer and Information Engineering,Jiangxi NormaI university,Nanchang 330022,China)3(Jiangxi Key Laboratory ofData and Knowledg
6、e Engineering(Jiangxi university ofFinance and Economics),Nanchang 330013,China)Abstract:With the development of online shopping,the Web has produced a la唱e quantity of product reViews containing abundantevaluation knowledge about productsHow to extract aspect and opinion words from the reViews and
7、further obtain the sentiment p01arityofthe products at aspect level is the key problems to s01Ve in flnegrained sentiment analysis ofproduct reViewsFirst,considering certainfeatures of Chinese product reviews,this paper designs methods to deriVe semantic relationships among words through syntactic a
8、nalysis,word meaning understanding and context releVance,and then embed them as constrained knowledge into the topic modelsecond,asemantic relation constrained topic model called SRCLDA is proposed to guide the LDA to extract fine-grained topical wordsTllroughthe improvement of semantic comprehensio
9、n and recognition ability of topical words in standard LDA,the pfoposed model can increase基金项目:国家自然科学基金(61562032,61662032,61662027,61173146,61363039,61363010,61462037,61562031);江西省自然科学基金重大项目(20152AcB20003);江西省高等学校科技落地计划(对LDl2022,KJLDl4035)Foundation item:National Natural Science Foundation ofChina(6
10、1562032,61662032,61662027,61173146,61363039,613630lO,61462037,61562031);江西省自然科学基金重大项目(20152ACB20003);江西省高等学校科技落地计划(LDl2022,K儿D14035)收稿时间:201607一03;修改时间:20160914;采用时间:2叭6-1l-01;jos在线出版时间:20161129cNKI网络优先出版:2016-11-29 13:34:56,http:,wwwcnkilnetkcmsdetail112560TP201611291334001html万方数据彭云等:基于语义约束LDA的商品特
11、征和情感词提取 677the words correlation under the same topic and the discrimination under the different topics,thus revealing more flnegrained aspectwords,opinion words and their semantic associationsThe expe“mental results show mat SRCLDA is an eHective approach fornne-grained aspects and opinion words ex
12、tractionKey words: latent Di“chlet a110cation model;semantic constraint;product aspect;opinion word随着互联网的普及和网络购物所带来的便捷性,网络购物呈现出了前所未有的爆发式增长趋势由此,在购物网站上产生了大量的商品评论文本数据,且日益呈现大数据化趋势要从海量的非结构化在线评论文本数据中获得有用的信息,通过人工方式进行处理的难度越来越大,希望通过相应的技术对这些评论文档进行自动化处理、分析,提取有用的知识在这样的应用需求背景下,出现了针对文本的情感分析(sentiment analysis)技术情
13、感分析也叫观点挖掘(opinion mining),主要研究人们对某一类实体如产品、服务、事件及其属性所表达的观点、情感和评价的相关问题,情感分析的数据对象主要是文本【1】人们在获取商品总体性评级的同时,有时候还希望了解更细致的商品功能及使用的评价情况,需要进行基于商品特征级别的细粒度的情感分析,以满足人们获取商品局部性特征评价信息的需求商品特征是指商品属性及构成商品的各个方面(aspect),包括全局特征和局部特征:全局特征一般指整体对象及其属性,如“这款相机非常不错”中的“相机总体质量真的好”中的“质量”;局部特征指整体对象的组成部分及其属性,如“价格很高”中的“价格”“屏幕很清晰”中的“
14、屏幕”情感词是直接或间接对商品特征进行评价的词语,也有全局情感词和局部情感词之分:全局情感词一般用来描述、评价全局特征,如“相机很好”中的“好”、“质量不错”中的“不错”,且全局情感词具有一定的通用性,有时也可用来修饰局部特征,如“价格不错”等;局部情感词一般用来描述、评价局部特征,如“价格很实惠”中的“实惠”“屏幕很清晰”中的“清晰”商品评论是用自然语言表达的非结构化的文本数据,数据量非常庞大,需要综合运用自然语言理解及数据挖掘技术,并有效降低文本的数据表示维度,才有可能实现细粒度的特征和情感词挖掘利用LDA主题模型可以进行文本数据的降维,实现大规模文本数据的主题词提取,并通过主题聚类来获取
15、词语间的关联关系但LDA主题模型偏向于提取高频的全局性主题词和词语共现关系,在主题词语的概率分配过程中没有考虑词语间的语义关系,导致一些低频的、具有隐含语义关系的特征词和情感词提取的准确率和召回率不高,尤其在具有丰富语义关系的中文商品评论中具体表现如下(1) 难以提取低词频的同义特征在中文商品评论中,经常会出现多个不同词语描述同一特征,如“价格”“价位”和“价钱”由于LDA模型对高频的“价格”“价钱”较敏感,往往会忽略掉低频的“价位”,从而影响此类特征词的提取率:(2) 难以发现低词频的情感词在中文商品评论中,有些情感词只用来修饰某一个或某一类的特征,如“价格很公道”“色彩很鲜艳”中的“公道”
16、“鲜艳”这类情感词具有一定的专属性,词频相对于全局情感词要低很多,其与特征词的共现关系容易被其他高频情感词所湮没,使得LDA模型难以发现这类情感词;(3) 难以满足细粒度词语的主题分配要求一篇评论文档往往会对多个不同特征进行评价,如“相机不错,价格很实惠,屏幕清晰,电池也很耐用”中的“相机”“价格”“屏幕”和“电池”,要实现细粒度的特征提取,需要尽量将这些不同特征分配到不同主题;此评论句中也出现了多个情感词,如“不错”“实惠”“清晰”和“耐用”,需要将这些情感词分配到对应其关联特征的不同主题标准LDA倾向于将评论文档中高共现的特征词和情感词分配到同一主题,难以在主题分配中实现细粒度特征和情感词
17、之间的有效区分为了解决上述问题,实现细粒度的特征和情感词提取,需要有指导地进行主题词挖掘,即:对主题模型进行约束,形成监督效应来提取符合挖掘目标的主题词在主题模型中引入must1ink和cannotlink语义约束,使满足mustliIlk关系的词语尽量分配到同一主题,而满足cannot1ink关系的词语尽量分配到不同主题本文试图从语义关系的发现来探索词语间的关联性,利用关联性进一步对主题模型形成约束机制,从而发现特征和情感词之间的隐含关系引入词语之间的语义关系可以提升主题模型的语义理解能力,提高识别局部词语间关联关系的能力,更多地发现细粒度的特征和情感词本文的主要贡献包括:万方数据678 如
18、甜Md,Q厂跏舢口陀软件学报v0128,No3,March 2017(1)从中文商品评论的语言结构和特点出发,设计了获取特征词特征词、特征词一情感词和情感词情感词的must1ink和cannot1ink语义关系的方法:(2) 构建了基于must1ink和cannotliIlk的语义关系图,设计了利用语义关系图来指导主题模型进行主题一词语分配的约束机制:(3) 将语义关系知识嵌入到LDA模型,提出了细粒度商品特征和情感词提取模型SRCLDA本文第l节介绍相关工作第2节构建语义关系图第3节设计SRCLDA模型第4节进行实验分析最后部分是总结与展望1相关工作在商品特征和情感词的提取研究中,主要方法有
19、以下几类(1)基于词频和共现的方法在商品特征及情感词的提取中,由于商品特征通常是名词或名词短语,且特征和情感词具有一定共现性,有些研究基于频繁名词和共现规则的方法提取特征和情感词Hu等人【2抽取出现频率大的名词及名词短语作为候选商品特征,通过压缩剪枝和冗余剪枝策略对提取的频繁商品特征进行筛选,抽取特征词附近的形容词作为情感词,再使用关联规则挖掘识别频繁商品特征,最后,利用抽取的情感词来识别非频繁的特征Popescu等人【3】将商品特征看作是商品的一部分,使用候选商品特征和领域特征之间的共现来提取商品特征,并使用点互信息PMI(pointwise mutualinfomation)表示关联程度,
20、最终按关联程度大小选择商品特征该方法提高了商品特征提取的准确率,但召回率有所下降基于词频的方法会造成部分低频特征词的丢失,并容易产生高频的非特征词同时,随着商品评论数量的增加,共现及关联规则很难覆盖日益复杂的文本语法及语义结构关系(2)基于机器学习的方法Jakob等人4】利用条件随机场CRF(conditionalraIldom fields)模型提取特征;Jin等人【5】将特征词和情感词的提取看做是一个序列标注任务:评论中的每个词都对应一个标签类别,提出使用词汇化的隐马尔可夫模型(1exicalized HMM)寻找最有可能的标签序列su等人6】提出一个相互增强准则来挖掘特征和情感词之间的隐
21、式关联,并基于聚类的方法将隐含特征识别出来王荣洋等人【_7】基于CRFs模型研究了多种特征及其组合在特征提取上的效果,重点引入了语义角色标注新特征上述基于机器学习的方法需要人工标注数据集,当商品评论的数据量很大时,要耗费大量的人力(3)基于句法依存的方法刘鸿宇等人【8】基于句法分析获得名词和名词短语的候选特征,然后,结合PMI和名词剪枝算法对候选特征进行筛选获得最终结果wu等人【9】利用依存分析发现评论中商品特征与情感词之间的联系,并使用TreekemelSVM(support vector machine)方法将情感词和商品特征的组合进行分类,分为“相关”“不相关”两类赵妍妍等人【1 o】利
22、用统计方法来获取描述评价对象及其评价词语之间修饰关系的句法路径,提出了一种基于句法路径的情感评价单元自动识别方法,并通过句法路径编辑距离的计算来改进情感评价单元抽取的性能Qiu等人【11】提出了一种Double Propagation方法同时进行情感词和特征词的识别与抽取,在定义一系列种子情感词的基础上,制定了特征词和情感词之间的规则关系,通过不断迭代将情感词抽取与识别出来姚天畴等人12】基于依存句法分析总结出“上行路径”和“下行路径”的匹配规则,进而总结出sBV(主谓关系)极性传递的一些规则,用于情感评价单元的识别Poria等人【13利用商品评论中的语言常识及句法依存树来发现显性和隐性的特征
23、,算法的准确性依赖于句法分析和情感词典由于商品评论文本的语法结构较为随意,基于句法依存的方法难以穷尽其句式结构关系,在非规范格式评论文本中难以识别特征和情感词关系(4)基于改进的LDA方法由于商品评论数据量极大,同时行文较为自由,有些研究者试图利用LDA(1atent dirichlet allocation)主题模万方数据彭云等:基于语义约束LDA的商品特征和情感词提取 679型【14J的文本降维及主题聚类作用,通过提取主题词来发现特征和情感词LDA是一种概率生成模型,结构包括3层:文档、主题和词语,主要思想是:文档是主题的随机混合;主题是满足一定概率分布的词语组合LDA将表达文本的词向量转
24、化为主题向量,降低了文本维度,同时,在文本生成过程中可以提取主题词由于LDA倾向于产生全局性的主题词,为了提取更多的局部主题词,以下研究对标准LDA主题模型进行了扩展,包括两类模型:一类仅提取特征;一类同时提取特征和情感词特征提取Titov等人【15J将标准LDA模型扩展为多粒度MGLDA(multigrain LDA)模型,并假设全局主题倾向于捕获商品总体属性而局部主题倾向于捕获用户评价的商品特征,在此基础上对全局主题和局部主题两类不同类型的主题建模Andrzeiewski等人【16】将领域知识用Dirichlet森林先验的方式加入到LDA中,提出了DFLDA(dirichlet fores
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 语义 约束 lda 商品 特征 情感 提取 彭云
限制150内