网络口碑对产品销量的影响基于细粒度的情感分析方法-孟园.pdf
《网络口碑对产品销量的影响基于细粒度的情感分析方法-孟园.pdf》由会员分享,可在线阅读,更多相关《网络口碑对产品销量的影响基于细粒度的情感分析方法-孟园.pdf(11页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第29卷第1期2017年1月管理评论Management ReviewV0129No1Jan,2017网络口碑对产品销量的影响:基于细粒度的情感分析方法孟 园1 王洪伟1 王伟2(1同济大学经济与管理学院,上海210000;2华侨大学工商管理学院,泉州362021)摘要:随着在线点评系统的发展,网络12碑成为消费者购买决策的重要参考依据,并对产品销量产生影响。护肤品销量受口碑效应的影响显著,为此以护肤品为例,基于细粒度情感分析技术,从网络口碑中提取针对产品特征项的消费者主客观情感,根据词;12频数设计细粒度情感各维度的权重指数,构建细粒度综合情感指数。然后,以综合情感指数和消费者评分为情感变量
2、,结合ARMA模型对产品的销量预测进行实证分析。与基准模型对比,发现加入了情感变量的销量预测模型提高了对数据的拟合能力,细粒度情感指数有较高的预测精度。而消费者评分在某些节点上也具有一定的预测能力,但整体预测效果并不理想。研究也表明,以月度为观察周期构建的网络口碑综合情感指数具有较好的预测效果,综合情感指数滞后1期时能提供最好的预测效果,滞后1-4期时能为销量预测起作用。关键词:网络口碑;销量预测;情感指数;细粒度情感分析引 言销量预测倍受企业关注。传统的销量预测方法预测粒度较大,依赖于具有较大延迟性的历史数据。在互联网时代,数量庞大的网络口碑(也称在线评论)作为传统数据的良好补充,其预测能力
3、逐渐被理论界重视。有别于传统口碑,网络口碑突破了时空限制,具有传播范围广、速度快、信息量大、可测量性等特点阻,对消费者的购买决策能产生更大的影响旧3 o。Derbaix和Vanhamme发现,不少消费者即使选择线下购物,也会事先阅读在线评论,以此降低购买决策的风险和不确定性M J。已有研究表明,网络口碑中的情感因素对图书销量、电影票房、股票走势产生了一定的影响叫。但是,这些研究大多是粗粒度地挖掘口碑情感,考察口碑整体的情感(正面、负面或中立)与销量的关系。由于网络口碑多以混合情感(sidedness)的形式出现,即肯定某些方面,同时批评其他方面。因此,针对不同的产品特征,挖掘网络口碑的情感因素
4、,才能更加接近消费者真实的情感表达,从而提高销量预测能力。护肤品是受口碑影响最为明显的产品之一。随着消费者日趋理性,媒介和广告的作用逐渐减弱,而来自消费者的网络口碑正受到市场的重视。国内护肤品专业点评网站有数十家,它们通过激励手段鼓励消费者在线点评,提高品牌的关注度,由此产生了数量庞大的产品口碑。但是,关于护肤品El碑效应的研究文献还不多见。为此,利用某国际护肤品牌提供的真实销量数据,采用领域本体和情感词典,从主观和客观2个情感维度以及客观情感5个子维度出发,依据各自权重指数构造细粒度的情感指数。然后,采用ARMA模型,将细粒度情感指数作为情感因素变量,测量其对产品销量的影响。与消费者评分这一
5、粗粒度情感因素进行对比,验证了本文构造的细粒度情感指数比消费者评分具有更好的预测能力。收稿日期:201410-22基金项目:国家自然科学基金项目(71371144;71601119;71601082);上海市哲学社会科学规划课题一般项目(2013BGL004);江西省教育厅科学技术研究课题一般项目(GJJl50783)。作者简介:孟园,同济大学经济与管理学院博士研究生;王洪伟(通讯作者),同济大学经济与管理学院教授,博士生导师,博士;王伟,华侨大学工商管理学院讲师,博士。万方数据第1期 孟园,等:网络口碑对产品销量的影响:基于细粒度的情感分析方法 145相关文献综述1、网络口碑与在线评论Amd
6、t最早将口碑定义为人际之间不以商业营销为目的,对品牌、产品、服务、厂商的信息或看法进行口头交流的行为2|。随着互联网的发展,口碑交流行为逐渐由线下转移到线上。HennigThurau等较早关注网络口碑的交流行为,并将网络口碑定义为由潜在的、实际的或以前的消费者发表的对产品或公司的正面或负面的评论,并通过互联网呈现给其他人和机构3f。从这一定义出发,网络口碑与在线评论属于相同概念范畴。因此,本文在后续阐述时,网络口碑与在线评论视为同一概念。2、情感分析方法按照分析目的不同,情感分析可以分为“粗粒度情感分析”和“细粒度情感分析”。(1)粗粒度情感分析粗粒度情感分析是获得针对某个产品整体的正面、负面
7、或中立的情感倾向,通常针对篇章或句子级别的文本进行分析4|。对于粗粒度情感,研究者采用消费者“星级评分”来度量”,6,还有学者采用文本情感分类器,基于评论内容提取不同特征项,通过训练分类器获得评论句或段落的整体上是正向、负向还是中立的情感倾向7,14-16。(2)细粒度情感分析细粒度情感分析是以短句、文本片段为单位的文本倾向分析6,包括客观和主观情感两个维度。客观情感维度是指针对具体产品特征的评价(如香味迷人,包装环保等),主观情感维度是指仅包含消费者个人喜恶主观判断,并未针对具体特征所表达的情感(如太喜欢了,大爱,不是很喜欢)。细粒度情感分析主要关注如何提取特征观点对,研究方法分为自然语言处
8、理方法和语义分析两种。代表性的研究中,Hu和Liu【l 8l、Liu等I 9|、Scaffidi等脚1基于特征词和观点词邻近原则及共现频率来识别特征观点对,而Choi和Cardie21|、Zhang等22 3通过序列标注模型方法识别特征观点对。此外,Zhao和Li2 3|、Bloom和Argamon1基于语义分析方法,利用词语依存句法路径和句法配对规则来提取特征观点对。3、网络口碑情感因素或情感指数与产品销量的关联有学者采用产品评论的数值信息(星级评分或评论数量)或评论内容的正负情感极性来量化产品评论的口碑效应。还有学者利用评论情感倾向构建情绪指数来测度其对销量的影响。(1)网络口碑情感因素与
9、产品销量相关关系Liu心引、龚诗阳等协1发现评论数量而非星级评分对电影票房、图书等产品销量有显著影响,而Chevalier和Mayzlin1、Chintagunta等M1却发现星级评分能影响产品销量。卢向华等心列对大众点评网的餐馆点评进行实证分析,发现网络口碑的数量、评分、负面点评率对线下餐馆销售收入有显著的影响。Archak等o 7|、Ye等旧副学者利用文本分类器,获得文本内容的情感极性,考察文本情感极性与电影票房、股票交易率、酒店预定量的关系,发现文本情感极性作用明显。(2)情感指数对销量趋势的影响情绪指数研究始于行为金融的投资者情绪测度。测度指标包括市场收益与波动率等直接数据以及问卷调查
10、、实际交易数据等情绪代表指标旧9|。随着互联网用户评论和搜索行为的增多,学者转为从评论或搜索中提取投资者情感指数或消费者信心指数,研究其对股票走势、电影票房以及社会消费的预测能力。例如,Ant-weiler和Frank【8 o以及Das和Chenpl基于股票论坛评论数据分别构建投资者看涨情绪指数和投资者情绪指数。Bollen等o构建Twitter用户情绪指数,验证其对股票交易市场波动的影响。Liviu和Mihaela等1构建Twitter上和电影相关的评论情绪指数,验证其与电影票房之间的联系。情绪测度指标包括看涨评论条数(或积极评论条数)、看跌评论条数(消极评论条数)、看平评论条数(中立评论条
11、数)。孙毅等阳叫则基于搜索引擎数据构建了消费者信心指数,验证其对宏观经济走势及社会销售总额的预测能力。4、研究述评现有研究考虑了网络口碑情感因素对销量的影响作用,但仍然存在不足:(1)网络口碑情感因素的挖掘不够深入。现有研究大多从粗粒度角度(包括星级评分、口碑数量、文本内万方数据管理评论 第29卷容情感倾向指标)来探索网络口碑对销量的影响,鲜有挖掘13碑中的细粒度情感因素对销量的影响。由于用户情感的表露错综复杂,经常肯定某方面,同时批评其他方面。Liu等引指出正是由于这些正负评价相互抵消,使得粗粒度情感无法全面地衡量评论情感极性,从而造成分析结果不显著。因此,细粒度地识别在线评论的元素及其属性
12、,才是分析在线评论与商家业绩关系的关键。(2)现有细粒度的特征观点对提取方法准确率不高。基于统计自然语言处理的方法根据特征词和观点词邻近特点或共现性识别两者的搭配关系,但未能深入分析特征词和观点词之间的潜在语义关系;而基于语义句法分析需要对语料进行复杂的计算,效率较低;同时针对口语化严重和语法不规范的中文产品评论,将影响依存句法分析的准确性。基于此,本文采用基于产品评论的领域本体方法,能从语义角度精确地抽取特征观点对,并有效克服中文语法表达不规范的问题。(3)从研究对象来看,已有研究聚焦在图书、电影、股票等领域,虽然这些产品的研究结论具有相当程度的普适性,但将网络口碑的研究扩展到其他行业仍是十
13、分必要的。综上,本文基于细粒度情感分析角度,采用领域本体和情感词典,从客观情感和主观情感两个维度出发,构建综合情绪指数,考察其对某品牌护肤品公司产品销量趋势的预测能力。细粒度情感分析方法细粒度情感分析包括特征观点对的识别和配对、主观情感词识别、情感倾向分析等任务。1、特征观点对的识别和配对特征观点对的识别是客观情感分类任务中的核心环节,包括特征词识别、观点词识别、特征词和观点词的配对3个步骤。由于中文表达口语化严重、语法不规范、特征缺失,中文特征观点对的识别存在难度。领域本体能较好地分析产品评论中概念和概念间的同义和隶属关系,从而有效的识别评论特征观点对。为此,借鉴文献31,基于领域本体建模方
14、法,对实验语料的特征观点进行抽取和配对,步骤如图1所示:图1基于领域本体方法特征观点对提取步骤(1)分词与词性标注采集化妆品点评网站及电商销售平台的产品参数说明和用户评论作为输入文本。采用中科院的ICTCLAS系统(http:ictclasorg)进行分词、词性标注,并去停用词。(2)概念和关系的抽取统计实词序列中名词的词频。以被描述和评价的对象为中心词,按词频高低顺序并结合人工判断进行筛选,由此确定领域本体概念C。保留名词、动词和形容词,以领域本体概念为中心,提取其左右or个词语作为候选术语t,采用语义关联度计算方法和滑动窗口来确定与本体概念相关的术语,从而确定概念c和术语t的关联关系0,8
15、3(C,t)。仅保留前30个与概念关联的术语。采用余弦相似度,确定领域概念C的同义词s,将高于阈值瓦的词语作为产品特征,并将该词加入同义词列表。ass(s,ti)ass(c,ti)sim(s,c)2 cos0=_=二=i=1二=二二二二二二=二=二二二二f n n(荟口ss(s,u 2)(荟口ss(c)2)采用非对称关联规则,确定概念下位词h。将高于阈值疋的词语作为产品特征词,并将该词语加入到相应的下位词列表。万方数据第1期 孟园,等:网络口碑对产品销量的影响:基于细粒度的情感分析方法 147ass(h,ti)ass(c,ti)一 mem(五,c)=旦L_=二二二=二=,(2) “(荟删(h,
16、ti)按照上述步骤,以护肤品为例,构建在线评论领域本体,为特征观点对的匹配和抽取奠定基础。(3)评论特征观点对匹配与抽取以“,”为分隔点,将评论文本划分为评论片段,以此为单位对特征词和观点词进行配对。将识别出的特征词标记为F,观点词标记为0,形成特征观点序列。例如,“味道很赞,滋润度非常好,质地也轻薄,就是价格不可爱”,转换为“味道F赞0”,“滋润度F好0”,“质地F轻薄O”,“价格F不可爱0”。(4)评论特征观点对聚类将识别出的产品特征根据其在本体结构中的位置,沿着其所在分支向上追溯,找到该分支第一层的产品主要特征概念。对具有相同概念的特征观点对进行聚类,最终得到按主要概念划分的多个特征观点
17、对集合。2、主观情感词识别识别出特征观点对之后,继续在余下的评论中识别和抽取具有情感意义的词语或词组。在以“,”划分的文本片段中,将识别出的特征观点片段进行标记,将未标记的文本片段再次进行分词和词性标注步骤,提取形容词、动词、否定词、程度副词,否定词与其后的形容词或动词作为一个词提取,从而生成主观情感词集。3、情感倾向分析客观情感倾向通过消费者对产品的观点评价词情感极性来确定,主观情感倾向则通过情感词语情感极性确定2j。本文采用情感词典进行细粒度的情感倾向分析。以HowNet2007版情感词汇集提供的正面评价词3730个,负面评价词3116个,正面情感词836个,负面情感词1254个作为词汇基
18、础建立基准词典31,并根据护肤品领域网络评价词语的多种表达形式对基准词典进行补充。选择闺蜜网的护肤品产品评论作为语料来源,提取形容词、动词、否定词、程度副词构建补充观点词和情感词,同时进行人工标注判断观点词极性。在提取过程中,遵循以下规则:(1)否定词(如“不”)与其后的形容词或动词作为一个词提取。例如,“价格不可爱,质地不油腻”,提取的观点词为“不可爱”、“不油腻”。(2)程度副词与其后的形容词或动词作为一个词提取。例如,“效果特别好,质地又很清爽,玫瑰香味特纯正”,提取的观点词为“特别好”、“很清爽”、“特纯正”。根据上述规则,共提取观点词424个(其中正面观点词295个,负面观点词129
19、个),提取I青感词129个(其中正面情感词52个,负面情感词77个),结合基准词典构成本文细粒度情感分析的依据。自编程序,对特征观点集合和主观情感词集进行情感极性分类。若情感倾向为正,则该标记为+l;若情感倾向为负,则标记为1。细粒度情感指数的构建1、数据说明与处理(1)评论数据选择有影响力的7家化妆品点评网站的评论作为语料(包括闺蜜网、Yoka、腾讯女性化妆品库、聚美口碑、网易女人、蘑菇街、二丫点评网)。收集从2009年3月到2014年5月的某品牌护肤品的产品评论文本、作者姓名、点评分数、评论发表时间等数据。通过爬虫软件,共抓取评论文本34152篇,去除冗余文本后得到有效文本24654篇。选
20、取的点评网站均为5分点评网站,便于对粗粒度的情感评分进行统一度量。将收集的评论文本进行细粒度的情感分析,提取特征观点对和主观情感词,并利用情感词典识别其各自情感倾向。共提取特征观点对82032个和主观情感词16276个,正负向情感倾向统计如表1所示:表1特征观点对和主观词情感倾向统计万方数据管理评论 第29卷(2)销量数据采用合作方提供的某国际护肤品牌实验销售数据作为销量数据。该品牌核心产品为高端护手霜,还包括脸部和身体护理多种产品系列。该品牌2008年进入中国,目前在国内拥有90家专柜,每日专柜将各自POS子系统销售数据上传至中间库。从中间库收集2009年3月1日至2014年4月30日间每日
21、的销量,按月度汇总,共产生62期的月度总销量数据。2、细粒度情感指数构建细粒度情感指数构建包括3个要素:周期情感倾向计算、细粒度情感维度的选取、细粒度维度的权重确定。(1)周期情感倾向计算周期情感倾向用以反映给定观察周期内评论者的整体上正面或负面的情感倾向。Antweiler和Frank提出的看涨指数被验证是最稳定的情绪倾向计算方法8j,因此借鉴公式(3)计算周期情感倾向。将观察周期内t内正向评论数量孵和负向评论数量AP作为指标项。铲n等】 该情感倾向值可解释为,观察周期t内,如果情感倾向大于0,说明观察周期内消费者整体情感是正向的;如果情感倾向小于0,说明观察周期内消费者整体情感是负向的。(
22、2)细粒度情感维度的选取通过细粒度情感分析,容易区分主观和客观情感,因此需要确定客观情感维和主观情感维的情感。客观情感是针对不同特征项的评价观点,因此对所识别的特征观点对按特征概念进行聚类,按聚类集中度和语义相关性筛选特征集合,最终保留5个特征集合效果,质地,香味,价格,包装,并统计每个特征集合中正向及负向特征项的数量,作为客观情感子维度基本指标项。维度变量如表2所示:表2情感指数维度说明维度变量 基本指标项及缩写主观情感 正向主观评论数量(瞩),负向主观评论数量(嵫)效果特征集合中正向观点数量(畔5),负向观点数量(P)质地特征集合中正向观点数量(眄),负向观点数量(罗)香味特征集合中正向观
23、点数量(孵3),负向观点数量(P)价格特征集合中正向观点数量(孵3),负向观点数量(孵)鱼鉴 鱼茎茎垄釜全主垩鱼塾:量垫量!笪2:壅鱼塾:量墼重!型兰2(3)细粒度情感维度权重确定细粒度情感维度权重的确定,常采用等权重1 4I。但对消费者而言,产品特征有主次之分。比如,对于手机,质量是最主要的属性;对于化妆品,功效则更受关注。消费者会在评论中提及最关注的产品特征,比较而言,某种特征提及次数越多,它的重要程度就越高。为了检验“词汇频数”(Term Frequency)的有效性,参考项目合作方2013年第4季度消费者调查问卷的统计结果以及本文实验语料中客观情感子维度抽取结果,作进一步分析。该问卷中
24、的相关题项为“请问在购买本公司护肤品时,您最看中以下哪一项?A价格B效果c香味D质地E夕h观设计F其他项请注明”受访者由会员数据库随机抽样和定点专柜顾客抽样组成,共收集318份有效问卷,统计结果如图2所示。402003020l 19I 20 ol 11120,O r效果 香味 质地 价格56 3 _外观设计(包装) 其他调查问卷 口评论抽取结构图2调查问卷与评论抽取结果对比分析果地味格效质香价感隋观客2万方数据第1期 孟园,等:网络口碑对产品销量的影响:基于细粒度的情感分析方法 149将问卷统计和评论抽取结果进行比较,可以发现,实际调查中消费者认为产品“效果”最重要(49),“外观设计”相对不
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 网络 口碑 产品 销量 影响 基于 细粒度 情感 分析 方法 孟园
限制150内