基于改进k-means算法的微博舆情分析研究-谢修娟.pdf
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《基于改进k-means算法的微博舆情分析研究-谢修娟.pdf》由会员分享,可在线阅读,更多相关《基于改进k-means算法的微博舆情分析研究-谢修娟.pdf(4页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、CN 43-1258TPISSN 1007130X计算机工程与科学Computer Engineering 8L Science第40卷第1期2018年1月V0140No1。Jan2018文章编号:1007130X(2018)01015504基于改进K-means算法的微博舆情分析研究。谢修娟1,李香菊(1东南大学成贤学院计算机工程系,江苏南京210000;21,莫凌飞2东南大学仪器科学与工程学院,江苏南京210000)摘 要:为避免初始聚类中心选取到孤立点容易导致聚类结果陷入局部最优的不足,提出一种基于密度的K-means(聚类算法)初始聚类中心选择方法。该方法首先计算每个数据对象与其它数据
2、对象间的平均相似度,找出平均相似度高于某固定阈值的对象视作核心对象,再从核心对象中选取彼此间最不相似的作为初始聚类中心。通过自构建的新浪微博抓取工具,分别抓取不同类别的数千条数据,经过分词、预处理及权重计算后,用改进的Kmeans算法对其进行聚类分析,查准全率较传统的Kmeans算法要稳定,聚类的平均时间也得到缩短。实验结果表明,改进后的算法在微博聚类中有更高的准确性和稳定性,有利于从大量的微博数据中发现热点舆情。关键词:微博;聚类中心;Kmeans聚类算法;密度中图分类号:TP301 文献标志码:Adoi:103969jissn1007130X201801023Microblogging o
3、pinion analysis basedon an improved K-means algorithmXIE Xiuj uanl。LI Xiangj u1。MO Lingfei2(1Department of Computer Engineering,Southeast University Chengxian College,Nanjing 210000;2School of Instrument Science and Engineering,Southeast University,Nanjing 210000,China)Abstract:In order to avoid sel
4、ecting isolated points as the initial clustering center which can causeclustering results to fall into local optimum,we propose a new Kmeans(clustering algorithm)initialclustering center selection method based on densityThis algorithm firstly calculates the average similarity between each data objec
5、t and the others,and finds the core objects whose average similarities arehigher than a fixed thresholdThe least similar core object to each other is taken as the initial clusteringcenterWe build a crawler for Sina Microblog to grab thousands of different types of dataAfter dividing words,pretreatme
6、nt and weight calculation,we use the improved Kmeans algorithm for clusteringanalysisCompared with the traditional Kmeans algorithm,our proposal has a more stable precisionfull ratio,and the average clustering time is also shortenedExperimental results show that the improved algorithm has higher acc
7、uracy and better stability in microblog clustering,and can be used in discovering public opinion from a large number of microblog dataKey words:microblog;clustering center;Kmeans clustering algorithm;density引言随着媒体技术的不断进步和信息传播渠道的日趋多元化,当今社会进人了“人人都是新闻传播者”的自媒体时代。广大网民参与言论的热情高涨,特别是微博的兴起,网民可以通过电脑、手机随时随地发表言
8、论。新浪微博Twitter叫类的新收稿日期:2016-0222;修回Et期:2016-0616基金项目:江苏高校哲学社会科学基金2016SJD880186)i江苏省现代教育技术研究课题(2016-R一46509);“十二五”国家科技支撵计划(2013BAJ058022)通信地址:210000江苏省南京市江宁区天元中路武夷绿洲小区观竹苑29203Address:Room 203,Building 29,Guanzhuyuan Wuyi Lazhou Residential Area,Tianyuan Middle Rd,Jiangning District,Nanjing210000,Jiang
9、su,PRChina万方数据156 Computer Engineering&Science计算机工程与科学2018,40(1)兴网络应用,自2009年推出,截至目前,注册用户已超过5亿,月活跃用户数约为2亿,用户每日发博量突破1亿条口。可见,微博上的舆论已成为网络舆情中极具影响力的一种。如何从海量数据中快速有效地发现网民关注的热门话题?从而引导政府相关部门及时捕捉微博中敏感的舆论信息,合理地控制负面舆论的扩散。目前,很多政府机关采用全人工或是半自动的监测统计方法,效率低,准确度也低口“。因此,迫切需要一种更为有效的微博热点话题发现方法。Kmeans口1是一种最为经典、使用最为广泛的划分聚类算
10、法,经常被用于网络舆情的聚类中。但是,其使用有一定的局限性6。8:(1)需要事先确定聚类数;(2)初始聚类中心的选择方法不一,选取不当,往往导致最终聚类结果陷入局部最优。针对上述情况,研究者从不同角度提出一系列改进的Kmeans算法,文献9利用文档标题的稀疏相似度,确定Kmeans算法的初始聚类中心;文献10提出用凝聚的层次算法干预Kmeans算法的随机选取聚类中心的方式,保证最终的初始聚类中心更具有典型性;文献11提出使用二分思想递归分裂相似度大于给定阈值的簇,合并相似度小于阈值的簇,来获得聚类簇数。本文提出一种基于密度的Kmeans聚类算法,对传统的Kmeans初始聚类中心选择方法进行改进
11、,并将改进后的算法用于新浪微博的聚类中,以期能更快、更准确地对最近的微博数据进行聚类,以便发现微博热门话题。2相关的定义定义1微博文档的表示:采用空间向量模型VSM(Vector Space Model),b:=(1(6。),硼2(6:),硼,(6:),W。(b,),Wj(6。)表示第歹个特征项在微博文档b,中的权重,本文权重计算采用TFIDF方法,砌一tfidf,tf指特征项在某微博文档b,中出现的次数,idf是特征项在微博文档集b。中出现频率的量化。为了降低高频特征项对其它中低频特征项的抑制作用,需要对特征向量进行归一化处理,处理后的权重计算公式如下: 毗)一i誓些坐坠堡些:;。tf,(移
12、。)2In2(Nn,+001)其中,f厂,(6,)是指第歹个特征项在b。中出现的次数,N是所有微博文档的个数,n,表示包含第J个特征项的微博文档的个数,n是b:中特征项的总个数,分母为归一化因子。定义2两个微博文档bi和b,之间的相似度similarity(6:,bj)定义为两个向量对象在状态空间方向上正交的可能性,用这两个向量的夹角余弦COS 0。表示,若完全正交,表示两文档毫无相似性,点积为0。夹角余弦COS 0。采用如下的计算公式:COS巩一羔三!垒篓兰:一,6:。6:其中,b;、bjk分别表示文档6,和b,第矗个特征项的权值,1是N。定义3 Kmeans目标收敛函数:E一2,。“J x
13、m:I 2,Kmeans聚类过程中,E的值是变化的,当E趋向一个极小的固定值时,意味着聚类结果趋于稳定,聚类结束。其中,E表示所有聚类文档的误差平方和,X是聚类簇C,中某个聚类文档,m,是每个聚类簇c,内所有聚类文档的均值。定义4密度density:给定文档集合BL,bBL,文档b的密度定义为该文档与其它文档的平均相似度,采用如下的计算公式:density(6)一,BLsimilarity(了,b)Nm其中,分子是文档b与其它文档两两间的相似度之和,分母是BL所包含的文档数。定义5核心文档:若文档b的密度大于或等于给定参考值refSimilarity(大于o),则该文档是核心文档,refSim
14、ilarity称为密度阈值。通过计算密度得到核心文档,能有效地规避噪声文档,避免初始聚类中心取到孤立点而导致聚类结果陷入局部最优。采用反证法:假设噪声点是核心文档,而其与各个文档间极不相似,根据定义2和定义3,噪声文档的密度约为0,这与核心文档的定义相冲突,因此,核心文档不可能是噪声文档。3改进的K-means聚类算法31基于密度思想的初始聚类簇中心选择算法借鉴DBScAN密度聚类思想,本文提出一种初始聚类簇中心选择算法InitialCenters,首先找出所有核心微博文档,选取K个相互间最不相似的核心文档作为初始聚类中心。InitialCenters算法流程描述如下:输入:微博文档集合blo
15、gList=b。,6。,b。;聚类簇数K;密度阈值vefSimilarity。万方数据谢修娟等:基于改进Kmeans算法的微博舆情分析研究 157输出:初始聚类簇中心centers=cl,C2,CK。Step 1对于给定的微博文档集合blogList,求出任意两个文档间的相似度,保存至相似度矩阵docSimilarity中;Step 2根据相似度矩阵docSimilarity,计算每一个文档与其它文档两两之间的平均相似度,找出平均相似度高于密度阈值的文档,形成核心文档集合coreDocs;Step 3将coreDocs中的第一个核心文档作为第一个初始聚类中心点centers1,并从coreDo
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 改进 means 算法 舆情 分析研究 谢修娟
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内