论坛中社会民生问题的提取与分析,计算机应用技术论文.docx
《论坛中社会民生问题的提取与分析,计算机应用技术论文.docx》由会员分享,可在线阅读,更多相关《论坛中社会民生问题的提取与分析,计算机应用技术论文.docx(8页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、论坛中社会民生问题的提取与分析,计算机应用技术论文论坛上聚集了很多愿意共享经历体验、信息和思想的用户,这些用户通过注册的唯一ID来阅读别人发布的信息并发布自个的消息而构成一个线程. 论坛沟通已经成为当今社会沟通思想和信息传播的一个重要途径. 论坛上的话题主要分为两类:(1)突发事件相关话题,特点是持续时间短,讨论剧烈;(2)民生话题,特点是持续时间较长,一般为贴近生活的话题.已有的研究主要集中于前者,如论坛热门话题的发现及预测研究、突发事件后不实消息传播的研究、基于舆情的敏感新信息搜索方式方法等.后者的研究相对较少,同时由于民生话题是舆情分析的难点,其相关研究具有实际意义. 因而,本文算法主要
2、目的是提取时间轴上的民生话题. 辨别民生话题算法结合时间维度,应用LDA话题模 型和短文本类似度评估模型进行提取.民生话题的提取首先要保证聚类结果话题相关,算法采用LDA生成话题模型,短文本类似度模型挑选并聚集相关帖子;另一方面本文采用相邻时间片话题穿插匹配的方式方法保证话题在时间轴上的持续性. 在得到了民生话题对应的帖子、介入者及其回复关系后,就能够应用社会网络分析进一步得到如关键人物分析、社区划分、话题演化等方面的研究. 2、类似度评估模型Quan 提出了基于话题模型的短文本类似度计算方式方法,该方式方法是利用话题模型来修正短文本的特征向量,最终仍然通过计算向量之间的夹角余弦来表示文本之间
3、的语义相关性.本文算法参考其向量化模型,采用最小值阈值的方式方法,本文方式方法在不降低结果准确性的同时,能够相对减少计算开销. 类似度评估模型主要针对相邻两个时间段的话题进行分析,假设前一期的话题Tformer=t1, ti, tn,对应的话题向 量 为ti=(ti1,pi1), (tij,pij), (tiN,piN);后一期的话题Tlater=t1, tk, tm,对应的话题向量为tk=(tk1,pk1), (tkl,pkl), (tkM,pkM). 要找到相邻时间片上类似度高的话题,需要进行n m次类似度计算,即两个时间段的每一个话题都需要和另一个时间段的所有话题进行类似度评估.ri,d
4、= word ti dminp(word)si,k= word ti tkmin(p(word) (1)式中,ri,d表示标题向量d与话题ti的相关度,假如相关度大于阈值 2,即以为该帖子是与话题相关.si,k表示话题向量ti与tk的相关度,它等于两个话题中同时出现的某个词汇的概率较小值的总和. 当si,k大于设定阈值 1时,算法以为这两个话题是类似的.当同一话题持续超过若干期,能够认定为民生话题.同时,在一个时间段内也需要应用类似度来衡量一个话题ti的规模,这时只需要应用ti的本文关键词语与向量化的帖子标题d进行匹配,所有匹配成功的概率总和即为相关度. 3、论坛民生话题辨别方式方法 由于网络
5、数据的时间特色,把用户交互的数据按相等的时间T来划分,并假设这些时间段是独立的或者小部分重合的,在本文实验中,假设数据是按半个月(15天)进行划分的. 对于每一个时间段的数据进行话题建模,并通过相邻时间段话题类似度比拟使得跨越多个区域的民生话题浮现出来. 得到民生话题算法的主要思想如此图1所示. 首先,用 户交互数 据按时间区间进行划分,并使用LDA得到时间段内的话题模型.然后,相邻时间段的话题数据进行类似度计算,把跨越多个时间段的相关度高的话题定义为民生话题10. 算法的详细步骤如下所示. Step 1.应用LDA话题模型分时间段进行话题辨别,并统计话题相关的帖子数、介入用户数、回复率、热度
6、等;对于时间段t,得到N= TOPICi(t)个经过属性过滤的话题,每个话题包含本文关键词语列表及对应概率. 华而不实属性过滤知足下面条件之一的话题被保存:(1)标题向量与该话题向量类似度大于阈值 2的帖子总数大于等于10;(2)介入该话题的总用户数大于等于该期活泼踊跃用户的10%;(3)热度(点击数除以该期活泼踊跃用户数)大于等于10%;(4)回复率(总介入人数除以总点击数)大于等于30%;华而不实,阈值 2在实验中取值为0.05,即假如一个帖子标题向量含有某话题的一个主本文关键词语,则能够确定这个帖子是该话题的相关帖子. Step 2.辨别民生话题.通过计算相邻时间段话题的类似度来得到延续
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 文化交流
限制150内