论坛中社会民生问题的提取与分析,计算机应用技术论文.docx
论坛中社会民生问题的提取与分析,计算机应用技术论文论坛上聚集了很多愿意共享经历体验、信息和思想的用户,这些用户通过注册的唯一ID来阅读别人发布的信息并发布自个的消息而构成一个线程. 论坛沟通已经成为当今社会沟通思想和信息传播的一个重要途径. 论坛上的话题主要分为两类:(1)突发事件相关话题,特点是持续时间短,讨论剧烈;(2)民生话题,特点是持续时间较长,一般为贴近生活的话题.已有的研究主要集中于前者,如论坛热门话题的发现及预测研究、突发事件后不实消息传播的研究、基于舆情的敏感新信息搜索方式方法等.后者的研究相对较少,同时由于民生话题是舆情分析的难点,其相关研究具有实际意义. 因而,本文算法主要目的是提取时间轴上的民生话题. 辨别民生话题算法结合时间维度,应用LDA话题模 型和短文本类似度评估模型进行提取.民生话题的提取首先要保证聚类结果话题相关,算法采用LDA生成话题模型,短文本类似度模型挑选并聚集相关帖子;另一方面本文采用相邻时间片话题穿插匹配的方式方法保证话题在时间轴上的持续性. 在得到了民生话题对应的帖子、介入者及其回复关系后,就能够应用社会网络分析进一步得到如关键人物分析、社区划分、话题演化等方面的研究. 2、类似度评估模型Quan 提出了基于话题模型的短文本类似度计算方式方法,该方式方法是利用话题模型来修正短文本的特征向量,最终仍然通过计算向量之间的夹角余弦来表示文本之间的语义相关性.本文算法参考其向量化模型,采用最小值阈值的方式方法,本文方式方法在不降低结果准确性的同时,能够相对减少计算开销. 类似度评估模型主要针对相邻两个时间段的话题进行分析,假设前一期的话题Tformer=t1, ti, tn,对应的话题向 量 为ti=(ti1,pi1), (tij,pij), (tiN,piN);后一期的话题Tlater=t1, tk, tm,对应的话题向量为tk=(tk1,pk1), (tkl,pkl), (tkM,pkM). 要找到相邻时间片上类似度高的话题,需要进行n m次类似度计算,即两个时间段的每一个话题都需要和另一个时间段的所有话题进行类似度评估.ri,d= word ti dminp(word)si,k= word ti tkmin(p(word) (1)式中,ri,d表示标题向量d与话题ti的相关度,假如相关度大于阈值 2,即以为该帖子是与话题相关.si,k表示话题向量ti与tk的相关度,它等于两个话题中同时出现的某个词汇的概率较小值的总和. 当si,k大于设定阈值 1时,算法以为这两个话题是类似的.当同一话题持续超过若干期,能够认定为民生话题.同时,在一个时间段内也需要应用类似度来衡量一个话题ti的规模,这时只需要应用ti的本文关键词语与向量化的帖子标题d进行匹配,所有匹配成功的概率总和即为相关度. 3、论坛民生话题辨别方式方法 由于网络数据的时间特色,把用户交互的数据按相等的时间T来划分,并假设这些时间段是独立的或者小部分重合的,在本文实验中,假设数据是按半个月(15天)进行划分的. 对于每一个时间段的数据进行话题建模,并通过相邻时间段话题类似度比拟使得跨越多个区域的民生话题浮现出来. 得到民生话题算法的主要思想如此图1所示. 首先,用 户交互数 据按时间区间进行划分,并使用LDA得到时间段内的话题模型.然后,相邻时间段的话题数据进行类似度计算,把跨越多个时间段的相关度高的话题定义为民生话题10. 算法的详细步骤如下所示. Step 1.应用LDA话题模型分时间段进行话题辨别,并统计话题相关的帖子数、介入用户数、回复率、热度等;对于时间段t,得到N= TOPICi(t)个经过属性过滤的话题,每个话题包含本文关键词语列表及对应概率. 华而不实属性过滤知足下面条件之一的话题被保存:(1)标题向量与该话题向量类似度大于阈值 2的帖子总数大于等于10;(2)介入该话题的总用户数大于等于该期活泼踊跃用户的10%;(3)热度(点击数除以该期活泼踊跃用户数)大于等于10%;(4)回复率(总介入人数除以总点击数)大于等于30%;华而不实,阈值 2在实验中取值为0.05,即假如一个帖子标题向量含有某话题的一个主本文关键词语,则能够确定这个帖子是该话题的相关帖子. Step 2.辨别民生话题.通过计算相邻时间段话题的类似度来得到延续数期的民生话题. 在本文实验中,话题相关度阈值 1=0.09.对于这样的话题,TOPICi,假如它在j,j+1, ,j+s这几个时间段有定义,则这个话题的帖子数POSTi和用户数USERi分别为POSTi= j+st=jPOSTi(t)USERi= j+st=jUSERi(t) (2)突发事件的帖子时间跨度小,网络演化构造相对简单,不属于本文关注的民生话题. 突发事件一般在时间轴上持续时间缺乏3期,由于有些突发事件可能正好发生在两个时间段交汇处,因而,定义民生话题最好持续treq(s treq),实验中treq=3. 4、实验 4.1数据集 本文数据来源于中国知名论坛天涯论坛,获取数据为天涯杂谈自2018年1月至2020年10月的数据,包含325 288个 用户、102 756个 主帖 和4 524 756条回复. 提取民生话题的实验在以上数据集合的一个子集(2020年10月到2020年10月)上进行. 在这些注册用户中,有12 701人在2018年到2020年时间段内至少发表了一个帖子,3 724人发表至少2个帖子,并有573人发表多于5个帖子. 单贴平均回复数(只考虑至少有5个回复的帖子)是62.91.2018年用户共发表帖子10 324个和评论400 571个 (38.8评论/帖子 ),2020年发表帖子31 146个和评论1 326 819个(42.6评论/帖子),2020年发表帖子61 286个和评 论2 797 366个(45.6评论/帖子). 4.2话题的辨别 对给定的数据以发帖时间预处理,应用LDA话题模型进行话题辨别,华而不实超参数 和 分别设为50/Z和0.01,话题数Z设为50,Gibbs抽样迭代次数设为1 000. 每个时间片所得到的50个话题显然有一部分不是本文关注的民生问题,因而通过属性过滤进行分析处理,将得到每个月数目不同的话题数如表1所示. 得到的总话题数为536个,平均每期22个,华而不实第9期最少仅有10个,第21期最多为37个. 首先分析每个话题的相对大小,图2中给出了话题相关帖子数量的统计信息. 为了提取民生话题之前不流失更多的有效数据,这里类似度参数取值 2取0.05,即一个帖子标题假如含有某话题的一个主本文关键词语即被保存. 可见88%的话题的规模都集中具有61到150个相关帖子. 4.3民生话题的辨别 接下来的分析主要是辨别民生话题,这些话题需要持续存在超过一个给定的期数限制.民生话题的数量受类似度取值的影响比拟大,图3中给出了两者的关系.一般情况下,话题的主本文关键词语一般频率比重为0.05左右,所以当类似度确定在0.1时就意味着有两个主本文关键词语一致,这时基本能够肯定两个话题是讨论的一个问题. 实验也证明,图中是一个重要的拐点发生在 1=0.09时,对应得到了16个民生话题,经手工验证和排查发现准确性较高,其话题质量高. 得到的16个民生话题及其相关的帖子4 216个.这大大缩小了进一步对民生问题进行分析的数据规模.平均每个民生话题有相关帖子263个,按最短持续3期进行计算,平均每87个,低于一般保存话题的规模,这也具体表现出了民生话题并不具有突发性话题的高发帖率、高点击率和高回复率,其突出特点是持续周期长. 4.4话题持续时间分析 图4中给出了民生话题持续的时间分布,华而不实12个(75%)民生话题持续3期(3个月),这是也是本实验认定持续话题期数下限.同时4个话题持续超过4期. 民生话 题的分布 是比拟均匀的,只要2020年5月(13期)有4个民生话题同时存在.分析数据发现,在这个时间段为毕业季和高考的时间,同时与青春类电影如(致青春的上映时间重合,使得此类话题持续高温并不断演化,但是话题的演化问题超出了本文研究范围. 同时(中国最强音(X Fac-tor)和(中国梦之声(Chinese Idol)等全民歌唱进取真人秀节目的热播也是这是时间段民生话题的奉献者. 同时所得到的民生话题是具有较高的相异性的,由于一样时间段内重叠的话题不多,而时间上相隔较远的话题固然有可能类似,但显然是两个不同的事件.如每年毕业、高考、就业这个民生话题都会重复上演但有每年不同,这类话题的演化分析不在本文研究范围之内. 所以本算法那所提取的持续话题是具有很好的多样性的. 5、结束语 本文根据论坛数据的特点11,设计并实现了民生话题的提取算法.为了区别民生话题和热门话题,本文按时间片对数据进行了划分,并通过话题模型LDA对各个时间片分别进行话题提取并属性过滤,进一步应用类似度模型对相邻时间片的话题进行穿插匹配,得到持续炽热的民生话题. 实验结果揭示了大多数的民生话题都持续3期左右,在数量上远远小于突发性话题,且时间分布上较均匀.通过手工验证得到的民生的话题一般为社会群众话题,进一步分析这些话题的介入者的社区组成、核心人物及思想派别,将对社会舆情分析很有受益之处.