中文微博热门话题挖掘.docx
《中文微博热门话题挖掘.docx》由会员分享,可在线阅读,更多相关《中文微博热门话题挖掘.docx(9页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、中文微博热门话题挖掘(统计与信息论坛杂志)2014年第六期一、相关理论一话题检测与跟踪技术作为一种主题检索技术,其特点主要在于关注与特定事件主题相关的数据。传统的检索技术是从内容来检索、确定文档的分类,而技术是基于事件,利用分析文档与事件主题联络来获取特定主题信息,它从来源数据流中自动发现主题并把与主题相关的内容联络在一起。的研究任务主要包括五部分:对新闻广播等报道进行切分报道切分,检测未知话题话题检测,跟踪已知话题话题跟踪,检测未知话题初次相关报道初次报道检测以及检测报道间相关性报道关联性检测。二中文分词及词性标注中文分词就是将汉字序列切分成有意义的词,以字为单位,句和段则通过标点等分隔符来
2、划界。目前主流的中文分词算法分为四类:基于字符串匹配的分词,基于理解的分词,基于统计和基于语义的分词。词性标注是根据句子上下文环境给句中的每个词标记一个正确的词性,主要是机器针对多标记词即有多种词性的词和未登录词即在训练语料中未出现的词标记词性。词性标注技术与分词技术一样,在自然语言处理、机器翻译、文本自动检索及分类、文字识别、语音识别等实际应用中占有重要地位。目前比拟典型的标注算法归纳起来有:基于规则的方法,基于统计的方法,规则与统计相结合的方法。本文选用的是规则与统计相结合的方法。三向量空间模型向量空间模型,是一个应用于信息过滤、信息撷取、索引评估相关性的代数模型,文本分析对象通常是以词为
3、单位的数据。运用这个模型把文本表示为向量,就能够将文本处理简化为向量空间中的向量运算。当文档转化为向量时,文档中每个词对应向量的每个特征项维度,所有文档中的词所对应的维度构成了整个空间,而特征权重则是每个词对应每一维的取值,于是,一个文档转化为特征向量可表示为:其中是特征项,是特征权重,是文本中的特征项总数。另外,文本中作为特征项的词不能重复,即各特征项互异,且文本的内部构造不需要考虑,因而特征项无先后顺序。四文本聚类算法以欧式距离作为类似性的评价指标,即以为两个对象的距离越近,其类似度就越大,得到紧凑且独立的簇是聚类的最终目的。算法中距离的计算公式如下:第一步,从数据对象中任意选择个对象值需
4、要预先设定作为初始聚类中心。第二步,计算剩下的对象与这些聚类中心的类似度距离,并分别将它们分配给最类似的聚类中心所代表的类。第三步,重新计算每个新类的聚类中心该聚类中所有对象的均值。第四步,不断重复第二、三步,直到标准测度函数开场收敛为止,一般采用均方差作为标准测度函数。该算法在处理大数据集时是相对高效和可伸缩的,计算的复杂度为,其中是数据对象的数目,是迭代的次数一般,同时算法对顺序不太敏感,因而较合适对表示的文本集进行聚类。本文聚类效果的验证采用类平均类似度,公式为:其中表示类的平均类似度;表示类所包含的微博条数;表示类中单条微博文的个体平均类似度,即与类中其余微博文的类似程度之和取平均值。
5、将类中所有微博文的个体平均类似度之和取一次平均值,进而得到类的平均类似度。二、研究设计一识别流程本文基于技术设计出中文微博热门话题识别流程,主要环节如图所示。首先通过微博爬虫系统获取所需的数据,如微博内容、评论数、转发数、受众数等;接着从获取数据中提取话题识别的数据源,利用中文分词处理过滤数据;对预处理后的微博内容中的每个特征词,利用特征词权值计算方法计算特征权重并建立向量空间模型,再利用文本聚类来归纳出多个话题;最后对多个话题的影响力进行计算并分析,通过效果验证识别出热门话题。二热门断定话题影响力设计本文基于微博特点和话题本身,提出热度的断定因素话题影响力。微博热门话题影响力为该话题中单条相
6、关微博内容的影响力总和,单条微博内容的影响力又分为直接影响力和间接影响力。由于用户发表的微博文直接呈现给关注该用户的受众,因而单条微博的直接影响力与该条微博用户的关注人数受众数相关。本文此处只考虑微博评论数与第一层的转发数。定义话题影响力相关计算公式如下:其中为话题的影响力;为该类中与话题相关的微博条数;为单条相关微博内容的影响力。一个话题的影响力为话题中所包含的所有相关微博内容影响力之和。其中为单条相关微博内容的直接影响力;为单条相关微博内容的间接影响力。单条微博的影响力为直接影响力与间接影响力之和。题的影响力为:三、实证分析本文实验数据随机选取了年月日到年月日这天内的微博数据,通过新浪微博
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 中文 热门话题 挖掘
限制150内