信息资源开发与管理作业(共14页).docx
《信息资源开发与管理作业(共14页).docx》由会员分享,可在线阅读,更多相关《信息资源开发与管理作业(共14页).docx(14页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选优质文档-倾情为你奉上信息资源开发与管理基于文本挖掘的共词分析1、研究内容本文是对文本挖掘相关文献的研究,选择的论文和期刊来源于中国知网。通过对文献资源的检索,寻找到相关的文献资源,并对文献资源进行分析,从而能够对文本挖掘这个研究题目进行一定的了解。本次研究具体内容包括:(1)文献资源检索;(2)文献处理;(3)分析我国今年来文本挖掘的发展方向与研究热点;(4)对研究进行总结。2、文献资源检索与数据收集本文的研究采用中国学术期刊网(CNKI)全文数据库并选择网络数据总库,时间是2010-2014年,指定主题为“文本挖掘”,共搜索到1203篇文献信息,选取其中的1200篇。搜索过程如下图所示
2、。3、关键字分列4、关键词确定利用Excel,通过其统计功能,对关键词进行统计。原始关键词有5534个,从中选择词频为8个及8个以上的,共有51个。之后并对以下关键词进行删除:出现频率过高(即比其它关键词高过多),有:文本挖掘。筛选后,得到比较高频的关键词50个。利用Excel的统计功能将所有关键词进行词频统计,获得原始关键词5534个。选择词频不低于7次的关键词,筛选出51个关键词作为高频词。其中,关键词“文本挖掘”词频846次,为最高频次。但鉴于“文本挖掘”与此次研究本研究内容完全重合,在共词分析中难以发挥作用,予以舍弃,得到最终高频关键词50个,筛选如下:表2 高频关键词筛选结果(频次7
3、)4.建立共词矩阵、相似矩阵、相异矩阵(1)共词矩阵下表中的这些关键词是有关文本挖掘文献中出现频次较高的词,从较大程度上能够代表中国当前文本挖掘研究的热点。为了进一步了解这些关键词之间的联系,在建立的数据表中对这些高频关键词进行两两共词检索,统计它们在1200篇文章中同时出现的频率,建立一个5050的关键词的共词矩阵。其中,部分共词矩阵数据如下图所示。共词矩阵为对称矩阵, 主对角线的数据定义为缺失, 非主对角中单元格的数据为两个关键词共同出现的次数。如关键词“数据挖掘”与“ 文本聚类” 的共词频次为7, 即表示有7篇论文同时使用了这两个关键词。由于下面运用的多元统计方法对矩阵的数据结构有不同的
4、要求, 为了统计分析的方便, 因此用系数将共词矩阵转换成相似矩阵, 具体方法是将共词矩阵中的每个数字都除以与之相关的两个词的总出现频次的开方的积。(2)相似矩阵由于将要运用的多元统计方法对矩阵的数据结构有不同的要求,为了统计分析的方便,本文将相关矩阵转化为相似矩阵和相异矩阵。具体方法是,用Ochiia系数将共词矩阵转换成相似矩阵,即将共词矩阵中的每个数字都除以与之相关的两个关键字总频次开方的乘积,其计算公式是:A、B两词同时出现的频次A词总出现频次B词总出现频次利用该公式进行计算,得到相似矩阵。部分相似矩阵如下:相似矩阵中的数字表明其对应两个关键词之间的亲疏关系,数值越大则表明关键词之间的距离
5、越近,相似度越好;反之,数值越小则表明关键词之间的距离越远,相似度越差。在相似矩阵中由于0值过多, 统计时误差过大, 有可能影响分析结果。为了方便进一步处理, 用1与全部相关矩阵上的数据相减, 得到表示两词间相异程度的相异矩阵。(3)相异矩阵用1与全部相似矩阵中的数据相减,得到表示两词间相异程度的相异矩阵。部分相异矩阵如下:相异矩阵中的数据表示不相似数据,数值越大则表明关键词之间的距离越远,相似度越差;反之,数值越小则表明关键词之间的距离越近,相似度越高。5、聚类分析聚类分析借助数据挖掘中的聚类分析法,对共词关系网络中的词与词之间的距离进行数学运算分析,将距离较近的主题词聚集起来,形成一个个概
6、念相对独立的类团,使得类团内属性相似性最大,类团间属性相似性最小,以达到将研究领域分类的目的。本实验采用层次聚类(Hierarchical Cluster) ,选择离差平方和法(Wards Method) 与离散数据类型(Count)中的斐方( Phi-square Measure) 方法。可以初步判断各关键词之间的关联程度。本实验主要通过运用SPSS20.0版本进行聚类分析。聚类分析结果树状图如下:图2 聚类分析结果树状图6、因子分析在聚类分析基础上,再利用因子分析对研究前沿进行进一步的论证,以利于解释。因子分析是一种多变量分析方法,能将众多的具有错综复杂关系的指标归结为少数几个综合指标(公
7、共因子或因子变量) ,达到降维和简化数据的目的。因子分析的目标就是用尽可能少的因子去描述众多指标间的联系,其基本思想是把研究对象的变量分组,使得同组内的变量相关性较高,不同组的变量相关性较低。每组变量称为一个公共因子,这样几个公共因子可以反映原资料大部分信息。通过下表,可以看出50个关键词中共有23个公共因子被提取,其方差累积贡献率为64.65%,它们能够解释全部信息的64.65%,从而说明50个关键词可以分别从属于23个不同的类别。本研究是使用SPSS20.0版本进行因子分析。解释的总方差成份初始特征值提取平方和载入合计方差的 %累积 %合计方差的 %累积 %12.2454.4904.490
8、2.2454.4904.49021.9343.8678.3581.9343.8678.35831.7823.56311.9211.7823.56311.92141.7233.44515.3661.7233.44515.36651.7123.42418.7901.7123.42418.79061.6163.23122.0211.6163.23122.02171.5703.13925.1611.5703.13925.16181.4852.97028.1311.4852.97028.13191.4522.90431.0351.4522.90431.035101.4152.83033.8651.415
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息资源 开发 管理 作业 14
限制150内