生物医学研究构造的挖掘-精品文档.docx
《生物医学研究构造的挖掘-精品文档.docx》由会员分享,可在线阅读,更多相关《生物医学研究构造的挖掘-精品文档.docx(8页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、生物医学研究构造的挖掘随着文献数量的急速增长,文本挖掘技术不断应用于大规模文献处理,基于文献的知识发现已经成为文献挖掘领域的重要内容。1986年,Swanson教授提出基于文献的知识发现思想,即对非相关的文献进行整合分析,发现其中隐含的联络,进而构成新的科学假设。基于文献的知识发现的核心是通过ABC模型来挖掘概念间的间接关系,即当不相关的实体A与C同时与实体B相关时,A与C可以能相关,这种关联假设的方法在药物发现、药物重定位等领域得到了较好的应用。随着大量文献富集,内容相关性会涌现出知识网络,并通过知识网络进行关联挖掘。如通过对文献词语共现网络的研究,总结出当前的研究热门,分析科研构造,发现研
2、究内容的相关性等。还有一些研究针对详细实体的关联网络进行分析,如基因调控网络、蛋白质互相作用网络等。此外,部分研究转向系统层面上考察信息间的整合分析,通太多领域多数据源穿插融合,发现间接的隐含联络。然而,面对庞大的关联知识网络,怎样从网络微观构造与关联构成的规律,讨论其对文献知识发现的影响,对提高知识发现的效率具有重要作用。本文基于免费开放的PubMed文献数据集,构建了一个由文献数据衍生出的生物医学实体关联演化网络,进而整合不同时期文献中的关联知识,并利用复杂网络理论分析该关联网络的拓扑特征,从系统层面分析研究大量文献集中于科学知识的构造及相关性,为文献的知识发现引入新的视角与方法,提高知识
3、发现的效率,引导科研人员进行知识发现。1网络简介11网络的定量描绘一个简单的无向无权网络可标记对于用节点和边描绘的图,能够用几个定量指标来描绘图的性质,包括节点的度、连通性、途径与聚类系数。节点的度:即节点V在图G的度,指图G中与节点V连接的边数,记为d(v)或k(v)。节点的度主要用于描绘节点的连通性。连通性:若G中每对不同节点U,V之间都存在一条通路,则G是连通的,即G为连通图。途径:即图的途径,指两个与边交替出现的序列,且所有节点与边都不一样。途径长度是连接两个节点之间边的数量,网络距离能够通过途径长度来描绘,一般采用最短途径作为连接两个节点的途径。平均途径长度是网络中所有节点对之间最短
4、途径长度的平均值。聚类系数:表示图中节点聚集程度的系数,定义为其邻居真实连接数目占邻居最大可能连接数比例的平均。12网络的拓扑性质图是一种用来表示实际系统的一种模型。对于图G=(V,E),假如存在一个映射函数。若将网络中的边映射到节点对,那么图是构造化的,即图存在一定的拓扑构造;假如映射是随机的,那么图就是随机的。通常按度序列分布与熵定义图的构造,其中度序列分布按拓扑对图的分类提供了一种机制,而熵提供了一种对随机性的测量。一般来讲,度序列分布表达了图的构造信息,熵则表达了图的构造能否具有规则性。网络规模很大但平均距离却很小的性质被称为小世界效应。小世界网络一般是指具有相对较小的平均途径长度、相
5、对较大的聚类系数的网络。假如一个图的度序列分布符合幂函数的形式,由于幂函数是标度不变的,通常称这类图为无标度网络。无标度网络同小世界网络类似,很多真实网络都具有无标度特征。2生物医学实体关联网络的构建与分析21基于共现方法的实体关联提取生物医学文献挖掘研究通常利用共现方法来提取实体的关联,即当两个词语共现于一定的语境中时,词语之间存在一定的语义相关性9。对于实体共出现而言,以句子为最大分析单元最常见。本文基于句子共现的实体关联提取的基本步骤如下。根据基于自然语言的方法识别出句子的实体NP及其位置。22网络构建考虑到PubMed数据库中所有摘要的数据量过大,本文以PubMed中20002009年
6、共10年记录的标题数据为实验数据集,抽取其中的实体及关联后,建立关联知识网络。为了观察科学研究的动态构造,构建了按时间(年)增长的演化网络序列,如表1所示。由于网络过于庞大,本文未能给出关联网络的可视化效果,但从表1的统计结果来看,仍能够观察到一些有用的特征与规律。从网络的演化情况来看,网络的节点与关联每年都在增长,表明整个研究领域的知识量是不断增加的,这与每年文献数量不断增长的情况是一致的。在关联知识网络中,每年都存在新节点新关联的参加,表明在生物医学研究领域每年都有新发现,而且每年新增加的关联数远大于新增加的节点数。这也反映在较短的时间内,真正具有较大创新性的发现相对较少,大部分文献仍然是
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物医学 研究 构造 挖掘 精品 文档
限制150内