欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    生物医学研究构造的挖掘-精品文档.docx

    • 资源ID:17861234       资源大小:19.58KB        全文页数:8页
    • 资源格式: DOCX        下载积分:8.88金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要8.88金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    生物医学研究构造的挖掘-精品文档.docx

    生物医学研究构造的挖掘随着文献数量的急速增长,文本挖掘技术不断应用于大规模文献处理,基于文献的知识发现已经成为文献挖掘领域的重要内容。1986年,Swanson教授提出基于文献的知识发现思想,即对非相关的文献进行整合分析,发现其中隐含的联络,进而构成新的科学假设。基于文献的知识发现的核心是通过ABC模型来挖掘概念间的间接关系,即当不相关的实体A与C同时与实体B相关时,A与C可以能相关,这种关联假设的方法在药物发现、药物重定位等领域得到了较好的应用。随着大量文献富集,内容相关性会涌现出知识网络,并通过知识网络进行关联挖掘。如通过对文献词语共现网络的研究,总结出当前的研究热门,分析科研构造,发现研究内容的相关性等。还有一些研究针对详细实体的关联网络进行分析,如基因调控网络、蛋白质互相作用网络等。此外,部分研究转向系统层面上考察信息间的整合分析,通太多领域多数据源穿插融合,发现间接的隐含联络。然而,面对庞大的关联知识网络,怎样从网络微观构造与关联构成的规律,讨论其对文献知识发现的影响,对提高知识发现的效率具有重要作用。本文基于免费开放的PubMed文献数据集,构建了一个由文献数据衍生出的生物医学实体关联演化网络,进而整合不同时期文献中的关联知识,并利用复杂网络理论分析该关联网络的拓扑特征,从系统层面分析研究大量文献集中于科学知识的构造及相关性,为文献的知识发现引入新的视角与方法,提高知识发现的效率,引导科研人员进行知识发现。1网络简介11网络的定量描绘一个简单的无向无权网络可标记对于用节点和边描绘的图,能够用几个定量指标来描绘图的性质,包括节点的度、连通性、途径与聚类系数。节点的度:即节点V在图G的度,指图G中与节点V连接的边数,记为d(v)或k(v)。节点的度主要用于描绘节点的连通性。连通性:若G中每对不同节点U,V之间都存在一条通路,则G是连通的,即G为连通图。途径:即图的途径,指两个与边交替出现的序列,且所有节点与边都不一样。途径长度是连接两个节点之间边的数量,网络距离能够通过途径长度来描绘,一般采用最短途径作为连接两个节点的途径。平均途径长度是网络中所有节点对之间最短途径长度的平均值。聚类系数:表示图中节点聚集程度的系数,定义为其邻居真实连接数目占邻居最大可能连接数比例的平均。12网络的拓扑性质图是一种用来表示实际系统的一种模型。对于图G=(V,E),假如存在一个映射函数。若将网络中的边映射到节点对,那么图是构造化的,即图存在一定的拓扑构造;假如映射是随机的,那么图就是随机的。通常按度序列分布与熵定义图的构造,其中度序列分布按拓扑对图的分类提供了一种机制,而熵提供了一种对随机性的测量。一般来讲,度序列分布表达了图的构造信息,熵则表达了图的构造能否具有规则性。网络规模很大但平均距离却很小的性质被称为小世界效应。小世界网络一般是指具有相对较小的平均途径长度、相对较大的聚类系数的网络。假如一个图的度序列分布符合幂函数的形式,由于幂函数是标度不变的,通常称这类图为无标度网络。无标度网络同小世界网络类似,很多真实网络都具有无标度特征。2生物医学实体关联网络的构建与分析21基于共现方法的实体关联提取生物医学文献挖掘研究通常利用共现方法来提取实体的关联,即当两个词语共现于一定的语境中时,词语之间存在一定的语义相关性9。对于实体共出现而言,以句子为最大分析单元最常见。本文基于句子共现的实体关联提取的基本步骤如下。根据基于自然语言的方法识别出句子的实体NP及其位置。22网络构建考虑到PubMed数据库中所有摘要的数据量过大,本文以PubMed中20002009年共10年记录的标题数据为实验数据集,抽取其中的实体及关联后,建立关联知识网络。为了观察科学研究的动态构造,构建了按时间(年)增长的演化网络序列,如表1所示。由于网络过于庞大,本文未能给出关联网络的可视化效果,但从表1的统计结果来看,仍能够观察到一些有用的特征与规律。从网络的演化情况来看,网络的节点与关联每年都在增长,表明整个研究领域的知识量是不断增加的,这与每年文献数量不断增长的情况是一致的。在关联知识网络中,每年都存在新节点新关联的参加,表明在生物医学研究领域每年都有新发现,而且每年新增加的关联数远大于新增加的节点数。这也反映在较短的时间内,真正具有较大创新性的发现相对较少,大部分文献仍然是在已有研究问题基础上的延续研究。总的来讲,通过关联知识网络的演化分析,一定程度上反映了知识的构成与发展的规律。关联网络中节点与关联的增长,都能反映出新知识的不断出现。23关联网络的拓扑构造分析231网络的连通性从表1的计算结果可知,提取到的关联网络是一个非连通网络。从2000年开场,每一年的关联网络都有很多个连通分支,比方2009年的关联网络有11770个连通分支。尽管存在如此多的大小不一的连通分支,但每个关联网络都有一个最大连通分支,能够覆盖网络的绝对多数的节点与边,比方2009年的关联网络中最大连通分支包含1294509个节点与6667590条边,分别占整个网络中节点的9803%以及边的9978%。因而,主要对最大连通分支进行网络的特征分析。除了最大的连通分支,关联网络中其他连通分支的规模都很小,表明科学研究的专业化变得更精细,生物医学领域研究内容极具丰富性与多样性;同时也表明在一些特定的领域,领域之间缺乏互通融合,构成了一个个独立的知识“孤岛。出现大量的相对极小的连通分支,也讲明在整个领域存在一些比拟“冷门的研究。232网络的度序列分布如图1所示,关联知识网络呈现幂函数形式,是一个无标度网络。根据幂律分布的特性,绝大多数节点拥有较少的连接数,而少量的节点拥有极大的连接数。这些拥有极大连接数的节点是关联网络的HUB节点,基本都是一些生物医学研究领域通用的概念。尽管它们无法代表整个领域的研究重点或研究热门,但其他诸多概念都围绕它们展开。讲明它们在整个生物医学科研体系中起着非常重要的连接桥梁的作用,而一些连接数较少的节点只代表某个详细的研究对象。关联知识网络的无标度特征表明在生物医学领域中研究重点突出,而围绕研究重点开展了很多细致的研究工作。233计算网络的聚类系数考虑到计算能力的限制,我们仅以2000年的数据作为测试数据,计算得到网络的平均聚类系数为0209390339012,而最大连通分支的平均聚类系数为0215289709462。接下来构建与原网络、最大连通分支的节点数边数都一样的随机网络,其平均聚类系数分别为337415559158e05与498993799995e05。显然,关联网络的聚类系数远大于随机网络的聚类系数,表明关联网络具有高集群性。关联网络的高集群性讲明围绕一个研究主题所开展的各种研究之间具有很高的相关性,相关研究之间更容易构成连接,而它们之间的连接能够构成新的研究成果,这有助于对研究主题进行更深层次的分析和挖掘。根据综合聚类系数与幂律分布的特征,可推断出关联网络中存在很多集团,集团内部成员之间联络严密,而集团之间的联络相对疏远,这表明某领域中存在一些研究重点和研究热门。围绕这些重点和热门所展开的大量相关研究之间联络严密,构成网络构造中的集团,并使得集团内部成员的聚类系数很大,最终使得整个网络的聚类系数较大。234计算网络的平均距离根据网络距离的定义,当网络不连通时,网络的平均距离是无穷大,该关联网络是不连通的,因而只计算关联网络中最大连通分支的平均距离。以最小的2000年的关联网络的最大连通分支作为测试对象,该连通分支的平均距离长度为376923247599,表明关联网络中的节点平均只需经过4步就可到达其他节点。然后根据2000年的关联网络的最大连通分支的大小,建立一个一样大小的随机网络模型。该随机网络的平均途径长度约为579725740556,显然,相对于一样大小的关联网络来讲其平均途径长度相当小。综合关联网络的聚类系数与平均途径长度,表明该实体关联网络是一个小世界网络。关联网络的小世界特征表明,在生物医学研究领域,研究主题和研究内容之间关联的严密程度非常高,而平均途径长度很小则讲明主题与内容互相之间存在很强的影响。此外,小世界特征也讲明在同一个大的研究领域中,从一个研究对象能够很快转移到另外一个研究对象,二者结合很容易构成新的研究内容。3结语基于自然语言处理方法得到的网络是一个普适的由文献衍生的关联知识网络,它不同于已有的衍生于文献的生物网络,不依靠于任何领域特异性的实体关系。因而,通过该网络能够更好地研究知识本身的发展规律,反映科研问题、概念间的互相关系。从测试数据衍生而来的关联网络的演化情况来看,网络的节点与关联每年都在增长,表明整个研究领域的知识量在不断增加,每年都有新节点新关联的参加。同时,关联知识网络的小世界无标度特征,表明在生物医学研究领域,研究主题和研究内容之间关联的严密程度非常高。在同一个研究领域中,从一个研究对象能够很快转移到另外一个研究对象,二者结合很容易构成新的研究内容,这也验证了基于文献的知识发现的思想。总的来讲,关联知识网络的演化分析,一定程度上反映了知识的构成与发展的规律。关联知识网络中节点与关联的增长,反映出新知识的不断出现,而且知识网络的构造与相关性能够更好用于发现有用的关联,提高文献的知识发现效率。

    注意事项

    本文(生物医学研究构造的挖掘-精品文档.docx)为本站会员(安***)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开