《生物医学文本挖掘前沿.ppt》由会员分享,可在线阅读,更多相关《生物医学文本挖掘前沿.ppt(44页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、生物医学文本挖掘前沿生物医学文本挖掘前沿 -新发现新发现WLWLFrontiers of biomedical text mining:current progressCompany name发表期刊&作者简介Brief Bioinform.2007 September;8(5):358375.Pierre Zweigenbaum法法国国LIMSI/CNRS的高的高级研研究究员(机械和工程科机械和工程科学学的的语言,信息和代理集言,信息和代理集团计算机科算机科学学实验室室/法法国国国国家科家科学研学研究中心究中心)他致力于自然他致力于自然语言言处理和其在生物理和其在生物医学医学领域的域的应用。
2、用。Dina Demner-FushmanNLM 国国家生物家生物医学医学通通讯中心中心 通信工程部常任科通信工程部常任科学学家家她她利用信息利用信息检索的索的NLP和生物和生物医学医学领域信息域信息检索索研研究究临床床决决策支持、策支持、临床床问答系答系统。Hong Yu威斯康星密尔沃基大威斯康星密尔沃基大学学计算机科算机科学学和和卫生科生科学学系助理系助理教教授,授,她她的的研研究多究多关关注注于多媒体信息于多媒体信息检索,索,话语分析和分析和问答系答系统。Kevin B.Cohen科科罗拉多大拉多大学医学学医学中心校中心校区区,领导计算算药理理学学方面生物方面生物医学医学文本文本挖挖掘掘
3、团队。2Company name文本挖掘的主要技术和应用IRNERIE问答系统非文本数据处理知识发现3Company name文本挖掘(TM)在不同程度上,大部分生物医学在不同程度上,大部分生物医学TM研究依赖自研究依赖自然语言处理方法和工具。然语言处理方法和工具。“BioNLP”TM有广义和狭义之分有广义和狭义之分:狭义狭义:TM系统必须返回文章中没有明确表明的知系统必须返回文章中没有明确表明的知识。识。广义广义:任何从文章中抽取信息的系统,或者具有抽:任何从文章中抽取信息的系统,或者具有抽取信息所必需先决条件功能的系统。取信息所必需先决条件功能的系统。包括一系列的应用类型,从命名实体识别包
4、括一系列的应用类型,从命名实体识别到基于文献的知识发现,以及介于两者之间的许到基于文献的知识发现,以及介于两者之间的许多过程。多过程。4Company name结构框架文本抽取事实文本抽取事实IE初始工序初始工序有注释文本集有注释文本集&大规模评价大规模评价关系抽取关系抽取识别生物实体的模块或文章中的概念 检测出生物实体之间的关系 超信息抽取超信息抽取摘要技术摘要技术处理非文本材料处理非文本材料问答系统问答系统知识发现知识发现简明确定和表明文献最重要方面,节省阅读时间 含有丰富信息的非文本信息如表格和图片 为形成的问题提供精确的答案 真正的TM不仅给出文章中存在的直接事实,还有助于揭示生物学实
5、体间的间接关系 狭义狭义TMTM评价评价&面向用户系统面向用户系统理解用户需求理解用户需求NER(TM的最重要的必要条件)的最重要的必要条件)对系统和结果质量的评价有助于评估产生数据的可信度 对用户需求的实际掌握可引领技术发展 5Company name超信息抽取超信息抽取BIE该该技技术术超超出出I IE E领领域域,满满足足最最严严格格的的文文本本挖挖掘掘定定义义,本本质质上上是是处处理理文文本本以以外外数数据据类类型型的系统。的系统。I IE E系统系统的的输入输入单一句型 BIEBIE系系统统的的输输入入全文本:至少是摘要,有时是全文期刊论文,很少情况是文献集(如后面讨论的多文档摘要)
6、。B BIEIE系系统统的的输输出出不限制实体间关系的简单的语句。6Company name超信息抽取超信息抽取1 1摘要技术摘要技术2 2处理非文本材料处理非文本材料3 3问答系统问答系统4 4知识发现知识发现7Company name摘要技术摘要技术传统的传统的一般一般摘要对摘要的预期用途不作任何摘要对摘要的预期用途不作任何假设假设自动文本摘要技术的目的:自动文本摘要技术的目的:确定一个或多个文献确定一个或多个文献最重要的方面最重要的方面和简洁连贯地展现这些方面。和简洁连贯地展现这些方面。自动文本摘要技术区分自动文本摘要技术区分指示摘要指示摘要(帮助读者决定他们是否应阅读感兴趣的摘要文档)
7、和和详细摘要详细摘要(从摘要文档中为读者实际提供资料)定向定向/聚焦的摘要旨在满足独特信息需求,往往聚焦的摘要旨在满足独特信息需求,往往以查询方式表现以查询方式表现“黄金信息”8Company name摘要技术摘要技术4321刻画基因六个方面 结合标记抽取信息评价Ling等人:等人:生物学文献的特征结构性摘要生物学文献的特征结构性摘要1:六个方面:(i)基因产物,(ii)表达的位置,(iii)序列信息,(iv)野生型功能和表型信息,(v)突变表型和(vi)遗传相互作用。2:检索相关MEDLINE摘要和抽取包含与靶基因某一特定方面有关信息的句子3:为了结合治疗结果有关,最能提供信息的句子中的证据
8、,评分句型将种类相关性,文献相关性和摘要中句子的位置结合标记。4:这一抽取方法使确定10个随机选择基因的测试集的上述六个方面查准率达到50%-70%。填充摘要结构9Company name摘要技术摘要技术Lu等人等人:摘要技术与摘要技术与GO注释结合注释结合2003年文本信息检索会议(TREC,Text REtrieval Conference)基因组领域包括GeneRIFs基因导入功能参考(GeneRIF用于Entre数据库中描述的基因)预测的任务。Lu等人提出完成这项任务采用摘要技术与GO(基因本体,gene ontology)注释结合,GO注释与现有的Entrez基因条目有关。作者将这一
9、方法进一步发展到现实任务摘要技术的创新应用:测定低质量和过时的GeneRIFs摘要修订方法,这一任务准确率达到89%,召回率达到79%,并且在质量上比其他方法产生有效的GeneRIFs。10Company name摘要技术摘要技术Baumgartner等人等人:句型选择子任务句型选择子任务将摘要方法应用于蛋白-蛋白间相互作用的BioCreative2006句型选择子任务。该查找描述蛋白-蛋白相互作用最好的句型的抽取摘要方法达到了19%的准确率,是这一挑战中表现最好的;位于第二的系统的分数为6%。11Company name摘要技术摘要技术Nvol等人等人:自动生成的建议性主题词自动生成的建议性
10、主题词与摘要相关的任务:描述采用Mesh主题词的文本的主要主题,通过人工索引medline数据库完成的。Nvol等人通过改进自动生成的建议性主题词来推动这一手工处理过程;NLM索引者在索引过程中采用此方法。这一工作的重点是将Mesh叙词(descriptors)和限定词(qualifiers)的组合分配给一篇引文,而不只是分配单一的Mesh主标目。12Company name摘要技术摘要技术文献摘要的分类文献摘要的分类摘要技术的另一个应用:将文献分类到一系列预先确定的分类(例如GO编码)中。Stoica和Hearst成功为基因分配GO编码,他们通过从生物医学文本中查找分配给靶基因的同源类似物的
11、GO编码来分配GO术语。Fyshe和Szafron针对蛋白质的亚细胞定位对文献摘要进行分类,利用GO作为一个附加的信息资源。文献摘要的分类也是Hglund等人的预测亚细胞位置方法一个组成部分。13Company name摘要技术摘要技术展望展望生物学文本摘要技术的研究是稳定的持续进行的生物学文本摘要技术的研究是稳定的持续进行的应用于应用于现实现实需要更多的需要更多的任务驱动性摘要任务驱动性摘要的研究的研究 更多的更多的一致性多文档生成的摘要技术一致性多文档生成的摘要技术研究研究14Company name超信息抽取超信息抽取1 1摘要技术摘要技术2 2处理非文本材料处理非文本材料3 3问答系统
12、问答系统4 4知识发现知识发现15Company name处理非文本材料(处理非文本材料(Processing non-textual material)目前现状:目前现状:大多数关于大多数关于BM语言处理系统仅应用语言处理系统仅应用在文本信息方面,而不提供其他重要数据,在文本信息方面,而不提供其他重要数据,如图像(例如,图表)。如图像(例如,图表)。新兴研究:新兴研究:应用图像处理以及应用图像处理以及NLP的方法来分析的方法来分析图形图像图形图像及与其关联的文本,或考虑特殊及与其关联的文本,或考虑特殊形式的文本,如化学形式的文本,如化学化合物化合物。16Company name处理非文本材料
13、处理非文本材料第一个面向第一个面向BMBM文献中图像的系统文献中图像的系统 :亚细胞定位图像搜索(亚细胞定位图像搜索(SLIFSLIF)系统)系统 SLIFSLIF提取并分析特定类型的图像,即来自提取并分析特定类型的图像,即来自BMBM全文文章的全文文章的荧光显荧光显微镜图像微镜图像。利用利用几何力矩几何力矩,文字的处理文字的处理和和形态学图像处理形态学图像处理提取提取BMBM全文期刊全文期刊文章的所有图形图像,识别这些描绘荧光显微镜图像,然后确文章的所有图形图像,识别这些描绘荧光显微镜图像,然后确定捕捉亚细胞位置数字特征定捕捉亚细胞位置数字特征(即,计算(即,计算SLF6SLF6特征和将输出
14、结果转换为特征和将输出结果转换为单一的分数)单一的分数)。17Company name处理非文本材料处理非文本材料各个方法的评价各个方法的评价图像图像标题提取法标题提取法的准确率的准确率/召回率是召回率是98/77%98/77%。通过寻找水平和垂直的空白部分来进行递归细分,从而通过寻找水平和垂直的空白部分来进行递归细分,从而把图像分解成网格。把图像分解成网格。分解法分解法的准确率为的准确率为83%83%,召回率为,召回率为60%60%。利用以灰度柱状图的为特点的利用以灰度柱状图的为特点的k-近邻分类算法近邻分类算法来识别荧来识别荧光显微镜图,这一方法查准率达到光显微镜图,这一方法查准率达到97
15、%,查全率为,查全率为92%。多细胞图像多细胞图像分割分割成单细胞图像。由此产生的二进制图像成单细胞图像。由此产生的二进制图像包含的对象为相对应的细胞。此算法查准率包含的对象为相对应的细胞。此算法查准率/查全率达查全率达到了到了62/32%。所有的方法都证明了它们在实验的准备,细胞类型和显所有的方法都证明了它们在实验的准备,细胞类型和显微镜方法中产生差异以及出版时图像交替的稳健性。微镜方法中产生差异以及出版时图像交替的稳健性。18Company name处理非文本材料处理非文本材料Rafkind 等人:等人:自动分类图形图像入自动分类图形图像入5类类 定义了在BM全文文章出现的5个类别的图像,
16、并采用监督的机器学习算法的支持向量机(SVMs)自动分类图形图像进入这些类别。对于给定的554张附注释的图形图像:当只应用图像特征(亮度和基于边缘特征)时,分类器的F-值达到50.74%,当应用文本特征(标题中的词袋和多元语法)时,F-值达到68.54%。当融合图像特征和文字特征时,结合分类算法的F-值达到73.66%。19Company name处理非文本材料处理非文本材料Shatkay等人等人:层次图像分类方案层次图像分类方案 共有1600有注释的图形图像,利用SVM分类器来区分图形型和实验型图像,准确率达到95;而能够区分三种类型的实验型图像的准确性为93。46个图像特征(如柱状图和边缘
17、方向柱状图)用于分类任务。他们发现,在文本分类任务可以受益于将这些图像的特征的综合。图形图像图形型:条形图,线形图和其他图表实验型:凝胶电泳,荧光显微镜和其他显微镜其他类型20Company name处理非文本材料处理非文本材料Yu:摘要句子概括图像内容摘要句子概括图像内容 图像提供重要证据,但不参照相关文本常无法理解。为此,Yu 审查了三种相关文字三种相关文字:图片标题,摘要中出现的相关句子和全文主体中出现的相关的句子得出结论认为,摘要中的句子可以用来概括图像内容,其他相关的文本描述通常只描述实验程序而不包括实验的指征和结论。21Company name处理非文本材料处理非文本材料Yu和和L
18、ee:面向用户的面向用户的BioEx 该系统将图像和摘要句子的关系可视化可视化。BioEx可以通过相关的摘要句子来获得图像。他们邀请那些对文章进行图像注释的119为科学家来评价BioEx界面,与其他两个无法通过摘要句子来获得图像基础界面进行比较。87.8的科学家更倾向于BioEx用户界面。图像和摘要句子的关系通过基于摘要句子和图像标题单词基于摘要句子和图像标题单词等级相似性的层次聚类算法等级相似性的层次聚类算法实现的。准确率达到72,相应的召回率为33。22Company name处理非文本材料处理非文本材料Rhodes等人等人:分子相似性搜索引擎分子相似性搜索引擎 化合物与图像相关的描述是非
19、线性性质的。Rhodes等人开发了分子相似性搜索引擎,以区分专利语料库中类似的化合物。该系统首先在文本中识别识别化学名称,将这些名称转换转换为相应的复合结构,然后为每个结构分配分配一个IUPAC(国际理论和应用化学联合会)的国际化学标识符(InChI)代码。从InChI代码和基于文本的向量空间模型中抽取抽取特征,然后应应用用到索引和检索相关的化合物。评价发现,相似性搜索优于基于文本的搜索。23Company name处理非文本材料处理非文本材料生物学领域以外生物学领域以外 的图像处理系统的图像处理系统主要开发从数据库中检索医学图像的系统。ImageCLEFmed:医学图像检索IPAL(Imag
20、e Processing and Application Laboratory,图像应用和处理实验室,Image&Pervasive Access Lab):自动医学检索达到了最高平均准确率(MAP:0.3095)。IPAL融合了UMLS作为知识基础,并发现它增强了以文本为基础和可视化检索。24Company name超信息抽取超信息抽取1 1摘要技术摘要技术2 2处理非文本材料处理非文本材料3 3问答系统问答系统4 4知识发现知识发现25Company name问答系统(问答系统(Question answering,QA)问答系统:高精度高精度的信息检索,而不是从庞大的全文资料库中得到一个
21、文献列表,QA试图对问题提供一个简短简短的,具体的答案的,具体的答案,并且通过提供支持信息和链接原始资料文献把他们放入到上下文中。QA近来主要应用在一些限定的领域中。临床领域中较早出现并相对活跃,而基因组学只是最近才解决的。问答系统一般包含问题分析,查询制定,信息检索,答案提取,摘要和显示。26Company name问答系统问答系统相关研究相关研究Demner-Fushman和Lin:随后识别并提炼PICO文本来回答临床问题;他们发现具有领域特异性的知识能够增强信息检索 对于BM领域中的QA:Zweigenbaum 是最易获得的Huang等人:映射出基于问题/病人,治疗,比较治疗,治疗结果(
22、PICO)的临床问题 Yu等人实现了医疗问答系统,并比较问答系统与信息检索系统的实用性Jacquemart和Zweigenbaum:在法国进行了一项临床问答系统的可行性研究 27Company name问答系统问答系统基因组学领域的问答系统基因组学领域的问答系统 TREC/Genomics Track(基因组追踪基因组追踪)已经成为基因组学领域的问答系统的驱动力量。基因组追踪单任务注重于为生物学问题检索出特定的短文(两三个短句)(例如:PrnP在疯牛病中的作用?)。31个团队参与了基因组追踪并得到以下平均准确度以下平均准确度:文献检索0.01980.5439(中位数:0.3083)段落检索0.
23、00070.1486(中位数:0.0345)检索0.0110.4411(中位数:0.1581)28Company name问答系统问答系统提高问答系统的性能提高问答系统的性能最好的执行系统综合了基基于于规规则则的的字字典典和和统统计计学学方方法法,以识别主题词的变化,同义词,上位词和下位词以及其他相关的主题词,发现他们大大地加强了问答系统的性能。另一个高效能系统结合了4个独立信息检索系统的结果(Essie,EasyIR,SMART和Theme),并发现融合大大优于独立的系统。许多团队已经研究了高级信息检索模型:Jiang等人:语言模型和相关性反馈Caporaso等人:探讨了潜在语义分析Divo
24、li等人:考虑了问题和全文文献的结构Haiqing Zheng(复旦大学,计算机科学和工程系)等人:在句法树结状构的基础上选择与问题相似句子,并发现浅层句法分析提高答案抽取的性能提高答案抽取的性能。这些模型没有提高段落检索性能29Company name结构框架文本抽取事实文本抽取事实IE初始工序初始工序有注释文本集有注释文本集&大规模评价大规模评价关系抽取关系抽取识别生物实体的模块或文章中的概念 检测出生物实体之间的关系 超信息抽取超信息抽取摘要技术摘要技术处理非文本材料处理非文本材料问答系统问答系统知识发现知识发现简明确定和表明文献最重要方面,节省阅读时间 含有丰富信息的非文本信息如表格和
25、图片 为形成的问题提供精确的答案 真正的TM不仅给出文章中存在的直接事实,还有助于揭示生物学实体间的间接关系 评价评价&面向用户系统面向用户系统理解用户需求理解用户需求NER(TM的最重要的必要条件)的最重要的必要条件)对系统和结果质量的评价有助于评估产生数据的可信度 对用户需求的实际掌握可引领技术发展 30Company name评价评价&面向用户系统面向用户系统有注释文本集有注释文本集&大规模评价大规模评价理解用户需求理解用户需求31Company name评价评价&面向用户系统面向用户系统(ASSESSMENT AND USER-FOCUSED SYSTEMS)近年来,近年来,BM TM
26、团队在广义上的团队在广义上的TM系统的大规模比较系统的大规模比较评价中的进步包括:评价中的进步包括:大批注释文本资源(大批注释文本资源(“语料库语料库”)的发展)的发展 进行共享任务的基础结构。进行共享任务的基础结构。随着对比较系统评价的关注的增加,近来一些工作偏离随着对比较系统评价的关注的增加,近来一些工作偏离了基于了基于NLP应用的既定范畴的发展,朝向了以谨慎应用的既定范畴的发展,朝向了以谨慎评价评价用户需求用户需求的发展方向。的发展方向。构建共享任务目标:满足构建共享任务目标:满足BM研究人员实际的工作流程。研究人员实际的工作流程。32Company name有注释文本集有注释文本集&大
27、规模评价大规模评价(Annotated text collections and large-scale evaluation)评价是一个基本工具,决定一个生物自然语言处理(BioNLP)方法或系统是否有效地达到规定的目标以及成功完成一个任务和达到预期结果的程度。BioNLP研究人员关注试验结果的可重可重复复性性,可比可比较性性和可行性可行性。知识发现竞赛(KDD Cup)开创了相关方法论并在TREC中继续研究。评价方法包括:产生检验文献集文献集和开展可靠有效评价评价方法。“GENIA语料库”标记着BM领域的检验文献集的开始。33Company name有注释文本集有注释文本集&大规模评价大规
28、模评价Wilbur等人等人:寻找注释寻找注释TM普通文本属性方法普通文本属性方法 刻画科学文本的载信息片段的特征:(i)关注主题(科学的,普通的或方法学)(ii)极性(正向,负向,缺乏知识)(iii)确定性(0-3度)(iv)证据(片段中缺乏,涉及或存在)(v)方向/趋势(高/低水平或试验结果的上升/下降)从BM文献抽取101条语句,以这些语句注释的高一致性为基础使用以上方法大量收集的注释正在刚刚起步。34Company name有注释文本集有注释文本集&大规模评价大规模评价Pyysalo等人等人:BioInfer注释注释2001年,Pyysalo等人对BioInfer(生物医学领域信息抽取语
29、料库)集合中的1,100条语句的注释。这一集合建立于GENIA语料库的实体注释,包括关系,命名实体和句法从属关系的注释。关于这些检验集的信息及其有效性可在“生物医学自然语言处理语料库”网站找到。http:/compbio.uchsc.edu/ccp/corpora/pubs.shtml35Company name有注释文本集有注释文本集&大规模评价大规模评价Morgan等人等人:分析评价分析评价BioCreAtIvE的任务的任务BioCreAtIvE(Critical Assessment of Information Extraction in Biologys)评价的目的是找出文本中涉及的
30、基因,基因名称标准化和蛋白间相互作用的抽取。Morgan等人以BioCreAtIvE的任务是为MEDLINE摘要中所有人类基因和蛋白质查询EntrezGene标识符为例,分析评价其任务完成情况以及准备文本集的相关问题。36Company name理解用户需求理解用户需求(Understanding user needs)用户需求,行为和与工具交互作用用户需求,行为和与工具交互作用的研究是决定需要哪种生物医学工具和服务以及它们是否有用的一个有效途径。近期的努力方向:考虑到用户需求,将NLP方法的应用到支持研究人员和数据库管理者的工具的高级性能。开发系统主要是为了解决特殊任务和用户群体例如,科学文
31、献的个人数字图书馆的特殊有机体数据库的维护或创造。37Company name理解用户需求理解用户需求FlyBase维护工具工具 特点:以用户观察和用户反馈为基础的反复完善 该工具综合的NLP包括涉及基因和相关的名词短语的识别该工具导航到涉及基因列表和可视化线索,这一能力对识别相关实体有帮助。该工具的试验评估有助于确定其他理想的功能,如突出显示表和标题,并跟踪用户行为。38Company name理解用户需求理解用户需求LitMiner:应用用软件件目的:实现对出版论文进行生物学家分析一系列通过PubMed检索BM文献并处理结果的工具对结果有以下操作:(I)以从文献题目或摘要中抽取的主题词为基
32、础,将结果聚类到主题词层次列表;(II)保存并与合作者共享;(III)基因共现应有可比性,基因间关系能够利用网络图可视化。在个案研究中,介绍这一个性化服务后可增加文献的访问量(测量订单的数量)。39Company name理解用户需求理解用户需求BioCreative共享任共享任务 目的:向生物研究人员,特别是数据库管理员提高实际的应用。为了达到这一目的,在定义任务和评价系统输出方面,BioCreative进行和维持与CNIO(西班牙国立癌症中心),鼠基因组信息学,InterAct,MINbT和EBI的生物学家协作。40Company name展望未来:生物医学文本挖掘的展望未来:生物医学文本
33、挖掘的新前沿新前沿是什么是什么?能将文本中的字符串映射成世界中的事物(唯一标识符)或它们涉及的存在论的概念 科学家们实际使用的工具的有效性的增加知识表现法日渐纷杂,表现在:语义资源方面和面向增加粒度的二元 关系的工作令人鼓舞的变化令人鼓舞的变化 41Company name组成生物医学文本挖掘“新前沿”的六个领域:六六个个领域域摘要摘要 技技术用户驱动系统用户驱动系统 评价价问题回答问题回答 全文期刊论文的全文期刊论文的DM用户需求和用户界面的评估用户需求和用户界面的评估 补充:补充:DM系统质量保证和稳健性系统质量保证和稳健性 42Company name关键点关键点TM常依赖于IE技术,包括NER和RE,这些领域显示继续发展的空间。BIE,摘要技术,QA和轮廓开发为较易获得包括科学论文的信息提供新方法BLD的进展表现为:方法学进展,综合系统的增加和这些系统促进生物学实验实际使用增加。BMTM团队在用于TM系统的大规模比较评价的材料和基础结构的发展上有很大的跨越。43Company name44
限制150内