基于关键词链接网络分析方法的医学文献推荐服务研究-李树青.pdf





《基于关键词链接网络分析方法的医学文献推荐服务研究-李树青.pdf》由会员分享,可在线阅读,更多相关《基于关键词链接网络分析方法的医学文献推荐服务研究-李树青.pdf(11页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、情报学报2017年1月 第36卷第1期Journal of the China Society for Scientific and Technical Information,Jan201 7,36(1):61-71基于关键词链接网络分析方法的医学文献推荐服务研究李树青1,徐侠2,曹 杰1,庄光光1(1南京财经大学信息工程学院,南京 210046;2南京邮电大学管理学院,南京210046)摘 要本文提出了一种面向临床诊断决策支持服务的医学文献推荐方法,该方法首先对文献关键词从关键词列表、Mesh标准医学词库和缩略词三个方面进行了规范化处理,并据此得到关键词和文献的完整对应关系。文章对相关处理
2、方法的思路和细节都做了详细的说明。然后,利用已知的患者症状描述信息,根据关键词共现形式来获取目标句子集合和诊断相关关键词集合,并利用基于关键词共现形成的关键词链接网络,本文设计了一种测度重要关键词及其相关文献的查询方法。最后,文章对相关实验效果及其用户满意度评价都做了必要的说明。关键词 文献推荐服务;关键词链接网络;临床诊断;决策支持服务The Study of Medical Literature Recommendation ServiceBased on the Analysis of KeywordsLinking NetworkLi Shuqing 1,Xu Xia2,Cao Jie
3、 1 and Zhuang Guangguang 1(1College ofInformation Engineering,Nanjing University ofFinanceEconomics,Nanjing 2 1 0046,China;2School ofManagement,Nanjing University ofPosts and Telecommunications,Nanjing 2 1 0046,China)Abstract:This paper proposes a recommendation method of medical literature for clin
4、ical diagnostic decision supportsWe get all the normalized keywords from the keywords lists in articles,Mesh lexicon and acronyms,then thefull relation of keywords and articles are built with normalized keywordsThe ideas and detailed processes are alsointroduced in this paperBased on keywords COoccu
5、rrence analysis,the collections of target sentences and diagno-sisrelated keywords are abstracted according to existing description of symptomsAnd the paper also lays out all thedetailed process of measuring keywords and relevant articles with link analysis based on keywords CO-occurrenceFinally,we
6、report some related experiments and the results of user evaluationsKey words:literature recommendation service;keywordslinking network;clinical diagnosis;decision support service引 言在海量医学文献中寻找有价值的目标文献,构成了现代文献信息检索一个重要的应用分支,也被多次列入信息检索技术评价测试任务,如从2014年2016年逐年都被列入美国TREC临床决策支持评测任务(TREC Clinical Decision Su
7、pport Track,http:wwwtreccdsorg o它要求根据已有的患者症状描述信息,从近百万篇医学文献中自动获取与相关疾病诊断最为相关的文献列表。产生这个研究任务的主要原因在于两个方面:一是医学类文献的规模经过多年的积累和发展,已经形成了非常庞大的数据集合,从收稿日期:2016-0305;修回日期:20160925基金项目:国家社会科学基金项目“基于大数据分析的数字图书馆个性化服务模式创新研究”(16BTQ030),科技部科技支撑项目“外贸行业电子商务服务技术研究与应用”(BAH29F01 o作者简介:李树青,男,1976年生,教授,硕士生导师,主要研究领域为个性化服务、Web挖
8、掘和信息检索,Email:leeshuqing163com;徐侠,女,1977年生,博士生,副教授,主要研究领域为科研管理;曹杰,男,1969年生,博士生,教授,主要研究领域为推荐系统和商务智能处理;庄光光,男,1991年生,在读研究生,主要研究领域为信息检索和文本挖掘。万方数据62 情 报 学 报 第36卷中得到所需的有效文献变得愈发困难,同样,这个问题也存在其他类型的文献检索任务中;另一方面则来自于医学文献本身的特点,医学类文献中专业词汇聚集,相关关键词的构成结构和特点和一般文献具有明显的区别,比如大量含有希腊字母的医药表示方法,还有几乎所有的疾病专业术语都会提供对应的缩略形式,甚至很多文
9、献通篇使用这些缩略词语而非原始对应词语,再如不同文献对于相同症状和疾病等术语的使用方法也存在较大的差异,同义词规范处理的必要性很强。因此,如何在给定的医学文献集合中快速准确地找到所需的相关文献成为文献检索服务的一个重要研究领域。该项研究有很多不同的具体任务类型,如面向医学研究者的文献查询服务、面向临床治疗的文献辅助诊断服务等等。本文主要面向第二个方面,即根据临床观察获得的患者症状信息,在现有文献集合中找到与可能疾病诊断相关的文献信息,从而为临床医生提供决策支持。2 文献回顾计算机技术在临床决策方面的应用主要有医疗信息管理(Tools for Information Management)、诊疗
10、提醒辅助【1(Tools for Focusing Attention)和诊断决策(Diagnosis),其中诊疗提醒辅助还包括对药物互相作用的风险提醒21,以及在药物选择及剂量建议方面能给出建议3儿4等。临床诊断决策(Clinical Diagnosis)是指结合患者的症状,从已有的数据分析中给出病理解释。与此相关的还有检验(Test),有时也指诊断过程分析(Diagnostic Process),即判断该进一步询问哪些问题,进行哪些检查,进行哪些治疗步骤,并结合预期的结果来决定可能的风险和成本5。这也是一种典型的循证医疗(EvidencebasedMedicine)方法,也是近十几年发展较
11、快的一门新兴临床学科【6】。优秀的临床诊断决策支持需要三个前提,分别是准确的数据、合适的知识和有效的解决方法,其中关于解决方法的研究一直都是医学文献推荐服务领域的重要研究方向7】。早期的研究可以完成差异化诊断和提示利用哪些信息可以不断加强对诊断结果判断的准确性,如DXplain91和QMR10-11等。有的系统可以按照一种方便临床医师理解的方式来将不同时间点上的患者记录进行总结【1 21。从总体来看,医学类文献和患者记录都呈现比较规范的写作模式和方法,所以有利于从中提取各种定制化的结果1 31。但是已有研究也表明,临床诊断决策系统对于医生决策效果(Practitioner Performanc
12、e)的支持有效性较高,但对于患者有用的结果信息(Patient Outcomes)则较少,其中的原因在于解读这些信息往往需要结合就诊时所收集的患者症状信息【l 41。同时,也有学者指出使用者对于临床诊断决策系统的接受程度直接影响着系统的有效利用和使用效果1 5|,还有学者强调管理和制度建设对于临床诊断决策系统的发展有着重要影响【1 61。所以,现有的诊断决策功能主要集中于药物选择支持和处方支持等方面,实现较为复杂的智能专家诊断决策支持尚不多见17。这也极大促进了当前相关研究的广泛开展。近年来在应用方面取得较大成就的往往多为一些针对特定病症的诊断决策支持服务。借助已有的标准诊断方案和治疗方法,可
13、以使用计算机系统将人工操作进行程序化从而实现自动诊断,如有学者提出的对d,JL哮喘临床决策支持系统,它按照美国国家哮喘教育与预防项目的标准,可以在患者就诊时按照症状标准自动评估严重等级和给出建议治疗步骤【1引。还有学者通过实验证明临床诊断决策支持系统可以降低急性肺栓塞患者中使用肺血管造影术的比重达20,而且结合肺血管造影术的判断准确度也提高了69t1 91。也有学者说明临床诊断支持系统可以显著降低那些低风险患者中使用心电图的比重,但也强调总体上没有看出明显区别俐。具体到方法而言,目前已有多种方法可以实现相关应用,如自动问答系统、基于规则库的分析方法以及网络分析方法等。随着自动问答(Questi
14、on Answering)系统的快速发展,越来越多的学者将其利用到临床诊断决策支持服务上,常见方法是将复杂问题分解为以事实查询为基础的问答(Factseeking Questions)形式或者将其映射为其他相似的简单问题21-22】,更为有效的方法往往结合语义领域模型(Semantic DomainModel),如PICO框架,它将诊断问题映射为四个主要子类型,分别是问题(Problem)、处置(Intervention)、比较(Comparison)和结果(Outcome),以此实现问题的规范化表达,并利用自然语言理解技术和已有的医学知识库完成文档查询,并再次利用聚类方法完成答案的自动抽取和
15、提炼2 21。不过,该项技术非常依赖于正确有效的利用PICO框架来描述患者症状信息【231。关于基于规则库的分析方法,如有学者选取刺万方数据第1期 李树青等:基于关键词链接网络分析方法的医学文献推荐服务研究 63参典型病例,根据提炼出的刺参疾病诊断规则建立起规则库,构建刺参疾病诊断推理机,并结合BP神经网络方法实现了辅助海参疾病诊断的自动化241。还有学者实现了基于BP神经网络模型的呼吸系统疾病诊断仿真系统【2 51。这些系统都需要比较典型的训练数据,所以通常适用于对特定疾病的自动诊断,并不适合于一般性的通用型临床诊断决策服务。相对于前两种方法而言,网络分析方法应用面极广,方法的具体种类也很多
16、。常见的方法有两大类:第一类是利用二分网络投影方法【2 61,将疾病和特征分别归人二分网络的两个不同节点内容中,并利用迭代算法计算出彼此的相关性。如有学者使用二分网络来判断遗传性疾病与致病基因之间的相关度,并据此探究遗传性疾病的发病机制271。值得注意的是,通过我们的实验观察,这种方法对于辨析度不高和语义量有限的关键词单元而言,查询相关有效文献的实验效果往往不好,相反对于辨析度较高且信息量较大的基因片段却较为有利;第二类为基于网络链接的节点权值算法,此类方法在诸如网页推荐等领域中得到了广泛的应用。我们在前期的研究中,也多次使用该方法在图情学科领域本体自动构建281和学术文献关键路径自动识别幽1
17、方面进行了理论研究。实验表明,该方法在利用关键词来分析文档相关性的过程中能够起到非常有效的作用。对于临床诊断决策中的文献推荐服务而言,该种方法无需对患者症状的复杂表示方法和各种复杂的先验规则库,而利用描述症状信息的已有关键词,直接在医学文献数据集中查询相关度较高的推荐文献结果,这也构成了本文的主要研究特点。3标准关键词集合的获取由于不同文献写作方式的差异和表述的不同,医学文献的相关关键词必须经过专门的处理才能直接使用,这包含多项具体任务。31关键词获取范围的选择311 文献关键词这部分关键词来源于文献本身的关键词列表,也是内容规范度最差的一类,主要问题有:(1)由于不同文献数据库格式的差异,有
18、的医学文献使用逗号区分不同关键词,但也有的使用分号,甚至有的使用反斜杠符号。因此在数据解析时,必须根据当前文献关键词的分割符号来进行不同的处理。(2)混杂大量的无效关键词,除了常见的停用词外,不少文献还有纯数字形式的关键词,甚至将“Keyword”等词语也作为关键词,而且就这一个无效关键词,不同文献还有多种不同的写法,如“Keywords”“Key terms”“Key indexing terms”“Key indexingterms”等,更何况还有很多明显错误的关键词。因此,我们必须对得到的关键词进行规范性处理。我们采用了以词频统计为基础的判断方法,基本思想如下所述:得到全部文献的全部关键
19、词去除停用词和无效关键词(纯数字形式、字段名称、长度异常大的关键词等)对得到的所有关键词再次统计它们在每篇文献标题、摘要和正文中的词频去除低频关键词得到每篇文献新的关键词列表这个最终的关键词列表具有如下两个优点:一是全面,对于一些没有能在关键词列表罗列完整的文献而言,通过这种方式可以极大地扩张有效关键词数量;二是准确,即使一些文献在自己的关键词列表中错误标注了关键词,但是通过在当前文献其他字段中获取的正确关键词,而且这些正确关键词的数量也明显高于错误关键词数量,从而为我们判断文献的正确关键词提供了基础。事实上,我们对于词频较低的关键词和文档频率较低的关键词都做了直接去除的处理方式。312 医学
20、词库的标准关键词目前已有很多质量较高的医学词库,如Mesh和UMLS等。我们使用的是Mesh,它将全部收录的医学关键词分为三个等级,第一等级为“描述符(Descriptor)”,第二等级为“概念(Concept)”,第三等级为“术语(Term)”,每一个概念都只属于一个描述符,每一个术语也都只隶属于一个概念。其中,概念是Mesh词库中最为标准的关键词内容,与同一概念对应的术语可能有多种不同的写法但是具有相同的语义,从词语字面形式来看,处于最底层的术语包含了所有的描述符和概念,而概念则包含了所有的描述符。同时,Mesh词库还提供一组同义词映射关系,即给出了语义相近的概念映射关系,从而为相关术语的
21、同义词映射提供了查询基础,相关联系如图1所示。万方数据情 报 学 报 第36卷匝K匝匦k虱图1 Mesh词库中不同层级间词语联系示意图由于描述符、概念和术语之间的联系都为一对多,因此词语联系图从左向右呈现一个树状结构,术语层构成了叶节点。但是,利用概念之间的同义联系,可以在概念和术语层之间建立语义更为丰富的网状联系。假设图1中“概念2”和“概念3”存在同义联系,则我们可以给“术语1”和“术语3”建立如虚线表示的新概念映射。因此利用这种结构对应关系,我们可以扩展文献的同义关键词数量,从而有效提高了结果的查全率。313 缩略词虽然缩略词本身很少直接出现在文献的关键词列表中,但是在描述症状和疾病时,
22、它却是最为常见的有效词语。目前能够直接获取到的医学缩略词表并不多,而且内容也不全,因此我们探索了从文献集合中直接获取的新方法。值得注意的是,不是所有的医学文献都会在给出缩略词的同时,也给出原始词语的对应形式,而且医学文献中的缩略词写法种类极其多样,并非总是取连续多个单词的首字母大写。所以,我们采用的启发式判断方法建立在一个较为灵活的假设基础之上,那就是文献中出现的缩略词及其原始词语对应形式遵循一个固定的出现格式,形如“A木B+(AB*)”,其中的+字符表示任意其他多个字母或者空格。这里只考虑了前两位大写字母的出现形式,原因在于部分缩略词甚至使用了小写字母和数字。该方法的基本思路是直接从文献正文
23、中搜寻所有可能的缩略词及其原始词语,所依据的特征是若干大写字母开头的关键词组并且后面紧跟着位于括号中的缩略词。具体方法描述如下:(1)对于每一篇文献,查询所有正文出现的前大括号。(2)判断紧跟大括号的至少两个连续字母为大写字母。(3)如是,则查找大括号前出现这两个大写字母的位置,如果两个字母出现顺序与括号后顺序一致,则截取从括号前第一个大写字母开始到括号前的所有关键词,并判断是否包含诸如句号、逗号等之类的无效字符。同时,以非字母和非数字为结束字符,截取括号后的缩略词,形成一组缩略词及其原始词语的对应关系。(4)对于得到的全部缩略词及其原始对应词语,进行必要的验证,包括:去除长度不大于缩略词的原
24、始词语及其缩略词相同原始词语对应多个不同长度的缩略词,如一缩略词为另一缩略词的一部分,则去除该缩略词表示检查全部缩略词,依此判断每个原始词语是否按序出现了对应缩略词的每个字母。如不是,则去除(5)对于所有缩略词,统计出现词频,将词频较低的去除,因为这些可能都是误判,即使不是,也没有实际意义。实验表明,利用词频统计,可以非常简单和准确的去除无效和误判缩略词。4关键词文档关系的抽取41基本抽取算法为了方便后续的实验分析,本文对每篇文献的关键词进行了三种层次的关键词提取,即句子(以句号分割)、段落(以分段符分割)和文档三个层次。对于上述三类关键词,分别采用不同的抽取方法。另外全部文献数据都做了小写统
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 关键词 链接 网络分析 方法 医学 文献 推荐 服务 研究 李树

限制150内