(57)--肿瘤疾病动物模型文献分类检索平台的建设.pdf
《(57)--肿瘤疾病动物模型文献分类检索平台的建设.pdf》由会员分享,可在线阅读,更多相关《(57)--肿瘤疾病动物模型文献分类检索平台的建设.pdf(5页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第3 4 卷第4 期2 0 1 7 年8 月实验动物科学L A B O R A T O R YA N I M A LS C I E N C EV 0 1 3 4N O 4A u g u s t2 0 1 7妒痧1 驴驴驴q研究简报易、护、:g、护护圆肿瘤疾病动物模型文献分类检索平台的建设木邓少嫦1胡金芳1丘文峰2刘万策1陈梅丽1(1 广东省实验动物监测所,广东省实验动物重点实验室,广州5 1 0 6 6 3)(2 广东医科大学信息工程学院,东莞5 2 3 8 0 8)摘要:动物模型是开展肿瘤研究的重要支撑工具。本研究开发的文献分类检索平台,可实现肿瘤疾病动物模型文献数据资源的整合,解决目前肿瘤
2、动物模型资源数据信息无序分散的问题,并能动态地为研究者提供模型最新研究进展,为科研工作者提供一个方便、实时、高效、专业的网络信息平台工具。同时本研究将为进一步开展肿瘤动物模型文献数据挖掘工作奠定基础,逐步为行业提供模型制备的数据分析服务,并增值开发相关的特色数据库。关键词:肿瘤;动物模型;文献检索中图分类号:Q 9 5 3 3文献标识码:A文章编号:1 0 0 6 6 1 7 9(2 0 1 7)0 4-0 0 5 9-0 4动物模型是现代生物医药研究中的一个极为重要的实验方法和手段,被称为“活的试剂”、“活的精密仪器”,正确制作或选择一个合理的动物模型是科研成功与否的关键。肿瘤动物模型是攻克
3、肿瘤疾病这一个医学领域的世界性难题的重要支撑工具,肿瘤动物模型资源的需求市场巨大。疾病动物模型数据库资源的整合问题。1 1,近年来受到大家的普遍关注。随着科研技术的不断发展,疾病动物模型的种类和数量也在与日剧增。如何管理和利用现有的动物模型资源,并进行合理分配和广泛分享,是实验动物行业一直努力的方向旧。本课题研究以服务于肿瘤疾病的实验研究为目的,开发肿瘤动物模型文献分类检索平台,解决目前肿瘤动物模型资源数据信息无序分散的问题。1 数据的收集与整理1 1 文献来源文献数据的调查与收集阶段,检索的中文文献资源主要取自中国知网、万方数据库,外文文献以N C B I 数据平台的p u b m e d
4、和P M C 数据库为主。通过对动物模型的制作与应用方面的文献结构特征和特定的搜索引擎检索模式的整理,并结合人类疾病动物模型复制方法学、人类疾病动物模型以及现代肿瘤学等出版书籍中涉及的分类方法学的应用2。,对文献的检索工作进行分级,通过分级检索机制来实现文献的分类。1 2 文献检索的分类依据动物分类信息的确定是通过动物模型相关综述类文献的统计获得,主要涉及的实验动物包括:鼠、兔、犬、猴、猪、鸡、斑马鱼、树朐、旱獭和羊。平台中涉及的疾病分类信息是利用近几年的癌症流行趋势调查结果和癌症肿瘤分类学专业书籍等资料的整理筛选出来,主要分为头颈部肿瘤(6 种)、胸部肿瘤(3 种)、腹腔肿瘤(4 种)、泌尿
5、及男性生殖系统肿瘤(3 种)、妇科肿瘤(3 种)、淋巴造血系统(2 种)、皮肤软组织及骨肿瘤(2 种)。在肿瘤动物模型制作方法的分类方面,主要采纳了传统的分类方法,即自发性动物模型、诱发型动物模型、移植型动物模型和基因工程动物模型四类。1 3文献数据收集与整理文献的分类检索是通过系统程序的语义识别实现的”。,具体过程是:标准字典的识别+数据字典的识别一两种字典的对接一文献的分类调出。标准字典是指所有分类相关的属性词,是统称的专业术语,为平台界面的显示词汇;针对不同文献中分类属收稿日期:2 0 1 6 1 1 2 3+基金项目:广东省科技计划项目资助(N o 2 0 1 4 A 0 3 0 3
6、0 4 0 3 4)作者简介:邓少嫦(1 9 7 9 一),女,主管药师,研究方向:实验动物与比较医学E-m a i l:d s c g d l a m i t o m通信作者:陈梅丽(1 9 7 1 一),女,兽医师,研究方向:实验动物学E m a i l:c h m l g d l a m i e o m万方数据6 0 实验动物科学3 4 卷性词的多种差异性表述,程序可能无法通过一般的语料库进行专业词汇的语义识别,所以需要根据文献内不同字段中某类语句的表述特征建立数据字典。数据字典要包括抓取词或抓取组合词、抓取词的具体位置(如摘要或方法等)。由于疾病动物模型类文献具有比较统一的写作特征,所
7、以这种语义识别方式,可以有效地提高自动分类的准确性。2 平台的设计2 1平台的总设计肿瘤疾病动物模型文献分类检索系统使用M Y S Q L,A p p a c h e 服务器,服务器端采用W i n d o w s N T 2 0 0 8S e r、,e r 操作系统,编程语言为J a v a。文献搜索功能的实现采用的是E l a s t i c S e a r c h,即实时分布式搜索和分析引擎。这种弹性搜索模式主要用于全文搜索、结构化搜索和分析,是一种基于A p a c h eL u c e n e(T M)的开源搜索引擎。文献自动分P。W e b 服务器H T M L H T q-PP
8、H PA p p a c h e类利用分级检索机制将文献检索分为两个步骤:(1)以“动物分类+疾病分类”的检索组合方式,针对文献的“题目和摘要”进行一级检索,并下载全文。(2)利用建立好的标准字典与数据字典,以“模型制作方法分类”为相关的检索词,针对文献的“材料与方法”进行二级检索。这种分级检索机制在实现文献分类的同时,还可以系统自动剔除无关文献,保证检索获得的文献具有很高的相关性。2 2 平台设计流程肿瘤疾病动物模型文献分类检索平台分为以用户为中心的检索交互和检索引擎两个部分(见图1)。用户通过互联网连接W e b 服务端检索文献。W e b 服务器通过检索引擎连接应用数据库为用户提供文献检
9、索服务。为提高应用检索速度和可扩展能力,核心文献数据通过弹性搜索数据库建立。采集服务通过采集最新文献存入基础数据库,基础数据库确认并清洗后提交至弹性搜索。图1检索平台设计流程图F i g 1T h eF l o w c h a r to fR e t r i e v a lP l a t f o r mD e s i g n3 平台功能模块3 1以用户为中心的检索交互系统创新使用基于S N S(社交网络服务)的网络平台构建以用户为中心的检索交互。通过U c e n t e rH o m e 进行二次开发,在以学者专家关系为核心的交流网络上构建动物模型分类检索功能。除一般的文献检索功能外,用户可
10、通过选择疾病种类、实验动物种类及造模方法等进行分类检索,快速、准确地查找获得文献资源。文献检索用户通过注册获得个人主页和“我的空间”(图2),可进行检索追踪、好友互动、文献推荐、分享和评论等个性活动;通过邀请好友、推荐、评论和分享文献等获取更多平台使用权限。3 2 可扩展的文献检索引擎E l a s t i c S e a r c h 是一个基于L u c e n e 的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于R E S T f u lw e b 接口。文献检索难点在于设计一个合理的文献分类检索模型,并能够提供快速、大数据量、易维护的检索服务。平台采用胪固胪万方数据第4 剪
11、邓少嫦等:肿瘤疾病动物模型文献分类检索平台的建设6 1 一 文嘲囊纾姐溯览:来源数据库发表年度机构期刊名称阵痒:主譬时间收i 月a:需宴譬恻4 哪瞻_ 啦鸱洲p 丑唧 9 翘嘲究蕊【作誊】壬中奇:邓海滨:昊蛙;张瓶曼:镎撮晔;A u t h o r W A N GZ h o nD E N GH a i b i n,W UJ i,e ta lD e p a l l:m e n to fO n c o l o g y,L o n g h u aH o s p i t a l S h a n g h ln i v e r s i t yo fT r a d i t i o n a lC h i n
12、e s eM e d i c i n e,S h a n g h a i(2 0 0 0 3 2)【机构】;鼋朝霞:南幸:叶大风:【机构】新L 走芋医学院附属妇产科医:浙江丈掌医字院附属妇产科医院肿瘤斟浙江1 亢州3 1 0 0 0 6:浙江0 6;渐1 二杭州3 1 0 0 0 6【摘要】小鼠幔型在擂示静穗痨因、驿图2 个人主页F i g 2T h eP e r s o n a lH o m e p a g eE l a s t i c S e a r c h 作为检索引擎。通过E l a s t i c S e a r c h,很容易把非结构化的数据以J S O N 和H T T P 索引
13、。此外,随着文献数据量的提高,很容易从一台搜索服务器扩展至数百台服务,扩展不会影响实时搜索的速度,使得搜索服务器能够始终可用。3 3 平台的功能及技术特点平台的功能模块、功能介绍和优先级的区分见表1。(1)能运行在局域网和互联网。对客户端要求低。(2)两个自动化:程序能够实现文献更新和文献分类的自动化。(3)构建社区化的动物模型平台,用户可以通过平台交流、推荐动物模型。(4)评分机制:用户可以对动物模型评分,以优化检索模式。(5)弹性检索机制:支持大数据实时检索需求。(6)安全功能:在数据库内部存储过程进行密钥存储加密。4讨论疾病动物模型的数据资料大部分以文献的形式分布在专业学术杂志上,也有部
14、分更详细的或未发表的数据资料分散存在于各科研机构。如何挖掘和整理这些极有参考价值的数据资源,及时提供给研究者参考和使用,具有重要的科学意义。一个成熟万方数据6 2 实验动物科学3 4 卷的疾病动物模型是经历了大量的研究摸索之后建成并得到了其他人的认可,每一研究者如果能够及时有效地利用他人的模型研究成果,就可以不必重复地摸索,并且研究结果可以互相比较,从而推进研究工作。疾病动物模型的成熟是一个过程,是许多研究者接力的过程,因而了解别的研究者使用的疾病动物模型类别、造模方法、模型指标等,既是避免无用重复的方法学,也是节约高效的工具学,更是结合自身研究目的对已有的研究工作改善提高的创新和节约的途径。
15、利用现代信息技术与方法,利用信息网络来收集分类和及时共享疾病模型的研究信息与进展,不仅必要而且可行。本研究开发的文献分类检索平台,可实现肿瘤疾病动物模型文献数据资源的整合,解决目前肿瘤动物模型资源数据信息无序分散的问题,并能动态地为研究者提供模型最新研究进展,为科研工作者提供一个方便、实时、高效、专业的网络信息平台工具。同时本研究将为进一步开展肿瘤动物模型文献数据挖掘工作奠定基础,逐步为行业提供模型制备的数据分析服务,并增值开发相关的特色数据库。6。7 1。该文献分类检索系统的开发,是实现动物模型文献资源挖掘的第一步,是建设疾病动物模型资源共享平台的基础,是进一步挖掘文献数据资源、开发增值功能
16、软件、建立特色数据库的关键。目前为止,系统的开发存在一定的局限性。第一,系统文献涉及的主要数据库是中文的万方和知网以及外文的P u b m e d。这些数据库都有比较完善的词库表,针对某个疾病名称可能包含的相近名词都会被囊括,然而不同的数据库,文献检索效率存在自身的局限性,基于这些数据库检索平台开发的新系统就会存在文献数据不完整的问题。为了弥补这一缺陷,可以通过增设多个文献数据库作为文献数据来源。第二,虽然目前市场上,文献检索系统的技术开发已经成熟,但是通过专业文献的语义识别来进行专门分类的文献检索仍然存在一定的技术难题。语义识别的软件功能开发目前并不十分普及,技术上存在挑战,同时,专业科技类
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 57 肿瘤 疾病 动物 模型 文献 分类 检索 平台 建设
限制150内