《跨库集成检索》PPT课件.ppt
跨库集成检索与国家科学数字图书馆跨库集成检索与国家科学数字图书馆“CrossSearch跨库集成检索系统跨库集成检索系统”主要内容主要内容1.什么是跨库集成检索系统什么是跨库集成检索系统2.跨库集成检索产生的背景和意义跨库集成检索产生的背景和意义3.国外的一些相关研究情况国外的一些相关研究情况4.国家科学数字图书馆国家科学数字图书馆“CrossSearch跨跨库集成检索系统库集成检索系统”项目的建设情况项目的建设情况5.CrossSearch的主体框架的主体框架6.CrossSearch的特点的特点1什么是跨库集成检索系统跨库集成检索是国内外都很关注的研究课题,有着不同的称谓:nBroadcast search(广播检索)nParallel search(并发检索)nCross-database search(跨库检索)nMetasearch(元检索)nFederated search(联邦检索)1什么是跨库集成检索系统什么是跨库集成检索系统定义nOne simultaneous search/access to multiple databases or information sources irrespective of search engine protocol,platform,product or vendor.(by Lillian Woon Gassie,Senior Systems Librarian,Naval Postgraduate School Monterey,Ca)n用户只需用户只需“一次就能同时对多个数据库或信息源进一次就能同时对多个数据库或信息源进行检索,而不必考虑这些检索引擎的协议、平台、行检索,而不必考虑这些检索引擎的协议、平台、产品或生产商产品或生产商”1什么是跨库集成检索系统我们认为我们认为:n跨库集成检索系统是以多个分布式异构数据跨库集成检索系统是以多个分布式异构数据源为对象的检索系统。它通过统一的检索界源为对象的检索系统。它通过统一的检索界面,可以一次并发地对多个网络数据库同时面,可以一次并发地对多个网络数据库同时进行检索,并将各个网络数据库的检索结果进行检索,并将各个网络数据库的检索结果归并,一次提交给用户,在实体资源分散的归并,一次提交给用户,在实体资源分散的情况下实现了情况下实现了“虚拟的资源整合虚拟的资源整合”。2跨库集成检索产生的背景和意义跨库集成检索产生的背景和意义跨库集成检索产生与网络化数字化环境的渐渐跨库集成检索产生与网络化数字化环境的渐渐成熟密切相关。成熟密切相关。图书馆资源的不断增加,形式多样化,在迅速图书馆资源的不断增加,形式多样化,在迅速查询、及时取得信息等服务的同时,也给用户查询、及时取得信息等服务的同时,也给用户和图书馆员都带来了一些问题:和图书馆员都带来了一些问题:wASTPASTPwPQDD-B PQDD-B 数据库数据库(UMIUMI博士硕士论文博士硕士论文)wElsevierElsevierwScience OnlineScience OnlinewCatchwordCatchwordwIOPIOPwSCISCI科学引文索引科学引文索引wwSpringer-LinkSpringer-LinkwEiEi CompendexCompendex wWebWeb工程索引工程索引wCSA CSA 剑桥科学文摘数据剑桥科学文摘数据w中国期刊全文数据库中国期刊全文数据库w中国科学文献数据库中国科学文献数据库w学位论文数据库学位论文数据库w全国期刊联合目录数据库全国期刊联合目录数据库w2跨库集成检索产生的背景和意义跨库集成检索产生的背景和意义从用户的角度来从用户的角度来n尽管目前有许网络数据库可以使用,但使用者往往尽管目前有许网络数据库可以使用,但使用者往往不知自己所要查找的信息在哪一个数据库中不知自己所要查找的信息在哪一个数据库中:w每一个数据库的供货商或出版商不同;每一个数据库的供货商或出版商不同;w有着不同的检索界面;有着不同的检索界面;w不同的使用方式;不同的使用方式;w不同的身分认证;不同的身分认证;w不同的呈现的格式;不同的呈现的格式;w使用者无法一次获取各数据库的信息;使用者无法一次获取各数据库的信息;n导致:导致:频繁登录和退出频繁登录和退出2跨库集成检索产生的背景和意义跨库集成检索产生的背景和意义从图书馆的角度来看,更多的资源意味从图书馆的角度来看,更多的资源意味着:着:n更多的培训服务更多的培训服务;n更多的咨询服务更多的咨询服务;n难以利用和共享难以利用和共享;n更多的用户压力更多的用户压力2跨库集成检索产生的背景和意义跨库集成检索产生的背景和意义跨库集成检索应运而生:跨库集成检索应运而生:它向用户提供统一的它向用户提供统一的检索接口,将用户的检索要求转化为不同数据检索接口,将用户的检索要求转化为不同数据源的检索表达式,并发地检索本地的和广域网源的检索表达式,并发地检索本地的和广域网上的多个分布式异构数据源,并对检索结果加上的多个分布式异构数据源,并对检索结果加以整合,在经过去重和排序等操作后,以统一以整合,在经过去重和排序等操作后,以统一的格式将结果呈现给用户。的格式将结果呈现给用户。2跨库集成检索产生的背景和意义跨库集成检索产生的背景和意义跨库检索的这种基本原理,决定了它有跨库检索的这种基本原理,决定了它有以下优点:以下优点:n统一的检索入口。能够减轻用户学习检索不统一的检索入口。能够减轻用户学习检索不同数据源的负担,频繁登录和退出;同数据源的负担,频繁登录和退出;n并发检索。能节省用户总的检索时间;并发检索。能节省用户总的检索时间;n结果整合。呈现给用户的最终看结果不仅格结果整合。呈现给用户的最终看结果不仅格式统一,而且按统一标准排序,大大方便了式统一,而且按统一标准排序,大大方便了用户的浏览和选择。用户的浏览和选择。3国外的一些相关研究情况国外的一些相关研究情况国外的集成检索系统的研究项目国外的集成检索系统的研究项目nFlashPointFlashPoint。美国新墨西哥州洛斯阿拉莫斯国家实美国新墨西哥州洛斯阿拉莫斯国家实验室研究图书馆验室研究图书馆(Los Alamos National Los Alamos National Laboratory Research LibraryLaboratory Research Library,LANL RL)LANL RL)nSearchLightSearchLight。California Digital Library California Digital Library(CDL)(CDL)nNLM GatewayNLM Gateway。美国国立医学图书馆美国国立医学图书馆(NLM)NLM)nSiteSearchSiteSearch。OCLCOCLCnHermesHermes。国立墨西哥大学国立墨西哥大学nSUMSearchSUMSearch。美国得克萨斯保健科学中心大学美国得克萨斯保健科学中心大学3国外的一些相关研究情况国外的一些相关研究情况图书馆自动化系统产商产品图书馆自动化系统产商产品nEnCompass(Endeavor,MuseSearch)nHorizonConsolidatedSearching(Dynix,WebFeat)nMetaFind(Innovative,MuseSearch)nMetaLib(ExLibris)nOneSearch(Follett,WebFeat)nSingleSearch(Sirsi,MuseSearch)3国外的一些相关研究情况国外的一些相关研究情况国外研究及系统的主要特点国外研究及系统的主要特点n跨库检索系统一般都支持通过跨库检索系统一般都支持通过HTTP协议检索数据协议检索数据源和获取检索结果,这一点与一般的元搜索机制大源和获取检索结果,这一点与一般的元搜索机制大体相似,但跨库检索更注意检索协议,如体相似,但跨库检索更注意检索协议,如Z39.50等协议的应用;等协议的应用;n检索仅仅是信息服务的起点,跨库检索需要将资源检索仅仅是信息服务的起点,跨库检索需要将资源和服务实现链接,如链接到电子期刊,链接到原文和服务实现链接,如链接到电子期刊,链接到原文传递等;传递等;n为了方便用户的使用,跨库检索系统一般提供定制为了方便用户的使用,跨库检索系统一般提供定制功能和收藏夹功能,使用户能够重复使用其检索到功能和收藏夹功能,使用户能够重复使用其检索到的数据的数据;n在有些跨库检索系统中,提供了检索词前期规范,在有些跨库检索系统中,提供了检索词前期规范,如如NLMGateway和和SiteSearch都提供了通过词表都提供了通过词表进行检索词规范的功能。进行检索词规范的功能。4 CrossSearch系统建设情况“CrossSearch跨库集成检索系统跨库集成检索系统”是中是中国科学院文献情报中心承担的国家科学国科学院文献情报中心承担的国家科学数字图书馆建设项目数字图书馆建设项目“基于元搜索的网基于元搜索的网络数据库集成检索系统络数据库集成检索系统”项目的研究成项目的研究成果果4 CrossSearch系统建设情况“基于元搜索的网络数据库集成检索系统基于元搜索的网络数据库集成检索系统”项项目的研究目标目的研究目标n调研、综述有关国内外集成检索系统的现状及趋势调研、综述有关国内外集成检索系统的现状及趋势研究报告;研究报告;n提出国家科学数字图书馆集成检索系统采用的技术提出国家科学数字图书馆集成检索系统采用的技术标准、系统设计方案;标准、系统设计方案;n研制国家科学数字图书馆集成检索系统,并及时提研制国家科学数字图书馆集成检索系统,并及时提供集成检索服务;供集成检索服务;n发表本课题调研和研究等有关学术论文。发表本课题调研和研究等有关学术论文。“基于元搜索的网络数据库集成检索系统基于元搜索的网络数据库集成检索系统”项项目从目从2002年下半年启动年下半年启动4 CrossSearch系统建设情况“CrossSearch跨库集成检索系统跨库集成检索系统”在在2003年初开始提供服务,最初发布的版年初开始提供服务,最初发布的版本只支持本只支持8个数据库的检索。个数据库的检索。4 CrossSearch系统建设情况4CSDL“CrossSearch跨库集成检索系统”项目的建设情况经过不到一年的努力,经过不到一年的努力,CrossSearch跨跨库集成检索系统经过库集成检索系统经过3次改版。次改版。目前集成了丰富的资源,可以分为目前集成了丰富的资源,可以分为6类近类近百种百种不同来源、不同结构的数据资源。不同来源、不同结构的数据资源。集成的数据源主要包括集成的数据源主要包括CSDL购买的全文购买的全文数据数据库、文摘索引数据库、电子图数据数据库、文摘索引数据库、电子图书资源、网络免费资源、联合目录资源书资源、网络免费资源、联合目录资源和国内外重要的和国内外重要的OPAC资源。资源。4 CrossSearch系统建设情况5 CrossSearch的主体框架CrossSearch的的6个核心组件个核心组件n统一检索入口统一检索入口n检索请求处理模块检索请求处理模块n各协议连接器引擎各协议连接器引擎n特定资源的各协议连接器(特定资源的各协议连接器(HTTP连接器,连接器,Z39.50连接器,连接器,OAI连接器)连接器)n检索结果处理模块检索结果处理模块n结果呈现模块结果呈现模块用户界面认证管理Session管理总控管理统一检索入口连接器引擎API统一格式结果反馈检索参数定制检索结果保存检索请求处理API检索结果处理API用户管理检索请求处理模块各协议连接器引擎检索结果处理模块HTTP连接器Z39.50连接器JDBC连接器OAI连接器Internet数据源Z39.50服务器本地数据库OAI服务器日志管理针对特定资源的元数据结果格式转换配置文件资源定制5 CrossSearch的主体要特点1一站式的信息检索一站式的信息检索n用户只需通过一个统一的检索界面,就可以用户只需通过一个统一的检索界面,就可以同时对多个数据源(网络数据库)进行检索,同时对多个数据源(网络数据库)进行检索,简化了多数据源检索的过程,节省了用户查简化了多数据源检索的过程,节省了用户查找信息的时间。找信息的时间。5 CrossSearch的主体要特点2多数据源的检索集成多数据源的检索集成n目前,系统已集成了目前,系统已集成了6类、近百种不同来源、类、近百种不同来源、不同结构的数据源,基本上覆盖不同结构的数据源,基本上覆盖CSDL购买购买的网络资源。的网络资源。n集成的数据源主要包括全文数据数据库、文集成的数据源主要包括全文数据数据库、文摘索引数据库、电子图书资源、网络免费资摘索引数据库、电子图书资源、网络免费资源、联合目录资源和国内外重要的源、联合目录资源和国内外重要的OPAC资资源。源。5 CrossSearch的主体要特点2多数据源的检索集成n全文数据库n系统目前提供16种网络全文数据库的检索集成,分别是维普科技期刊全文数据库、Springer-Link电子期刊、Science Online、ProQuest博士论文全文数据库、Nature、Johnwiley、IOP(Institute of Physics)、IEL(IEEE/IEE)、HighWire、Elsevier ScienceDirect、DOAJ(Directory of Open Access Journals)、CellPress、APS(American Physical Society)、AIP(American Institute of Physics)、ACS(American Chemical Society)、ACM(Association for Computing Machinery)5 CrossSearch的主体要特点2多数据源的检索集成n文摘索引数据库n系统提供11种文摘/索引数据库的检索集成,分别是中科院学位论文库、馆藏西文会议论文库、SCI、RSC(Royal Society of Chemistry)、ISTP、INSPEC、Ingenta、EI Village、Cambridge University、BP(BIOSIS Previews)、ASME(American Society of Mechanical Engineers)5 CrossSearch的主体要特点2多数据源的检索集成n电子图书资源电子图书资源w集成了方正电子图书、集成了方正电子图书、Springer电子丛书、电子丛书、SpringerLB电子工具书、电子工具书、Knovel网络版电子网络版电子工具书,共工具书,共4种数据库。种数据库。n网络免费资源网络免费资源w系统目前提供对系统目前提供对Google和和Yahoo!的集成检索的集成检索服务。服务。5 CrossSearch的主体要特点2多数据源的检索集成多数据源的检索集成n联合目录资源联合目录资源n包括中科院联机联合目录数据库、全国中日包括中科院联机联合目录数据库、全国中日俄西文期刊联合目录库、俄西文期刊联合目录库、广东省文献编目广东省文献编目中心、地方版文献联合采编协作网,共中心、地方版文献联合采编协作网,共4种种数据库。数据库。5 CrossSearch的主体要特点2多数据源的检索集成多数据源的检索集成nOPAC库资源。库资源。n系统目前提供对国内外系统目前提供对国内外54种种OPAC数据库的集成检数据库的集成检索,如中科院图书馆、国家图书馆、北京大学图书索,如中科院图书馆、国家图书馆、北京大学图书馆、清华大学图书馆、中国人民大学图书馆、美国馆、清华大学图书馆、中国人民大学图书馆、美国国会图书馆、加拿大国家图书馆、国会图书馆、加拿大国家图书馆、OhioLINK、苏苏格兰国家图书馆、牛津大学图书馆、丹麦阿伯格大格兰国家图书馆、牛津大学图书馆、丹麦阿伯格大学图书馆、丹麦阿伯丁大学图书馆、丹麦学图书馆、丹麦阿伯丁大学图书馆、丹麦Arhus科科技书目、丹麦技书目、丹麦Arhus公共图书馆书目、澳大利亚公共图书馆书目、澳大利亚DefenceForceAcademyLibrary、MichiganStateUniversityLibrary、AustralianNationalUniversityLibrary等。等。5 CrossSearch的主要特点3检索结果的统一呈现检索结果的统一呈现n系统自动合并不同数据源的检索结果,并支持二次系统自动合并不同数据源的检索结果,并支持二次检索,实现了真正意义上的信息整合与检索结果统检索,实现了真正意义上的信息整合与检索结果统一呈现。一呈现。w多种预设功能。可以对检索字段、去重标准、排序标准、多种预设功能。可以对检索字段、去重标准、排序标准、显示记录条数等进行预先设定。显示记录条数等进行预先设定。w多种结果显示。简单、详细多种结果显示。简单、详细w多种排序方式。题名、数据库、作者多种排序方式。题名、数据库、作者w多种查重手段。三种查重方式。多种查重手段。三种查重方式。w支持二次检索。系统支持用户在原有检索结果的基础上进支持二次检索。系统支持用户在原有检索结果的基础上进行二次检索。行二次检索。5 CrossSearch的主要特点4个性化的资源定制个性化的资源定制n系统支持个性化定制,用户登录到跨库集成系统支持个性化定制,用户登录到跨库集成检索系统后,可以定制自己常用的数据库资检索系统后,可以定制自己常用的数据库资源,构成多个资源组。下次检索时,系统默源,构成多个资源组。下次检索时,系统默认在用户定制的资源中进行检索。认在用户定制的资源中进行检索。5 CrossSearch的主要特点5检索和服务的集成检索和服务的集成n跨库集成检索系统与原文传递服务无缝连接,跨库集成检索系统与原文传递服务无缝连接,支持原文传递功能。不具有全文使用权限的支持原文传递功能。不具有全文使用权限的用户可以通过该系统获取所需资源的全文。用户可以通过该系统获取所需资源的全文。5 CrossSearch的主要特点6 动态的数据源扩展动态的数据源扩展n系统采用动态的资源管理机制,管理员只需系统采用动态的资源管理机制,管理员只需填写工作表单,就可动态地集成新的数据源,填写工作表单,就可动态地集成新的数据源,整体架构具有良好的可扩展性。整体架构具有良好的可扩展性。5 CrossSearch的主要特点7 便利的应用情况统计n系统提供多种应用统计,例如数据库使用统计、原文请求统计、原文请求处理统计等,方便管理员了解各种网络数据库的应用情况,明确用户的使用需求。http:/