信息检索笔记(共11页).doc
精选优质文档-倾情为你奉上第一章 信息资源的概述一 传统信息资源的概述1. 概念与特征2. 类型:(1) 一类文献:原始文献(2) 二类文献:对一类文献的加工整理,报道揭示一类文献,提供的是一类文献的线索和地址 (书目,索引,文献)(3) 三类文献:来源于一类文献,有丰富的权威的资料,可以解决各种问题。如:百科全书,字典,词典,手册,年鉴,名录二 数字信息资源1. 与传统信息资源相比具有的特征:(1) 以多媒体为内容特征(2) 内容复杂多样(3) 更新速度快,时效性强(4) 利用不受时空限制(5) 具备检索系统(6) 具备全方位的动态的信息服务功能2. 数字信息资源的 类型:(1) 按性质和功能划分:a) 一次文献:原始文献b) 二次文献:参考数据库,搜素引擎,网资,导航等。c) 三次文献:元搜素引擎(关于搜素引擎的搜素引擎)(2) 按载体划分:光盘,网络数据库,联机检索系统(三)主要数字信息资源 1.参考型数据库:包含各种数据信息的来源和属性的数据库。包括:书目数据库,索引数据库,文献数据库 2.全文数据库:收录有原始文献全文的数据库 3.事实数据库 ;直接提供原始文献的数据库,分为数值数据库,指南数据库,术语数据库 4.电子图书5电子报纸6.搜索引擎/分类指南7.网络学术资源学科导航:对各类信息资源进行筛选整理之后,按学科属性对其进行分类、组织。第二章 信息检索概述一信息检索: 信息检索就是利用一定的检索工具,运用一定的检索技术和方法查找信息的过程。二信息检索的原理 1.利用计算机进行信息检索的前提和基础是信息的组织和贮存。没有贮存就没有检索对象。 2.信息的组织与贮存就是数据库的建立过程。在这一过程中,系统对收集到的信息进行概念分析(即找出能够表达主题的关键词),然后赋予其特征标识(这一过程也叫对信息内容进行标引),并按特定的编排方法将其组织起来,形成有序的具有可检性特征的数据库。 3.计算机进行信息检索的原理就是指用户和检索人员将能够表达其信息需求的检索式提交给检索系统,检索系统即自动将检索式与系统中的信息进行匹配,凡是信息特征标识和逻辑组配关系与用户检索式一致的,既未命中内容。这种“匹配”实际上就是一种字符串的类比运算。三信息检索语言(也即标识)1.检索语言的概念与作用(1)检索语言是信息存储与检索过程中用于描述信息特征和表达用户信息提问的一种专门语言。它是人与检索系统对话的基础。标引过程信息 主题分析 信息 抽 取 主题标识内容 概念检索存储 检索系统结果主题分析信息 信息 主题 标识检索过程 需求 概念检索(2)标引即对信息内容进行分析,并运用一定的语言和方法,根据信息内容的学科属性和其他特征赋予其标识,并以此作为信息组织、存储、检索依据的过程。(3)标引过程:主题分析标引标引结果记录狭义的对文章的标引:从上图可知,信息检索语言的作用:对文献的外部特征和内容进行多维描述,提供多种检索过程,以便用户从不同角度进行检索。2.检索语言的类型:分类检索语言人工语言 主题检索语言 代码检索语言a)分类检索语言:将各种概念按学科类型进行系统 排列,并用分类号表示。b)主题检索语言:用于描述、存储、检索信息主题的受控词(规法化的词),按字母顺序排列。其选取依据为出现频率、标引频率、查找频率。标题词语言主题检索语言单元词语言叙词语言l叙词:经过词汇控制后,在信息组织中显示文献主题,在信息检索中构造检索提问式的一种检索词汇。它以语词的概念组配而不是字面组配为特征。又称为描述词、叙述词、主题词。l叙词法就是以叙词为标识符号,标引和检索信息的方法,可用复合词来表达主题概念,检索式是由多个叙词组成复合逻辑的组配,形成多种组合方式。自然语言检索词:是从信息内容中直接抽取的,主要依赖计算机自动抽词完成。其中标识词包括:关键词、题名,作者,全文、引文、摘要。限制性自然语言:对自然语言进行限制,只保留其中的重要词。3.索引(也即标引)检索语言就是索引语言,索引是信息标引的过程;索引是表明文献特征的信息。(1)概念:索引就是对信息组织的过程。它包括分析信息内容和用索引语言或检索语言对信息内容进行描述。部分索引结构举例:索引标目 出处项Information retrizeval p4, p10, p18(内容分析检索)音乐检索与利用 /李四情报学报,2008(5),85-89(题名索引)新华文摘 2008(1),118架,189位(定位位置检索)(2)索引的类型:a.按对象划分:机构索引、姓名索引、图书索引、论文索引、专利索引、报刊索引b.按标目所使用的提示符号划分:语言检索、代码检索、图形检索、数据检索自动索引: 自动索引就是指计算机在没有人工干预的前提下,根据一定的自动分析算法对信息内容进行分析与描述。l索引的目的:a.通过主题词确定文件地址b.分析文件的分布状态c.决定文件和查询之间的关系最终目的:进行信息检索l自动索引的作用:避免不一致性,节约检索时间(这里的一致性指用户输入检索系统的检索式与检索系统中对信息特征进行描述的标识词相匹配)l自动索引的过程:a.输入全文b.通过空格、标点来分析分解全文,作为结果把有用和无用的词放入词库c.把有用词(最能表达文章主题的词)和无用词分开d.给有用词赋予权重(相关性)如何把有用词和无用词分开,找出最能表达文章主题的标识词,从而有效进行检索:停用词表法:Ø停用词:通用的表达语法关系、以及其他的相关词,当他们离开上下文后就不再具有任何的语义。(停用词是相对的,在某些特定环境下也是有用的)Ø停用词表:由在信息处理过程中可以被忽视或者过滤的词组成。Ø停用词的缺陷:a.无法识别索引词的重要性,无法给实义词赋予权值;b.无法对短语做出索引,过滤掉某些虚词之后短语就不再具有原来的含义,或者整个短语都会被过滤掉,无法有效进行检索。原始词频法:Ø一个词在文章中出现的频率越高,它越能够表达文章的主题思想。因此,出现频率越高的词就会被留下来作为索引。反之,低频词就会被去除。Ø通常在原始词频法中有一个底线,如果一个词出现的次数超出或者等于这个底线,那么它就会被选出来作为索引词Ø底线发生变化,索引词也发生变化Ø原始词频法的缺陷:未考虑到文章的长短,底线的设定无法适应任何文章。标准词频法:Ø (词频=一个词在文章中出现的次数/一篇文献中包含的所有词的数量)0 1,f即频率 k即关键词Ø Ø :关键词在一个句子中并不是独立的,该方法为考虑到一个词在整个数据库中的影响力Ø 其作为鉴别词的鉴别力就越强,精度就越大。反向词频法: 的频率,N指数据库中包含文件的个数, 指数据库中包含关键词k的文件的数量。Ø在信息检索领域,log一般默认为以2为底,此处用log是为了弱化k对权重的影响,因为影响权重的因素还有其他的。Ø反向词频法一种计算词在文章中权重的方法。反向就是指词k在数据库中出现的频率越低,鉴别能力就越。Ø其他影响权重的因素:a.词在文章中的位置,如:标题、摘要、结论b.斜体字c.句子形式:提出了,讨论了,显示了d.用and和or等连接起来的词通常具有相同的含义。自动摘要:非全文摘取,摘取关键句子,删除无用的句子 频率,N指一个文件中句子的数量, K的句子的个数。Ø通过将一个句子中所包含的各个词的权值相加得出一个句子的权重Ø根据各个句子权重的大小按降序将文件中所有句子进行排序Ø选出具有最高权重的句子Ø将所选出的句子整理成文摘四信息组织的结构 1.从信息检索的视角来看,数据组织的两个重要方面是:他所描述的概念和关系,以及它是如何支持检索运行的。2.数据库的构成:文档记录字段(1)文档是由若干条记录构成的信息集合。文档是书目数据库和检索系统中数据组织的基本形式。(2)根据数据库的内部形式,一个数据库最少包含一个顺排文档和一个倒排文档(其实是一个索引数据库,它可以使用户在顺排文档中快速有效实现检索)。l顺排文档:1)概念:按文献记录的输入顺序(文献序号)排列的文档。顺排文档相当于印刷型检索工具的正文部分。在顺排文档中,记录按顺序一个接一个存放,一个序号代表一条记录,存取号越大对应的记录就越新。由于顺排文档存取的是最完整的信息,所以通常又把它成为主文档。这种贮存方法决定了,在对信息进行检索时,需要对记录按顺序一一进行扫描,存取的记录越多,检索的速度越慢。2)优点:易于存储、操作和贮存3)缺点:a.很难更新和插入一个新的记录,需要移动大量的数据信息。b.随机存取一篇文献太难。c.不能表达文献中复杂的多层次的关系。l倒排文档1)概念:它是一种指南结构,在倒排文档中每款关键词都与包含该关键词的文件地址相连。(所以,它类似于C语言中的指针,指向的是地址)2)对于信息检索而言,这就意味着每给出一个关键词就能迅速找出包含关键词的文件地址。3)倒排文档要求文件地址按文件编号顺序编排。4)倒排文档是把顺排文档中的标引词抽出,按字母顺序依次排列5)倒排文档中的倒排是相对于顺排文档而言的。其实在计算机处理器中,倒排文档也是按顺排文档的存取方式存取的。二者的区别在于:顺排文档是以完整的记录作为处理和检索单元,而倒排文档则是以字段作为处理和检索单元。倒排文档相对于印刷检索系统中的辅助索引。6)可以按不同的字段分别组织不同的倒排文档(如:按主题词、作者),也可以把不同的字段组成一个混排文档。 倒排文档(表一)Term(标识词)Number of posting(输入输记录的数量)Posting of fileAddress(命中文献的记录地址Browsers271233center363245community236100development21456检索时倒排文档对应的顺排文档(表二)Term(标识词)Address(在顺排文档中的地址)Reword number(在顺排文档中的记录号Browsers123388、51、27development145623、45center32451、87、25community61004、5、6、7(注:该表相当于关系型数据库中表关键词即主键不同的两表的对应关系)五信息检索工具1.概念:指具有检索性、资料性功能的所有文献资料、数据库和信息检索系统。检索性:具备完备的检索系统,是有序建立的索引。资料性:必须具有权威性、可靠性。注:具备检索性但不具备资料性的可以是检索工具(例如:搜索引擎),但反之就不是检索工具。2.类型: (1)按功能划分:线性型,资料型,综合型 线性型:提供的是信息的出处、来源和地址,如:书目,索引,文摘。 资料性:有丰富的资料,如:工具书 综合型:电子版的,如:电子数据库、大型联机系统等 (2)从检索手段、方式上划分:手工检索工具和计算机检索工具五信息检索的步骤与方法(一)步骤:1.课题分析2选择相关检索工具3.构选检索式4.调整检索策略5.评价检索结果(二)信息检索的方法1.浏览2.简单检索(用于信息量比较小、检索手段缺乏的时候)3.复杂检索(高级、专家、指南检索)4.自然语言检索5.指令检索:又称命令检索,它是由检索者自行输入检索指令,系统即按该指令进行相应的运行,查出所需结果)6.二次检索六信息检索方法/功能/技术(一)布尔检索法 布尔检索法就是指利用布尔运算符连接各个检索词,然后由计算机进行相应的逻辑运算,以找出信息的方法。布尔运算符Boolean logic(布尔逻辑)【1】AND 逻辑与它要求用其连接的两个检索词必须出现在检索到的文件中【2】OR 逻辑或它要求用其连接的两个检索词必须有一个出现在检索文件中【3】NOT 逻辑非 它要求用其连接的两个检索词中,其后面的词不能出现在检索到的文件中【4】复合使用【5】布尔逻辑运算符的优先使用级别Ø圆括号中的检索式优先执行Ø()>not>and>orØ在同意级别中按从左到右的顺序进行操作【6】规则:not(A and B)=not A or not B Not(A or B)=not A and not B布尔逻辑的局限性:1)关键词的重要性不能按权重体现出来2)查询到的文件不能按查询相关度进行排序3)用户必须严格遵循算法并且必须理解每个运算的含义4)“非”运算对检索查询结果影响很大5)布尔逻辑和布尔查询并不完全相同6)缺乏有效反馈信息来支持用户调整检索、查询(二)词位检索法(课本P109) 利用位置运算符号连接各个检索词,让计算机进行相应的位置逻辑运算,从而查找出所需信息的检索方法。其中,位置连接运算符是用于规定检索词在文献记录中的位置关系的符号。在实际检索中,利用位置连接运算符可有效提高查全率和查准率常用运算符:课本(P109)A(not W)B查询检索词B不能直接跟在A后的文献A(not nW)B查询检索词B能在A后,但AB两词之间的间隔词大于n的文献A(not N)B查询检索词B不出现在检索词A附近的文献(三)字段检索法(课本P110)(四)截词检索法(课本P110)(五)加权检索Ø所谓加权检索即是赋予特定的检索词以特定的权值,以查找所需信息的方法。Ø现在常用的,用“+”表示某个检索词必须出现在检索结果中,-表示某个检索词一定不出现在检索结果中。Ø加权检索侧重点不在于判断检索词后字符串在不在数据库中、与别的检索词或字符串是什么关系,而在于判定检索词或字符串在满足检索逻辑后对文献命中与否的影响程度。Ø加权检索的基本方法:1.在每个提问检索词后面给定一个权值2.设定一个各个检索词权值相加后得到的阈值作为命中记录的条件。3.检索时先查找这些检索词在数据库记录是否存在,然后计算存在的权值,权值之和达到阈值的即为命中内容。(六)概念检索与语义、字面有关(概念检索是对模糊检索的进一步深入和明确)Ø所谓概念检索,是指用户输入一个检索词后,检索工具不仅能检索出包含这个检索词汇的结果,还能检索出于这个检索词同属一类概念的词汇的结果。Ø检索原理:1.计算机概念描述元素都统一对概念意义进行分类2.对所有标识编制索引,形成相应的倒排文档文件3.当用户键入一个检索请求时,也同样对其进行概念意义分类标注,并将其作为检索入口,查找标识符索引文件,便可得到检索结果。Ø概念检索包含两个方面:同义检索,相关概念联想检索(七)模糊检索观点一:系统允许被检索信息和检索提问式之间存在差异观点二:实质上是检索系统自动进行的同义词检索,同义词又系统的管理界面配置。(八)区分大小写检索:指系统对用户检索时包含的大小写处理方式。不同的系统其处理方式不同。(九)限制检索:指在检索时,利用一些限制来缩小检索面和检索结果。常见的限定都是用文献的外部特征:包括出版时间,出版语种,文献类型,文献出处。七信息检索的类型(一)传统载体信息检索。例如:字典、词典(二)联机数据库检索1.概念:是指用户利用计算机终端设备通过通信线路或网络,在联机检索中心的数据库进行检索并获取信息的过程。2特点:(1)数据量大 (2)数据跟新快 (3)检索功能强 (4)安全性能好 (5)检索费用高 (6)检索界面单一3构成:终端设备、联机信息检索中心、数据通信网络(具体解释见课本P125)(三)光盘数据库特点:1.数据含量有限,数据跟新速度慢 2.检索功能强 3.检索环境宽松 4.用户界面比较友好,较为直观。第三章 网络信息检索一信息网络检索工具的构成l搜索器,检索器,索引器,用户检索界面l搜索引擎是一种设计出来用于人们搜索万维网网站中的信息的计算机软件。查询方法是通过选择浏览网站上的目录或输入恰当的关键词或短语的方式进行。1.搜索器:它是软件程序,专门用于智能查询万维网上的信息及网页,其方式是该软件按照超链接方式、根据事先设定好的主题范围从一个服务器爬到另一个服务器,来获取相关信息及网页。Crawling the web:最常用的算法是从一组urls(统一资源定位器)开始查询,然后按照广度优先或者深度优先的方法从其中分析出它的urls。广度优先:这种方法即是让robots查看与当前网页相连接的所有网页,这种方法能找到与主题相关的网站。深度优先:使用这种方法,robots首先跟踪页面中的第一个连接点并以此类推,知道其再也没有可再往下链接的点为止,或者达到一个认为连接的点为止。【1】最开始的urls应该是很普遍的【2】不同的crawler应该避免多次访问相同的页面【3】用国家代码来区分网站,分别用不同的robot来指向不同的网站【4】提及索引的每个网站的日期【5】有些搜索引擎是按照网页的更新频率去定期访问该网页的。2.索引器3.检索器:分析布尔检索请求,将检索词和索引词在索引库中进行匹配,对检索结果进行排序4.用户检索界面:用户检索界面器分为简单和复杂两种。检索界面只提供用户输入检索式的文本搜索框,复杂界面还 提供多种检索限制以及各种信息浏览功能。二网络信息检索工具的类型布尔检索 截词检索 词位检索 字段检索短语 概念 模糊 区分大小写网路信息检索工具的布尔检索 布尔检索法是网络中使用最广泛的一种检索方法。几乎所有的检索工具都具备,但在实现方式上各有不同,可以分为以下类型:1.按严格意义上的布尔检索法操作,可分为3种:(1)用户必须亲自在搜索框中输入检索词和运算符(2)用户只需在搜索框附近的菜单中点击选择使用运算符2.支持部分布尔检索功能3.用其他符号代替布尔运算符+与and -与not or与“缺省值”4.与圆括号结合使用网络信息检索工具的词位检索法功能1.使用near指令2.利用双引号3.进行短语检索限定4.短语默认检索将用户输入的两个词自动视为一个词组进行检索网络检索工具的截词检索其实现方式有两种类型1.利用通配符*,*代表了词干后可能的一切词形2.单纯利用词干或菜单选项网络检索工具的字段检索功能1.主题字段限定2.非主题字段限定3.其他限定四网路信息检索工具的检索方法1.浏览、目录检索2.简单检索3.高级检索五元搜索引擎1.概念:它是一种网络服务器,它能将查询请求同时发送给多个搜索引擎、网络指南以及其他数据库,然后将答案集中整理。2结构用户元搜素引擎网络各个独立搜索引擎4.优点5.类型(1)all-in-on类型(集中罗列,单独检索类)特点:Ø检索界面不统一Ø一次只能使用一个检索工具Ø对各个独立检索工具的界面复制可能是部分的或者全面的Ø直接用所选的检索工具的显示格式呈现给用户(2)并行检索,结果综合类即以唯一确定的检索界面,实现对多个独立型检索工具索引库的检索,并将检索结果以统一格式显示的搜索引擎特点:统一的检索界面 检索指令转换 统一检索结果集的组织与转换第四章 联机系统数据库检索一联机数据库结构(课本P125-126)二联机系统的利用检索步骤(P127-128)三Dialog系统检索1.dialog系统的连入方法1)专线联入2)利用telnet3)利用www浏览器联入2.检索指令(课本P134136)1)Begin command选择文档指令2)Select command检词指令3)Type command 打印指令4)Display command显示指令5)Current command 当前指令6)Expend command扩词指令3.基本索引字段4.辅助索引字段5.范畴查询Eg: S PD=: 从2001年一月15号到2008年一月31号的记录的集合6.数值查询=,>=,<=,>,<Eg: S: SA>= 销售额大于等于的公司缩写:lK THOUSANDlM MILLIONlB BILLIONlT TRILLIONl% PERCENT7.联机词表:to view an online thesauris ,enter the expend command 8.特殊指令Sort command:对最后检索结果进行排序Eg: sort s1/all/au,at 将s1中的所有文献按作者和标题排序9.一揽子检索:允许用户用一个检索式同时在多个数据库中进行检索,同元搜索引擎相似Eg: begin 516,531 打开第516和531个文档 Begin scitech not77 打开自然类数据库不包括第77个文档lSet detail on 使用该指令让系统分别展示所检索的每一个数据库中所看到的文献个数lRemove duplicate record 去掉重复指令Command format :RD Sn FROM 文件10.dialindexlFill 411, dialindex is a central index for most of the dialog database .in dialindex you can compare the number of records retrieved by your strategy among a group of databases. l?sf:用于显示包含主题词的数据个数l?save temp :临时文件存储指令l?rank files 把获得的文档按包含的文献数量排序第五章综合型信息检索工具及其利用一全国报刊索引数据库二中国人民大学书报资源中心复印报刊资料索引总汇三Calis(china academic library and information system)高等教育文献资源保障系统四Oclc联机计算机图书馆中心(具体功能及使用规则见数据库网站)五万方数据资源系统六Cnki工程数据库(一)概述:中国基础设施工程,china national knowledge information structure.是以实现全社会知识信息资源共享为目的的国家信息化重点工程。(二)检索工程:可以进行跨库检索(三)cnki数据库检索1.初级检索2.高级检索3.专业检索第六章 科技信息检索第一节 科技信息检索科技引文索引(sci)Ø引文索引:对文献的引文进行标引而做的索引词表,故也称为引文索引语言Ø引文索引建立起了引文之间的相互关系,将同一作者或同一主题分散于不同学科。不同文献类型的文献串联起来,提供查询学科动态及文献发展趋势的检索方法。Ø如文献A引用或者参考了文献B,则称文献B是文献A的引文或者是参考文献,而文献A 是文献B的来源文献。Ø引文的功能:检索信息的功能,评价功能Ø网络版的sci具体检索功能及结构见数据库检索网站维普科技期刊数据库第二节 工程信息检索一工程索引EIØ网络版平台:EI COMPENDEX WEBØEI网络信息数据库检所利用:具体功能及利用见数据库检索网站二其他工程信息检索工具技术标准、科技报告、会议论文、专利文献、学位论文的等特种文献,是查找工科信息的有效工具1.标准文献l标准是衡量事物的准则。l标准文献:按照规定程序编制,并经过相关权威机构的批准认定,并在一定范围内使用,包括一整套在特定领域内必须执行的规则、定额、规划、要求的技术文件。l标准文献的类型:国际标准、区域标准、国家标准、行业标准、地方标准、企业内部标准l标准编号Ø国家标准编号:国别(GB)+标准编号顺序+制定或修改年份如:GB2000燃气容积式热水器 (GB/T国家推荐标准,GB/Z-)Ø行业标准编号行业标准代号+标准编号顺序+制定或修改年份行业标准代号:用该行业主管部门名称的汉语拼音表示。如:JB机械行业标准Ø地方标准编号地方标准代号“DB”+地方行政区域代号前两位数再加斜线+标准编号顺序+制定或修改年份如:山西省强制性地方标准代号:DB14/Ø企业标准编号企业标准代号(q/)+标准顺序号+标准类型代号+制定或修改年份ØISO的标准编号ISO +顺序号+制定或修改年份标准文献的特点:公开颁发;时效性强;内容成熟,可靠;技术和方法性强;编制体例独立;文字简练;一个标准解决一个问题标准文献数据库:万方中外标准数据库网络版与标准文献检索工具1)标准网2)中国标准咨询网3)中国标准服务网4)标准信息服务网5)中国环境标准网6)中华人民共和国卫生部标准网站7)中国标准化研究院8)国家标准化管理委员会专心-专注-专业