《数字信息资源检索精.ppt》由会员分享,可在线阅读,更多相关《数字信息资源检索精.ppt(54页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数字信息资源检索第1页,本讲稿共54页自我介绍崔 明C第2页,本讲稿共54页能学到什么?从事专业学习的需要从事专业学习的需要 开展科学研究、创新的需要开展科学研究、创新的需要 提高素质和终身学习能力的需要提高素质和终身学习能力的需要 第3页,本讲稿共54页课程设置讲授讲授上机上机7周周信息检索概述信息检索概述 搜索引擎概述搜索引擎概述数据库资源概述数据库资源概述文献综合查询文献综合查询6-7周周Baidu、Google使用使用中文期刊、图书数据库中文期刊、图书数据库外文期刊、索引数据库外文期刊、索引数据库中外专利、中外专利、NoteExpress使用使用网上课件第4页,本讲稿共54页一 信息及
2、信息资源1.1.1信息的涵义:信息是生物以及具有自动控制系统的机器通过感觉器官或者细胞组织,或者具有类似功能的设备部件与外界进行交流的一切内容。第5页,本讲稿共54页一 信息及信息资源1.1.2 信息的类型自自然然信信息息生生物物信信息息机机器器信信息息社社会会信信息息描 述 对 象第6页,本讲稿共54页一 信息及信息资源文文献献信信息息口口头头信信息息电电子子信信息息依 附 载 体第7页,本讲稿共54页差差异异性性1.1.3 信息特征信息特征一 信息及信息资源传传递递性性时时效效性性可可转转换换性性共共享享性性第8页,本讲稿共54页一 信息及信息资源差差异异性性1.中国的外贸出口造成极大的伤
3、害2.降低对外资的吸引力3.国际化定价的行业石化、钢铁、电子元器件等利润下降4.国家的外汇储备随着升值幅度多少,相应损失。1、有利于中国进口2、原材料进口依赖型厂商成本下降3、国内企业对外投资能力增强4、有利于旅游和留学。第9页,本讲稿共54页一 信息及信息资源传传递递性性接受者接受者传播途径传播途径信息源信息源第10页,本讲稿共54页一 信息及信息资源时时效效性性第11页,本讲稿共54页一 信息及信息资源可可转转换换性性第12页,本讲稿共54页一 信息及信息资源共共享享性性非物质资源和能源资源所表现的占有和消耗非物质资源和能源资源所表现的占有和消耗同程度的享用,获取信息量因人而已同程度的享用
4、,获取信息量因人而已第13页,本讲稿共54页一 信息及信息资源1.2 1.2 信息资源信息资源 信息资源是经过人类主观或客观处理了的,并且能够被传播或传输的文字、声音、图像、数据等。网络技术、存储技术、多媒体技术、计算机技术推动下,以数字化形式(即二进制代码 0、1)表现字、图、音、动的内容。1.2.1 1.2.1 电子信息资源电子信息资源第14页,本讲稿共54页数数字字化化电子信息资源特点电子信息资源特点一 信息及信息资源存存储储多多样样化化内内容容丰丰富富容容量量大大互互动动性性强强第15页,本讲稿共54页一 信息及信息资源类型:类型:1.网络传输协议1WebWeb信信息息资资源源3Tel
5、netTelnet信信息息资资源源2FtpFtp信信息息资资源源第16页,本讲稿共54页一 信息及信息资源1WebWeb信信息息资资源源HTTP超文本传输协议第17页,本讲稿共54页一 信息及信息资源2FtpFtp信信息息资资源源 FTP文件传输协议第18页,本讲稿共54页一 信息及信息资源3TelnetTelnet信信息息资资源源Telnet远程登陆协议第19页,本讲稿共54页一 信息及信息资源1.出版物类型1电电子子图图书书3电电子子报报纸纸2电电子子期期刊刊第20页,本讲稿共54页一 信息及信息资源第21页,本讲稿共54页二 计算机信息检索原理1.检索原理:人们在计算机或者计算机检索网络
6、的终端机上,使人们在计算机或者计算机检索网络的终端机上,使用特定的检索指令、检索词和检索策略从计算机检索用特定的检索指令、检索词和检索策略从计算机检索系统的数据库中检索出所需信息再由终端设备显示或系统的数据库中检索出所需信息再由终端设备显示或打印的过程。打印的过程。第22页,本讲稿共54页二 计算机信息检索原理主题分析主题分析著录标引著录标引原始信息原始信息信息标示信息标示数据库纪录数据库纪录信息存储第23页,本讲稿共54页二 计算机信息检索原理主题分析主题分析选定编制选定编制信息需求信息需求检索主题检索主题检索策略检索策略信息检索第24页,本讲稿共54页二 计算机信息检索原理匹匹 配配第25
7、页,本讲稿共54页二 计算机信息检索原理90年代以后年代以后脱机批处理脱机批处理联机检索联机检索光盘检索光盘检索网络化检索网络化检索计算机信息检索发展70年代初年代初80年代年代60年代年代第26页,本讲稿共54页二 计算机信息检索原理1946.2ENIAC第27页,本讲稿共54页二 计算机信息检索原理1981.8IBM5150第28页,本讲稿共54页二 计算机信息检索原理1952.5IBM-726第29页,本讲稿共54页二 计算机信息检索原理1956.9IBM 350 RAMAC第30页,本讲稿共54页二 计算机信息检索原理1978Philips-LD第31页,本讲稿共54页二 计算机信息检
8、索原理1969ARPAnet第32页,本讲稿共54页二 计算机信息检索原理1985Windows1.0第33页,本讲稿共54页二 计算机信息检索原理 1994.10 1995.08第34页,本讲稿共54页二 计算机信息检索原理服务方式回回溯溯检检索索定定题题检检索索随随机机问问答答联联机机订订购购第35页,本讲稿共54页二 计算机信息检索原理回回溯溯检检索索Viable offspring derived from fetal and adult mammalian cells.从胚胎和成年哺乳动物细胞中获得的成活的后代 Nature,1997,385:810813第36页,本讲稿共54页二
9、计算机信息检索原理检索语言1 布尔逻辑检索(Boolean logic)布尔逻辑检索一般指布尔逻辑检索一般指“与与”、“或或”、“非非”三种运算。三种运算。第37页,本讲稿共54页二 计算机信息检索原理 逻辑逻辑“与与”的布尔运算符为的布尔运算符为“ANDAND”、“andand”,有时也可用有时也可用“*”表示。其含义是表示。其含义是“与与”前后的检索词全部出现时,所检前后的检索词全部出现时,所检索到的结果才算符合条件。索到的结果才算符合条件。AANDB 或者或者 A*B 检索时,数据库中同时含有检索词检索时,数据库中同时含有检索词A A和检索词和检索词B B的文献,为命的文献,为命中文献。
10、中文献。第38页,本讲稿共54页二 计算机信息检索原理逻辑逻辑“或或”的布尔运算符为的布尔运算符为“OROR”、“oror”,有时也可用有时也可用“+”表示。其含义是表示。其含义是“或或”前后的检索词有一个出现或全前后的检索词有一个出现或全部出现,所检索到的结果均算符合条件部出现,所检索到的结果均算符合条件 A OR B A OR B 或者或者 A+BA+B 检索时,数据库中的文献凡含有检索词检索时,数据库中的文献凡含有检索词A A或者检索词或者检索词B B或或者同时含有检索词者同时含有检索词A A和和B B的,均为命中文献。的,均为命中文献。第39页,本讲稿共54页二 计算机信息检索原理逻辑
11、逻辑“非非”的布尔运算符为的布尔运算符为“NOTNOT”、“notnot”,有时也可用有时也可用“-”符号表示。其含义是搜索结果应满足符号表示。其含义是搜索结果应满足“NOTNOT”前面的检索词而排前面的检索词而排除除“NOTNOT”后面的检索词。后面的检索词。A NOT BA NOT B 或者或者 A-BA-B对于这个提问式,数据库中凡含有检索词对于这个提问式,数据库中凡含有检索词A A而不含有检索词而不含有检索词B B的文献,即为命中文献。的文献,即为命中文献。第40页,本讲稿共54页二 计算机信息检索原理2 词组检索(phrase search)词组检索(词组检索(phrase),),也
12、称为短语检索,或字符串检索。它也称为短语检索,或字符串检索。它是将一个词组或短语用双引号是将一个词组或短语用双引号“”括起作为一个独立运算单元,括起作为一个独立运算单元,进行严格匹配,以提高检索准确度的一种方法。几乎所有的搜进行严格匹配,以提高检索准确度的一种方法。几乎所有的搜索引擎都支持词组检索。索引擎都支持词组检索。“computer networkcomputer network”“山东大学威海分校”第41页,本讲稿共54页二 计算机信息检索原理3 截词检索(truncation search)所谓截词(所谓截词(truncationtruncation),),是指检索者将检索词在他认为
13、合适是指检索者将检索词在他认为合适的地方截断;而截词检索,则是用截断的词的一个局部进行的检索,的地方截断;而截词检索,则是用截断的词的一个局部进行的检索,凡满足这个词局部中的所有字符(串)的文献,都为命中的文献。凡满足这个词局部中的所有字符(串)的文献,都为命中的文献。后截断后截断前截断前截断中间截断中间截断第42页,本讲稿共54页二 计算机信息检索原理 1 1)后截断)后截断 后截断是最常用的截词检索技术。它是将截词符放在一串后截断是最常用的截词检索技术。它是将截词符放在一串字符的右面,用以表示截词符右面的有限或无限个字符不影响字符的右面,用以表示截词符右面的有限或无限个字符不影响该字符串的
14、检索,这种方式称为检索词的后截断。从检索性质该字符串的检索,这种方式称为检索词的后截断。从检索性质上讲,后截断是前方一致检索。上讲,后截断是前方一致检索。有限截断有限截断无限截断无限截断第43页,本讲稿共54页二 计算机信息检索原理例例1 system?这是两个字符有限截断检索,该表达式可检出的词汇有:这是两个字符有限截断检索,该表达式可检出的词汇有:systemic但不能检索出下列词汇但不能检索出下列词汇 systematicsystematicalsystematicianSystematics 有限截断有限截断第44页,本讲稿共54页二 计算机信息检索原理无限截断无限截断例例2 comp
15、ut*这是一个无限后截断的例子。这种方法可以查找出含有相同字符串的所有检索这是一个无限后截断的例子。这种方法可以查找出含有相同字符串的所有检索词。词。Comput*可检出词汇有可检出词汇有computabilitycomputablecomputationcomputationalcomputativecomputecomputer第45页,本讲稿共54页二 计算机信息检索原理 2)前截断 与后截断相对,前截断是将截词符号置放在一个字符串与后截断相对,前截断是将截词符号置放在一个字符串左方,以表示截词符左面的有限或无限个字符不影响该字符左方,以表示截词符左面的有限或无限个字符不影响该字符串的检
16、索。这种方式称为检索词的前截断。从检索性质上讲,串的检索。这种方式称为检索词的前截断。从检索性质上讲,前截断是后方一致检索。前截断是后方一致检索。第46页,本讲稿共54页二 计算机信息检索原理例例3.*magnetic这是一个无限前截断的表达式,可检出下列词汇:这是一个无限前截断的表达式,可检出下列词汇:magnetic有磁性的有磁性的electro-magnetic电磁的电磁的electromagnetic电磁的电磁的paramagnetic顺磁的顺磁的thermo-magnetic热磁的热磁的thermomagnetic热磁的热磁的但是检索不出但是检索不出magneticsmagnetic
17、al等等。等等。第47页,本讲稿共54页二 计算机信息检索原理3 3)中间截断中间截断 中间截断又称为中间屏蔽,是一种用截词符中间截断又称为中间屏蔽,是一种用截词符屏蔽词中不同字符的方法。例如,屏蔽词中不同字符的方法。例如,“woman”和和“women”,可用可用“wom?n”代替;代替;“defence”和和“defense”,可用可用“defen?e”代替。一般地,中代替。一般地,中间截词仅允许有限截断。间截词仅允许有限截断。第48页,本讲稿共54页二 计算机信息检索原理4 4 字段限定检索字段限定检索(field limiting)field limiting)字段检索(字段检索(fi
18、eld)是一种用于限定提问关键词在数是一种用于限定提问关键词在数据库记录中出现的区域,控制检索结果的相关性,提高据库记录中出现的区域,控制检索结果的相关性,提高检索效果的检索方法,多以字段限定方式实现。检索效果的检索方法,多以字段限定方式实现。第49页,本讲稿共54页二 计算机信息检索原理字段代码字段代码 字段名称字段名称ABAB Abstract Abstract 文摘文摘AUAU Author Author 作者作者CCCC Classification Code Classification Code 分类代码分类代码CS CS Corporate Source Corporate So
19、urce 机构名称机构名称DEDE Descriptor Descriptor 叙词叙词DT DT Document Type Document Type 文献类型文献类型ID ID Identifier Identifier 标识词标识词JN JN Journal Name Journal Name 刊名刊名LALA Language Language 语种语种PYPY Publication Year Publication Year 出版年出版年TITI Title Title 题名题名 如在如在DIALOGDIALOG系统中,情况是这样的:系统中,情况是这样的:第50页,本讲稿共54页
20、二 计算机信息检索原理例例4minicomputer/TIANDJohn/AUANDpy=2002表达的检索要求是:表达的检索要求是:查找查找2002年出版的年出版的John写的关于微电脑文献,并要求写的关于微电脑文献,并要求“微电脑微电脑”一词在命中一词在命中文献的题名字段出现,文献的题名字段出现,“John”出现在作者字段。这里出现在作者字段。这里“/TI”、“/AU”是后是后缀符的用法;缀符的用法;“py=”是前缀符的用法,且是前缀符的用法,且”py=2002”是作为一个检索词写入是作为一个检索词写入检索式的。检索式的。第51页,本讲稿共54页二 计算机信息检索原理 尽管网上信息实际上不
21、分字段,但大多数网络工具都具有尽管网上信息实际上不分字段,但大多数网络工具都具有类似于字段限制检索的功能,依据此功能,可将查找范围限类似于字段限制检索的功能,依据此功能,可将查找范围限制在特定的范围中,如:制在特定的范围中,如:Title:表示查找标题中包含检索提问式的页面;表示查找标题中包含检索提问式的页面;URL:表示查找表示查找URL中包含检索提问式的页面;中包含检索提问式的页面;Link:表示查找含有链接至表示查找含有链接至URL的页面;的页面;Site:表示在指定的站点上查找页面;表示在指定的站点上查找页面;Filetype:限定文档类型。限定文档类型。第52页,本讲稿共54页二 计算机信息检索原理分析检索课题分析检索课题选择检索系统及数据库选择检索系统及数据库确定检索词确定检索词构建检索提问式构建检索提问式上机检索并调整检索策略上机检索并调整检索策略输出检索结果输出检索结果信息检索一般程序信息检索一般程序第53页,本讲稿共54页二 计算机信息检索原理TheEnd第54页,本讲稿共54页
限制150内