第2章-信息检索原理与技术课件.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《第2章-信息检索原理与技术课件.ppt》由会员分享,可在线阅读,更多相关《第2章-信息检索原理与技术课件.ppt(51页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 1 信息检索的概念与类型 2 信息检索的途径 3 信息检索技术 4 信息检索方法 5 信息检索检索步骤与策略第2章 信息检索原理及技术方法1 信息检索的概念与类型1.1 信息检索的概念1.2 信息检索的类型1.3 信息检索的流程广义:信息检索包括信息的存储和信息的检索,又称为“信息存储与检索”两个过程:信息组织是依据信息资源的主题内容或者外部特征,将无序的信息资源组织为有序集合的过程。信息检索是根据检索的要求,从检索系统中检索出相应信息资源的过程。狭义:信息检索是指从存储的信息集合中获取特定所需的信息。1.1 信息检索的概念手工信息检索:通过手工方式利用检索工具来处理和查找文献的过程。如:文
2、摘、目录、参考工具书等。脱机批处理信息检索:指定期由专职检索人员把许多用户课题汇总,批量处理提问要求并把结果提供给用户。联机信息检索:用户使用终端设备,通过通信线路与中央计算机连接,直接与计算机对话进行检索,结果由终端输出。光盘信息检索:光盘信息检索又称光盘数据库检索,即采用计算机作为手段、以光盘作为信息存储载体和检索对象进行的信息检索,是目前应用较为广泛的一种计算机信息检索。分为单机检索和局域网内的联机光盘检索。网络信息检索:用户在自己的客户端上,通过互联网和浏览器界面对网络信息进行检索。包括对通过网络进行数据库检索。按检索方式划分:手工检索和计算机检索计算机检索又包括脱机批处理检索、联机检
3、索、光盘检索和网络检索。1.2 信息检索的类型 按检索对象的性质划分:文献信息检索、数据信息检索、事实信息检索。文献检索:从一个文献集合中查找出专门包含所需信息内容的文献,是以文献为检索对象的信息检索类型。数据检索:以特定数据为检索对象和检索目的的信息检索类型称为数据检索。事实检索:是获取以事物的实际情况为基础而集合生成新的分析结果的一类信息检索。1.3信息检索的流程信息存储过程信息检索过程著录标引比较匹配分析 选定编制信息资源信息选择收集信息主题数据库记录及信息特征标识信息用户信息需求信息主题检索提问式及提问标识信息检索检索结果评价/反馈检索语言分析不满意满意输出2 信息检索的途径 信息检索
4、途径是由提取信息源的外部与内部特征形成的,又称为检索点或者检索入口。1.内容特征指由分析构成文献信息源的信息内容要素的特征与学科属性形成的,主要形成分类、主题两种。内容特征途径:从文献包含的信息内容特征来检索信息的途径。2.外表特征指从构成文献信息源的载体、符号系统、记录方式三要素中提取出的特征构成。外表特征途径:利用文献的外表特征来检索文献信息的途径。分类途径主题途径2.1 内容特征途径一种按照文献资料所属学科(专业)类别进行检索的途径。检索工具的分类表为我们提供了从分类角度进行检索的途径。是通过文献资料的内容主题进行检索的途径,主题途径依据的是各种主题索引或关键词索引,主题索引或关键词索引
5、按检索词的字顺排列,检索者只要根据课题确定了检索词(主题词或关键词),便可以像查字典那样,按照字顺去逐一查找,从检索词下的索引款目,找到所需文献的线索。中国图书馆图书分类法 1999年推出了第四版,共分大部类22个基本大类。22个基本大类是在5在部类的基础上第一次划分得到的,称为一级类目,分别对应一个英文字母;从基本大类起,再连续划分3次,得到二级、三级、四级类目。采用汉语拼音字母和数字相结合的方式对图书进行分类,是目前国内各公共图书馆和高校图书馆普遍使用的图书分类法,我馆藏书也是按照该分类法进行排架。按照学科范畴及知识之间的关系列出类目,并用数字、字母符号对类目进行标识的一种语言体系,也称分
6、类法。目前常用的分类法有中国图书馆图书分类法(简称中图法)、美国国会图书馆分类法、杜威分类法、国际专利分类表。分类途径中图法简表比如H319.4,H表示“英语”大类,319.4代表的是“英语对照读物”中国图书馆分类法样例索书号举例F123.16/W61F123.16-2/Z24/2 F123.17/Z89/(2)F123.2/L66-2 F12/Y30 专利分类法国际专利分类表国际专利分类表(International Classification of Patent for Invention,简称Int.Cl或IPC)1968年9月1日在国际范围生效,以后每5年修订一次。IPC按照技术主题
7、来设立类目表。首先将与发明专利有关的全部技术领域划分为八个部,部号分别用大写英文字母A到H来表示。各部(Section)按等级形式再细分为大类(Class)、小类(Subclass)、主组(Maingroup)、分组(Subgroup),形成五级分类的结构形式。IPC由9个分册组成,18分册分别对应八个部,第9分册是使用指南。在IPC中,八个部分别是:A:生活必需B:作业运输C:化学与冶金D:纺织与造纸E:固定建筑物F:机械工程;G:物理H:电学用于检索信息的特点 具有等级结构,便于扩大和缩小检索范围。用分类号做检索标识,不存在文种的限制。分类表中的类目不能随时变化,不能及时反映新的学科技术,
8、边缘交叉学科只能从学科门类进行检索。隶属于一个门类下,造成漏检。例如:查找“军事”类文献图书期刊分类主题词:以规范化的词汇来表达文献内容的主题的词语。如何提取主题词:词意应该具体 意义广泛的词不应作为检索词 技术方面的少数课题,可直接用课题名称中包含的具有检索意义的概念或者代码 关键词:对表征文献主题内容具有实质意义的或对揭示文献内容来说是重要的、关键性的、只做少量规范化处理或不做规范化处理的自然词语。主题途径1 例如:课题是“经济体制改革有关资料(1998-1999),如何确定检索标识?主题词:国企改革、所有制改革、国有资产管理与制度改革、金融改革、社会保障改革、劳动就业改革等。2 例如:检
9、索“甲壳素水解制壳聚糖”,如何提取关键词?关键词:甲壳素、水解、壳聚糖、制备 题名途径著者途径文献编号途径其它途径2.2 外部特征途径是根据文献的题名来查找文献的途径,它依据的是题名索引。是根据已知文献著者来查找文献的途径,它依据的是著者索引,包括个人著者索引和机关团体索引。是以编号为特征,编排和检索文献的途径,如专利文献的检索可根据“专利号索引”进行检索。有些检索工具还附有一些特殊索引,可以通过特殊途径找到所需文献的线索。如专用符号代码索引(分子式,元素符号),专用名词术语索引(地名等)。中国现当代文学基础谭浩强机械工业出版社1 布尔逻辑检索2 截词检索4 位置检索常用检索技术3 全文检索
10、计算机信息检索过程实际上是将检索提问词与文献记录标引词进行对比匹配的过程。为了提高检索效率,计算机检索系统常采用一些运算方法,从概念相关性、位置相关性等方面对检索提问实行技术处理。检索式(formula,profile,statement)是检索策略的逻辑表达式,是用来表达用户检索提问的,由基于检索概念产生的检索词和各种组配算符构成。3 信息检索技术1.布尔逻辑检索逻辑“与”(用and 或*表示)逻辑“或”(用OR 或+表示)逻辑“非”(用NOT或-表示)1.布尔逻辑检索 在检索实践中,检索提问涉及的概念往往不止一个,而同一个概念又往往涉及多个同义词或相关词。为了正确地表达检索提问,系统中采用
11、布尔逻辑运算符将不同的检索词组配起来,使一些具有简单概念的检索单元通过组配成为一个具有复杂概念的检索式,用以表达用户的信息检索要求。用and 或*表示,是一种用于交叉概念或限定关系的组配,它可以缩小检索范围,有利于提高检索的专指性。在网络搜索引擎中习惯用空格代替。如查同时含有概念A 和概念B 的文献,可表示为:“A and B”或“A*B”。检索结果如图所示,图中阴影部分即为同时包含A 和B 两个概念的命中文献。(1)逻辑“与”A and BAB 用OR 或“+”表示,是用于具有并列概念关系的组配。这种组配可以扩大检索范围,提高查全率。例如,检索含有检索项A 或检索项B 的文献,可表示为:“A
12、 OR B”或“A+B”。检索结果是将含有检索项A 的文献集合与含有检索项B 的文献集合相加,形成一个新的集合。检索结果如图1-5 所示,图中阴影部分即为包含A 或B的命中文献。图中两者共同的部分只计一次,故避免了命中文献的重复出现。B(2)逻辑“或”AA or B(3)逻辑“非”A not BAB 用“NOT”或“-”表示,是用于从某一检索范围中排除不需要的概念。这种组配可以缩小检索范围。在搜索引擎中,常用“-”号表示。例如,在含有概念A 的文献集合中,排除同时含有概念B 的文献,可表示为:“A NOT B”或“A-B”。检索结果如图所示,图中空白部分即为包含A且排除B 的命中文献。在上述逻
13、辑算符中,其运算优先级顺序为NOT,AND,OR,但是可以用括号改变它们之间的运算顺序。例如,(A OR D)AND B,表示先执行“A OR D”的检索,再与B进行AND 运算。如:以google搜索工具,检索“重庆除冬季外汽车和可吸入颗粒造成的空气污染状况”。重庆 空气污染(汽车+可吸入颗粒)-冬天布尔逻辑检索 可以看出,利用上述演算符,组成逻辑复杂的演算方式,对信息资源进行确切的查找。这对于具有海量信息的检索系统中信息资源的查找十分有效。截词检索:指在检索词的适当位置截断,用截断的词的一个局部加上截词符号所进行的检索,并认为凡满足这个词局部中的所有字符(串)的文献,都为命中的文献。是计算
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息 检索 原理 技术 课件
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内