第二章-信息检索的理论与基本方法课件.ppt
《第二章-信息检索的理论与基本方法课件.ppt》由会员分享,可在线阅读,更多相关《第二章-信息检索的理论与基本方法课件.ppt(150页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第二章 信息检索的理论与基本方法 第一节第一节信息检索语言与检索途径信息检索语言与检索途径 一、定义一、定义信息检索语言(信息检索语言(retrievallanguage)又称为情报语)又称为情报语言、情报存储和检索语言、信息组织语言,是用来描言、情报存储和检索语言、信息组织语言,是用来描述文献特征,表达主题提问的一种专门的人工语言,述文献特征,表达主题提问的一种专门的人工语言,是由给定领域中的一切可用来描述信息内容和信息需是由给定领域中的一切可用来描述信息内容和信息需求的词汇或符号,及其使用规则构成的供标引和检索求的词汇或符号,及其使用规则构成的供标引和检索的工具。是沟通信息存储与检索两个过
2、程,标引人员的工具。是沟通信息存储与检索两个过程,标引人员与检索人员的桥梁。与检索人员的桥梁。信息检索语言是检索系统的语言基础,主要作用信息检索语言是检索系统的语言基础,主要作用是:表达描述信息内容和信息需求;用于信息的组织是:表达描述信息内容和信息需求;用于信息的组织和整序;用于对检索系统中索引标识或提问标识的规和整序;用于对检索系统中索引标识或提问标识的规范和控制。范和控制。不同的检索系统由于所覆盖的学科领不同的检索系统由于所覆盖的学科领域不同,包含信息资源类型不同,通域不同,包含信息资源类型不同,通常采用不同的信息检索语言;同一个常采用不同的信息检索语言;同一个检索系统往往也同时采用多种
3、检索语检索系统往往也同时采用多种检索语言,以形成多种检索途径和角度。言,以形成多种检索途径和角度。二、分类二、分类1、根据结构原理划分、根据结构原理划分(1)分类语言)分类语言(2)主题语言)主题语言(3)分类主题一体化语言)分类主题一体化语言(4)代码语言)代码语言(5)引文语言)引文语言(1)分类语言:用分类号和类名来表达信)分类语言:用分类号和类名来表达信息的内容主题概念,并按知识门类的逻辑息的内容主题概念,并按知识门类的逻辑次序将信息资源系统地加以划分和组织的次序将信息资源系统地加以划分和组织的语言。其意义在于根据文献信息的内容特语言。其意义在于根据文献信息的内容特征和分类表,把相同内
4、容的文献、信息集征和分类表,把相同内容的文献、信息集中在一起,同时又把不同内容的文献信息中在一起,同时又把不同内容的文献信息区别开来区别开来,以实现相关集中的功能。,以实现相关集中的功能。分类语言的主要特点:按学科、专业集分类语言的主要特点:按学科、专业集中相关文献信息,从知识分类的角度揭示中相关文献信息,从知识分类的角度揭示文献信息之间的区别和联系,提供从学科文献信息之间的区别和联系,提供从学科专业领域检索文献信息的途径。专业领域检索文献信息的途径。分类语言主要可分为等级体系型分类语言和分面分类语言主要可分为等级体系型分类语言和分面组配型分类语言两种。组配型分类语言两种。等级体系型分类语言:
5、是一种最传统的分类语等级体系型分类语言:是一种最传统的分类语言,是一个直接体现知识分类和概念逻辑的标识言,是一个直接体现知识分类和概念逻辑的标识系统。所有类目按照学科专业的等级、层次划分,系统。所有类目按照学科专业的等级、层次划分,一一列举,构成一个由总体到个体,由一般到特一一列举,构成一个由总体到个体,由一般到特殊,由全部到局部的分类标识体系。这种结构符殊,由全部到局部的分类标识体系。这种结构符合人们通常的研究思维习惯,能保证较高的查全合人们通常的研究思维习惯,能保证较高的查全率。率。目前我国广泛采用目前我国广泛采用中国图书馆分类法中国图书馆分类法(简称(简称中图法中图法)进行分类,该分类法
6、由)进行分类,该分类法由5大部大部类、类、22个大类组成个大类组成I文学文学(中图法中图法片断)片断)0文学理论文学理论1世界文学世界文学2中国文学中国文学21作品集作品集22诗歌、韵文诗歌、韵文23戏剧戏剧24小说小说242古代作品古代作品246五四以后作品五四以后作品247建国以后作品建国以后作品.4章回小说章回小说.5新体长篇、中篇小说新体长篇、中篇小说.7新体短篇小说新体短篇小说.8故事、微型小说故事、微型小说分面组配型分类语言:在体系分类语言的分面组配型分类语言:在体系分类语言的基础上,吸收了概念分析与综合的方法而基础上,吸收了概念分析与综合的方法而发展起来的。其分类标识可以进行灵活
7、地发展起来的。其分类标识可以进行灵活地组合,极大地提高了分类语言标引和检索组合,极大地提高了分类语言标引和检索能力。但在实际操作,灵活的组配往往较能力。但在实际操作,灵活的组配往往较难在使用上达到很好的一致性,因此在传难在使用上达到很好的一致性,因此在传统信息检索的实际使用中并不多见。统信息检索的实际使用中并不多见。如:文学类百科全书如:文学类百科全书IZ28或者或者Z28I(2)主题语言:以主题词来表达信息主题概)主题语言:以主题词来表达信息主题概念的语言,它按事物对文献信息进行浓缩、念的语言,它按事物对文献信息进行浓缩、描述和整序,借用自然语言的语词,作为文描述和整序,借用自然语言的语词,
8、作为文献信息和检索提问的内容标示。献信息和检索提问的内容标示。特点:按特定的事物集中文献信息,有较强特点:按特定的事物集中文献信息,有较强的直接性。的直接性。构成原理:利用自然语言中的名词术语,经构成原理:利用自然语言中的名词术语,经过一定程度的规范化处理,作为表达文献和过一定程度的规范化处理,作为表达文献和提问内容的主题词;利用参照系统中的各种提问内容的主题词;利用参照系统中的各种手段,显示主题标识之间的各种关系,并以手段,显示主题标识之间的各种关系,并以此把主题词表中的众多主题词相互联系起来,此把主题词表中的众多主题词相互联系起来,构成多维的主题词体系;利用主题词的字顺构成多维的主题词体系
9、;利用主题词的字顺序列,按事物的名称来排列和检索文献信息。序列,按事物的名称来排列和检索文献信息。标题语言:采用规范化了的自然语言,即经过标标题语言:采用规范化了的自然语言,即经过标准化处理的名词术语作为标识,来表达文献所论准化处理的名词术语作为标识,来表达文献所论述或涉及的事物述或涉及的事物-主题,并将全部标识按字顺排主题,并将全部标识按字顺排列。列。例:一篇文章用例:一篇文章用“微型计算机微型计算机”这个术语来叙述这个术语来叙述它的研究对象,另一篇文章用它的研究对象,另一篇文章用“微型电脑微型电脑”这个这个术语来叙述它的研究对象,第三篇文章用术语来叙述它的研究对象,第三篇文章用“微机微机”
10、这个术语来叙述,虽然都表示同一概念,这时这个术语来叙述,虽然都表示同一概念,这时就不能直接用就不能直接用“微型电脑微型电脑”或或“微机微机”来作标题来作标题词了,这三篇文章都必须用词了,这三篇文章都必须用“微型计算机微型计算机”作标作标题词(根据词表决定)。因为这三个术语是等同题词(根据词表决定)。因为这三个术语是等同概念,如果同时用三个术语来标引,便会导致文概念,如果同时用三个术语来标引,便会导致文献被分散。当然,读者若从献被分散。当然,读者若从“微型电脑微型电脑”或或“微微机机”入手检索时,都可以在标题词表中看到入手检索时,都可以在标题词表中看到“见:见:微型计算机微型计算机”的参照指示。
11、的参照指示。标题词的组织形式有单级标题和多级标题标题词的组织形式有单级标题和多级标题两种。两种。a.单级标题单级标题例:电子计算机例:电子计算机例:一篇关于计算机的设计和另一篇计算例:一篇关于计算机的设计和另一篇计算机维修的文章,都可以直接用机维修的文章,都可以直接用“电子计算电子计算机机”来作标题词。它们在标题词系统中都来作标题词。它们在标题词系统中都是按是按“电电”字排列集中在一起的。字排列集中在一起的。b.多级标题:由于主标题与副标题组成。标题语多级标题:由于主标题与副标题组成。标题语言的主标题与副标题的搭配一般是固定的,其特言的主标题与副标题的搭配一般是固定的,其特点是直观、特指、先组
12、、特别符合检索操作的要点是直观、特指、先组、特别符合检索操作的要求,查准率高,但是灵活性不够。求,查准率高,但是灵活性不够。例:例:电子计算机电子计算机设计设计制造制造修理修理例:前面例子中和两篇论文即可以集中在例:前面例子中和两篇论文即可以集中在“电子电子计算机计算机”这个标题词下,将与电子计算机相关的这个标题词下,将与电子计算机相关的论文集中起来,又分别放在论文集中起来,又分别放在“电子计算机设计电子计算机设计”、“电子计算机修理电子计算机修理”中。中。主标题的构成方式有主标题的构成方式有3种:种:正叙式:用事物或过程名称直接以自然语言的正正叙式:用事物或过程名称直接以自然语言的正常词序作
13、为主标题。常词序作为主标题。例:例:AirPollution(空气污染)(空气污染)并列式:将两个表示关联事物的词并列起来,一并列式:将两个表示关联事物的词并列起来,一起作为主题。起作为主题。例:例:RoadsandStreets倒叙式:将事物名词或过程名词放在前面,后面倒叙式:将事物名词或过程名词放在前面,后面加上表示特性的修饰词,两者之间用逗号隔开,加上表示特性的修饰词,两者之间用逗号隔开,构成倒置复合标题。倒置标题的作用:实现族性构成倒置复合标题。倒置标题的作用:实现族性检索功能检索功能例:例:Bridge,Wood(木桥)(木桥),Steel(钢桥)(钢桥)交叉参见系统:交叉参见系统:
14、see(见)、(见)、seealso(参见)(参见)(1)see的作用:的作用:1)同义概念)同义概念如:如:AeroplaneseeAircraft例:一篇文章用例:一篇文章用“微型计算机微型计算机”这个术语来叙述它这个术语来叙述它的研究对象,另一篇文章用的研究对象,另一篇文章用“微型电脑微型电脑”这个术语这个术语来叙述它的研究对象,第三篇文章用来叙述它的研究对象,第三篇文章用“微机微机”这个这个术语来叙述,这三篇文章都必须用术语来叙述,这三篇文章都必须用“微型计算机微型计算机”作标题词(根据词表决定)。读者若从作标题词(根据词表决定)。读者若从“微型电脑微型电脑”或或“微机微机”入手检索时
15、,都可以在标题词表中看入手检索时,都可以在标题词表中看到到“见:微型计算机见:微型计算机”的参照指示。的参照指示。2)下位概念)下位概念如:如:Communication(通信)(通信)seeDataTransmission(数据传送),(数据传送),ElectricCommunication(电信)(电信)3)上位概念)上位概念如:如:Alloy(合金钢)合金钢)seeSteel(钢)(钢)(2)seealso的作用的作用:引导检索者找到隐没引导检索者找到隐没在其他标题词下的有关文献,扩大会查找在其他标题词下的有关文献,扩大会查找线索。线索。COMPUTERS,DIGITALSeealsoC
16、OMPUTERSYSTEMS,DIGITAL关键词语言(关键词语言(keyword):以关键词):以关键词(从文献题名或文摘以及正文中抽取的,(从文献题名或文摘以及正文中抽取的,能够表达文献主题并具有实质意义的未经能够表达文献主题并具有实质意义的未经规范化处理的自然语言词汇)作为文献内规范化处理的自然语言词汇)作为文献内容标识和检索依据的一种信息检索语言。容标识和检索依据的一种信息检索语言。关键词与其他主题语言的区别在于:前关键词与其他主题语言的区别在于:前者是没有经过规范处理的自然语言。属于者是没有经过规范处理的自然语言。属于非受控语言。后者是经过规范处理的自然非受控语言。后者是经过规范处理
17、的自然语言,属于受控语言。语言,属于受控语言。(3)分类主题一体化语言)分类主题一体化语言:指在一个检索系统中,对它的分类表部分和指在一个检索系统中,对它的分类表部分和主题词表部分,就术语、参照、标识、索引等实主题词表部分,就术语、参照、标识、索引等实行统一的控制,即一个分类系统与一个主题系统行统一的控制,即一个分类系统与一个主题系统互相兼容,既能充分发挥各自独特的功能,满足互相兼容,既能充分发挥各自独特的功能,满足分类或主题标引和检索的需要,又能融为一体,分类或主题标引和检索的需要,又能融为一体,发挥最佳的整体效应。简而言之,分类主题一体发挥最佳的整体效应。简而言之,分类主题一体化语言理分类
18、语言与主题语言的有机结合。如:化语言理分类语言与主题语言的有机结合。如:中国分类主题词表中国分类主题词表即是在即是在中图法中图法和和汉汉表表主题词对应的基础上分类法与主题法、先组主题词对应的基础上分类法与主题法、先组与后组融为一体析文献标引和检索工具。其中的与后组融为一体析文献标引和检索工具。其中的分类号分类号主题词对应表主题词对应表和和主题词主题词分类号分类号对应表对应表是分别从分类角度和主题角度进行分类是分别从分类角度和主题角度进行分类主题一体化标引的工具。主题一体化标引的工具。(4)代码语言:)代码语言:用某种符号代码系统来标引信息特征并用某种符号代码系统来标引信息特征并排列组织信息的语
19、言,如:化合物分子式、排列组织信息的语言,如:化合物分子式、专利号、标准号、合同号、报告号、化合专利号、标准号、合同号、报告号、化合物登记号等。是给特定行业的行家提供一物登记号等。是给特定行业的行家提供一条简捷的检索途径。条简捷的检索途径。(5)引文语言:)引文语言:利用文献之间引用与被引用的关系作为利用文献之间引用与被引用的关系作为文献内容主题标识,并以此标引和检索文文献内容主题标识,并以此标引和检索文献的语言。献的语言。2、根据组配方式划分、根据组配方式划分(1)先组式语言:表达信息主题概念的标识已事)先组式语言:表达信息主题概念的标识已事先用固定关系组配好,并编制在词表中,标引人先用固定
20、关系组配好,并编制在词表中,标引人员在标引信息或用户在检索信息时,必须根据词员在标引信息或用户在检索信息时,必须根据词表选用组配好的主题进行操作。如:体系分类法表选用组配好的主题进行操作。如:体系分类法和标题词法。和标题词法。(2)后组式语言:表达信息主题概念的标识在编)后组式语言:表达信息主题概念的标识在编制词表时不曾预先规定组配关系。当标引信息时,制词表时不曾预先规定组配关系。当标引信息时,只能根据词表中选用单独的主题词来描述信息的只能根据词表中选用单独的主题词来描述信息的主题概念;检索时,用户可以根据需要将不同的主题概念;检索时,用户可以根据需要将不同的检索词组配在一起,用来表达复杂的主
21、题概念。检索词组配在一起,用来表达复杂的主题概念。如:元词、叙词。如:元词、叙词。3、根据规范化程度划分、根据规范化程度划分(1)规范化语言)规范化语言(2)自然语言)自然语言(3)两者结合的发展趋势)两者结合的发展趋势三、检索途径及其选择三、检索途径及其选择1、内容特征检索途径:内容特征是指表征文献实质意义的、内容特征检索途径:内容特征是指表征文献实质意义的特征,如主题词、关键词、分类号、内容摘要等。特征,如主题词、关键词、分类号、内容摘要等。(1)分类途径)分类途径(2)主题途径)主题途径(3)分类主题途径)分类主题途径2、外部特征检索途径:外部特征是指文献上显而易见的,、外部特征检索途径
22、:外部特征是指文献上显而易见的,一般情况下不反映文献实质意义的那些特征,如书名(题一般情况下不反映文献实质意义的那些特征,如书名(题名、篇名)、人名、各种符号标识(专利号、标准号、报名、篇名)、人名、各种符号标识(专利号、标准号、报告号等)、机构名、文献出处等告号等)、机构名、文献出处等(1)责任者途径)责任者途径(2)题名途径)题名途径(3)序号途径)序号途径(4)引文途径)引文途径作业:给下列文献标出适当的中图法分类号提示:http:/202.207.192.109/poweb/class_china.jsp博文非书资料管理系统001博客在新闻信息传播中的作用博客在新闻信息传播中的作用【作
23、者作者】李晓鹏李晓鹏;【作者单位作者单位】辽宁大学文化传播学院辽宁大学文化传播学院;【文献出处文献出处】沈阳教育学院学报沈阳教育学院学报,2008年年06期期【关键词关键词】博客博客;信息信息;交谈交谈;【摘要摘要】从信息传播主体、信息内容和传播方式、从信息传播主体、信息内容和传播方式、传播效果三方面探讨了博客给新闻业带来的变化传播效果三方面探讨了博客给新闻业带来的变化,认为随着博客的普及、发展和功能的完善认为随着博客的普及、发展和功能的完善,它将进它将进一步带动新闻业从一步带动新闻业从说教说教走向走向交谈交谈。【分类分类】002股权结构与会计信息质量关系的实证研究股权结构与会计信息质量关系的
24、实证研究【作者作者】宋理升宋理升;【作者单位作者单位】山东大学管理学院山东大学管理学院;【文献出处文献出处】工会论坛工会论坛(山东省工会管理干部学院学山东省工会管理干部学院学报报),2008年年06期期【关键词关键词】会计信息质量会计信息质量;实际控制人实际控制人;股权集中度股权集中度;【摘要摘要】本文以本文以20032005年被注册会计师出具非年被注册会计师出具非标准无保留审计意见的上市公司为样本标准无保留审计意见的上市公司为样本,对其与股对其与股权结构之间的关系进行了实证研究。结果表明权结构之间的关系进行了实证研究。结果表明,公公司实际控制人为国有控股公司、股权制衡度与会司实际控制人为国有
25、控股公司、股权制衡度与会计信息质量正相关计信息质量正相关,而股权集中度对会计信息质量而股权集中度对会计信息质量没有显著影响。没有显著影响。【分类分类】003花生花生EST资源的资源的SSR信息分析信息分析【作者作者】柳展基柳展基;孙萍孙萍;步迅步迅【作者单位作者单位】山东省农科院高新技术研究中心山东省作物与畜禽山东省农科院高新技术研究中心山东省作物与畜禽品质改良生物技术重点实验室品质改良生物技术重点实验室;【文献出处文献出处】花生学报花生学报,2008年年04期期【关键词关键词】花生花生;EST;SSR;频率频率;特性特性【摘要摘要】微卫星或简单重复序列存在于表达序列标签中。为了在微卫星或简单
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第二 信息 检索 理论 基本 方法 课件
限制150内