第二章信息检索基础知识.ppt
《第二章信息检索基础知识.ppt》由会员分享,可在线阅读,更多相关《第二章信息检索基础知识.ppt(40页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、一一 信息检索信息检索二二 信息检索语言、途径信息检索语言、途径三三 信息检索技术信息检索技术四四 检索步骤检索步骤第二章第二章 信息检索基础知识信息检索基础知识一、信息检索一、信息检索 信息检索:是指将信息信息检索:是指将信息(主要指文献信息)按一定(主要指文献信息)按一定的方式组织和存储起来,并的方式组织和存储起来,并根据用户的需要找出相关信根据用户的需要找出相关信息的过程。息的过程。信息检索信息检索存储存储检索检索存储:是对信息进行著录、存储:是对信息进行著录、标引、整序,编制检索工标引、整序,编制检索工具和建立检索系统的过程。具和建立检索系统的过程。检索:是指面向信息需求检索:是指面向
2、信息需求而进行高度选择性的查找而进行高度选择性的查找过程。过程。检索的检索的基本原理基本原理 信息检索基本原理的核心是用户信息需求与文信息检索基本原理的核心是用户信息需求与文献信息集合的比较和选择献信息集合的比较和选择,是两者匹配是两者匹配(match)的过程。的过程。一方面是用户的信息需求一方面是用户的信息需求,一方面是组织有序的一方面是组织有序的文献信息集合,检索就是从用户特定的信息需求文献信息集合,检索就是从用户特定的信息需求出发,对特定的信息集合采用一定的方法、技术出发,对特定的信息集合采用一定的方法、技术手段,根据一定的线索与规则从中找出手段,根据一定的线索与规则从中找出(searc
3、h,locate,hit)相关的信息。相关的信息。匹配有其匹配标准,这里涉及到两者一致性、匹配有其匹配标准,这里涉及到两者一致性、相关度等问题,按一定的标准筛选出符合要求的相关度等问题,按一定的标准筛选出符合要求的信息。信息。信息检索一般过程信息源信息源信息分析、信息分析、著录、标引著录、标引信息的表示信息的表示检索语言检索语言数据库数据库匹配过程匹配过程输出检索结果输出检索结果用户用户用户需求分析用户需求分析检索表达式检索表达式信息检索的过程往往需要一个评价反馈途径,多次比较匹配,以获得最终的检索结果。其图示如下:二二 信息检索语言、途径信息检索语言、途径1、检索语言的含义及作用检索语言的含
4、义及作用2、检索语言的类型检索语言的类型3、检索途径检索途径1、检索语言的含义及作用、检索语言的含义及作用检索语言:检索语言:用于用于描述描述信息系统中信息系统中信息的内容特征及外部特征信息的内容特征及外部特征和和表达表达用户用户信息提问信息提问的一种专门语言。它要求文献的标引者和检索者共同遵守。的一种专门语言。它要求文献的标引者和检索者共同遵守。按其使用的场合不同,检索语言常使用不同的名称,在存储的过程中用按其使用的场合不同,检索语言常使用不同的名称,在存储的过程中用来标引文献,称为来标引文献,称为标引语言标引语言,用以编制索引就称为,用以编制索引就称为索引语言索引语言,用来检索,用来检索文
5、献则称为文献则称为检索语言检索语言。是根据检索需要而创造的一种人工语言。是根据检索需要而创造的一种人工语言。作用:作用:1)、保证不同标引人员表征文献信息的一致性。、保证不同标引人员表征文献信息的一致性。2)、使内容相同及相关的文献集中化。、使内容相同及相关的文献集中化。3)、保证检索提问与文献信息标引的一致性。、保证检索提问与文献信息标引的一致性。4)、保证检索者按不同需求检索文献信息时,、保证检索者按不同需求检索文献信息时,都能获得最高的查全率和查准率。都能获得最高的查全率和查准率。2、检索语言的类型、检索语言的类型检检索索语语言言的的类类型型表述文献外部表述文献外部特征的语言特征的语言表
6、述文献内部表述文献内部特征的语言特征的语言题名题名责任者责任者机构机构号码号码分类法分类法主题法主题法单元词语言单元词语言 标题词语言标题词语言叙词语言叙词语言关键词语言关键词语言纯自然语言纯自然语言特征特征外表特征外表特征主题特征主题特征内容特征内容特征分类特征分类特征标识标识标题、作者、标题、作者、作者工作单位作者工作单位主题词、主题词、关键词关键词文摘、说明、文摘、说明、全文全文分类号分类号对应对应精确对应精确对应模糊对应模糊对应模糊(精确)模糊(精确)对应对应模糊对应模糊对应信息特征与标识对应关系信息特征与标识对应关系责任者责任者及其单位及其单位题名题名摘要摘要关键词关键词中图分类号中
7、图分类号文献标示码文献标示码正文正文分类语言分类语言也属于主题语言。分类语言是按学科范畴划分而构成的一种语言体系,它集中反映学科的系统性、反映它们的相关、相关、从属、派生从属、派生等关系,从总体到局部分层、分面展开,形成分类体系。由类目号码及名称作为检索语言,构成分类类目表,如前述图书分类表、专利分类表用的都是分类语言。具体体现为用具体体现为用分类号和类名分类号和类名来表达信息的主题概来表达信息的主题概念,如念,如F25 物资经济物资经济 *中国图书馆图书分类法(中国图书馆图书分类法(5 5部类,部类,2222大类)大类)*美国国会图书馆分类法美国国会图书馆分类法 *杜威十进位分类法杜威十进位
8、分类法 *IPCIPC国际专利分类法国际专利分类法 中图法大类表中图法大类表 中图法体系细分如下所示:T工业技术TP 自动化技术、计算技术 3 计算技术、计算机 31 计算机软件 316 操作系统 .1 分时操作系统 .2 实时操作系统 .7 Windows操作系统 39 计算机的应用 391 信息处理(信息加工)391.7 机器辅助技术 391.72 CAD 391.73 CAM F 经济F0 经济学F1世界各国经济概况、经济史、经济地理F25 物资经济F250 物资经济理论F252 物资流通F5 交通运输经济F50 交通运输经济理论F53 铁路运输经济F54 陆路、公路运输经济F55 水陆
9、运输经济F56 航空运输经济F57 城市运输经济F74 国际贸易F740 国际贸易理论与方法U 交通运输U16 特种货物运输U169 集装箱运输U169.6 集装箱运输管理主主题语题语言言包括:关键词语言、单元词语言、标题词语言、叙词语言等,它们有不同的主题词表。主题词表达概念本身,在主题词表中通过参照系统来指示词汇之间的关系。如如”交通运输交通运输”、“国际物流国际物流”。主主题语题语言分言分为规为规范主范主题语题语言与非言与非规规范主范主题语题语言。言。规规范主范主题语题语言言:规规范主范主题语题语言是以自然言是以自然语语言言为为基基础础,经过标经过标准化、准化、规规范化范化处处理的理的词
10、语词语,具有概念性、,具有概念性、规规范性、范性、组组配性、配性、语义语义性和性和动态动态性。性。规规范主范主题语题语言包括言包括单单元元词语词语言、言、标题词语标题词语言和叙言和叙词语词语言。言。*单元词语言单元词语言 是一种最基本的、不能再分的单位词语,亦称元词,它从文献内容中抽出,是一种最基本的、不能再分的单位词语,亦称元词,它从文献内容中抽出,再经规范,能表达一个独立的概念。比如再经规范,能表达一个独立的概念。比如“天气雷达天气雷达”不是单元词,只有不是单元词,只有“天气天气”和和“雷达雷达”才是单元词,在英语中,单元词经常是一个单词。如才是单元词,在英语中,单元词经常是一个单词。如W
11、PI-WPI-规范规范化主题词表化主题词表 *标题词语言标题词语言 是从文献的题目和内容中抽出来,经过规范化处理的主题语言。是从文献的题目和内容中抽出来,经过规范化处理的主题语言。美国工程信息美国工程信息公司出版的公司出版的工程标题词表工程标题词表(简称简称SHE)SHE)是典型的标题词语言,但该公司是典型的标题词语言,但该公司19931993年以年以后改用后改用工程索引叙词表工程索引叙词表(EiEi ThesaurnsThesaurns)。*叙词语言叙词语言 是以表达文献主题内容的概念单元为基础,经过规范化处理,可以进行逻辑是以表达文献主题内容的概念单元为基础,经过规范化处理,可以进行逻辑组
12、配的一种主语语言。如组配的一种主语语言。如汉语主题词表汉语主题词表、INSPECINSPEC叙词表叙词表(科学文科学文摘摘)、)、工程索引叙词表工程索引叙词表等。等。非非规规范主范主题语题语言言:它是相对于规范主题语言而言的,以自然语言的语词作检它是相对于规范主题语言而言的,以自然语言的语词作检索标识,其所用词汇未经过规范化处理。非规范主题语言包括关键词语言和索标识,其所用词汇未经过规范化处理。非规范主题语言包括关键词语言和纯自然语言纯自然语言。关键词语言关键词语言 直接从文献信息的标题、摘要或内容本身抽取出来的用于揭示信息主题内直接从文献信息的标题、摘要或内容本身抽取出来的用于揭示信息主题内
13、容的自由词。容的自由词。纯自然语言纯自然语言 指完全使用自然语言,即对一条完整的信息中任何词汇都可以进行检索。它指完全使用自然语言,即对一条完整的信息中任何词汇都可以进行检索。它采用全文匹配法检索,主要运用于计算机全文数据库和网络信息检索中。使采用全文匹配法检索,主要运用于计算机全文数据库和网络信息检索中。使用纯自然语言中检索中最大的问题是误检率极高。用纯自然语言中检索中最大的问题是误检率极高。关键词的提炼关键词的提炼1、反映信息概念的准确性(作为、反映信息概念的准确性(作为检索词应当科学,表达的意思要准确,普遍使用,同时应该简明、精练,尽可能简短明了,易输易检,词汇不宜过长)古代语言演变=古
14、代语言*语言演变 =古代语言*演变2、反映信息内容的全面性、反映信息内容的全面性 协同设计+协同工作3、注意检索词的多样性、注意检索词的多样性 轨道 铁轨 过程和规律 微型计算机 微机 电脑 “加热设备”可抽象化为“温度控制设备”“温度计”即“温度测量仪器”4、少用或不用副词、助词、指示代词等不反映检索内容的词或词组、少用或不用副词、助词、指示代词等不反映检索内容的词或词组。如a,the,is,http,com5 5、删删除具有包含关系的其中一个除具有包含关系的其中一个 教学用的信息检索课多媒体课件信息检索*多媒体*课件6 6、补补充充 A、补充还原词组:WTO世贸组织世界贸易组织 B、补充同
15、义词或相关词:计算机病毒(计算机+电脑)*病毒 C、增加限定词(解决一词多义现象):杜鹃杜鹃(动物)、杜鹃(植物)7、注意输入错别字、滥用多义词、注意输入错别字、滥用多义词。如JAVA,既可只太平洋上的一个岛,也可是一种著名的咖啡,还是一种计算机语言。8、切忌想要什么就输什么、切忌想要什么就输什么。另外:首次利用关键词检索时,不要把条件限制得过于严格,最 好是检索出一些结果再使用其他限定条件,进行二次检索。3、检索途径、检索途径 检索途径又称检索入口,指信息用户在检索时,把所需信息的某种特征标识转换为检索标识,以此为入口进行检索 信息检索途径及其选择内容特征检索途径内容特征检索途径主题途径主题
16、途径指通过能表达文献内容的主题词来检索文献的一种途径。是信息检索的一种主要途径。【如何提取如何提取检检索索词词】:1 1、切分、切分 切分就是以切分就是以词为单词为单位划分句子和位划分句子和词组词组。例:检索有关国国际际|国内国内|集装箱集装箱|班轮班轮|运输方面的研究论文运输方面的研究论文要点:A.词是语义切分的最小单元,也是检索的最小单元。切分必须彻底,必须“到词为止”。如:“信息检索”可切分为:“信息|检索”。B.切分也要适度,不能因切分而改变语义。如:不能将“操作系统”切分为“操作|系统”2 2、删删除除 将将课题转换课题转换成关成关键词键词的集合的集合A.删除不具有检索意义的虚词(a
17、,the,is等)和关键词(因使用太宽泛而不具有检索意义,如:http,com等)B.删除过分宽泛和过份具体的限定词无损检测技术在材料性能评价中的应用无损检测*材料C.删除具有包含关系的其中一个教学用的信息检索课多媒体课件信息检索*多媒体*课件3 3、替、替换换 用更本用更本质质的概念替的概念替换换表达欠佳的概念表达欠佳的概念 稀土材料的研制钐钴(用户实际上是研究钐钴材料)空气中细菌的计算方法空气污染的计算方法 水果营养(水果fruit=梨pear+橙orange+苹果apple+)4 4、补补充充A、补充还原词组:WTO世贸组织世界贸易组织B、补充同义词或相关词:计算机病毒(计算机+电脑)*
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第二章 信息检索基础知识 第二 信息 检索 基础知识
限制150内