2023年信息检索学习笔记.docx
《2023年信息检索学习笔记.docx》由会员分享,可在线阅读,更多相关《2023年信息检索学习笔记.docx(31页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、信息检索第一章信息检索的基础理论第一节基础概念一、信息概述(一)信息的定义:信息指的是事物的存在方式和运动状态,是对客观世界中各种事物变化和 特性的反映,是客观事物之间互相作用和联系的表征,是客观事物通过感知或结识后的再 现。世界三大基本要素:信息物质能量(二)信息的特性1 .客观性信息来源于物质,又不是物质自身;它从物质的运动中产生出来,又可以脱离物质相对独 立地存在。信息业来源于精神世界,但又不限于精神的领域。信息是具体的,并且可以被人所感知、提取、辨认,可以传递、存储、变换、显示、检索 和运用。2 .普遍性3.可存储性4.可传递性5 .扩散性6.共享性7.时效性(三)信息的功能1 .经济
2、功能运用信息可以使非资源转化为资源发明财富。使用信息取代劳动力、资金、材料等资 源发明财富,实现经济效益倍增。直接让信息作为商品在市场流通中发明财富。通过 信息进行科学决策,减少失误,发明财富。2 .管理与协调功能5M资源:人、财、物、设备、管理办法信息的管理与协调功能在组织活动中的作用:传递整个组织的运营目的,有效管理5 M资源。调节和控制物质流和能源流的数量、方 向和速度。传递外界对系统的作用,保持组织的内部环境稳定。3 .选择和决策功能 缩小检索范围:缩小检索概念;使用逻辑与等算符;缩小检索的年代、文献信息源范围使、检索程序1、全面分析课题,拟定信息需求和检索目的2、选择检索系统(检索工
3、具),我们应当在课题分析的基础上,根据课题的特点,ixnxi 需求,检索目的,选择专业对I I、覆盖范围广、更新及时、内容准确权威、检索功能完备的检 索系统3、拟定检索途径和检索方法4、拟定检索词及检索司之间的关系,编制检索式5、检索,并根据需要随时调整检索策略,得到所需检索结果6、索取原始文献信息五、原始文献获取途径(一)直接通过网络获取原始文献1)通过搜索引擎查找:直接通过搜索引擎查找运用搜索引擎与数据库、图书情报机构 的合作,实现对这些合作机构文献信息产品的检索与运用;2 )网络出版物及网络出版物目录 3)出版商4)学术网站5)免费全文数据库6)通过文摘、题录数据库提供的订购途径购买 (
4、二)简介获取原始文献:先查到馆藏地点,再通过与该图书馆联系获取原文1、查找馆藏地点1)特定图书情报机构的馆藏目录;2 )联合目录全国期刊联合目录全国高校 图书馆进口报刊预订联合目录CASH L图书期刊联合目录CALIS图书期刊联 合H录OCLC图书、期刊联合目录中国科学院中西文图书联合目录数据库;3)数据 库中的馆藏字段连接馆藏字段电子期刊全文连接通过馆际互借获取原文通过文献 传递获取原文4)出版商提供的出版信息2、从实体图书获取原文(三)通过个人与有关机构的交流获得第二节计算机信息检索技术 一、系统支持的语法(一)计算机信息检索的常用算符1、布尔逻辑算符:逻辑或、逻辑与、逻辑非1)逻辑加(O
5、R或 + ”人也称“或”运算,这是反映概念之间并列关系的一种组配方式,可 扩大检索范围、增长输出量,以免漏检2)逻辑乘(AND或,也称“与”运算。这反映概念之间交叉和限定关系的一种 组配方式,用以缩小检索范围,减少输出结果,提高查准率3)逻辑非(NOT或A NOT B一用于从包含A的文献信息范围中减去具有B的 内容。这此逻辑算符在运算中的优先顺序一般为:NOT AND OR2、优先解决算符3、位置算符:位置算符用于表达词与词之间的互相关系和前后的顺序,通过对检索词之间 位置关系的限定,进一步增强选词指令的灵活性,提高检索的查全率与查准率1)W算符(W i th ):通常写作A(nW) B,表达
6、词A与词B之间之多可以插入n个其他的 词(涉及系统禁用词),同时A、B保持前后顺序不变2) N算符(Near):通常写作A(nN)B,表达A与B之间之多可以插入n个其他词,同时A、B不 必保持前后顺序S算符(S ubf i eld):通常写作A(S) B,表达A与B必须同时在一个句子中或同一子 字段内出现,但顺序可随意变化,且各词间可加任意词4)F算符(Field):通常写作A(F ) B,表达A与B必须同时出现在同一记录中,不限定词序和 字段,其作用同布尔逻辑算符“AND”(二)截词(截断)检索截词检索重要是运用检索词的词干或不完整的词形进行非精确匹配检索,凡具有词的这一 部分的所有字符或字
7、符串的文献信息,均被认为是命中结果。1、从截断字符的数量看,截词可分为无限截词和有限截词1)无限截词,一个无限截词符可代表多个字符,表达在检索词的词干后可加任意个字符或不加字符。符号:”2)有限截词,符号“? ” (STN系统中为“#”)代表这个单词中的某个子目可以任意变化, 在检索词词干后可加一个或一个以上的有限截词符,一般有限截词符的数量有限制,其数目 表达在词干后最多允许变化的字符个数2、根据截断的位置,可以分为后截断、前截断和中截断(三)字段限制检索数据库中可检字段分为基本索引字段和辅助索引字段两大类,字段索引即限定检索词只在记 录中某个或某些字段中出现,不同的检索系统规定的检索字段和
8、字段限制检索方法也不同,其 形式涉及前缀限制符、后缀限制符、检索字段框等联机检索系统常用到前缀限制符和后缀限制符(四)禁用词禁用词都是些无实际意义的词,也就是不可用于检索的过于常见的词(高频词),如DIALOG系统中的a nd, for, the, a n , from, t o , by, of, wi t h等,假如检索词中包含这 些词,和碰到标点符号、连字符同样,有些检索系统使用位置算符来解决 二、输出格式和输出方式(*)输出格式输出格式:系统所检出的信息的形式,可以是文献号、题录、文摘或全文等。(二)输出方式三、光盘数据库检索(一)光盘与光盘数据库概述计算机信息检索是借助计算机获取信息
9、的手段,重要涉及脱机检索、光盘检索、联机检 索、网络数据库检索、以及基于因特网的信息检索1、光盘检索与联机检索相比有其自身的特点1)光盘数据库成本较低,配置简朴2 )购买光盘是一次性投入,使用时间不受限制3)光盘检索系统是一个独立的系统,不受通讯费和机时费的限制 4)检索方便快捷,操作简朴易学 5)光盘数据库与联机数据库相比,也存在着更新周期长、数据容量有限、各种光盘数据 库规格不一,查询多个数据库时要频繁更换,许多光盘检索系统需要专用的加密卡才干打开 等问题2、光盘数据库并没有完全被后来的网络数据库所代替,是由于光盘数据库与网络数据库相 比有自己的优势成本低,投入较少运营速度快安全性好使用时
10、间长光盘检索系统尚有下载方便、检索效果好等优势,同时也有缺陷,像更新周期长,使用范围 有限等。相对来说光盘数据库的规模不是很大,一股以某一学科为主,所以有时候会影响 查全率,并且因其存储容量有限,使用时常要换盘,不是很方便。(二)光盘数据库检索系统概述光盘数据库是一种机读文献,一般由计算机、光盘及其驱动器、相应软件构成(三)光盘数据库检索的基本环节选择光盘数据库安装检索解决检索结果退出四、联机检索(一)联机检索(O n-line Ret r i e val)概况1、概念联机检索:是指在检索终端上,通过通讯线路,以人机对话方式,使用一定的指令和算 符,与检索中心的中央计算机联机,从该检索系统的数
11、据库中检索所需信息的一种计算机检 索式2、国际联机检索的特点数据库资源丰富检索速度快、效率高,输出方式和格式多种多样提供的文献信息全 面、准确、可靠、及时安全费用较高,涉及联机检索费和通讯费等3、联机检索的程序分析课题,明确检索目的拟定检索词和检索策略,联机前可进行人工预检接通联机检索 系统选择数据库输入检索式,检索分析联机显示的检索结构,判断检索是否己经成 功选择输出格式和输出方式,输出检索结果(二)联机检索实例1、D I ALO G:这个系统最初由美国洛克希德导弹航空公司所属的一个情报科学实验室建 立1)DI ALOG系统的重要数据库工程索引,臼19 7 0年至今科学文摘,I N SPEC
12、, 1 9 6 9年至今世界专利索 引,WPIJ96 3年至今化学文摘,CA Search, 1967年至今科学引文索弓Sc i Search , 197 4年至今经济商业文摘ABI/INFORM, 1971年至今学位论文文摘 Disser t alion A b strac t s On 1 ine,198 6年至今美国政府技术报告NTISJ964年至今 医学索引Medicus生物技术和生物工程数据库国际药文摘2)检索入口DIALOG 联机检索In t erne t Web 界面检索,涉及 Dialog Web ;Dialog。a s sic(纯文 本界面);DialogSelect(非专业
13、检索人员的Web界面);数据库蓝页网址;免费检索题名 信息可进入 DIALOG OPEN ACCESS) DIALOG系统提供的服务,涉及追溯检索(RS)、定题检索(SDI )新奇性检索服务等, 此外尚有:DIALOG Business C o nneecd o n( D BC),系统提供的一-种针对商业信息而设的菜 单检索服务,对大量的商业查询可提供快速准确的回答DIALOG Alert Serv i ce,系统提供的一种定题检索服务Dialma i 1 ,系统提供的电子邮件服务D i alord e r,系统提供的联机文献订购服务,可由此获取原始文献Dial index,系统提供的联机文献
14、 订购服务,由此可获知哪些数据库中有用户需求的信息On eSea rch,系统提供的一种独 特的检索手段,可由此从多个数据库中检索和显示记录D i alogLink,是专门用于联机检索 的软件) DIALOG数据库检索逻辑算符常用的位置算符,涉及W I TH/NEAR/SENTENCE (句子)/FIELD (字 段)/C ITAT I ON(记录)截词算符,涉及有限截词算符、无限截词算符、屏蔽符前缀和后缀,从查准率角度来看,用题名/TI字段检索效果最佳,接下来是主题/DE、自由词 / ID和文摘/ABDIALOG系统中有九个禁用词:an d , f o r, t h e , an, from
15、, t o , b y , of, w i山DIALOG系统常用指令,涉及B e gi n ,选择数据库,开始检索/Sei e ct,指定检索 的内容/ Se 1 ect Steps,分环节检索指定要检索的内容/Combin e ,运用逻辑算符对检索单 元进行逻辑组配/Expa n d,扩展检索/Sa v e和S ave Tern p,用以保存或暂时保存检索策略/ Recall调用保存的检索策略/ D i s p lay Sets,联机显示已执行的检索策略/Type,联机连 续显示检索结果/Print,脱机打印检索结果/Logoff和Logoff Hold , Logoff用于 中断与检索系统
16、的连接检索程序2、STN系统国际科技信息网络,简称STNI)STN系统的特点通过STN可以获取的信息很多更新速度快,每周或天天更新检索速度与跨文档检索 STN特有的服务,如结构检索、马库什结构检索、化学反映检索、生物序列检索等功能 2) STN 有三种检索人口: STNonlhe we b STN Eas y STN C 1 as s i c 3)STN系统获取原文的方式 第三节检索效果评价、检索效果与衡量检索效果的指标检索效果2、衡量检索效果的指标:查全率、查准率、漏查率、误查率P65此外尚有新奇率,即系统检出的最近单位时间内发表文献信息量,与最近单位时间内发表的 文献信息总量的比率:检索速
17、度,即系统输出的文献信息量与本次检索所用时间之间的比 率,以及检索费用,即用户为本次检索花费的费用等。*笫三章中文信息资源检索第一节中文信息检索工具概述一、信息检索和检索工具1、信息检索与检索工具的概念信息检索是研究文献信息资源的存储和杳找的原理与方法的一种学问,是一种通过检索技术 而达成查检符合特定需要的信息资源,或文献线索的方法实现过程;而检索工具是存储、传 递知识信息的载体,是人们为进行文献信息查检而编制的具有存储和检索作用的检索工具 或建成的检索系统,它是根据特定需求,对原始文献进行筛选、浓缩、有序组织、提供文献 线索和知识的一种特殊的文献类型2、检索工具的功能及作用检索工具具有存储和
18、检索两个方面的功能作用:充足发挥人类知识宝库的作用,促进智力资源的开发有助于指引治学门径,借鉴人 类已有的研究成果避免反复劳动,提高工作效率3、信息检索工具的发展趋势二、信息检索工具类型按检索工具的教体形态划分,有书本式、卡片式、期刊式、附录式、缩微式、机读型等按检索手段分,有手工检索和计算机检索两大类按检索工具编制体例、内容和功用分,有指引型检索工具和参考型检索工具1、指引型检索工具:是在一次文献的基础上整理、编制出的提供文献信息线索的二次文献, 涉及书目、索引、文摘等特性:是存储丰富的文献记录;二是具有必要的检索标记,提供检索的各种标志:三是提 供检索手段,提供检索途径的辅助手段书本式指引
19、型加诺工具的编制形式有期刊式、单卷式和附录式I)书目:又称目录,是指群书之目录,分为古典书目和现代书目现代书目涉及:国家图书书目,如全国总书H中国国家书目全国新书日国 家报刊书目,如中国报刊名录中国报刊大全中国当代期刊总览中文核心期刊 要目总览馆藏书目联合书目2)索引篇目索引字句索引专名索引引文索引,三大引文索引:科学引文索引社会科 学引文索引社会科学引文索引3)文摘:系统报道、积累和检索科技文献的重要工具,是二次文献的核心,文摘根据其摘要方式可划分为指示性、报道性和评论性三类 文摘的功用:帮助用户迅速鉴别选择文献,减少运用资料和查阅资料的盲目性;有些文摘在 一定限度上可替代原文,节省阅读全文
20、的时间;多语种文献被摘录成一种语种的文献时,可 帮助用户克服语言隙碍;提供学术动态和学科研究的进展2、参考型检索工具:涉及事实性工具书、数据型工具书,属于三次文献1)辞典语文辞典知识性词典综合性辞书2)百科全书,可以寻检查阅有关定义、概论、说明解释、著名人物、重大事件等,具有扩 大知识视野,帮助系统求知的作用,涉及综合性百科全书专科性百科全书,3)年鉴,年鉴可以查找国际、国内时事,各部门、行业的重大事件,重要活动、进展及各 学科、专业的研究动态;查找政府颁布的法律、法规和逐年可比的记录数据;查找学术论著 的线索及有关评价;查找有关机构、公司的简介及著名人物生平等,涉及综合性年鉴专 门性年鉴记录
21、性年鉴4)手册,手册提供事实性数据和资料,信息密集、实用性强,具有很大的参考价值,可随时 翻检,涉及综合性手册专门性手册5)类书,类书可以查考事物起源,查检史实典故渊源。查找诗词文句出处,检索参考资料,辑 录散佚残缺古书轶文,校勘考证古籍等,涉及综合性类书,艺文类聚太平御览永乐大典等专门性类书册府元龟事物纪原等6)政书,可以查考古代典章制度及史实,由于保存了大类亡佚的古文献资料,也可用于校勘 和辑佚,涉及通代型政书“十通”断代型政书“会典”“会耍”7)名录,名录提供的资料准确、信息简明、内容较新、实用性强,机构名录便于沟通联 系、交流信息,涉及机构名录人名录地名录8)表谱,具有查考历史年代,查
22、找历史大事,换算不同的年、月、日,以及考察人物生平 和官职、地理沿革等,涉及年表历表专门表谱9)图录,涉及地图(分为普通地图、专业地图、历史地图)文物图录、历史图录、人物图 录、艺术图录、科技图录三、中文检索工具的使用方法1、中文检索工具的重要排检方法1)字顺排检法部首法笔画笔形法音序法号码法2)分类排检法是将文献或知识,按学科或按事物性质系统性排列的方法,涉及按事物性质 归类,如尔雅按学科体系归类,如七略隋书籍志3)主题排横法,该法不受学科领域限制,能使同一事物的知识相对集中,再运用“参照” 项,沟通相关知识4)时序排检法5)地序排检法2、检索工具的选择1)指引型检索工具的使用2)参考型检索
23、工具的使用,涉及辞典、百科全书、年鉴、手册、 记录资料、数据、图录等,要注意如下方面:熟悉工具书的收录内容和排检法选择对 口的工具书工具书的附录和索引的运用工具书的综合运用3、检索过程中的分析与解决第二节中文传统信息源检索一、古籍文献检索1、古籍文献线索的查找1)古籍书目别录七略开创了叙录体提纲和六分法,七略是我国第一部以分类编排的国家减书目录汉书艺文志开创了正史艺文志的先例,是我国第一部史志书目史志书目,可记一代藏书、一代人著作、既记一代人藏书也记一代人著作,如:隋书*经 籍志,此外尚有二十五史补编官、私书目2)常用的古籍目录古籍总目,四库全书总目(乂称四库全书总目提纲)古籍丛书目录,中国丛
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2023 信息 检索 学习 笔记
限制150内