欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    第二章信息检索.pptx

    • 资源ID:73443190       资源大小:1.24MB        全文页数:53页
    • 资源格式: PPTX        下载积分:20金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要20金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    第二章信息检索.pptx

    第一节 信息检索的基本原理一、信息检索的概念二、信息检索的基本原理三、信息检索的类型第1页/共53页一、信息检索的含义 广义的信息检索:是指将大量分散、无序的信息按一定的方式组织和存储起来,并根据用户的需要找出相关信息的过程,包括信息的存储与检索两个方面。狭义的信息检索:是指依据一定的方法,从已经组织好的大量有关信息集合中,查找并获得特定相关信息的过程。第2页/共53页二、信息检索的基本原理 信息检索的实质就是将需要查找的信息特征转换为检索系统能够识别的检索提问标识,然后通过与检索系统中的信息存储标识进行匹配比对,将与提问标识一致的信息记录提取出来就是检索的命中信息。为了保证信息能存得进、取得出,就必须使信息存储所依据的规则与信息检索时所依据的规则尽量做到一致。提问提问(检检索索)语言语言信息标信息标识语言识语言匹配匹配第3页/共53页信息处理人员信息处理人员用户用户信息分析、著录、标引信息分析、著录、标引信息需求分析信息需求分析检索语言检索语言信息的表示信息的表示检索提问检索提问数据库数据库匹配比对匹配比对输出检索结果输出检索结果信息检索的基本原理第4页/共53页三、信息检索的类型按信息检索的内容,信息检索可分为:?数据检索?事实检索?文献检索第5页/共53页信息检索的类型1、数据检索 是以数值、图表等信息形式为检索对象,从所收藏的资料中查找出特定数据的过程,又称“数值检索”。即检索系统中存贮的是大量的数据,其中包括各种数字数据和非数字数据。数字数据包括参数、电话号码、银行帐号、观测数据、统计数据;非数字数据包括图表、图谱、市场行情、化学分子式、物质的各种特性等,并提供一定的运算推导能力。数据检索是一种确定性的检索,信息用户检索到的各种数据是经过专家测试、评价、筛选过的,可直接用来进行定量分析。第6页/共53页数据检索第7页/共53页信息检索的类型2 2、事实检索 是指以直接提供可用的特定事实信息为目的的信息检索。其检索对象包括事实、概念、思想、知识等非数值信息,同时它也可能包括一些数据信息,但需要针对查询要求,由检索系统进行分析,推理后,再输出最终结果。第8页/共53页事实检索第9页/共53页信息检索的类型3 3、文献检索 是以文献为检索对象的信息检索,根据检索结果的不同,文献检索可细分为书目检索和全文检索。它是一种相关性检索。如查找“张爱玲的作品”第10页/共53页书目检索第11页/共53页全文检索第12页/共53页 信息检索(Information Retrieval)与文献检索(Document Retrieval)是两个不同的概念,文献检索是信息检索的一种最基本的、最主要的形式。第13页/共53页三、信息检索的类型按信息检索的手段划分1 1、手工信息检索 指将分析检索课题确定的检索标识通过人工动手翻阅的方法去与书本式检索工具中的存储标识进行匹配,获取与标识相符的信息线索的信息检索方法。2 2、计算机信息检索 指通过计算机来处理检索者的检索提问,将检索者输入检索系统的检索提问(检索标识)按检索者预先制定的检索策略与数据库中的存储标识进行类比、匹配运算,从而检索出所需要信息的检索方法。第14页/共53页第15页/共53页第二节 信息检索方法 直查法:不依靠任何检索工具或系统,从本专业最新核心期刊或其他文献中直接阅读原文或浏览最新目次而获取文献的方法。第16页/共53页第二节 信息检索方法 顺查法:一种根据检索课题的起始年代,利用所选定的检索工具,按照从旧到新、由远及近、由过去到现在的时序逐年查找,直至满足课题要求为止的查检方法。顺查法由于是逐年查找,漏检较少,查全率高,在检索过程中不断筛选,剔除参考价值较小的文献。又由于对准需求口径,误检的可能性较小,查准率也较高。适用于那些主题较复杂,研究范围较大,研究时间较久的科研课题。因是逐年逐卷地查检,检索工作量大,费时、费力,多在缺少评述文献时采取。第17页/共53页第二节 信息检索方法 逆查法:也叫倒查法,与顺查法相反,是利用所选定的检索工具,按照由新到旧、由近及远、由现在到过去的逆时序逐年前推查找,直至满足课题要求为止的查检方法。这种方法多用于新课题、新观点、新理论、新技术的检索,检索的重点在近期信息上,只需查到基本满足需要时为止。倒查法的目的是要获得某学科或研究课题最新或近一段时间内所发表的文献或研究进展状况。此方法省时,查得的信息有较高的新颖性,但查全率不高。第18页/共53页第二节 信息检索方法 抽查法:是利用检索工具进行重点抽查检索的方法。它是针对某学科的发展重点和发展阶段,抓住该学科发展较快,文献信息发表较多的年代,拟出一定时间范围,进行逐年检索的一种方法。使用这种方法检索效果和检索效率较高,但漏检的可能性较大,因此使用此法时必须熟悉学科的发展特点。第19页/共53页第二节 信息检索方法 追溯法:以文献后面所附的参考文献为线索,逐一追溯查找相关文献的方法。这种方法在所检索的领域没有专门的检索工具,或需要查找某一课题的研究历史时比较常用。它对于了解特定研究方向的发展轨迹、代表人物和代表性成果具有独特的效果。第20页/共53页第三节第三节 信息检索途径信息检索途径1 1、著者途径 通过的文献著者(机构)的名称来查找。检索知名学者或核心机构时,该途径有较强的实用性。2 2、题名途径 通过文献的题名来查找,包括文献的篇名、书名、刊名等。第21页/共53页第三节第三节 信息检索途径信息检索途径3 3、分类途径 按学科分类体系来检索文献。这一途径是以知识体系为中心分类排检的,较能体现学科系统性,反映学科与事物的隶属、派生与平行的关系。4 4、主题途径 通过反映文献资料内容的主题词来检索文献,便于用户对某一问题、某一事物和对象作全面系统的专题性研究。第22页/共53页第三节第三节 信息检索途径信息检索途径5 5、代码途径 通过信息的某种代码来检索,如图书ISBN号、期刊ISSN号、专利号、报告号等。6 6、其他途径 利用检索工具的特殊索引,如事物的化学分子式、环系索引等。第23页/共53页第四节第四节 信息检索技术信息检索技术 在信息检索中,为了构建信息检索的表达式,常用四种运算:布尔逻辑运算 截词运算 位置运算 限制运算第24页/共53页布尔逻辑运算 利用布尔逻辑算符将一些具有简单的、表达某一主题概念的检索单元(或检索标识)组配成一个具有复杂概念的检索式,以满足课题检索的要求。布尔逻辑算符是用来表达概念之间关系的一类运算符。基本的布尔逻辑算符有三种:逻辑“与”、逻辑“或”、逻辑“非”。布尔逻辑组配是现行计算机检索的基本技术。第25页/共53页布尔逻辑运算逻辑“与”,具有概念交叉和限定关系的一种组配。其含义是检索出的记录必须同时含有所有的检索词。用符号“and”或“*”表示,其逻辑表达式为:A*B 或A and B如:山株萸的药用价值(山株萸*药用价值)逻辑“与”起到缩小检索主题范围的作用,用逻辑“与”组构的检索词越多,检索范围越小,专指性越强,有助于提高查准率。第26页/共53页布尔逻辑运算逻辑“或”,用于两个或两个以上概念之间的并列关系运算,表示概念的相加,其含义是检出的结果中只需满足检索项中的任何一个或同时满足即可。用符号“or”或“+”表示,其逻辑表达式为:A or B或 A+B 如:数据挖掘在图书馆工作中的应用 图书馆*(数据挖掘+知识发现)逻辑“或”主要用来其组配表达相同概念的检索词,如同义词、近义词、相关词等,以提高查全率。第27页/共53页布尔逻辑运算逻辑“非”,是具有概念删除关系的一种组配,可从原检索范围中剔除一部分不需要的内容,即检出的记录中只能含有NOT算符前的检索词,不能同是含有其后的检索词。用符号“not”或“-”,其逻辑表达式为:A not B或 A-B如:非儿童的心理测试 心理测试 -儿童 逻辑“非”缩小了检索范围,提高了检索的专指度。第28页/共53页截词运算 截词运算就是用一个词的局部作为检索标识进行信息检索,只要信息存储系统中有信息的标识符能和这个“局部”匹配,那么这个信息就为命中信息。截词运算是通过在检索词的词干上加一个截词符号,以表示对该词的各种词性的完整词进行检索。使用截词符具有布尔逻辑运算符“OR”的功能,能扩大检索范围,同时还可以减少输入检索词的误差,它是提高查全率,防止漏检的有力手段。第29页/共53页截词运算的基本形式后截断:或称右截断,也称前方一致。它是将截词符放在一串字符的后面,用以表示查找以相同字符串开头,而结尾不同的所有检索词。如:comput?表示computer、computers、computing、computation等。前截断:或称左截断,也称后方一致。它是将截词符放在一串字符的前面,用以表示查找以相同字符串结尾,而开头的前缀不同的所有检索词。如:?computer表示minicomputer、microcomputer等中截断:也称前后一致、中间屏蔽符,是一种用截词屏蔽词中不同字符的方法。如“woman”和“women”,可用“wom?n”代替;“defence”和“defense”可用“defen?e”代替。第30页/共53页截词运算包括有限截词和无限截词有限截词一个截词符只代表一个字符如:wom*n 可检索出:woman、women(中间截断)chip?可检索出:chips(右截断)无限截词一个符号可代表任意多个字符如:comput$可检出:Computer、computers、computering注:不同的数据库所用的截词符不一样,使用应先查一下各数据库的帮助加以确认 第31页/共53页位置运算 位置运算符是指表示词与词之间位置关系的符号。位置运算符的作用是对复合检索词进行加工修饰,限制词与词之间位置关系,弥补了布尔逻辑算符只是定性规定检索词的范围,可提高检索结果的查准率。常用的位置运算符主要有:(W),(nW),(N),(nN),(S),(F),(C),(L)等,其表达形式因检索系统而异。第32页/共53页邻接检索:表明两或多个检索词之间关系的符号常用的位置算符有:W、nW、N、nN(W):with的缩写,表示该运算符两侧的检索词相邻,且两者之间仅允许有一下空格或标点符号,不能有任何其它字、词,且两词间顺序不能颠倒。如:CD(W)ROM,可检出“CDROM”,“CD_ROM”等(nW):n words的缩写,表示算符两侧的检索词之间允许插入0-n个实词或系统禁用词,两词词序不可变。如:智能机器人(3W)控制,可检出“智能机器人控制”,“智能机器人行为控制”等(N):near的缩写,表示算符两侧的检索词必须紧密相连,两词词序可变,词间允许插入空格或标点符号,但不能插入其它字词 如:computer(N)network,可检出“computer network”,“network computer”(nN):表示算符两侧的检索词之间允许插入0-n个实词或系统禁用词,两词词序可变。如:智能机器人(3N)控制,可检出“智能机器人控制”,“.控制算法对智能机器人的影响”等第33页/共53页位置运算同句检索:要求参加检索运算的两个检索词必须在同一自然句中出现。位置运算符:(S)sentence同字段检索:对同句检索条件进一步放宽,可以使用同字段检索。位置运算符为:(F)field第34页/共53页限制运算限制运算 限制运算是通过限制检索范围,达到优化检索结果的方法。检索方式主要有限定字段检索和限定范围检索两种。第35页/共53页限制运算限制运算 1、字段限制也称检域限制,限定字段检索即是指定检索词只能在记录中某一具体的字段中出现,以达到缩小或约束检索结果的检索方法。数据库字段可分为表达文献内容特征的基本字段和表达文献外表特征的辅助字段两种。基本字段有:title(Ti)、Abstract(AB)、关键词(KW)、主题词(subject)等。辅助字段有:作者Author(AU)、作者单位(Affiliatin)、期刊名称Journal(JNSO)、出版年份Publication Year(PY)、出版国Country(CO)、文献类型Document Type(DT)、语种 Language(LA)等。如:题名=文物 and 作者=戴逸 第36页/共53页限制运算限制运算 2、限定范围检索是通过限制信息的检索范围,以达到优化检索的方法。通过使用限定符来限定检索范围。不同的检索系统略有不同,常通过使用的有:“:或-”-”指包含范围,如出版年=2006=2006:20122012、邮政区号ZIP=0210002199 ZIP=0210002199 “、=、=”=”如:PY=2008 PY=2008 即限定出版年份为20082008及以后的文献。LA=Chinese LA=Chinese 即限定原文语种为中文。文献类型限定:期刊论文、会议论文 、学位论文 、科技报告等。第37页/共53页第五节 信息检索的步骤 为了实现检索目标,我们需要制定的全盘计划和方案,包括分析课题,选择检索系统(数据库)、确定检索途径和检索词,并科学安排各词之间的位置关系、逻辑关系和查找步骤等。第38页/共53页信息检索的步骤信息检索的步骤1、分析待查课题2、选择检索工具(检索系统)3、确定检索途径和检索标识4、构建并提交检索提问式5、调整检索式,优化策略第39页/共53页分析待查课题通过对课题的分析,明确检索目的,从而确定检索需求。1.信息需求涉及的学科范围;2.课题所需信息的主题或主要内容,分解出具体明确的检索要点,明确哪些是主要概念,哪些是次要概念,并初步定出各要点的检索语逻辑组配关系;3.课题所需信息的类型,包括文献类型、载体类型、年限、地域、语种、著者、机构等;4.课题对查新、查准、查全的指标要求。第40页/共53页分析待查课题 了解某一理论、方法、设备、过程等的具体的片断的信息,以解决研究中的具体问,要求“准”。申请发明,申报成果奖励、鉴定科研成果以及立项查新,往往需要全面地收集某一主题范围的文献信息,这类课题具有普查追溯的特点,应着眼于“全”。了解某学科、理论、课题等最新进展和动态,则要检索最近的文献信息,强调“新”。如:对于大学生做学位论文来说,做课题前应充分了解一下本课题国内外的研究现状(即论文的综述部分),这时应对该课题进行较全面的检索,包括综述性的文章,要求全面;对于该课题的核心部分,即该课题所要解决的具体问题,创新的地方,则需要准,技术细节越细越好。第41页/共53页选择检索工具(检索系统)选择合适检索工具的前提是对信息资源有一个较全面的、清晰的了解,具体地说要对检索工具的以下情况都要有一个大概的了解。1、检索工具收录的信息范围,包括信息的学科范围、时间范围、地域范围、文种范围;2、检索工具收录的文献类型、数量以及更新(出版)周期等;3、检索工具所提供的检索途径、检索功能、服务方式及经济性等;4、检索出的信息与信息原文的关系 第42页/共53页选择检索工具(检索系统)1、注重平时的积累 2、不要盲目检索,应养成检索前了解一下数据库的习惯 3、注重与他人的交流 4、重视图书馆主页的资源 第43页/共53页确定检索途径和检索标识 分析出课题涉及的主要概念,将检索概念转化为检索词。检索词一般指反映课题概念的名词或名词性词组 (1)先从字面上将检索课题切分,再去除无检索意义的词语;如:适用于渔船的小型海水淡化设备的研发。可切分:渔船/小型/海水淡化设备/研发。去除重复与无意义的检索词后为“小型/海水淡化设备”或“渔船/海水淡化设备”。用切分法提取检索概念,可直接采用复合概念。如海水淡化设备;(2)将复合概念拆分为简单概念,再转化为检索词。如“海水淡化*设备”或“海水*淡化*设备”;(3)分析各概念之间的关系。如“网络资源的知识产权保护”可选“知识产权保护”和“网络资源”作为主题词。第44页/共53页确定检索途径和检索标识检索词选取时应注意的问题:尽可能地考虑其同义词、近义词、相关的词等,以保证查全率。具体有以下几种情况:同物异名:西红柿又称蕃茄,VC”VC”、“维生素C”C”、“抗坏血酸;全称与简称:计算机辅助设计简称为CAD(Computer Aided CAD(Computer Aided Design)Design);学名与俗名、植物和动物名的英文、拉丁名等;如:计算机与电脑、自行车与脚踏车,电力系统与电网;意译名与音译名:发动机与引擎,电动机与马达,激光器与镭射;相近词:设备与装置,低碳经济、绿色经济、循环经济,土地评价(land evalution land evalution)与土地评价(land assessment)land assessment)蒸发与蒸腾,固氮菌与根瘤菌,土地评价(land evalution land evalution)与土地评价(land assessment)land assessment),蒸发与蒸腾,气候与气温等。第45页/共53页确定检索途径和检索标识异地名:信息与资讯,投资基金与单位信托;一词多译:电网可译:power network electric network同一名词的单数、复数、动名词、过去分词等用截词解决。考虑上位概念与下位概念词:找不到课题对应的主题词时,可采用最近一级的上位词标引,当找到的内容太多时可用下位概念进行精确的定位。一词多义:如海绵 一般不选用动词、形容词、禁用词,少用或不用不能表达课题实质的高频词。如“分析”、“研究”、“应用”、“建立”、“方法”、“发展”、“设计”等。必须用时,应与能表达主要检索特征的词一起组配,或增加一些限制条件。第46页/共53页构建并提交检索表达式 检索表达式是信息检索中用来表达用户检索需求的逻辑表达式,由检索词和各种运算符以及系统规定的其他组配连接符号组成。检索表达式构建得是否合理,将直接影响查全率和查准率。第47页/共53页调整检索式,优化策略 检索结果内容较多,则要利用二次检索,进行缩检;如果检索结果太少,则要进行扩检;如果检索失败或结果与课题的相关度很小,则需要修改、调整检索策略。第48页/共53页调整检索式,优化策略 缩检:缩检是指开始的检索范围太大,命中文献太多,或查准率太低,需要增加查准率的一个方法。?核心概念的限定,减少同义词与同族相关词,使用规范化或专指度高的检索词;?语种的限定;?增加限制概念,采用逻辑“与”连接检索词;?使用字段限定,将检索词限定在某个或某些字段范围;?使用逻辑“非”算符,排除无关概念;?调整位置算符,由松变严。第49页/共53页调整检索式,优化策略 扩检:是指初始设定的检索范围太小,命中文献不多,需要扩大检索范围的方法。?概念的扩大,减少逻辑“与”的运算,丢掉一些次要的或者太专指的概念;?范围的扩大,去除某些字段限制;?增加同义词、近义词、相关词和缩略词,并用逻辑“或”将它们连接起来;?调整位置算符,由严变松,(w w)(F);(F);?年代的扩大;?换另外的数据库或是另外的光盘继续进行检索。第50页/共53页第51页/共53页第六节 检索效果评价 查全率:是指利用检索系统(工具)进行某一检索时,检出的相关信息记录量与信息检索系统数据库中实际相关信息总量的比率.查准率:是指利用检索系统(工具)进行某一检索时,检出的相关信息记录量与检出文献总量的比率 查全率查全率=实际检出的相关信息记录量实际检出的相关信息记录量信息检索系统中应有相关信息总量信息检索系统中应有相关信息总量X 100%X 100%查准率查准率=实际检出的信息记录总量实际检出的信息记录总量检出的相关信息记录量检出的相关信息记录量X 100%X 100%第52页/共53页感谢您的观看!第53页/共53页

    注意事项

    本文(第二章信息检索.pptx)为本站会员(莉***)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开