《信息检索策略与实例分析教学教材.ppt》由会员分享,可在线阅读,更多相关《信息检索策略与实例分析教学教材.ppt(42页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第第10章章信息检索策略与实例信息检索策略与实例(shl)分析分析第一页,共42页。主要(zhyo)内容v10.1 10.1 漏检误检的原因分析及漏检误检的原因分析及对策对策v10.2 10.2 检索检索(jin su)(jin su)策略的策略的调整调整v10.3 10.3 信息检索信息检索(jin su)(jin su)综综合利用案例合利用案例第二页,共42页。LOGO10.1 漏检误检的原因(yunyn)分析及对策第三页,共42页。LOGO分析课题分析课题选择检索系统选择检索系统制定检索策略制定检索策略获取原始文献获取原始文献文献阅读与分析评价文献阅读与分析评价查找文献线查找文献线索索调
2、整检索策略调整检索策略调整课题方向调整课题方向信息检索步骤信息检索步骤第四页,共42页。LOGO10.1.1 课题(kt)分析不透 课题分析是一切课题分析是一切(yqi)(yqi)后续检索的基础。后续检索的基础。分析课题首选手册、百科全书、专著等三次文献作为分分析课题首选手册、百科全书、专著等三次文献作为分析手段。析手段。它们是该领域的学术专家和权威对以往研究的总结,它们是该领域的学术专家和权威对以往研究的总结,既有高度又有深度和广度,让人对该领域的研究有一种全既有高度又有深度和广度,让人对该领域的研究有一种全局的了解和把握,同时可以对背景知识和相关名词术语作局的了解和把握,同时可以对背景知识
3、和相关名词术语作全面的了解。全面的了解。在此基础上去查询新的文献,站得就比较高,既能见到在此基础上去查询新的文献,站得就比较高,既能见到树木又能见到森林。树木又能见到森林。第五页,共42页。LOGO对新课题的了解越多,所走的弯路对新课题的了解越多,所走的弯路(wnl)(wnl)越少。越少。课题内涵的透彻分析课题内涵的透彻分析 例例1 1:检索:检索“乙醇的分离乙醇的分离”文献文献检索策略检索策略1 1:“乙醇乙醇AND AND 分离分离”漏检漏检检索策略检索策略2 2:“乙醇乙醇AND AND(分离分离OR OR 提纯提纯OROR纯化纯化)”)”更全更全 第六页,共42页。LOGO 例例2:检
4、索检索“垃圾处理方面垃圾处理方面”文献文献(wnxin)“处理处理”一词隐含着一词隐含着“回收回收”、“再生再生”等具体的处理方法。等具体的处理方法。第七页,共42页。LOGO提示与技巧提示与技巧 检索词没有表达出课题的隐含概念,是造成检索词没有表达出课题的隐含概念,是造成漏检的重要原因。漏检的重要原因。要透过表面的、显性的表达词,找出隐含概要透过表面的、显性的表达词,找出隐含概念的表达词是需要相当念的表达词是需要相当(xingdng)专业知识专业知识的,而有些专业知识又需要通过文献检索和的,而有些专业知识又需要通过文献检索和阅读后才能获得,这就是检索策略不能一蹴阅读后才能获得,这就是检索策略
5、不能一蹴而就的根本原因。而就的根本原因。第八页,共42页。LOGO10.1.2 检索检索(jin su)词概念过大或过小词概念过大或过小课题课题(kt)内容的准确定位内容的准确定位 概念不能太大也不能太小概念不能太大也不能太小 主题概念的范畴太大造成大量没用的文献被误主题概念的范畴太大造成大量没用的文献被误检。检。太小造成重要的的文献被漏检。太小造成重要的的文献被漏检。第九页,共42页。LOGO例例1:“煤脱硫的最新工艺与技术煤脱硫的最新工艺与技术”若用若用“煤脱硫煤脱硫”作为主题概念,有作为主题概念,有1000多篇多篇概念太大。概念太大。选择选择(xunz)更具体的概念更具体的概念“微波煤微
6、波煤脱硫脱硫”,有有10多篇多篇概念定位恰当。概念定位恰当。第十页,共42页。LOGO例例2:“论企业生产线的优化论企业生产线的优化”检索词:检索词:“企业生产线企业生产线”与与“优化优化”,检,检索到的文献索到的文献(wnxin)很少很少 分析:概念定位太小,所谓企业生产线的分析:概念定位太小,所谓企业生产线的优优化,实际上是有关运用计算机系统管理生产化,实际上是有关运用计算机系统管理生产线的问题。线的问题。答案:答案:“企业生产线企业生产线OR 生产线生产线”与与“计算计算机系统机系统”第十一页,共42页。LOGO提示与技巧提示与技巧 概念是太大还是太小要视检索结果而概念是太大还是太小要视
7、检索结果而定,不断调整的。定,不断调整的。概念太大可以利用概念太大可以利用(lyng)逻辑运算逻辑运算加以限制,比较容易。加以限制,比较容易。而概念太小要变大,需要较多的专业而概念太小要变大,需要较多的专业知识。知识。上下位概念的替换是调整检索策略的上下位概念的替换是调整检索策略的一种好方法。一种好方法。第十二页,共42页。LOGO10.1.3 选择(xunz)的检索词过多多主题概念的选词以多主题概念的选词以“简简”为主为主 一课题是由一课题是由A A、B B、C C、D D、E E多个主题组合而成。若多个主题组合而成。若A A、B B、C C、D D、E E其中之一的检索其中之一的检索(ji
8、n su)(jin su)结果为零,结果为零,则检索则检索(jin su)(jin su)结果结果A*B*C*D*E=0A*B*C*D*E=0。解决办法:以必须使用的关键词为核心词解决办法:以必须使用的关键词为核心词例例1 1:课题:课题“利用基因工程的手段提高植物中淀利用基因工程的手段提高植物中淀粉的含量粉的含量”检索检索(jin su)(jin su)策略:策略:“基因工程基因工程”AND“”AND“植物植物”AND“”AND“淀粉淀粉”AND“”AND“含量含量”检索检索(jin su)(jin su)结果为零结果为零第十三页,共42页。LOGO 分析:主题词过多 答案:首先抓住最能反映
9、课题主题概念的词作为检索词,其他各词视检索结果(ji gu)决定取舍,对于本课题,只有2个主题概念最为关键-“基因”AND“淀粉”。“最专指面优先”原则(Most Specific FaceFirst)第十四页,共42页。LOGO10.1.4 布尔逻辑(lu j)运算符使用不当逻辑检索式的正确使用:逻辑检索式的正确使用:课题:城际列车振动对周围环境的影响课题:城际列车振动对周围环境的影响对此课题进行分析对此课题进行分析(fnx),确定关键词为:,确定关键词为:“铁路铁路”/“列车列车”/“轨道轨道”/“交通交通”、“振振动动”/“动力动力”。第十五页,共42页。LOGO采用的检索词如下采用的检
10、索词如下(rxi)(rxi):铁路:铁路:RailwayRailway轨道:轨道:RailRail、TrackTrack交通交通:Traffic:Traffic、TrafficalTraffical列车:列车:TrainTrain振动:振动:VibrationVibration、VibrationsVibrations动力:动力:dynamicdynamic、dynamicaldynamical检索检索(jin su)式如下:式如下:(Rail*orTrain*orTraffic*orTrack*)and(Vibrat*ordynamic*)检索检索(jin su)字段:字段:“Title”o
11、r“Keywords”or“Abstract”第十六页,共42页。LOGO先组合第一和第二先组合第一和第二个检索框的检索词,个检索框的检索词,后再与第三个检索后再与第三个检索框进行组合。框进行组合。先组合第一和第二个先组合第一和第二个检索框的检索词,后检索框的检索词,后再与第三个检索框进再与第三个检索框进行组合。行组合。第十七页,共42页。LOGO先组合先组合“vibrat*”和和“traffic*”进行检索进行检索(jin su),然后与,然后与“rail*”进行检索进行检索(jin su),把,把同义词同义词“traffic*”和和“rail*”的检索的检索(jin su)隔开了,不符合检
12、索隔开了,不符合检索(jin su)策略。策略。第十八页,共42页。LOGO将给出的检索(jin su)式在Quick Search中实现:小建议:当遇到多于三个检索词小建议:当遇到多于三个检索词的多种组配检索时,可以采用的多种组配检索时,可以采用(ciyng)专家检索。专家检索。在Quick Search检索中,注意三个检索框的检索组合顺序:先组合第一检索框和第二检索框的检索词,然后再与第三(d sn)检索框的检索词。在同义词或相关词组合检索、并有多个主题进行组配检索时,尤其要注意检索框的输入顺序。第十九页,共42页。LOGO10.1.5 人机“语言(yyn)”不一致自由语言与数据库标引语言
13、的对应自由语言与数据库标引语言的对应 自由语言自由语言A-检索者所用的词,往往检索者所用的词,往往(wngwng)较随意,较随意,“想当然想当然”数据库标引语言数据库标引语言B-已固定存储于计算已固定存储于计算机中,一般较规范机中,一般较规范 若若A B,“对话对话”不成功,检索结果不成功,检索结果为为第二十页,共42页。LOGO 自由词:维生素C(vitaminC);标引词:抗坏血酸(ASCORBIC ACID)“超分子”自由词(直译):super molecular;标引词:macro molecular 例如:检索“六行程(xngchng)发动机”的资料,把“六行程(xngchng)”作
14、主题词时,就不能找到相关资料,而用六冲程作为主题词就可以找到。第二十一页,共42页。“标引词标引词”是用以描述文献内容特是用以描述文献内容特征的词和词征的词和词组,由专业标引人员抽选出的,经过组,由专业标引人员抽选出的,经过规范处规范处理,可以避免理,可以避免(bmin)漏检。漏检。“自由词自由词”检索方便,但会导致漏检索方便,但会导致漏检,需要把检,需要把所有同义词考虑齐全,才能避免所有同义词考虑齐全,才能避免(bmin)漏检。漏检。第二十二页,共42页。LOGO10.1.6 没有选择合适(hsh)的检索途径 正确选择检索途径正确选择检索途径 对检索途径的选择,遵循对检索途径的选择,遵循“宽
15、进严出宽进严出”的原的原则,并根据检索结果的多少来调整途径。则,并根据检索结果的多少来调整途径。注意题名、关键词、文摘等字段在检索注意题名、关键词、文摘等字段在检索结果中的差异结果中的差异(chy)。若检索结果多了,可使用篇名途径;少了,若检索结果多了,可使用篇名途径;少了,则使用全文途径。则使用全文途径。灵活运用灵活运用“文献类型文献类型”字段字段 第二十三页,共42页。LOGO10.1.7 对数据库不熟悉对数据库不熟悉(shx)正确选择检索系统正确选择检索系统 检索工具种类繁多,各具特色,它们收录检索工具种类繁多,各具特色,它们收录的文献学科、类型、国别、语种范围均各的文献学科、类型、国别
16、、语种范围均各有侧重。应根据课题的特点选择检索工具。有侧重。应根据课题的特点选择检索工具。EiEi偏重工程,不报道纯理论,会议论文收偏重工程,不报道纯理论,会议论文收录得多,是世界录得多,是世界(shji)(shji)四大文献索引之一。四大文献索引之一。SCISCI则收录涵盖所有学科、侧重基础理论则收录涵盖所有学科、侧重基础理论研究方面的文章,它的文献品位高,可信研究方面的文章,它的文献品位高,可信度大,并可以对文章的水平、著者的学术度大,并可以对文章的水平、著者的学术水平作出评价,寻找热点课题等等。水平作出评价,寻找热点课题等等。第二十四页,共42页。LOGO 不同数据库有各自的规则,姓名、
17、分子式、不同数据库有各自的规则,姓名、分子式、各种符号的写法,检索框的检索顺序均不尽相各种符号的写法,检索框的检索顺序均不尽相同,如果不了解就会造成很大的漏检误检。如同,如果不了解就会造成很大的漏检误检。如逗号,括号,连字符逗号,括号,连字符“-”应该用半角(俗称英应该用半角(俗称英文符号),若用了全角(俗称中文符号),就文符号),若用了全角(俗称中文符号),就会检索不到会检索不到(b do)。注意:注意:PQDD是国外博硕士论文数据库,检索是国外博硕士论文数据库,检索词用词用“英文英文”,而非,而非“中文中文”。第二十五页,共42页。LOGO10.2 检索(jin su)策略的调整第二十六页
18、,共42页。LOGO检索策略检索策略(cl)与文献检索和阅读的与文献检索和阅读的关系关系第二十七页,共42页。LOGO制定检索策略制定检索策略-查全查准的关键查全查准的关键 好的检索策略不是一蹴而就的,而是好的检索策略不是一蹴而就的,而是“与与时俱进时俱进”的!的!“变变”是检索策略永恒的主题。它会随着是检索策略永恒的主题。它会随着对课题对课题(kt)理解的深入而改变,理解的深入而改变,“检索检索阅读阅读策策略修改略修改再检索再检索”,不断调整,不断完善。,不断调整,不断完善。第二十八页,共42页。LOGO查找和筛选文献线索查找和筛选文献线索-提高查全查准率提高查全查准率 当经历了前面一系列检
19、索得到结果时,当经历了前面一系列检索得到结果时,通过阅读通过阅读(yud)文摘,往往会发现检索结果并不文摘,往往会发现检索结果并不尽如人意,或相关性较差,或检索结果太尽如人意,或相关性较差,或检索结果太多或太少,这时需要进一步调整检索策略多或太少,这时需要进一步调整检索策略了。了。第二十九页,共42页。LOGO10.2.1 检索结果相关性差检索结果相关性差 解决方案:重新分析课题,找出隐含解决方案:重新分析课题,找出隐含(yn hn)在课题在课题题名后面的相关检索词。题名后面的相关检索词。方法:先从检索结果中选出你认为相关性高的几篇文方法:先从检索结果中选出你认为相关性高的几篇文献线索,得到它
20、们的原文,然后研读,找出它们所表献线索,得到它们的原文,然后研读,找出它们所表达的关键词,然后再用这些关键词去检索。达的关键词,然后再用这些关键词去检索。第三十页,共42页。LOGO10.2.2 检索结果太多检索结果太多 原因原因1:主题、检索词、检索入口过于宽泛导致:主题、检索词、检索入口过于宽泛导致误检,例如直接用误检,例如直接用“金属玻璃金属玻璃”、“燃料电池燃料电池”、“微波陶瓷微波陶瓷”等宽泛的概念查文献,解决方法是进等宽泛的概念查文献,解决方法是进一步了解课题背景,明确一步了解课题背景,明确(mngqu)研究定位;研究定位;原因原因2:主题词本身的多义性导致误检,例如,:主题词本身
21、的多义性导致误检,例如,使用邻苯二甲酸二壬酯的缩写使用邻苯二甲酸二壬酯的缩写“DNP”作为检索词作为检索词检索,结果找出的文献含有检索,结果找出的文献含有“DNP邻苯二甲酸二壬邻苯二甲酸二壬酯酯”、“DNP动态核极化动态核极化”、“DNP糖尿病患者糖尿病患者”、“DNP防老剂防老剂”和和“DNP表面活性剂表面活性剂”等多种内容;等多种内容;第三十一页,共42页。LOGO 原因(yunyn)3:检索词的截词过短造成。例如,使用“Cata*”检索“Catalyst,使用“Prep*”检索“Preparation”,都会造成误检。(截词的原则是截到词根,如CatalystCatalys*;Prepa
22、rationPrepar*)。第三十二页,共42页。LOGO 原因4:词组没有用精确检索造成。利用双引号“”实现对词组的精确检索。例检索solar energy这个主题,没有加双引号“”,则代表是普通检索,只要检索字段中出现solar 和energy便符合检索要求,不管(bgun)这两个词出现的次序怎样;若加双引号“”则表示solar必须在前,energy必须紧跟其后才符合。第三十三页,共42页。LOGO检索结果太多检索结果太多细化检索,缩小检索范围细化检索,缩小检索范围 提高检索词的专指度,选用下位词或专指性较强的自提高检索词的专指度,选用下位词或专指性较强的自由词检索。由词检索。将检索词的
23、检索范围限定在篇名、主题词、关键词字将检索词的检索范围限定在篇名、主题词、关键词字段,或进行出版时间、语种、文献类型等的限定。段,或进行出版时间、语种、文献类型等的限定。用用NOT算符排除无关的术语和词组。算符排除无关的术语和词组。把增加的概念,用把增加的概念,用AND算符加入检索式中。算符加入检索式中。浏览浏览(li ln)部分中间检索结果,从检出的记录中选部分中间检索结果,从检出的记录中选取新的检索词对中间结果进行限制。取新的检索词对中间结果进行限制。第三十四页,共42页。LOGO10.2.3 检索结果检索结果(ji gu)太少太少 原因原因1:选用了不规范的主题词或某些产品的俗称、:选用
24、了不规范的主题词或某些产品的俗称、商品名作为检索词。例如:没有使用商品名作为检索词。例如:没有使用“表面活性剂表面活性剂”而使用了商品名称而使用了商品名称“迪恩普迪恩普”,都会造成漏检。,都会造成漏检。原因原因2:同义词不全例如,查找:同义词不全例如,查找“品牌品牌”时,没有时,没有考虑到考虑到“名牌名牌”、“牌号牌号”以及以及“商标商标”等检索词。等检索词。第三十五页,共42页。LOGO 原因原因3:没有综合考虑检索词的上位概念或下:没有综合考虑检索词的上位概念或下位概念。例如位概念。例如(lr),“燃料燃料”是上位概念,是上位概念,下位概念可以有下位概念可以有“固体燃料固体燃料”,“液体燃
25、料液体燃料”,“气体燃料气体燃料”,甚至还有,甚至还有“煤煤”,“油油”,“煤气煤气”,“天然气天然气”等,这些概念在查找等,这些概念在查找“燃料燃料”时,都应该加以考虑。时,都应该加以考虑。第三十六页,共42页。LOGO检索结果检索结果(ji gu)为零为零 原因原因1:对数据库的检索规则运用错误。譬如逻辑:对数据库的检索规则运用错误。譬如逻辑算符、通配符、中英文符号(半角全角)等问题,算符、通配符、中英文符号(半角全角)等问题,每个数据库有不同的要求。在欧洲专利中,检索不每个数据库有不同的要求。在欧洲专利中,检索不出带逗号和短横的分子式如出带逗号和短横的分子式如1,3-Propanedio
26、l,但在,但在Ei中却能将其检索出来。中却能将其检索出来。第三十七页,共42页。LOGO 原因2:确实没有相关文献。但不能因为检索篇数为零而放弃对相关内容的查找。必要(byo)时可以将课题拆分,各自查找。例如,课题是关于“膜乳化”,但在超星图书馆中检索不到“膜乳化”的书籍,于是将“膜乳化”拆成“膜”和“乳化”分别检索,发现有很多有用的三次文献。第三十八页,共42页。LOGO检索结果太少检索结果太少扩展检索范围扩展检索范围 对已确定的检索词进行其同义词、同义的相关词、对已确定的检索词进行其同义词、同义的相关词、缩写和全称检索,保证文献的查全率,防止漏检。缩写和全称检索,保证文献的查全率,防止漏检
27、。利用系统的助检手段和功能。有的系统提供利用系统的助检手段和功能。有的系统提供(tgng)树形词表浏览,树形词表浏览,使我们可以用规范词、相关词、更广义使我们可以用规范词、相关词、更广义的上位词进行扩展。的上位词进行扩展。降低检索词的专指度,选用上位词或相关词检索。降低检索词的专指度,选用上位词或相关词检索。选用在所有字段或文摘字段中检索。选用在所有字段或文摘字段中检索。去除文献类型、年份、文种等文献外表特征的限定。去除文献类型、年份、文种等文献外表特征的限定。删除检索策略中某一次要概念。删除检索策略中某一次要概念。用用OR算符把增加的同义词或相关词连接起来。算符把增加的同义词或相关词连接起来
28、。利用截词。利用截词。选择更合适的数据库进行查找。选择更合适的数据库进行查找。第三十九页,共42页。LOGO10.3 信息检索综合利用(znghlyng)案例第四十页,共42页。LOGO例:某同学在实验中要求利用气相燃烧合成例:某同学在实验中要求利用气相燃烧合成(hchng)的方的方法在陶瓷膜衬底上涂一层膜,但苦于不知道如何确定实验条法在陶瓷膜衬底上涂一层膜,但苦于不知道如何确定实验条件件 解决办法:到别人的研究工作中去寻找答案。通过对国内外文献的检索,得到两篇比较有价值的文献,一是丹麦研究者Thybo S于2004年4月发表在Journal of Catalysis上的Flame spray
29、 deposition of porous catalysts on surfaces and in microsystems(简称文章1),另一篇(y pin)为发表在某大学学报上的SnO2薄膜的喷涂法制备(简称文章2)。这两篇文章采用的涂膜方法十分类似,都是一种热喷涂的方法,其中都有关于衬底温度控制的论述。而两个作者却有两种完全不同的看法,文章1的作者认为:“衬底的温度高一些较好,喷涂前最好对衬底进行一下加热”,文章2的作者却认为“衬底的温度低一些更有利于提高喷涂效果”。第四十一页,共42页。LOGO那么到底衬底的温度那么到底衬底的温度(wnd)是高好还是低好呢?是高好还是低好呢?在这种情况下,就要用文章的被引次数以及(yj)文章所发表的期刊影响因子来分析。文章1的被引次数为1次,由于检索这篇文章的时间与文章发表的时间仅相关半年,所以用引用次数还难以判断。Journal of Catalysis的影响因子为3.276,在此领域应该还是比较高的,而某大学学报目前还没有被SCI收录,因此更倾向于认可发表在Journal of Catalysis杂志上那篇作者的观点。第四十二页,共42页。
限制150内