《计算机检索技术.ppt》由会员分享,可在线阅读,更多相关《计算机检索技术.ppt(39页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第五章计算机信息检索的基本技术与方法一、计算机信息检索的基本技术:一、计算机信息检索的基本技术:布尔逻辑、截词检索、字段检索,位置算符布尔逻辑、截词检索、字段检索,位置算符等等。在进行计算机检索时,有时有一些比较复杂在进行计算机检索时,有时有一些比较复杂的课题,如:的课题,如:“GPSGPS在建筑中的应用在建筑中的应用”,既涉及,既涉及GPSGPS,又涉及建筑,还有又涉及建筑,还有“应用应用”,这时候就要,这时候就要编制出满足要求的计算机检索式,它是机检的基编制出满足要求的计算机检索式,它是机检的基础。础。1 1布尔逻辑检索布尔逻辑检索(Boolean Logic Boolean Logic
2、RetrievalRetrieval)逻辑检索的基础是逻辑运算,逻辑运算逻辑检索的基础是逻辑运算,逻辑运算中最常用的是布尔逻辑运算符(中最常用的是布尔逻辑运算符(Boolean Boolean Logic OperatorsLogic Operators),即与、或、非三种运即与、或、非三种运算符号,算符号,用它们可以表示概念之间的逻辑用它们可以表示概念之间的逻辑关系。关系。检 索 要求逻辑检索 课题 表达式 检 索 结果概念相交、限定 AND与*计算机用于制图 A BA AND BA*B 缩小检索范围提高查准率 概念平行、并列 OR或+土地管理与土地利用 A B A OR B A+B扩大检索
3、范围提高查全率 某一主题去掉一部分相关主题 NOT非-除光电测距以外的 A 电磁波测距 BB NOT AB-A提高查准率 布尔逻辑(Boolean Logic)“与”(“AND”)、“或”(“OR”)、“非”(“NOT”)A and B and CA or B or CA and B not C2 位置算符位置算符(Proximity Operators)位置算符是表示检索词之间位置关系的一种运位置算符是表示检索词之间位置关系的一种运算符。由于英文对一句话有多种表达方法,写法可算符。由于英文对一句话有多种表达方法,写法可能不同。如:能不同。如:“GPS在铁路桥研究中的应用在铁路桥研究中的应用”
4、这个课这个课题,用英文表达可能是题,用英文表达可能是“Using of GPS in Railway Bridge”,也可能是也可能是“Using of GPS in Bridge of Railway”,因而可能编制出这样的检索式,因而可能编制出这样的检索式,GPS AND(Railway(2N)Bridge)我们可以通过位置检索提高检索的准确率以以Dialog系统为例:系统为例:(1)(W)算符与算符与(nW)算符算符 W 是是word与与 with的的缩写。缩写。特点:特点:W词序不变,中间不可插词,但两词间可词序不变,中间不可插词,但两词间可有一个标点,连字符或空格。有一个标点,连字符
5、或空格。nW词序不变,中间可插入词序不变,中间可插入N 个词。个词。如:如:potential(w)energy可能检出可能检出potential energy and function 又如:又如:gone(2w)wind 可能检出可能检出gone with the wind(2)(N)与与(nN)算符算符 N是是near的缩写的缩写 特点:特点:N词序不限,中间不可插词,但两词序不限,中间不可插词,但两词间可有一个标点,连字符或空格。词间可有一个标点,连字符或空格。nN词序不限,中间可插入词序不限,中间可插入N 个词。个词。如:如:econom?(2N)recovery可能检出可能检出ec
6、onomic recovery,recovery of the economy,(3)同字段检索)同字段检索A(F)B,F是是field的缩写。的缩写。特点:特点:A、B两词必须出现在同一字段中,两词必须出现在同一字段中,词序与词量不限。词序与词量不限。如:如:environment(F)impact/DE,表示两个表示两个词必须同时出现在叙词字段内。词必须同时出现在叙词字段内。(4)同句检索同句检索A(S)B,S是是sentence的缩写的缩写。特点:特点:A、B出现在同一自然句中(子字段),出现在同一自然句中(子字段),其词序与词量不受限制。其词序与词量不受限制。如:如:electric(
7、S)plant可检出可检出electric power plants如:如:EI中的中的NEAR;PQDD中的中的W/n(两词间距小两词间距小于于n个单词,且前后位置任意个单词,且前后位置任意),Pre/n(两词间距两词间距小于小于n个单词,且前后位置一定个单词,且前后位置一定)3 3截词算符截词算符(Truncating operators)Truncating operators)在英语词汇中,一个词可能有多种在英语词汇中,一个词可能有多种形态,如词的单、复数形式的不同,英形态,如词的单、复数形式的不同,英美拼写方法不同、词性不同等。如果检美拼写方法不同、词性不同等。如果检索时将这类词全部
8、输入进去,会增加检索时将这类词全部输入进去,会增加检索时间和费用,采用截词法可解决这一索时间和费用,采用截词法可解决这一问题。问题。所谓截词检索,是指在检索标识中保留相所谓截词检索,是指在检索标识中保留相同的部分,用相应的截词符代替可变化部同的部分,用相应的截词符代替可变化部分。检索中计算机会将所有含有相同部分分。检索中计算机会将所有含有相同部分标识的记录全部检索出来。常用标识的记录全部检索出来。常用“?”、“*”符号表示。符号表示。(1)有限截词)有限截词。即在检索词后后截几个有限的。即在检索词后后截几个有限的字母,如名词的单复数,动词的词尾变化等。字母,如名词的单复数,动词的词尾变化等。如
9、输入如输入computer?表示有表示有0-1个字母变化,可个字母变化,可检出检出computer和和computers.输入输入stud?表示截断处有表示截断处有0-3个字母变化,个字母变化,可检出可检出study,studies,studied,studing.(2)无限截断)无限截断:在检索词后加一个:在检索词后加一个“?“,表示该词后可加任意个字符。使用无限,表示该词后可加任意个字符。使用无限截词,所截词根不能太短,否则会输出许截词,所截词根不能太短,否则会输出许多无关文献,造成误检。多无关文献,造成误检。如:如:computer?可检出可检出computers,computering
10、,computered,computerization.(3)中间截断中间截断:在检索词中间加一个或:在检索词中间加一个或几个?号,主要解决一些英美拼写不同,几个?号,主要解决一些英美拼写不同,单复数形式的不同的词的输入,可简化单复数形式的不同的词的输入,可简化输入。输入。如:输入如:输入wom?n可检出可检出 woman,women各种算符在数据库中的实际应用各种算符在数据库中的实际应用位置算符位置算符1)EI NEAR Bridge NEAR Piling*表示这两个词要彼此接近,前后顺序不限。W/n Pig*W/2pine*表示两个词的距离不能超过n个单词Adj Channel adj
11、tunnel表示含有这两个词,两个词相邻,位置一定2)ISI Proceedings 用同句算符(SAME):如如Channel same Channel same tunneltunnel,表示表示channel channel 和和tunnel tunnel 出现在同一句子中才出现在同一句子中才符合检索条件。符合检索条件。3)CSA:within X“表示两词之间不得多于x个词,前后位置任意 如“women within 8 movement”(顺序不定)4)Elsevier:ADJ表示两词相邻,前后顺序固定,与词检索的结果相同;NEAR或NEAR(N),表示两词相邻,中间可插入少于或等于
12、n个单词,前后顺序可以发生变化,如果不使用(N),系统默认值为10 5)PQDD W/n(两词间距小于两词间距小于n个单词,且前后位置个单词,且前后位置任意任意),Pre/n(两词间距小于两词间距小于n个单词,且前个单词,且前后位置一定后位置一定)6)ProQuest W/n(表示连接两个词之间可以插表示连接两个词之间可以插入入n个词个词,前后位置可颠倒),前后位置可颠倒)如:如:Education w/5 intenet 表示表示education和和internet之间可以插入之间可以插入5个词个词,并且前后位置可以颠倒。,并且前后位置可以颠倒。Pre/n(表示前后两词之间最多插入表示前后
13、两词之间最多插入n个词,前后位置一定个词,前后位置一定)如:如:U.S pre/n economic policy可可检出检出U.S aideconomic policy,or U.S wartime economic policy。截词符或通配符如:如:CSAISI ProceedingsProQuestCAISI ProceedingsProQuestCA用用通配符通配符“?”和截词符和截词符“*”“*”输入输入“patent*”patent*”,可以检索到可以检索到 patentpatent、patents、patentedpatented等,(无限截断)等,(无限截断)输入输入 wom
14、?nwom?n,可以检索到可以检索到womanwoman和和womenwomen。输入输入“fib?”fib?”,可检索到可检索到fiberfiber和和 fibrefibre。(。(有限有限截断)截断)EIEI用用“*”“*”和和“$”(“$”(词根算符词根算符)如:Optic*Optic*检索结果中包括以检索结果中包括以optic optic 开头后面加开头后面加任意任意多个字母的词例如多个字母的词例如optic,optics,optical optic,optics,optical 等等$managermanager(强调语义)检索出与该词根具强调语义)检索出与该词根具有同样语意的词如有
15、同样语意的词如$manage manage 将检出将检出managers,managerialmanagers,managerial 和和management management 等词等词 通配符不能用在检索词的最前面通配符不能用在检索词的最前面4 4括号检索(括号检索(ParenthesesParentheses)用于改变运算的先后次序,括号内的内容做优用于改变运算的先后次序,括号内的内容做优先运算。先运算。用用“()”可以表示优先级。如比较可以表示优先级。如比较 (GPSORGIS)ANDChina GPSORGIS ANDChinaEI 中的表示方法:中的表示方法:Relevance
16、AND(Aalbersberg WN AU)OR(cool WN AU)5 5、字段限制检索字段限制检索 组成数据库的最小单位是记录,一条完整记录中的组成数据库的最小单位是记录,一条完整记录中的每一个著录事项为字段。献书目型数据库的记录基本每一个著录事项为字段。献书目型数据库的记录基本包括下列字段:包括下列字段:(1)存取号字段(存取号字段(AN,Access NumberAN,Access Number)这是计算这是计算机检索系统为每个数据库的每篇记录规定的能被计算机检索系统为每个数据库的每篇记录规定的能被计算机识别的特定号码。在同一数据库中,每篇文献记录机识别的特定号码。在同一数据库中,每
17、篇文献记录只有一个存取号;只有一个存取号;(2)篇(题)名字段(篇(题)名字段(Title Field,/TITitle Field,/TI)(3)文摘字段(文摘字段(Abstract Field,/AB)Abstract Field,/AB)(4)叙词字段或受控词字段(叙词字段或受控词字段(Destriptor Field,Destriptor Field,/DE;/DE;或或 Controlled term Field-SU)Controlled term Field-SU)这一字段是标这一字段是标引人员给文献标引的反映其主题概念的词,这些引人员给文献标引的反映其主题概念的词,这些词来自规
18、范化的词表。也称主题词。词来自规范化的词表。也称主题词。(5)自由词字段或非受控词字段(自由词字段或非受控词字段(Identified Field,/ID;Keyword Field,/KW;Uncontrolled term Field)这一字段也是标引人员给文献标引反这一字段也是标引人员给文献标引反映其主题概念的词,但这些词不是规范化词表中映其主题概念的词,但这些词不是规范化词表中的词。的词。(6)著者子段(著者子段(Author,AU)(7)著者机构子段(著者机构子段(corporate source,CS或或Afflication,AF)(8)刊名字段(刊名字段(journal,JN或
19、或ST)(9)出版年子段(出版年子段(publication,year,PY)(10)文献类型子段(文献类型子段(ducument type,DT或或TY)(11)语种子段(语种子段(language,LA)(12)分类号子段(分类号子段(classification,CC)使用作者检索时应注意姓名的书写形式使用作者检索时应注意姓名的书写形式:v在在CPCI中,姓前(全称)中,姓前(全称)名后(缩写)名后(缩写):E,DCv在在SCI中中,(1)姓)姓(全称)空格(全称)空格 名(首字母并且连写)如:名(首字母并且连写)如:LI DR;GONG JY;(2)名前(全称),姓后名前(全称),姓后
20、 如:如:dongchen,e;e,DCv在在EI中中,姓名就比较复杂姓名就比较复杂,一般有以下几种情况:姓一般有以下几种情况:姓 名都用全称名都用全称(姓前名后);姓全称名缩写(或名之间用连字符);名前姓后全(姓前名后);姓全称名缩写(或名之间用连字符);名前姓后全称称 如如 ke hengyu=ke heng-yu=ke,hengyu ke,h.y.=ke,h-y;e,d.c.hengyu ke;dongchen,e 基本索引子段和辅助索引子段基本索引子段和辅助索引子段一篇记录中主要用来表达文献内容的一篇记录中主要用来表达文献内容的子段称为基本索引子段(子段称为基本索引子段(basic i
21、ndex fields),如篇名子段、文摘子段、如篇名子段、文摘子段、叙词子段、自由词子段。叙词子段、自由词子段。表达文献外部特征的子段称为表达文献外部特征的子段称为辅助索引子段(辅助索引子段(additional index fields),包括著者子段、著者机构包括著者子段、著者机构子段、文献类型子段、语种子段子段、文献类型子段、语种子段等。等。6短语检索(短语检索(phrase search)即精确检索即精确检索短语用短语用“”表示,检索出与表示,检索出与“”内形式完全内形式完全相同的的短语,以提高检索的精确度和准确相同的的短语,以提高检索的精确度和准确度度7自然语言检索(自然语言检索(
22、natural language search)直接采用自然语言中的字、词、句进行提问直接采用自然语言中的字、词、句进行提问式检索,同一般口语一样。这种基于自然语式检索,同一般口语一样。这种基于自然语言的检索方式又被称为言的检索方式又被称为“智能检索智能检索”,适合,适合不太熟悉网络信息技术的人员使用。支持自不太熟悉网络信息技术的人员使用。支持自然语言检索的有中文的悠游,英文的然语言检索的有中文的悠游,英文的AltaVista,Excite,Infoseek,HotBot,AskJeeves等等8多种语言检索多种语言检索multilingual search)提供多种语言的检索环境供用户选择,
23、提供多种语言的检索环境供用户选择,系统按用户选定的语种进行检索并反系统按用户选定的语种进行检索并反馈结果,支持多语种检索的馈结果,支持多语种检索的 如:中文如:中文天网,英文天网,英文AltaVista,Google等。等。9模糊检索(模糊检索(fuzzy search)又称概念检索。当我们输入一个检索词时,搜称概念检索。当我们输入一个检索词时,搜索引擎不仅反馈包括了该关键词的网址,同时索引擎不仅反馈包括了该关键词的网址,同时也发来与关键词意义相近的内容。比如:我们也发来与关键词意义相近的内容。比如:我们查找查找“查询查询”一词时,模糊检索会反馈来包含一词时,模糊检索会反馈来包含了了“查询查询
24、”、“查找查找”“查一查查一查”、“寻找寻找”、“搜索搜索”等内容的网址。反馈网址的排列,一等内容的网址。反馈网址的排列,一般是完全符合关键词的在最前边,其次是相近般是完全符合关键词的在最前边,其次是相近的。现在大多数搜索引擎都有这种功能,只是的。现在大多数搜索引擎都有这种功能,只是模糊的程度不同。模糊的程度不同。10 字母大小写检索字母大小写检索如果用户的检索式用小写字母表示,搜索工具既如果用户的检索式用小写字母表示,搜索工具既匹配大写又匹配小写,如:匹配大写又匹配小写,如:china(瓷器),瓷器),china(中国);如果用大写字母表示,搜索工具中国);如果用大写字母表示,搜索工具认为用
25、户指定了只要大写,就只会查找那些与用认为用户指定了只要大写,就只会查找那些与用户键入的输入形式完全相同的结果,如:户键入的输入形式完全相同的结果,如:china,只检索出只检索出china。Alta Vista等搜索引擎支持区等搜索引擎支持区分大小写的检索分大小写的检索 注意注意自然语言检索、模糊检索、多种自然语言检索、模糊检索、多种语言检索和区分大小写的检索是语言检索和区分大小写的检索是网络检索所特有的网络检索所特有的在在实际检索中,往往将多种检索技术混合使实际检索中,往往将多种检索技术混合使用。如:查找标题中含有用。如:查找标题中含有“网络营销网络营销”的的资料,它的计算机检索提问式(表达
26、式)资料,它的计算机检索提问式(表达式)可以是:可以是:TI(Web OR WWW)AND market*又如:又如:(城市(城市 OR 都市都市 OR 城区)城区)AND(TI=生活污生活污染染 OR 生活垃圾生活垃圾 OR 生活污水生活污水 OR 电磁辐射电磁辐射污染)污染)ISTP中的综合表示方法中的综合表示方法TS=(nanotub*SAME carbon)NOT AU=Smalley RE示例示例:有关有关“企业知识产权研究企业知识产权研究”检索式检索式 检索结果检索结果(*表示表示AND,+表示表示OR,限定篇名字段)限定篇名字段)(2004-2006)1 企业知识产权企业知识产权
27、 191篇(准确度最高漏检大)篇(准确度最高漏检大)2 企业企业*知识产权知识产权 404 (漏检率较高(漏检率较高)3(企业(企业+集团集团+公司)公司)*知识产权知识产权 466 (适合综述性文献)(适合综述性文献)4(企业(企业+集团集团+公司)公司)*(知识产权(知识产权+专利权专利权 520 (查全率查准率较高)(查全率查准率较高)+商标权商标权+著作权著作权+名称权)名称权)5(企业(企业+集团集团+公司)公司)*(知识产权(知识产权+专利权专利权 137 (缩小范围效果最佳)(缩小范围效果最佳)+商标权商标权+著作权著作权+名称权)名称权)*保护保护v检索结果表明:检索结果表明:检索词的选择、逻辑算符的使用、同义词近检索词的选择、逻辑算符的使用、同义词近义词的扩展、检索字段的选择等变化,对检义词的扩展、检索字段的选择等变化,对检索结果数量的多少、检索的查全和查准有很索结果数量的多少、检索的查全和查准有很大影响大影响
限制150内