信息组织与检索复习提纲知识分享.doc
《信息组织与检索复习提纲知识分享.doc》由会员分享,可在线阅读,更多相关《信息组织与检索复习提纲知识分享.doc(38页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Good is good, but better carries it.精益求精,善益求善。信息组织与检索复习提纲-信息组织、检索与存储复习纲要第一章信息组织概念即信息序化或信息整序,即利用一定的科学规则和方法,通过对信息外在特征和内在特征的表征和序化,实现无序信息流向有序信息流的转换,从而保证用户对信息的有效获取和利用及信息的有效流通和组合。外在特征:信息的物质载体所直接反映的外在、形式的特征;例如:语种、作者、出版社、标题等内在特征:信息所包含和承载的具体内容。例如:主题词、关键词、分类号等信息组织发展阶段:清册职能时期-古代信息管理时期查检职能时期-近代信息管理时期组织职能时期-现代信息
2、管理时期知识组织时期-知识管理时期信息组织一般过程:?信息组织与信息检索的关系:先有信息组织,再有信息检索;信息检索质量来衡量信息组织。第二章分类法类型(按照分类法的编制方式):等级列举式分类法、分面组配式分类法、半分面分类法等级列举式分类法(列举式分类法、体系分类法)中图法类目体系的几种关系: 从属关系:用上位类和下位类表示,如:生物力学与生物学;化学与有机化学 同一关系:同义词,如:概率论(或然论);边缘科学,如:宇宙医学;一个类目涉及几个方面,如:工业经济 交叉关系:共青团员和大学生 并列关系:如:茶和可可 对立关系:如:无机肥料和有机肥料 矛盾关系:如:黑色金属冶金学和有色金属冶金学(
3、对立关系与矛盾关系的区别在于:矛盾的关系的双方加起来等于全集,而对立关系双方则不是。)标记符号:码的编制方式包括:顺序制、层累制、混合制层累制的优缺点 优点:分类号能够体现类目的等级关系,便于扩检或缩检。 缺点:类目越细类号越长,影响类号简短性;同位类超过10个时采用阿拉伯数字难以按等级编码,必须采用一定变通方法。顺序制的优缺点 优点:配号简单,号码简短,容纳性强。缺点:表达性、助记性差。标引概念对文献主题进行主题分析,从自然语言转换成规范化的检索语言的过程,即对主题分析结果赋予检索标识的过程。分类标引概念将文献主题的自然语言形态,转换成分类语言形态的一种标引,也就是将文献主题转换成分类号的一
4、种标引。分类标引的过程:?分类标引包括分类和归类。 分类,就是将大量的文献信息,根据它们的内容性质、形式体裁、立场观点和读者用途上的异同,按照文献分类体系,由下而上,由大到小,由整体到部分,由一般到特殊,由总论到分类的层层划分。归类,运用分类体系分类图书,由下而上,由小到大,由部分到整体,由特殊到一般,由分论到总论的集合过程。分类标引的主要优点:(1)具有达到较高查全率(主题分类是提高查准率)的族性检索性能,有利于从学科或专业范围角度进行全面检索;(2)组织文献资料的排架。分类标引的原则多主题分类标引1)并列关系。(考虑上下位关系的主题归类)凡论述两个并列的主题,按篇幅多的或在前的主题归类。凡
5、论及三个以上主题的书,均应归入其上位类。如雷、电、风、雨入“P24气象基本要素”。2)从属关系。(考虑较大较小的概念归类)即一书论述的两个主题,其中一个是另一个的一部分(它们之间的关系是上下位类的关系),就依较大概念的主题归类。如天文学、天体照相学,因天体照相学是天文学的一个分支,故入“P天文学”。若论述的重点是小主题,则依小主题的学科属性归类,如农业植物与花卉按重点主题“花卉”归入“S68”。3)影响关系和因果关系。(以被影响或结果的主题归类)如沙俄侵华史入“K25半殖民地、半封建社会”,维生素A缺乏所引起的后果归入“R591.41医学类”。中图法中国图书馆图书分类法(记住这是中国的)主题法
6、受控语言与自然语言的比较(见下表)词汇控制欲检索效率的关系(见下表)词汇控制的范围(与上表相应)(词量减少,提高查全率) 词量控制(组配标引、上位词标引、核心词) 词类控制(名词、名词性词组、截词) 词形控制(不同形体、拼写、词序、单复数、学名与俗名、新名与旧名、全称与简称) 词义控制(词间关系控制、限定词、范围注释) 词间关系控制(词族控制、范畴控制、分面分类控制) 专指度控制 先组度控制句法关系控制主题法的类型划分(按照主题法选词方式):标题法元词法叙词法关键词法主题标引基本规则标引顺序:专指标引、组配标引、上位词标引、靠词标引、增词标引练习:试参考给出的备选主题词对下列资源进行主题标引
7、中国社会主义商业经济备选主题词:中国社会主义商业经济社会主义经济商业经济 发动机结构设计备选主题词:发动机结构设计发动机结构结构设计 淡水鱼类养殖备选主题词:淡水鱼类养殖淡水鱼类淡水养殖鱼类养殖 拖拉机维修 日本的经济发展和美国的经济危机法国史中国分类主题词表的结构与使用第三章自动标引概念自动标引是指利用计算机系统从拟存储、检索的事实情报或文献(题目、文摘、正文)中抽取检索标志的过程,可以分为自动抽词标引和自动赋词标引。一个标引系统的有效性取决于标引的网罗度和专指度。P11标引的网罗度表示标引词对文献各方面内容的表达和识别程度,网罗度越高,则越有利于提高查全率。标引的专指度表示标引词对文献特定
8、内容描述的详细程度,专指度越高,则越有利于提高查准率。自动标引的一般过程:1.将文献输入计算机。2.借助一定的技术手段,设计某种算法对文本中的语句进行分析,识别出词与非词、实词和虚词,并累计词频。3.确定内容词的加权方案,根据词频计算每个词的权值,确定候选标引词的权阈值。4.根据阈值选出词权大于或等于阈值的词作为标引词5.将选定的标引词连同文献的地址信息,按预定要求排序,生成索引文档或倒排文档。6.根据检索实验,对标引过程进一步优化,提高标引质量绝对词频与相对词频的区别?绝对词频法的基本思想:计算文献集合中每篇文献中每个不同的词出现的频率;把每个不同的词在n篇文献中的出现频率相加,得到每个词的
9、集合频率;按集合频率递减排序,用试错法确定高频词和低频词的阈值,排除高于高频词阈值和低于低频词阈值的词;对余下的中频词赋予较高权值作为标引词没有考虑选择作为标引词的术语对文献的区分性能没有考虑选择作为标引词的术语对文献的区分性能。当以一数据库为范围进行考察时,一些词语虽然在某一文献资源中经常出现,但同时也经常在整个数据库中出现,那么根据这一方法抽取出来的词可能无法很好的区分数据库中的不同文献。这些高频词可能并不具有检索意义,会降低文献的查准率。例如:在一个信息科学的文献集合中,“信息”出现的次数最多,但它并不是区分这一文献集合中条目的理想语词。“人工智能”一词虽然出现的次数少,却比“信息”更有
10、区分文献的作用。相对词频法基本思想:在一般文献中不常出现的低频词取低值,在专业文献中频繁出现而在特定文献内以低频词出现的词取高值。为此,首先要建立有关领域全部词汇的相对频率表;其次,对待标引的文献进行处理,排除停用词,计算每个实词在特定文献中出现的频率;最后,将每个实词在特定文献中出现的频率与相对频率进行比较。某些词在文献内出现的频率虽然较高,但未达到相对频率表中的规定值,就得被排除;而另一些词尽管在文献中出现的频率较低,但已达到表中的规定值,则被选为标引词。中文自动标引主要方法、优缺点?PPT3.2.42(1)词典标引法主题词表法、关键词词典法、部件词典法(2)切分标记法 切分标记法是将能够
11、断开句子或表示汉字之间关系的汉字集合组成切分标记字典。 这类方法典型代表是非用字后缀表法。此方法按照不同的用途将字机械地分成四个类别:表外用字、表内用字、条件用字和非用字。实现时,机器自左至右扫描汉字,逐字对照非用字后缀表。将用字取出,非用字舍去。切分的原则是有联系则取,无联系则断。(3)语法分析标引法 语法分析标引法是通过对自然语言文法或句型文法的分析来抽取主题词加以标引。(4)汉语自动标引专家系统 是以现有的汉语专业主题词表为基础,构建概念语义网络,根据一定的抽词规则、标引规则和专门知识,对所处理的素材进行分析、判断,选择和确定标引主题词。(5)单汉字标引法 单汉字标引是指单个汉字作为标引
12、基本单元,以单汉字处理单位,在检索时,对不属于停用词范畴的单个汉字进行逻辑乘运算,也即对标引字所代表的概念层面进行后组配,从而获得检索结果。 建立单汉字索引虚汉字常用字:索引记录中包括该汉字、含该汉字的文献总数、各文献标志号等信息。基本字:一个记录对应一个汉字,索引格式为【单汉字,篇数,标志号集合】。 位置匹配检索首先把检索字串分解成单汉字,逐个在汉字位置倒排文档中进行查找,得出含有相应单汉字的记录号集合及各汉字在文献中的位置。然后对两个集合进行交叉运算,并根据检索字串中各字的位置限定得出符合要求的结果。 检索词首字直接匹配检索首先取检索词的第一个汉字查找单字索引,获取其在数据库中的记录号和位
13、置值,并提取该记录;然后直接比较检索词和所得记录的子字串,如果相同,则作为命中结果。 后控词表后控词表收录同义词和相关词,主要通过词间关系进行控制,提高系统的查全率和查准率。汉语自动标引方法评价 词典法是传统的标引方法,其算法比较简单和清晰,核心是构造一个词典。词典法中的主题法具有扩检和缩检的能力,这是其他方法无法达到的。 切分标记法无需构造词典,它依据仿读思路,用字典和模式实现汉字自动标引。实践表明,字典完全可以替代词典完成自动标引。 语法分析标引法在理论上比单纯以字典和词典为基础的标引方法要深入和完善,分词效果优于前者,但是这种方法在实践上发展缓慢。目前出现的只有句型文法分析法,仅限于科技
14、文献的文摘和标题。 中文自动标引专家系统是以汉语语义理解为特征的自动标引系统。目前提出的各种中文自动标引方法,基本不进行语义理解,只从形式上进行机械地匹配抽词来完成标引,会出现标引素材与原文主体内容不符的现象。单汉字标引法以汉字为处理单元,避开了分词障碍,便于计算机自动抽取和处理。无需构造词表,用后组配检索模式,能达到任意的专指度和泛指度。这种方法对隐含概念主题难以处理,容易造成漏检。自动分类概念利用计算机对文本集(或其他实体或对象,如网页文本等)按照一定的分类体系或标准进行自动分类,属于同一类别的文本被标上相同的类别标记,为文本信息资源的检索提供系统化的解决方案自动分类主要类型一般包括自动聚
15、类、自动归类、类号的自动转换。自动聚类概念指从待分类对象中提出特征,再将提出的全部特征进行比较,并根据一定的原则将具有相同或相近特征的对象定义为一类,设法使各类中包含的对象大体相等。一般是在语词共现的基础上,通过词频统计、相似性比较,将相关文献聚集在一起。自动聚类分类:基于词语特征的自动聚类例如:文献相似度计算基于非词语特征的自动聚类例如:利用引用关系进行文献聚类自动归类一般经过如下几个过程(1)建立类主题词在含有一定数量的样本文献集合中,分析每一篇文献主题,确定文献主题词,将这些主题词归属于一定的类,形成一个类主题词表。(2)计算文献的类归属度分析需要归类的文献对象,将它的主题词与类主题词表
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息 组织 检索 复习 提纲 知识 分享
限制150内