信息组织复习大纲精讲.doc
信息组织第1章 信息组织概述1.信息组织: 概念:以用户需求为导向,依据信息体自身的属性特征,按照一定的规则、方法和技术,将杂乱无章的信息整理成为有序的信息集合的活动和过程。信息组织的成果是形成各种方便用户利用的有序化的信息检索系统。2.信息组织与信息检索的关系。两者关系:a: 信息组织是信息检索的基础和前提 。b:信息检索是信息组织的目的 。3.信息组织原理:若干自然状态的无序信息资料按照某种属性特征排列成一个序列,用户能将自己的信息需求转换成相应的信息资料属性特征,并找到自己所需要的信息资料; 信息著录标引(信息描述揭示):对原始信息的外部属性特征(题名等)和内部属性特征(类属等)进行描述的过程; 信息标引是给出信息内容标识(如分类号)的揭示过程。 信息序化是将所有替代信息按照某种外部特征和内容标识进行有规律的组织排列,从而构成某种序列和检索系统。4,信息组织内容:信息选择,信息分析,信息描述,揭示信息整序与存储5.信息组织类型:按信息的表现形式分类:文字,图像,音频,视频按信息的加工程度:一次信息组织(图书、期刊论文、研究报告、会议文献、学位论文、专利说明书),二次书目(索引、文摘、目录型数据库、搜索目录、搜索引擎),三次(综述、述评、百科全书、年鉴、进度报告、文献指南)信息的传播载体:非数字信息组织(印刷型信息组织)数字信息组织(网络一次信息:超文本方式、自由文本方式、主页方式。网络二次信息:搜索引擎方法、主题树方法。网络三次信息:搜索引擎目录)按信息的认识层次划分:语法信息组织,语义信息组织,语用信息组织6,信息组织作用:1,控制整序作用,2,提升品质作用,3,利用传播作用,4,节约成本作用信息组织的历史: 中国古代:刘向刘歆七略分类目录 外国古代:格斯纳世界书目著者字顺目录、分类目录、主题字顺索引、分类近代信息组织的特点:信息产品进一步丰富;用户需求成为信息组织关注的问题;文献分类法的建立和完善;信息组织技术与方法的逐步完善;主题组织法和机械化信息组织手段的发展;信息描述与揭示的内容日臻完善,检索途径增多近代信息组织:基于计算机应用的信息组织阶段信息组织技术化:MARC信息组织社会化:OCLC信息组织标准化:RDA基于网络的数字信息组织阶段:利用元数据对数字信息体进行描述虚拟图书馆(专题指引库)分类法在数字信息组织中的应用主题法在数字信息组织中的应用主题图的应用本体的应用信息组织的未来发展趋势:以需求为导向的信息组织方法和技术不断加强(基于个性化服务的信息组织,信息检索工具的易用化,信息内容揭示的深入化)信息组织工作的标准化与合作化信息系统的互操作和信息组织大众化 信息组织智能化和语义网格化第2章 信息组织的理论与方法基础1.有序化理论: 系统论;信息论;自组织理论;耗散结构理论;协同论)2.信息构建理论3.知识论、本体论(述概念及概念之间关系的模型或详细说明,通过概念之间的关系来描述概念的语义。)和分形理论4.信息组织的语言学基础: 检索语言的类型:分类语言:等级体系式分类语言、分面组配式分类语言、等级-组配式分类语言主题语言:标题法、单元词法、叙词法、关键词法代码语言:分子式索引系统、档案号信息组织的逻辑学基础:形式逻辑、数理逻辑、辩证逻辑 内涵:指所有组成该概念的事物的本质属性. 外延:具有这种本质属性的所有事物的总和.概念之间的关系:按照是否存在共有的外延 相容关系:至少有一部分外延相同(同一关系、包含关系、交叉关系) 不相容关系:不存在共有外延(并列关系、反对关系和矛盾关系)信息组织的知识分类学基础概念的划分 划分的方法:一次划分、连续划分划分的规则:划分必须是相应相称的划分的子项必须是相互排斥的每次划分必须按同一标准进行第3章 信息描述语言与编码1.规范语言的词汇控制方法情报检索语言:根据信息检索的需要而创制的人工语言,专门用于各种手工的和计算机化的信息检索系统,表达信息的主题概念和用户检索需求的主题概念,是对信息内容进行描述的语言工具,是经过人工规范的,也称为规范的信息描述语言。规范语言:从自然语言出发,根据信息描述与信息检索的需要,从自然语言中筛选出特定的词汇来网罗和指示概念,并依据一定的规则对自然语言进行事先规范而形成的人工语言,是符号化的概念标识系统(controlled languages, artificial languages)。 规范语言的组成:词汇、语法、句法 词法:用于分类表、词表、代码表编制 句法:用于信息标引和检索过程2.规范语言的功能:标引功能;揭示功能;整序功能;比较功能3.规范语言的类型: 按结构原理分: 分类语言,主题语言,分类语言:等级体系式分类语言;分面组配式分类语言;等级-组配式分类语言主题语言标题法:先组式,CA、LCSH单元词法:后组式叙词法:后组式,叙词表关键词法:非规范化的主题语言按其标识的组合使用方法分:先组式、后组式按学科、专业范围分按其他标准划分自然语言:包括关键词、自由词和出现在文章题名、摘要、正文或参考文献中的具有一定实质意义的词语。自然语言的应用:自然语言处理、自然语言标引(自由标引,自动标引)、自然语言检索后控制与后控制词的概念:利用规范语言的基本原理和方法编制的自然语言检索用词表,它主要对自然语言中大量存在的等同关系、等级关系和大部分的相关关系进行控制或揭示,它可以根据检索需要将新概念和新术语及时加入到词表中,是一个不断增长的自然语言叙词表。后控制词表的编制: 词典实现模式 积累提问式模式 词形实现模式 聚类控制实现模式 词频统计模式6,本体语言 概念:对某一领域中的术语及术语间的关系做规范说明,提供对领域知识的共同理解和描述,用于共享、交流和复用,由经过精确定义的概念及概念间的关系组成,主要供计算机使用。 组成:类-关系-实例-函数-公理 与传统情报检索语言比较:相似之处:都是概念及概念关系的集合都是为方便交流而制定的一致性标准都可以看做是知识体系和结构的表现,都对词汇或概念实施了语义上的控制都适用于某一专业领域范围。比较内容本体传统信息描述语言主题语言分类语言概念模型面向对象的认识世界的方法面向概念的信息表示与检索方法面向学科的信息表示与检索方法组成元素类、属性、实例、函数、公理语词及词间关系类目及类目关系标识URI语词类号或类目概念关系表达几十种、上百种关系等同、等级、相关包含、并列、交替、相关等形式化程度较高较低较低层级体系较为混乱学科分类学科分类适用对象计算机人为主,机器为辅本体的功能:信息描述方面,语义层面信息检索方面,语义检索语义网方面,语义网信息组织分类法概述 第一节 原理与结构 1类(Item) :一组具有共同属性事物的总称。 2 分类(Classification) :以事物的本质属性或其他显著属性为依据,将各种事物聚合成类的过程。 3.信息资源分类的实质:信息资源的区分和类聚 4.信息资源分类的作用:文献信息:实体文献的分类排架建立分类检索系统分类统计分类排架分类检索深度浅,号码短,(整体标引)专指,号码长,(整体标引+其他)广度主分类号,数量少主分类号+其他,数量多组织方式线性网状(组配)病历信息:实体文献的分类排架建立分类检索系统医疗费用的控制。信息资源分类的依据-分类法。 分类法:亦称分类语言,其基本原理是用分类号作为表达主题概念的标识,以知识分类为基础将主题概念组织、排列成系统,以系统固有的结构显示主题概念之间的关系。 第二节 中国图书分类法第三节 杜威十进制分类法第四节 国际十进制分类法第五节 国会图书馆图书分类法第六节 冒号分类法第七节 国际专利分类法 类目表:主表:基本部类、基本大类、简表、详表 附表:复分表6 / 6