信息知识与描述.ppt
《信息知识与描述.ppt》由会员分享,可在线阅读,更多相关《信息知识与描述.ppt(85页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第四章 信息的组织与描述第一节 信息组织的基本原理一.信息组织的概念与内容二.信息组织的类型与特征三.信息组织的原则第二节 信息的描述与揭示一.元数据二.文献信息的著录与标引三.网络信息资源描述的相关标准四.通用标记语言及相关标准第三节 信息组织的技术与方法一.文献型信息组织方法二.网络信息组织的技术与方法第四节 信息组织的发展方向 知识组织一.知识组织的含义与特征二.知识转化与表示三.知识组织的技术与方法一.信息组织的概念与内容1.信息组织的概念信息组织也称信息整序,是利用一定的规则、方法和技术对信息的外部特征和内容特征进行揭示和描述,并按给定的参数和序列公式排列,使信息从无序集合转换为有序
2、集合的过程。信息的外部特征是指信息的物理载体直接反映的信息对象,构成信息的外在的、形式的特征,如信息载体的物理形态、题名、作者、出版或发表日期、流通或传播的标记等方面的特征。信息的内容特征就是信息包含的内容,它可以由关键词、主题词或者其他知识单元表达。信息组织的基本对象就是信息的外部特征和内容特征。2.信息组织的内容(1).信息选择:从采集到的、处于无序状态的信息流中甄别出有用的信息,剔除无用的信息,是信息组织过程的第一步。(2).信息分析:按照一定的逻辑关系从语法、语义和语用上对选择过的信息内、外特征进行细化、挖掘、加工整理并归类的信息活动。(3).信息描述与揭示:也称为信息资源描述,根据信
3、息组织和检索的需要,对信息资源的主题内容、形式特征、物质形态等进行分析、选择、记录的活动。(4).信息存贮:将经过加工整理序化后的信息按照一定的格式和顺序存贮在特定的载体中的一种信息活动。二.信息组织的类型与特征(1)按信息表现形式划分 文字信息组织 图像信息组织 声音信息组织 视频信息组织1.信息组织的类型(2)按信息的加工程度划分 一次信息组织 二次信息组织 三次信息组织(3)按信息的传播载体划分 文献信息源 非文献信息源在这里,非文献信息源特指网络环境下没有以传统文献载体形式出现的信息源,如程序代码、网页、超文本等。为了学习的方便,我们统称为网络信息源。网络信息的特点:v类型众多;v信息
4、发布自由,内容庞杂,质量不一;v信息数量急剧上涨,且分布极不均衡,信息处理与利用能力相对下降;v网络信息具有多媒体和超级链接性以及交互性;v网络信息存在安全隐患;v网络信息的使用与提供信息站点的软硬件和服务有关。2.信息组织的特征(1)信息组织的渗透性:信息组织的渗透性指信息组织存在于各种信息揭示、存贮和检索活动之中。(2)信息组织的依附性:信息组织的依附性指信息组织无法独立存在,它要以信息的识别、揭示等活动为前提。(3)信息组织的增效性:信息组织的增效性指信息组织可以增加信息传播、检索、利用的效率,是其他信息加工活动和利用信息的保障。三.信息组织的原则1.客观性原则 信息组织中进行描述和揭示
5、的基本依据就是信息本身(the item obtained),因此,我们描述和揭示信息的外在特征和内容特征必须客观而准确,要根据信息本身所反映的各种特征加以科学地反映和序化,形成相应的信息组织的成果。2.系统性原则 系统性原则要求在信息组织中把握好这四个关系:(1)宏观信息组织与微观信息组织的关系(2)信息组织部门与其他部门的关系(3)信息组织工作各个环节之间的关系(4)不同信息处理方法之间的关系3.目的性原则 信息组织具有鲜明的目的性,必须围绕用户的信息需求开展工作,注意信息机构的目标市场的需求状态及其变化特征,满足成本收益对称的原则。4.现代化原则 信息组织现代化原则包括思想观念现代化和技
6、术手段现代化两个方面。信息组织的思想观念现代化集中体现在信息组织的标准化上,即信息组织工作的一致性、信息组织方法的规范性、信息组织系统的兼容性和信息组织成果的通用性。一.元数据 1.元数据的概念:元数据(metadata)是关于数据的数据(data about data),是专门用来描述数据的特征和属性,描述和组织信息资源,发现信息资源的语言和工具。2.元数据的描述对象:早期:元数据主要指网络资源的描述数据 后来:逐步扩大到各种以电子形式存在的信息资源的描述数据。现在:元数据适用于各种类型信息资源的描述记录。3.元数据的基本功能(1)识别。确认并对要进行组织的信息资源进行个别化描述,使用户能识
7、别被组织的资源对象。(2)定位。提供信息资源位置的信息,以便用户访问时使用。(3)检索。通过在描述数据中提供检索点,便于用户对资源的检索和利用。(4)选择。通过记录信息资源的特征,诸如主题、作者、类型、物理形式、层次和日期等,供用户对信息资源的使用价值进行判断,决定是否使用该资源。二.文献信息的著录与标引1.文献信息的著录(1)著录的基本概念:著录:是指在编制文献目录时,对文献内容和形式特征进行分析、选择和记录的过程。款目:著录的结果是款目,它是反映文献内容和形式特征的 著录项目 的组合。目录:将一批款目按照一定的次序编排而成的一种文献报道和检索工具。(2)著录的标准化:在国家或国际范围内,对
8、文献著录的原则、内容、格式等做出具有一定约束力的规范。国际:1971年,国际图书馆协会联合会(IFLA),单行著作国际标准书目著录ISBD(M);1976年,出版了国际标准数目著录总则ISBD(G)。中国:1983年7月,正式发表了全国文献著录标准系列中的文献著录总则(GB3792.183),其后,先后出版了各个分则。2.文献信息的标引(1)标引的基本概念:信息标引:指分析信息的内容属性(特征)及相关外表属性,并用特定语言表达分析出的属性或特征,从而赋予信息检索标识的过程。标引语言:表达信息主题概念和检索需求主题概念的简明性、单义性和关联性的概念标识系统。信息标引包括主题分析和转换标识两个环节
9、。主题分析:在了解和确定信息的内容属性以及帮助揭示内容的某些外表属性之后,将这些属性概括为主题并用自然语言表述,同时分析主题概念之间或主题概念因素之间的结构关系。转换标识:用专门的主题概念或概念因素,构成一定形式的检索标识。(2)标引的两种主要类型:分类标引:采用分类语言的标引。分类语言用分类号表达主题概念,依据知识分类将主题概念组织、排列成类目体系,主要以类目体系的自身结构显示概念之间的关系。主题标引:采用主题语言的标引。主题语言是一种由受控的自然语言语词直接表达主题概念,按语词字顺排列主题,主要用参照显示概念之间关系的标引语言。三.网络信息资源描述的相关标准20世纪80、90年代诞生的大量
10、规范:文本编码倡议(Text Encoded Initiative,简称TEI)都柏林核心集(Dublin Core,简称DC)政府信息定位服务(Government Information Locator Service,简称 GILS)多媒体内容描述接口(Multimedia Content Description Interface,简称MPEG-7)1.MachineReadableCatalogue:MARC 标准起源:美国国会图书馆,1965年提出了“标准机器可读目录记录款式的建议”,即MARC。1967年MARC 诞生。特点:共有001999个字段,其中999字段为用户自定义字段
11、;字段内容著录详尽,字段下又设子字段以及重复字段字段作用强化,可检索的字段多每条MARC记录可分为头标区、目次区和数据区。(1)USMARC(美国国会图书馆机读目录通信格式)在1995年,美国NDLP启动,对USMARC做了一些修改:增加了“电子资源地址与存取”字段即856字段。(2)UNIMARC(国际机读目录通信格式)(3)CNMARC(中国机读目录格式)2.Dublin Core(都柏林核心集)(1)起源于1995年在美国俄亥俄州都柏林市召开的元数据讲习班。目前,已得到广泛的承认和应用,成为国际RFC2413和美国Z39.85标准。(http:/dublincore.org)(2)作用:
12、为描述网络资源提供了一种规范。(3)15个核心元素DC元数据有15个核心内容元素(element)。这15个元素组成了都柏林核心元数据元素集(DublinCoreElementSet)。元素名称说明Title标题资源标题Subject主题资源内容的主题Description主题关于资源的简要描述Type资源类别资源的内容类别Source来源产生该资源的其他资源Relation关联关系与其他资源的关系Coverage覆盖范围资源地理、时间或管理的范围元素名称说明Creator创作者资源内容的主要创作者Contributor其他贡献者对资源做出其他贡献的对象Publisher出版者资源的提供、发表
13、、出版者Rights权限资源所属或管理的权限信息Date日期资源生命周期中的特定日期Format资源格式资源的格式Language语言资源所使用的语言Identifier标识符对资源进行标识的识别信息(4)DC 的主要优点:v简单易懂:15个元素通俗易懂v运用灵活:它即可以用于规范的资源描述,也可以用于非专业领域v国际通用:目前已有10多种不同语言的版本v可扩展性:不仅有15个核心标记元素,子元素和扩展元素,还可以与其他元数据连接使用3.其他元数据规范(1)政府信息资源元数据GILS(GovernmentInformationLocatorService,政府信息定位服务)(2)描述音像信息的
14、MPEG7,MultimediaContentDescriptionInterface,多媒体内容描述接口。(3)描述图像信息的MOA2(TheMakingOfAmerica)四.通用标记语言及相关标准 1.通用置标语言标准SGML(StandardGeneralizedMarkupLanguage)StandardGeneralizedMarkupLanguage)(1)起源:20世纪60年代,IBM开始研究通用标记语言GML来描述文件及其格式。(2)发展:1978年,美国国家标准局将GML规范为SGML标准;1986年,国际标准化组织将SGML定位国际标准SGMLISO8879:1986。
15、(2)特点:SGML是一种元语言,是用来描述置标语言的语言,适用于电子文档交换、管理核发布;SGML从结构和内容两个层次来描述文档,其核心是文档类型定义DTD(DocumentTypeDefinition)SGML可以定义各种各样的置标语言,定义一种置标语言的方法就是根据SGML的规则制定DTD文档,DTD文档规定了这类文档可能出现的置标及其组合规则。2.超文本置标语言HTMLHypertextMarkupLanguage(1)实质:是经过简化的SGML的DTD的具体应用。(2)功能:出版在线的文档,包括标题、文本、表格等 通过超级链接检索在线的信息 为获取远程服务而设计表单 在文档中直接包含
16、电子表格、视频剪辑、声音剪辑以及其他一些应用(3)缺陷:可扩展性差,HTML是符合SGML语法的一种固定格式的超文本标记语言,格式固定,难以扩展;交互性差,HTML难以实现用户与系统之间的交互;语义性差,HTML没有考虑语义性,难以实现智能化的信息检索和用户的个性化服务。3.可扩展置标语言XMLeXtensibleMarkupLanguage(1)产生:是有W3C于1998年发布的一种标准,现由 维护和管理。是SGML的一个子集,可以自定义DTD,结合了SGML的强大功能和HTML的易用性,以一种开放的自定义、自描述的方式定义了数据结构,在描述数据内容的同时突出对结构的描述。(2)包含的内容体
17、系:XML语法XSL可扩展样式语言,eXtensibleStyleLanguageXLL可扩展链接语言,eXtensibleLinkLanguageXML用户代理,XMLUserAgentXMLHTTP(3)XML的应用:根据不同行业和语义,XML可以派生出许多行业的置标规范和协议。电子商务领域的ebXML数学领域的MathXMLXML文档例子:http:/(4)XML的特点:XML文档是纯文本。任何文本编辑器或是可视化开发工具都可创建和编辑XML文档;基于内容的数据标识;可格式化。有了XSL以后,数据与它的显示是分离的,可为同一数据指定不同的样式表进行输出;具有很强的超级链接性。可以定义双向
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息 知识 描述
限制150内