2022年数据元的规范与标准化框架资料 .pdf
数据元的规范与标准化框架一、数据表示和管理的基本概念1.数据元数据元是称之为数据的一个广义概念的特殊成员。总而言之,数据是事实、想法或命令的一种表示,数据被收集、组织、记录、处理和存放在一个可检索的表中。数据还必须适用于以人工或自动方式进行交换、解释及加工处理。有许多结构用于数据组织与管理,如数据合成、 实体、文件、对象类、对象、记录、关联、关系、行、段、主体域、表以及元组。它们与数据元并不具有相似性,但可以包括或通过一些数据库实现或逻辑建模来等同于数据元的支持。字节和位也是数据的构件, 尽管它们被用于电子媒体中数据元的注册,但并不等同于数据元。 在数据库中, 数据元可以作为信息组 ( 符号组、域) 或字符列来处理。在 Chen的 ER数据模型中,它是一个属性(见图 A.5) 。在某特定的相关环境中被视为不可分割时,一个数据元则被作为一个单独的数据单位在自然界中,它是数据的单位,表示关于对象类的单独事实。(如: 一个被赋值“ M ”和“S”的字符码表示了“雇员”这一对象类的婚姻状态的属性)。在其使用范围内,它不可能被分解为更多且具有有用含义的基本信息组。因而,数据元可被定义为在用户论述领域内是与用户相关的。 数据元是自然界中对象类特性以电子或书面形式的表示。1.1 表示一个特性可由能够被人们解释的某一符号集来体现。一个单独的特性可由几个交替的数据元甚至数据元组( 通常称之为数据合成,有时也称之为数据元集或数据元链 )来表示。这样,一个特性可以由数据元组构成的数据合成或一个单独的数据元表征。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 13 页 - - - - - - - - - 1.2 常用法所有数据从业者和理论家都会涉及数据元的概念。无论用什么方法或技术,数据元都是整个软件开发生命周期(SDLC )的公用纽带。在SDLC 的早期阶段,它们曾被视为实体 (或对象类 )的属性在 SDLC的后期,具体的数据值被赋予它们的实例作为符号组或字符列。在SDLC 的任一阶段,对于软件的生产者和用户来说,数据元是可识别的, 数据元是数据共享和共同持有的最小单元。一些数据元得以共享的信息系统成分有:a) 企业信息模型 ;b) 数据模型 ;c) 数据流程图 ;d) 数据库设计 (模式、文件、表格 );e) 接口规范 ;f) 计算机程序1.2.1 数据模型中的数据元在数据建模出现之前,“数据元”这个术语已被普遍使用。用于表示指导企业商务信息的数据单元, 传统上被称之为数据元。 数据建模的演进就是为捕捉这些数据表示的语义提供一种有效的方法。图 A.1 描述了用于 GB/T18391中的数据元结构和术语与一些更为传统数据建模术语的关联在一个数据模型中,一个实体( 实体类型、对象类等 ) 的某个特性的属性会被企业选择记录为数据。对每个实体,通常有许多属性会引起企业的兴趣。 数据模型和对象模型 (面向对象定向范例中 )用于识别兴趣体 (实体或对象 )应用相关环境中的诸多事物。 属性提供关于这些实名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 13 页 - - - - - - - - - 体和对象使用所需的信息。 用于整个自动化信息系统环境的数据元是面向对象范例中这些实体或对象以及它们属性的表示。产生于数据模型的数据元的名称的典型形式是实体名称和实体属性名称的合成( 图 A.2). 数据元名称大体上是以同样方式产生的。在对象模型中, 类或对象名称与类或对象属性混合使用以形成数据元名称(图 A.3) 。对象模型不同于数据模型的地方在于 : 前者可包含有关对象或类的附加信息,如行为或运行在数据模型或对象模型中,一个属性经常等同于一个数据元( 见图 A.3) 。它是自然界中对象某个类单个特性的表示。 而另一类思路是将对象类特性的概念与特性的表示分隔开来。 由于数据元包含了示, 人们不必依靠其在数据库、 屏幕和纸张等中的表示就可以了解其隐含的思想,因而将其隐含思想隔开来是合理而又明智的。这与那些将属性看作与值域有关,而不是属性具有值域的数据建模技术是一致的。在某些情况下, 如度量单位,属性与数据元间存在着明显的差异。例如:旧期”是时间连续区上用来度量最近一天的一个点。这样,它可以被看作一个单独的事实并用一个单独的属性表示在一个数据模型中。但是,有好几种方式来表示一个日期。在美国,最常用的是: 月的名称、一月中的天数和年数。它们是三个数据元。然而,同样的日期事实可以过去某确定日期后所流逝的天数这样一个单独的数据元来表示 (如天文学家就使用儒略历) 。 许多单独事实可以用多于一种度名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 13 页 - - - - - - - - - 量衡单位来表示, 既可用英制表示, 也可用公制来表示一个数据元概念上的等同体被称之为 : 属性、特性、数据元概念、逻辑数据元和商务事实。在此,它是作为一个特性来论及的, 以区别于人们通常所说的属性( 一般包括其表示形式 )。这样,特性就成了某个对象类所有成员共有的特征。特性可以用一个例子来解释。假设一棵树是自然界中我们感兴趣的对象。但是,我们关心的是任一棵树, 而不是某棵具体的树。 树的特征中我们感兴趣的是其高度。树高就是一个对象类加上一个特性 (数据元概念 ),但还不是一个数据元,因为合适的表示形式尚未阐明。我们可以从多个度量高度的方式中选择一个来表示树高相对于特性, 人们更倾向于用特性类这个术语来命名数据元那个方面。对象中的一类如 : 人群没有身高 ; 而每一个对象个体,如 : 个人,就有身高。因此,对于称之为人群的对象类来说, 身高是该对象类的一个特性类。但在该标准中, 术语特性的使用遵循常用法则。 有时,数据元可以由几个表示为数据元的要素部分来派生,每个部分又表示为数据元。 这些派生物可以有许多形式。一个例子是电话号码由几个要素部分组成。 在美国,电话号码由十位数字唯一地描述,这些号码很容易由一个数据元表示。 但是,电话公司 ( 和其他公司 ) 需要将电话号码分隔为区号、交换码和线路号,形成三个数据元。将区号、交换码和线路号串联起来( 以正确的方式 ) 形成一个数据元以表示整个电话号码。另一个派生的例子是代数运算。均值( 或平均数 ) 的计算需要观测值及其个数,因此,一个人群平均年龄的计算需要表示人群年龄的数据元和表示人群中人数的数据元。 这样,就可以用派生中阐明的公式进行显而易见的算术运算。这些例子是相当简单的,但不难想象那些需要在数据元中搜集的更为复杂的派生类型。 与数据元关联的派生为现存的数据元与新需要的数据元之间发生关联提供了一个强有力的手段。1.2.2 表中的数据元关系型数据库中的数据元以字段名的形式出现于表格中。图 A.4 给出了数据库表格中数据元的一个例子。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 4 页,共 13 页 - - - - - - - - - 1.2.3 数据管理工具中的数据元图 A.5 标明了数据管理工具中经常与数据元( 黑体部分 )有关联的术语。2 主题词表主题词表是使相关术语关联的工具,主题词表术语有助于现有数据元的定位。查找名称构件的大量同义同, 近义词以及同形异义词使得主题词表成了一个很有用处的工具。它能够提供首选名称术语和其他术语间语义上的联系在指导同形异义词 (拼写相同而表示不同概念的词) 使用的同时,主题词表还可以指导用户通过涉及等同、层次以及关联关系的选择. 一个标准名称构件的主题词表可以由注册员开发并分配给各有关方面; 此外,应鼓励主体领域主题词表的开发分类法和本体论分类(如“属”和“种” ) 至少可以通过两种途径实现。第一种,同时也是最简单的方法是标准化方法, 即每当一个新数据元注册时, 该方法就会生成一个分类。 更理想但非常麻烦的方法是, 首先形成一个包括所有可能数据元的完备分类,名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 5 页,共 13 页 - - - - - - - - - 然后将新注册的数据元放入事先定义好的位置。最为实用的方法是, 先形成一个基本的而相对较为简单的分类, 在数据元被注册时, 允许其在使用严格规则的情况下逐渐完善。最为普遍的方法是通过词典编纂的形式产生一种分类法。词典编纂过程更加关注语言的词或词汇而并不直接关注语义学。如果人们接受了这样假设除非一个概念可以用词汇加以描述,否则,人们是无法理解此概念的。这样,词典编纂者的方法就可以服务于数据元的分类要求。即人们可以为其所思考的概念创造词汇每一个数据元注册应具有最大满足其用户的特定分类。如此,不同的注册可以选择使用不同的分类。在一个分类中, 每个节点是一个或多个上位类的一个下位类。该节点不仅沿用了上位类的含义, 而且其含义同时也受到了上位类的限制。无论一个数据元被定义得如何好, 分类对用于其中的节点含义的确切描述,无疑具有极大的帮助作用。 分类的另一个主要的好处在于有助于一个具体数据元的查找分类通过大量的数据元描述支持导航查询。一个基本的分类结构应能有助于数据元的注册、分析和应用。 它基于这样的前提: 数据元是自然界存在的对象类的特性的表示。数据元的类别由这样三个类组成:a) 对象类 ;b) 特性;C) 表示形式通过查找该类概念的标记,就可以查出所需的数据元。数据元的分类模式最好通过实例进行描述。但是,一个数据元分类模式可以用于多个实例。这主要取决于元数据用户是否为数据的最终用户或是否参与信息资源管理若是后者, 则取决于他们在软件开发生命周期中所处的阶段。例如数据建模者应用其定义数据库结构以支持一项具体应用。a)数据建模者发现需要使用该方法处理一项具体的数据。在本例中, 是测量马的高度。b)数据建模者认识到可以称该“特性”为“高度”。为了通过注册,数据元注册被建议使用面向导航的特性分类。 在处理尺寸的分类范围内, 发现了名为“高度”的这个类。该类名的定义确认了其描述了所指特性。C)数据建模者认识到该对象类可以称之为“马” 。在该注册中,对象类分类被建议使用“动物”类下的“马”这一类名。该类名的定义证实这是所需要的。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 6 页,共 13 页 - - - - - - - - - 马就成为数据模型使用中的对象类。d)数据元注册表明高度这一特性被视为与马这一对象类相关联。注册则为这一特性是马从其站立的平面到其肩隆的(即: 肩部) 位距。e)表示分类用于查找用于度量的注册。 注册中马的一个标准化的数据元是以公制中米表示的高度。 但是,数据建模者知道该数据元不会满足需要,因为最终用户坚持用传统方法掌宽来测量并记录马的高度。用该分类模式查找注册簿则发现没有这样的数据元被注册。f) 数据建模者描述了以掌宽为度量单位测量的关于马高的新数据元的表示形式。该数据元得到了充分描述并被提交注册。只是其表示( 即: 主要是值域 )需要重新描述,因为马这一对象类及其附属特性高度已经被注册过。g)在数据模型的应用中,高度掌宽度量将成为马的一个属性。h)将来,当任何人需要该数据元时, 会发现其在注册中的描述使用了三种分类模式。对象分类中马类、特性分类中高度类和表示分类中掌宽度量类的联系,可以使将来的用户直接找到该数据元的此类描述。在国标数据元的分类中, 数据元分类模式得到了详细描述。在实际中, 特性和对象类间的区别并不常常是绝对的。差异与考虑中所要论述的领域有关,其最好的例子是身体特性。 比如,眼睛颜色名称可被视为一个数据元概念,眼睛是其对象类,颜色是其特性。 源于该数据元概念的许多可能数据元中的一个数据元可以是眼睛颜色名称。但是,如果某人从事标记各类可观察到的颜色时,颜色将成为对象类, 而特性则可被称之为标记。 与之关联的一个数据兀可以被称之为颜色名称。在此,颜名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 7 页,共 13 页 - - - - - - - - - 色是一个对象类, 而在第一个例子中, 它是一个特性。 但没有一个可以被视为不正确。第二个结构可以用于眼睛颜色中, 眼睛颜色可以视为眼睛对象类与颜色对象类之间关系的对象类另一种描述眼睛颜色的方法是将其作为一个子类眼睛颜色作为颜色对象类下面的一个子对象类。例 3 和例 4 结果的实质是一样的, 就这两个例子来说, 眼睛颜色名称的值域名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 8 页,共 13 页 - - - - - - - - - 可以是颜色名称值域的集。关于此情况的另一种思路是: 颜色名称值域可以作为1)在例 4 中颜色子集,或 2)在例 3 中与颜色关联所有对象类的一个超集。GB/T18391允许此种数据元结构变体的使用。3 数据元的元数据属性3.1 标识如同由数据元表示的特性和对象类一样,唯一的数字型标识符赋予给每一个已注册的数据元。 在有些情况下, 唯一的数字型标识符也是一个数据元的给定数值。这些唯一的标识符也被注册在一个数据元注册中。它们使得可以跨越自然语言和应用系统直接解释这些数据元。 虽然数据元在不同的自然语言中或在同一种语言的多种版本中会有不同的解释,但具有唯一性的标识符保持不变,并成为由一个版本向另一个版本转化的桥梁。 每一个数据元应获得一个标识符以使该数据名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 9 页,共 13 页 - - - - - - - - - 元在整个计算空间中得到唯一的标识。而这些计算空间有: 应用程序、区域计算系统、分布式的计算系统、 组织、企业以及面向所有国家的全球型此类计算空间。标识符不含有任何信息。 因此,它们可以由注册员赋予数据元并永久地依附于它们。数据交换用的标识符由注册机构赋予并维护。在所限定的学科或其主题领域内,除了标识符外, 数据元可以被赋予任何一个可替换的名称或图标。一个数据元名称可以是一个注册机构内首选的名称。如同标识符一样, 首选名称与数据元之间保持着一一对应的关系。 名称通常是数据用户标识数据元并与之相互作用的基本手段。数据元由不同的注册机构注册。 它们中的每一个都首选持有数据用户熟悉的标识符、名称、图符或其他形式的标识。对于可替换标识符,标识符连同其相关环境一起以应用文件的形式表现出来。一些值域中的每一个数据值也有可能被赋予一个标识符。 这对穷举域具有特殊的用处, 它将为与数据实例相关的名称国际语言间的翻译提供便利。例如: 数据元“眼睛颜色名称”可有穷举域“灰色、 兰色、 绿色和褐色”, 在此, 每个数据值可以有一个它们自己唯一的标识符( 如,灰色=1357;兰色=2468). 3.2 定义定义是数据元含义的自然语言表述: 它的断言。对于数据元开发来说,数据元的定义是极其至关重译的一个方面。 为了共享,数据元必须有一个形式上完备、清楚、精确并被普遍理解的定义。 国标包含了对数据元定义的广泛讨论,给出了关于其编写的精确的规则与指南。3.3 表示数据建模者通常称属性的表示形式为它的“值域”,或简称为“域” 。鉴于GB/T28391的日的,我们称数据元的表示部分为表示。数据元在商务运作中呈现为值,并在信息交换等功能中得到共享。数据元通常有一个允许值的集合。这个允许值的集合被称之为值域。 数据元从不表示为一个单个的数值,因为它是一个类(如,数据值完整的集合 ) 而不是一个单个事例。 比如,雇员标识符是一个数据元,它的值域由一个特定企业中允许值的一个完整列表来描述。这里的数据值仅是雇员标识符所有实例的一个列表。数据元的一个实例只有一个单个数据值并名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 10 页,共 13 页 - - - - - - - - - 被称之为一个“数据元实例” 。一个特性有定义并隶属一个对象类。相反,一个表示没有定义,但有一个格式类、允许值、最大字符数,如果可以度量,还应有一个度量单位。比如,数据元“月名称”就有以下表示:a)格式类一 alpha; b)允许值二January,February,March,April,May,June,July,August,September,October.November,December; c) 最大字符数二 9; d)度量单位二 (不适用,因为不存在度量的问题)。3.3.1 门穷举域尽管数据元的元数据的结构可以从对象类或特性的角度考察,也可从表示的角度考察,这最容易用一个穷举域的例子来表明。穷举域是一个可以由所有允许值列表指定的值域。比如,人们给国家标上名称,就很容易引证它们。包含现今世界上所有国家名称的集合就是穷举域的一个例子尽管特性和( 表示的 ) 有关的值域可以被考虑用来标识数据元一个潜在有效数据值的集合,对象类通常将宽泛的值域限定为数据值的一个具体的子集,以用于某个具体的数据元。 图 A.6 表明了用不同的对象类对值域的限定在图A.6 数据元的实例, X公司雇员姓名中 : a)“名称”的值域是所有可能的名称; b)“人的”将其归类为所有可能名称的一个子集; c) “被 X公司雇用,进一步将名称值域限定为非常具体的一个人名子集;X公司雇员的姓名。因此, X公司雇员姓名就是由所有可能名称这个值域限定为仅仅是 X公司雇员的那些姓名。 该数据元所有可能有效的姓名数目就被大大地减少为一些具体姓名名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 11 页,共 13 页 - - - - - - - - - 一些穷举域可以看作是一个由一些更广泛穷举域构成的交集。图A.7 表明:在一些情况下,值域是可以重叠的。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 12 页,共 13 页 - - - - - - - - - 3.3.2 可再利用域一些域有被许多数据元使用的潜在可能比如,所有人类眼睛颜色的名称可被用于雇员、 承包商、夫妻和数据库中其他类的人员。一个严格定义并被指定的域可以被再利用。 这些可再利用的域在用于数据元时,具有相同的值域、 表示和特性。比如。雇员眼睛颜色或承包商眼睛颜色我们称这些可再利用域为通配数据元( 见 A.4 数据元注册系统与注册被授权对数据元注册负责的一个群体被称之为“注册机构”。一个注册机构 : a)分配唯一的标识符 ; b)确保所有所需的元数据得以用文件的形式证明; c) 依据元数据的品质和综合程度分配其状态层次。该注册机构被授权对论述的领域负责。该领域可小至一个公司内的一个分支单位,也可大到整个行业或国家。 注册机构对所授权论述领域内所有被认为会被共享的数据元注册负责。 注册机构间存在一定的等级关系,每个机构负责的领域必然大于其下属机构。当需要在低一级的两个或更多注册机构间共享数据元时,可以生成一个高一级的注册机构。低一级的则成为高一级( 具有更广泛的论述领域)注册机构的注册提交机构。注册机构对其在一个注册系统负责的数据元进行文件描述。注册机构对注册系统数据元的完整性负责。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 13 页,共 13 页 - - - - - - - - -