数据元的规范与标准化框架.doc
《数据元的规范与标准化框架.doc》由会员分享,可在线阅读,更多相关《数据元的规范与标准化框架.doc(9页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据元的规范与标准化框架数据表示和管理的基本概念1.数据元数据元是称之为数据的一个广义概念的特殊成员。总而言之,数据是事实、想法或命令的一种表示数据被收集、组织、记录、处理和存放在一个可检索的表中。数据还必须适用于以人工或自动方式进行交换、解释及加工处理。有许多结构用于数据组织与管理,如数据合成、实体、文件、对象类、对象、记录、关联、关系、行、段、主体域、表以及元组。它们与数据元并不具有相似性,但可以包括或通过一些数据库实现或逻辑建模来等同于数据元的支持。字节和位也是数据的构件,尽管它们被用于电子媒体中数据元的注册,但并不等同于数据元。在数据库中,数据元可以作为信息组(符号组、域)或字符列来处
2、理。在Chen的ER数据模型中,它是一个属性(见图A.5)。在某特定的相关环境中被视为不可分割时,一个数据元则被作为一个单独的数据单位在自然界中,它是数据的单位,表示关于对象类的单独事实。(如:一个被赋值“M”和“S”的字符码表示了“雇员”这一对象类的婚姻状态的属性)。在其使用范围内,它不可能被分解为更多且具有有用含义的基本信息组。因而,数据元可被定义为在用户论述领域内是与用户相关的。数据元是自然界中对象类特性以电子或书面形式的表示。1.1表示一个特性可由能够被人们解释的某一符号集来体现。一个单独的特性可由几个交替的数据元甚至数据元组(通常称之为数据合成,有时也称之为数据元集或数据元链)来表示
3、。这样,一个特性可以由数据元组构成的数据合成或一个单独的数据元表征。1.2常用法所有数据从业者和理论家都会涉及数据元的概念。无论用什么方法或技术,数据元都是整个软件开发生命周期(SDLC)的公用纽带。在SDLC的早期阶段,它们曾被视为实体(或对象类)的属性在SDLC的后期,具体的数据值被赋予它们的实例作为符号组或字符列。在SDLC的任一阶段,对于软件的生产者和用户来说,数据元是可识别的数据元是数据共享和共同持有的最小单元。一些数据元得以共享的信息系统成分有:a)企业信息模型;b)数据模型;c)数据流程图;d)数据库设计(模式、文件、表格);e)接口规范;f)计算机程序1.2.1数据模型中的数据
4、元在数据建模出现之前,“数据元”这个术语已被普遍使用。用于表示指导企业商务信息的数据单元传统上被称之为数据元。数据建模的演进就是为捕捉这些数据表示的语义提供一种有效的方法。图A.1描述了用于GB/T18391中的数据元结构和术语与一些更为传统数据建模术语的关联在一个数据模型中,一个实体(实体类型、对象类等)的某个特性的属性会被企业选择记录为数据。对每个实体,通常有许多属性会引起企业的兴趣。数据模型和对象模型(面向对象定向范例中)用于识别兴趣体(实体或对象)应用相关环境中的诸多事物。属性提供关干这些实体和对象使用所需的信息。用于整个自动化信息系统环境的数据元是面向对象范例中这些实体或对象以及它们
5、属性的表示。产生于数据模型的数据元的名称的典型形式是实体名称和实体属性名称的合成(图A.2).数据元名称大体上是以同样方式产生的。在对象模型中,类或对象名称与类或对象属性混合使用以形成数据元名称(图A.3)。对象模型不同于数据模型的地方在于:前者可包含有关对象或类的附加信息,如行为或运行在数据模型或对象模型中,一个属性经常等同于一个数据元(见图A.3)。它是自然界中对象某个类单个特性的表示。而另一类思路是将对象类特性的概念与特性的表示分隔开来。由于数据元包含了示,人们不必依靠其在数据库、屏幕和纸张等中的表示就可以了解其隐含的思想,因而将其隐含思想隔开来是合理而又明智的。这与那些将属性看作与值域
6、有关,而不是属性具有值域的数据建模技术是一致的。在某些情况下,如度量单位,属性与数据元间存在着明显的差异。例如:旧期”是时间连续区上用来度量最近一天的一个点。这样,它可以被看作一个单独的事实并用一个单独的属性表示在一个数据模型中。但是,有好几种方式来表示一个日期。在美国,最常用的是:月的名称、一月中的天数和年数。它们是三个数据元。然而,同样的日期事实可以过去某确定日期后所流逝的天数这样一个单独的数据元来表示(如天文学家就使用儒略历)。许多单独事实可以用多于一种度量衡单位来表示,既可用英制表示,也可用公制来表示一个数据元概念上的等同体被称之为:属性、特性、数据元概念、逻辑数据元和商务事实。在此,
7、它是作为一个特性来论及的,以区别于人们通常所说的属性(一般包括其表示形式)。这样,特性就成了某个对象类所有成员共有的特征。特性可以用一个例子来解释。假设一棵树是自然界中我们感兴趣的对象。但是,我们关心的是任一棵树,而不是某棵具体的树。树的特征中我们感兴趣的是其高度。树高就是一个对象类加上一个特性(数据兀概念),但还不是一个数据元,因为合适的表示形式尚未阐明。我们可以从多个度量高度的方式中选择一个来表示树高相对于特性,人们更倾向于用特性类这个术语来命名数据元那个方面。对象中的一类如:人群没有身高;而每一个对象个体,如:个人,就有身高。因此,对于称之为人群的对象类来说,身高是该对象类的一个特性类。
8、但在该标准中,术语特性的使用遵循常用法则。有时,数据元可以由几个表示为数据元的要素部分来派生,每个部分又表示为数据元。这些派生物可以有许多形式。一个例子是电话号码由几个要素部分组成。在美国,电话号码由十位数字唯一地描述,这些号码很容易由一个数据元表示。但是,电话公司(和其他公司)需要将电话号码分隔为区号、交换码和线路号,形成三个数据元。将区号、交换码和线路号串联起来(以正确的方式)形成一个数据元以表示整个电话号码。另一个派生的例子是代数运算。均值(或平均数)的计算需要观测值及其个数,因此,一个人群平均年龄的计算需要表示人群年龄的数据元和表示人群中人数的数据元。这样,就可以用派生中阐明的公式进行
9、显而易见的算术运算。这些例子是相当简单的,但不难想象那些需要在数据元中搜集的更为复杂的派生类型。与数据元关联的派生为现存的数据元与新需要的数据元之间发生关联提供了一个强有力的手段。A.1.2.2表中的数据元关系型数据库中的数据元以字段名的形式出现于表格中。图A.4给出了数据库表格中数据元的一个例子。1.2.3数据管理工具中的数据元图A.5标明了数据管理工具中经常与数据元(黑体部分)有关联的术语。1主题词表主题词表是使相关术语关联的工具,主题词表术语有助于现有数据元的定位。查找名称构件的大量同义同,近义词以及同形异义词使得主题词表成了一个很有用处的工具。它能够提供首选名称术语和其他术语间语义上的
10、联系在指导同形异义词(拼写相同而表示不同概念的词)使用的同时,主题词表还可以指导用户通过涉及等同、层次以及关联关系的选择.一个标准名称构件的主题词表可以由注册员开发并分配给各有关方面;此外,应鼓励主体领域主题词表的开发2.2分类法和本体论分类(如“属”和“种”)至少可以通过两种途径实现。第一种,同时也是最简单的方法是标准化方法,即每当一个新数据元注册时,该方法就会生成一个分类。更理想但非常麻烦的方法是,首先形成一个包括所有可能数据元的完备分类,然后将新注册的数据元放人事先定义好的位置。最为实用的方法是,先形成一个基本的而相对较为简单的分类,在数据元被注册时,允许其在使用严格规则的情况下逐渐完善
11、。最为普遍的方法是通过词典编纂的形式产生一种分类法。词典编纂过程更加关注语言的词或词汇而并不直接关注语义学。如果人们接受了这样假设除非一个概念可以用词汇加以描述,否则,人们是无法理解此概念的。这样,词典编纂者的方法就可以服务于数据元的分类要求。即人们可以为其所思考的概念创造词汇每一个数据元注册应具有最大满足其用户的特定分类。如此,不同的注册可以选择使用不同的分类。在一个分类中,每个节点是一个或多个上位类的一个下位类。该节点不仅沿用了上位类的含义,而且其含义同时也受到了上位类的限制。无论一个数据元被定义得如何好,分类对用于其中的节点含义的确切描述,无疑具有极大的帮助作用。分类的另一个主要的好处在
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 规范 标准化 框架
限制150内