元数据的概念计算机数据挖掘与模式识别_计算机-数据挖掘与模式识别.pdf
《元数据的概念计算机数据挖掘与模式识别_计算机-数据挖掘与模式识别.pdf》由会员分享,可在线阅读,更多相关《元数据的概念计算机数据挖掘与模式识别_计算机-数据挖掘与模式识别.pdf(15页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 元数据的概念 元数据(Metadata),即关于数据的数据,是对数据和信息资源进行描述的信息。通常认为,元数据是为了更为有效地管理和使用数据而对它进行说明的信息。所以元数据与其描述的数据内容有着密切联系,不同领域的数据的元数据在内容上差异很大。地理空间数据的元数据是地理空间的空间数据和属性数据以外的描 述地理信息空间数据集的内容、质量、状态和其它特性的一类数据,它是实现地理空间信息共享的核心标准之一。其中,对空间数据某一特征的描述,称为一个空间元数据元素。空间元数据是一个由若干复杂或简单的元数据项组成的集合。它与非空间元数据的主要区别在于其内容中包含大量与空间位置有关的描述性信 息。研究元数
2、据的作用和意义 元数据可用来帮助数据提供者和数据使用者解决数据转换、沟通和理解的问题。归纳起来,元数据主要有下列几个方面的作用:1)、用来组织、管理和维护空间数据 ,建立数据文档,并保证即使其主要工作人员 退休或调离时,也不会失去对数据情况的了解 2)、提供数据存储、数据分类、数据内容、数据质量及数据分发等方面的信息,帮助数据使用者查询检索所需地理空间数据 3)、用来建立空间信息的数据目录和数据交换中心 ,提供通过网络对数据进行查 询 检索的方法或途径,以及与数据交换和传输有关的辅助信息 4)、通过空间元数据,人们可以接受并理解空间信息 ,帮助数据使用者了解数据 ,以便就数据是否能满足其需求作
3、出正确的判断并与自己的空间信息集成在一起,进行不同方面的科学分析和决策。元数据是使数据充分发挥作用的重要条件之一。它可以用于许多方面,包括数据文档建立、数据发布、数据浏览、数据转换等。元数据对于促进数据的管理、使 用和共享均有重要的作用。元数据对于建立空间数据交换网络是十分重要的,往往网络中心通过设在中心的元数据库可以实时地连接各个分发数据的分节点元 数据库,帮助潜在的用户找到其特定应用所需要的数据,实现数据共享。一个完整的元数据系统通常包括三部分,即元数据标准、元数据管理工具和元数据库。不同的元数据库可能采用不同的管理工具,唯一能够在不同数据管理软件间交换元数据的途径是统一元数据标准,只有在
4、统一的标准前提下,才能跨越操作系统平台和数据库软件平台进行数据的互操作,实现数据共享。DIF 元数据标准 在地球科学(包括地圈、水圈、气圈、生命圈、卫星遥感科学)、空间科学和天 文学领域,国际目录网络的目录交换格式是事实上的国际数据目录标准,并在上述科学领域获得了广泛的应用。一条完整的 DIF 记录包含了详细描述数据的各项信息字段。不过其中只有 8 个必选字段,完成这 8 个字段就可以在网上发布该数据(集),其它的可选字段扩展并 进一步阐述数据信息 ,可以在以后逐步添加和更新。DIF 的字段中有些是任意文 本 域,而另外一些则是有值域限制的,比如空间范围、时间限制等。因为包含了那些 必需的信息
5、,通过对一个 DIF 记录的查看,用户可以决定该数据集是否对自己有用。一条格式书写的数据目录共包含了三十多个数据目录元数(或者称为字段),按照性质分为必选、条件必选和可选三类,另外有些字段可以重复,比如数据集引用、参数、作者、联系电话等。标准采用组结构,每组内容包括相关的各种内容,组可以嵌套。ISO 元数据标准 目前 ISO/T211 正开展个国际标准项目的研制工作,每个项目都是以一些比较 成熟的国家标准、地区性标准为基础。该委员会下分五个工作组如图,分别从事框架和参考模型、地理空间数据模型和算法、地理空间数据管理、地理空间服务以及专用标准等方面的研究。在 ISO/T211 中,元数据的内容标
6、准由两大部分组成,一部分是标准化部分,它是用户必须遵循的标准;另一部分是信息化部分,它用于通过提供示例等方法来 帮助指导用户,以便更好地理解标准。同时为了使标准能够满足不同应用需求,把标准内容又分为目录信息和标准部分两层,其中目录信息用于从宏观上获取元数据信息,而标准部分则是元数据的详细信息,以全面地描述地理数据集的内容。ISO/T211 元数据标准的目的是提供一个描述地理空间数据集的过程,以便用户 能够查询和访问地理空间数据,并可以判断确定所拥有的数据集的适用性。具体 来说就是通过建立一个元数据术语、定义及扩展的公用集合 ,使地理数据的管理、检索和使用更加方便有效,为那些不熟悉地理空间数据的
7、人们提供他们所需的地 理数据信息。ISO/T211 元数据标准规定元数据的内容项分为三种类型必须型、条件型、可选型。元数据内容采用逐行方式表达,并且给出了元数据制作、管理规范。元数 据标准的内容分为 14 类,每一类中又包括若干子类或具体元数据项,整个 ISO/FDIS19115 一共有 409 个具体的元数据项。下表列出该标准中较高层次的元数据内容:CSDGM 元数据模型 CSDGM 的实现是通过制定一个描述地理空间数据及其相应含义的集合。主要包 括数据元素、复合元素。以及它们的定义以及数据元索提供值域的信息,用以描述数字地理空间数据集的元数据信息内容.数据元素被定义为数据一个逻辑上的原始项
8、,一个数据元素的条目包括数据元素的命名、定义、缩略名和值域的描述 信息而复合元素则是一组数据元素和其他复合元素的集合。复合元素只能代表更高层次的概念抽象,而不能代表一个具体的数据元素。表一列出了元数据模型中的七个元数据主要子集以及其标识和内容描述。CSDGM 在数据质量信息子集中定义了数据志的标准,数据志被定义为关于构建数据 集的事件、参数和数据源信息和责任方信息 现有的国内外元数据标准体系与比较 目前研究元数据标准的研究机构正在层出不穷地发展,它们所制定的元数据标准既有许多共同之处,又因行业自身特点而有其特殊的指标。现以 ISO/TC211 元数据标准为基础,从元数据的层次结构、元数据分级、
9、元数据性质、元数据特征、元数据内容、元数据扩展六个方面来比较现有国内外元数据标准,并探讨其各自的优势和不足,见下表。由上表比较可以看出,尽管各元数据标准因各自行业特色而有所不同,但基 理和使用数据而对它进行说明的信息所以元数据与其描述的数据内容有着密切联系不同领域的数据的元数据在内容上差异很大地理空间数据的元数据是地理空间的空间数据和属性数据以外的描述地理信息空间数据集的内容质量状态元数据元素空间元数据是一个由若干复杂或简单的元数据项组成的集合它与非空间元数据的主要区别在于其内容中包含大量与空间位置有关的描述性信息研究元数据的作用和意义元数据可用来帮助数据提供者和数据使用者解决数据证即使其主要
10、工作人员退休或调离时也不会失去对数据情况的了解提供数据存储数据分类数据内容数据质量及数据分发等方面的信息帮助数据使用者查询检索所需地理空间数据用来建立空间信息的数据目录和数据交换中心提供通过 本上都包括以下几方面 在元数据性质上,都提供必选、一定条件下必选和可选三种性质。在元数据内容上,都有以下几方面 1)标识信息唯一标识一个数据集,说明标题名称、其地理空间和时间范围、状况、法律限制和保密限定所需的信息,是数据集的基本信息 2)空间数据组织信息包含与数据集中表示空间信息所用方法有关的信息,如数据结构及描述空间位置的方法和目标数目等 3)空间参考信息:包含元数据的现势性及其负责单位信息 4)实体
11、及属性信息:包含数据集的内容及数据集中要素的类型、功能、属性等信息 5)数据质量信息包含数据集质量的评价 6)发行信息:包含有关获取该信息所需的数据发行者及买卖权限的信息。1、数据格式多样化和语义的差异化,导致数据之间的交互能力差;2、数据存储的形态多样化和分散的特点,增加了统的数据共享与体化集成的难度;3、数据应用需求的多样性增加了应用集成的难度。类别 项目 悬浮体 悬浮体含量 分析 POC 与 PON 浓度 粒度 粒度 冰筏碎屑含量 碎屑矿物(重矿物、轻矿物)矿物 粘土矿物 碳酸盐、蛋白石含量 常量、微量元素 地球 表层 化学 沉积物分析 Sr、Nd、Pb 同位素 有机元素(TOC,TN)
12、同位素(13C,15N)分子标志物 硅藻 柱状 沉积物分析 微体 古生物 磁学 整体性质 年代框架与沉积 速率 粒度 矿物 地球 化学 微体 古生物 浮游与底栖有孔虫 有孔虫优势种的碳、氧同位素 放射虫 超微化石 环境磁学 颜色反射率 电阻率、磁化率、Gamma 密度等物理参数扫描 XRF 扫描 210Pb 测年 有孔虫或有机质 AMS 14C 测年 粒度与冰筏碎屑含量 粘土矿物 碳酸盐、蛋白石含量 常量、微量元素 Sr、Nd、Pb 同位素 有机元素(TOC,TN)同位素(13C,15N)分子标志物 基础古生物(硅藻与有孔虫)有孔虫优势种的碳、氧同位素 放射虫 超微化石 理和使用数据而对它进行
13、说明的信息所以元数据与其描述的数据内容有着密切联系不同领域的数据的元数据在内容上差异很大地理空间数据的元数据是地理空间的空间数据和属性数据以外的描述地理信息空间数据集的内容质量状态元数据元素空间元数据是一个由若干复杂或简单的元数据项组成的集合它与非空间元数据的主要区别在于其内容中包含大量与空间位置有关的描述性信息研究元数据的作用和意义元数据可用来帮助数据提供者和数据使用者解决数据证即使其主要工作人员退休或调离时也不会失去对数据情况的了解提供数据存储数据分类数据内容数据质量及数据分发等方面的信息帮助数据使用者查询检索所需地理空间数据用来建立空间信息的数据目录和数据交换中心提供通过 古地磁 环境磁
14、学与古地磁 多管底层水与沉积物间隙水化学:早期成岩作用 Cl,Mg 2+,Na+,SO4 2-,CO3 2-,HCO 3-,K+,Ca2+,CH4 多管与柱状沉积物化学:Mn,Fe,Corg,TN,硫化物 等 样品采集:站位,取样时间,经度坐标,纬度坐标,取样方式,样品特征重力:站位、经度坐标,纬度坐标,高程,观测日期,布格重力异常,均衡 重力异常、中间层密度公式。磁力:站位,经度坐标,纬度坐标,高程,观测日期,观测值,日变,正常场,异常场。地震:站位,经度坐标,纬度坐标,震源深度,震级,震中距 在 DIF 中,下述六个字段是必需的:登录目录标识、登录目录名称、参数、原始数据中心、数据中心(包
15、括名称、数据集标识、联系人等)及数据概要等。为使信息更加明晰,并尽可能与 FGDC 的元数据标准一致,增加了一些字段,如传感器名称、地点、数据分辨率、计划、质量、访问和使用限制、分发、多媒体样本等。新增加的字段有助于用户更好的决定数据集的可用程度。DIF 字段中一部分是文本字段,其他字段则使用有效值。尽管 DIF 增加了若干字段,以求与 FGDC 的元数据内容标准一致。但是,它仍然局限于数据 字典范畴,重点从数据存储的角度说明数据,缺乏数据分发、数据使用等方面的信息。ISO/TC211 的元数据标准草案 该标准以 FGDC 等现有标准为基础,按照国际标准化组织制定的标准导则要求制定。其工作范围
16、是:定义说明地理信息和服务所需要的信息。它提供有关数字地理数据标识、覆盖范围、质量、空间和时间模式、空间参照系统和发行等信息。该标准适用于数据集 编目、数据交换网络,以及数据集的详尽说明。适用于地理数据集、数据集系列、地理 要素和属性。它定义:必选和一定条件下必选的元数据实体和元素提供元数据应用、数据发现、决定数据对于应用的适合程度、数据访问、数据转换和数据应用所需要的最 少的核心内容;可选的元数据元素如果需要,对地理数据的更加详细的标准说明;为适应特殊需要对元数据进行扩展的方法。尽管该标准是用于数字数据的,它的原则也能扩展用于许多其他形式的地理资料,如地图、图表、文本文件等。该标准的正文内容
17、包括:工作范围、一致性、引用标准、术语和定义、符 理和使用数据而对它进行说明的信息所以元数据与其描述的数据内容有着密切联系不同领域的数据的元数据在内容上差异很大地理空间数据的元数据是地理空间的空间数据和属性数据以外的描述地理信息空间数据集的内容质量状态元数据元素空间元数据是一个由若干复杂或简单的元数据项组成的集合它与非空间元数据的主要区别在于其内容中包含大量与空间位置有关的描述性信息研究元数据的作用和意义元数据可用来帮助数据提供者和数据使用者解决数据证即使其主要工作人员退休或调离时也不会失去对数据情况的了解提供数据存储数据分类数据内容数据质量及数据分发等方面的信息帮助数据使用者查询检索所需地理
18、空间数据用来建立空间信息的数据目录和数据交换中心提供通过 号(和缩写词)、元数据要求等。附录包括:A.元数据特征、B.元数据模型、C.元数据扩展和专用标准(Profile)、D.元数据的 ISO 标准相互参照、E.元数据扩 展方法、F.元数据实施、G.元数据的等级、H.实施示例、J.参考文献。标准确定了两级 元数据,即:一级元数据编目信息:包含数据集编目所需的最少的元数据内容。二 级元数据,它包含八个子集和三个可重复的实体。八个子集是:标识信息。包含唯一标 识一个数据集、说明其空间和时间范围、状况、法律限制和保密限定所需的信息;时间 质量信息。包含数据集质量的一般评价;数据志信息。包含有关数据
19、集应用、数据源,以及生产数据集时所用的工艺方法;空间数据表示信息。包含与数据集中表示空间信息 所用方法有关的信息;参照系统信息。包含数据集中应用的空间和时间参照系统说明;要素分类信息。包含数据集中具有的要素类型、要素功能、要素属性和要素关系的定义 和说明;发行信息。包含有关获取信息所需的数据发行者及买卖权限的信息;元数据参 考信息。包含元数据现势性及其负责单位信息。三个可重复的实体不是独立的元数据子 集,它们不单独使用,而总是作为一个单元插在前述某一个子集中,且仅作为该子集的 实体和元素。这三个可重复的实体是:引用文献信息实体。提供引用文献的标准格式;负责单位信息实体。包含与数据集有关的单位和
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 概念 计算机 挖掘 模式识别
限制150内