(大数据资料)实现数据开放共享的方法.pdf





《(大数据资料)实现数据开放共享的方法.pdf》由会员分享,可在线阅读,更多相关《(大数据资料)实现数据开放共享的方法.pdf(30页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、(大数据资料)实现数据开放共享的方法1实现数据开放共享的方法实现数据开放共享的方法当前之所以存在严重的信息孤岛问题、数据难以开放共享,根本原因在于当前的信息系统设计的理论体系有问题。信息孤岛犹如爱滋病,一旦产生就不可医治,BI、EAI、EDI、ETL、ESB只是减缓症状的方法,治标不治本。本文的方法是在系统的设计阶段实现数据的开放共享,从根本上避免信息孤岛问题的产生。火车是以标准的钢轨为基础避免了铁路交通孤岛而实现了互联互通,本文借鉴了此方法。第 1 页 共 30 页(大数据资料)实现数据开放共享的方法2目目 录录第第1章章概要概要.3第第2章章信息孤岛的根源在于关系数据库理论有问题信息孤岛的
2、根源在于关系数据库理论有问题.42.1当前的信息孤岛为什么是不治之症.42.2关系数据库理论是以服务器为中心的孤岛型理论.52.3当前的信息系统软件开发模式的特点.62.4从技术上分析关系数据库理论所存在的问题.72.5关系数据库理论是单机时代的产物,不适应互联网时代.8第第3章章利用万能数据结构表实现数据开放共享利用万能数据结构表实现数据开放共享.103.1火车的互联互通及机械零部件的互换性对信息系统设计的启示:标准化.103.2数据结构的标准化:万能数据结构.11第第4章章两种完全不同的软件设计模式的对比两种完全不同的软件设计模式的对比.154.1万能数据结构表是一门全新的数据库理论.15
3、4.2数据的标准化、数据的完整性.154.3独立数据库与关系数据库理论的对比.19第第5章章独立数据库简介独立数据库简介.215.1独立数据库的技术特点:是一种数据优化、查询技术.225.2如何证明“万能数据结构表”是万能的.245.3独立数据库的一项重要任务就是根除关系.28第 2 页 共 30 页(大数据资料)实现数据开放共享的方法3第第1章章 概要概要当前的数据之所以难以开放共享,根本原因在于当前的信息系统设计的理论体系有问题。实现数据开放共享、互联互通可以借鉴火车的设计思路。我国的火车之所以可以在全国各地互联互通,是因为我国各地的钢轨都是标准的,各种火车是以标准的钢轨为基础而设计。我国
4、的钢轨与前苏联的钢轨是不相同的,我国的火车要经过前苏联国家时,就要换车轮,换一次车轮需要80分钟。当前的各种信息系统中的数据全都是异构的,犹如钢轨的宽度各不相同,当前的系统之间互联互通是通过转换数据结构的方式而实现,犹如换车轮。BI、EAI、EDI、ETL、ESB等都是通过“换车轮模式”而实现互联互通。铁路交通只是利用钢轨的标准化这种非常简单的方法就从根本上避免了铁路交通孤岛问题的产生。本文解决信息孤岛问题的方法也很简单,本文是通过对数据及数据结构的标准化而从根本上避免信息孤岛问题的产生,犹如火车通过钢轨的标准化而实现互联互通。本文中的方法与当前的信息系统设计的理论体系完全不同,是一种全新的信
5、息系统设计模式。当前设计各种信息系统的特点:数据及数据结构完全由设计人员自己决定,因此各信息系统中的数据完全是异构的,这犹如全国各地都是分别设计自己的火车,各地的火车钢轨都是不相同的。本文借鉴了铁路交通的设计思路:在设计各种信息系统时,必须按标准的数据及标准的数据结构为基础而设计,不允许设计人员随意地定义数据及数据结构。万能数据结构表就是标准的数据结构表。万能数据结构表可以存贮各种各样的结构化数据。如果各个信息系统中的数据及数据结构都是标准的,那么数据就可以象火车一样在各个信息系统之间互联互通。当前的实现数据开放共享、互联互通的方法可称作是“换车轮模式”。本文实现数据开放共享的方法所采有的模式
6、可称作是“标准化模式”。“标准化模式”是以“独立数据库”为基础而设计的。“独立数据库”是一种与关系数据库理论完全不同的全新的数据库理论。【作者:】第 3 页 共 30 页(大数据资料)实现数据开放共享的方法4第第2章章 信息孤岛的根源在于关系数据库理论有问题信息孤岛的根源在于关系数据库理论有问题在信息化领域,关系数据库独占鳌头!当前的大部分信息系统都是以关系数据库为基础。本文之所以要介绍独立数据库,是因为以关系数据库理论为基础而设计的信息系统都不能有效地实现数据的开放共享、互联互通。在介绍独立数据之前,非常有必要研究清楚以关系数据库为基础的信息系统为什么都是孤岛型的系统。也可以为什么只有抛弃关
7、系数据库理论才能从根本上解决信息孤岛问题。2.12.1当前的信息孤岛为什么是不治之症当前的信息孤岛为什么是不治之症通过下面的分析、计算就会发现当前的信息孤岛是不治之症。这是由当前的信息孤岛的实际情况及解决信息孤岛的方式所决定的。当前的实际情况:当前的各种信息系统都是孤岛型的,因为设计人员在开发各种信息系统时都没有考虑数据的互联互通问题,没有通用的数据接口。如果需要与某个系统实现数据的互联互通,则需要开发专用的“点对点式的数据接口”。如果与N个系统实现数据的互联互通,那么至少要开发N个数据接口。用现有的技术为什么不能根除信息孤岛?从理论上而言,利用现有技术可以通过转换数据结构的方式而实现任意两个
8、信息系统之间的特定数据的互联互通、开放共享,然而由于全球的各种信息系统的数量超过千万,全球所产生的数据超过数万亿条,而且信息系统及数据还在不断地增加,面对如此海量的异构的、不标准的数据,“转换数据结构”的方法所花的成本非常高、不可承受。因此,当前的信息孤岛只能在局部进行缓解,而不能整体上得到根治。利用现有技术设计信息系统时,每增加一个信息系统,就增加了一个孤岛。两个系统之间的互联互通约需要1个人月的工程量;三个系统之间的互联互通约需要(3-1)+(3-2)=3个人月的工程量;四个系统之间的互联互通约需要(4-1)+(4-2)+(4-3)=6个人月的工程量;N个信息系统之间的互联互通约需要(N-
9、1)+(N-2)+(N-3)+3+2+1)个人月的工程量。由计算公式可看出,随着信息系统的数量的第 4 页 共 30 页(大数据资料)实现数据开放共享的方法5增多,系统之间的互联互通的工程量十分巨大,无法承受。因此,当前的信息孤岛是不治之症。这与当前的事实是相符的,自从关系数据库理论产生的40多年来,世界各地的信息孤岛问题都未能得到有效解决。用关系数据库理论开发信息系统,会产生无穷无尽的数据结构,也会产生无穷无尽的不标准、不规范的数据。对于用关系数据库理论所设计的信息系统而言,随着信息系统的数量的增加,信息孤岛问题也将会更加严重。也可以说关系数据库理论是信息孤岛的发源地,人们虽说想尽各种方法来
10、解决信息孤岛让数据互联互通,然而信息孤岛问题不降反增。信息孤岛一旦产生,就不可根治。因为当前的信息系统中的数据的数据结构是不标准的、数据是不标准的,数据与数据库系统密不可分,数据与应用程序密不可分,数据只有在原系统中才是有意义的,一旦脱离了原来的系统,就会变成无意义的数据。当前解决信息孤岛实现互联互通的方法(例如BI、EAI、EDI、ETL、ESB等等)都是通过转换数据结构(换车轮模式)、开发点对点式的数据接口而实现,然而这种方法只能治标,不能治本。利用现有技术无法开发出通用的数据接口。2.22.2关系数据库理论是以服务器为中心的孤岛型理论关系数据库理论是以服务器为中心的孤岛型理论关系数据库理
11、论建立在封闭的局域网的基础之上:“所有的数据都处于一个完全封闭的系统中”。关系数据库理论中没有互联互通的内容,也没有数据接口的内容。关系数据库理论是一种以自我为中心的孤岛型理论:“我只处理我的数据,不处理你的数据,你只处理你的数据,你也不能处理我的数据,你我之间没关系。”关系数据库理论的创始人根本就没有考虑互联互通的问题,关系数据库理论是一种仅适用于单机、局域网的数据库理论。互联互通的信息系统没有中心:“我要处理我的数据,还要处理你的数据和他的数据,你要处理你的数据,也要处理我的数据和他的数据,你我他之间的数据要互联互通。”关系数据库理论是“独立王国”的孤岛型理论,关系数据库设计人员是“独立王
12、国”的国王,国王就是法律,数据类型、数据结构全由国王任意定义。互联互通需要的是没有国王的民主社会的民主型理论,数据库的设计人员不再第 5 页 共 30 页(大数据资料)实现数据开放共享的方法6是国王而是民主社会中的一员,他的一言一行(数据、数据结构)都必须受到民主社会的“法律、行为规范(通信协议)”的制约。问题是当前的关系数据库理论中没有结构化数据互联互通的通信协议。关系数据库的问题:由设计人员任意定义数据和数据结构,各方的数据和数据结构各不相同。因此,数据的接收方无法直接把数据存贮到自己的数据库中。关系数据库中的数据是一种有结构的数据,然而对方又没有这样的结构,因此,数据发送到对方的数据库之
13、后就是不可识别的数据。只要是用关系数据库理论所设计的信息系统,其数据必定不可能在各个数据库之间互联互通,必定是孤岛型系统。30多年来关系数据库在结构化数据处理方面独占鳌头,为全球的信息化建设立下了汗马功劳,是信息化社会的大功臣!当前之所以会出现严重的信息孤岛问题、互联互通问题、数据难挖掘问题,与关系数据库密不可分,关系数据库是信息孤岛问题的罪魁祸首!人们曾花费巨额资金,希望通过BI、EAI、ETL、EDI、ESB等技术来解决信息孤岛,实现数据的互联互通,然而全球的大量事实表明,效果很不理想。2.32.3当前的信息系统软件开发模式的特点当前的信息系统软件开发模式的特点当前的信息系统软件开发模式是
14、:先设计出数据结构各不相同的系统,然后再通过转换数据结构而实现互联互通,犹如先设计出“结构各不相同的车轮”的火车,然后再换车轮互通,这种软件开发模式可称作是“换车轮模式”、“后ETL模式”。用本文中的方法设计软件时,其开发模式是:各信息系统必须按照标准的、统一的“事物信息表”而设计信息系统,犹如按标准的钢轨而设计火车,这种软件开发模式可称作是“标准化模式”、“先ETL模式”,按这种模式所开发出的信息系统实现数据的互联互通、开放共享交换非常容易,在技术上不存在信息孤岛问题。在小数据时代,各行各业的信息系统中的数据及数据结构基本上都是不标准、不规范的,各个信息系统中的数据完全由系统的设计人员任意定
15、义,因此,各信息系统中的数据都是异构的、不标准的,结果导致了非常严重的信息孤岛问题。不同的信息系统要实现互联互通、共享交换,就必须通过转换数据结第 6 页 共 30 页(大数据资料)实现数据开放共享的方法7构的方式来实现。然而面对全球数千万个以上的信息系统,数万亿条以上的异构的、不标准的数据,要实现各个信息系统之间的互联互通、共享交换,用传统的转换数据结构的方法就非常困难,甚至可以说根本不可能在可承受的时间内实现。现有软件开发模式的根本错误在于“数据治理的先后次序”搞反了。当前的BI、EAI、ETL、EDI等技术都是在“疾病”产生了之后再“治疗疾病”。在大数据时代,应该是在设计各种信息系统之前
16、就对各行各业的数据进行“数据治理”,并形成各行各业的国际数据标准、国家数据标准、行业数据标准,而不是等到数千万个软件系统产生了无比海量的不标准、不规范的数据之后再治理数据。2.42.4从技术上分析关系数据库理论所存在的问题从技术上分析关系数据库理论所存在的问题下面的两张表中的数据对关系数据库而言是合格的,然而这两张表中的数据是普通人难以看懂的:表3:关系数据库中的表IDIDXMXMXBXBNLNLTZTZSGSG1张三男5672180表4:关系数据库中的表IDIDXMXMXBXBZYFZYFXYFXYFQTFYQTFY2146张三男5672180上面两表中的数据的实际含义如下:表5:表2的实际
17、内容IDID姓名姓名性别性别所龄所龄体重体重身高身高1张三男5672180表6:表3的实际内容IDID姓名姓名性别性别中药费中药费西药费西药费其它费其它费用用2146张三男5672180下表是用发明专利技术万能数据结构表“事物信息表”而设计的表,该表中的数据无论是谁,只要懂汉语,就可以看懂表中内容:事物信息表存贮数据的例子ID事物代号事物属性 事物属性值超长属性值单位附件时间100280事物分类 体育管理系统2014.3.2101280事物分类 教练信息2014.3.2第 7 页 共 30 页(大数据资料)实现数据开放共享的方法8102280事物分类 教练基本情况2014.3.2103280身
18、份证号XXXXXXXXXX 2014.3.2105280姓名张三2014.3.2106280性别男2014.3.2107280年龄562014.3.2108280体重72 KG 2014.3.2109280身高180CM2014.3.211001280事物分类 病历2014.5.311011280事物分类 住院病历2014.5.311021280事物分类 医疗费用2014.5.311031280身份证号XXXXXXXXXX 2014.5.311041280住院号XXXXXXXXXX 2014.5.311051280姓名张三2014.5.311061280性别男2014.5.311071280中
19、药费56元2014.5.311081280西药费72 元 2014.5.311091280其它费用180元2014.5.3关系数据库中的数据与数据结构密不可分。关系数据库中的每一个数据都是有数据结构的,一旦失去相应的数据结构,就成了无意义的数据。关系数据库中的数据与应用程序密不可分。目前的信息系统都是通过应用程序来解读关系数据库中的数据,然而每个应用程序只能解读自己的系统中的数据而无法解读其它系统中的数据。关系数据库中的数据不具独立性、完整性,数据一旦脱离相应的数据库系统及相应的应用程序就变成了无意义的数据。2.52.5关系数据库理论是单机时代的产物,不适应互联网时代关系数据库理论是单机时代的
20、产物,不适应互联网时代信息孤岛问题是IT领域的一个非常严重的问题。人们在20年前就注意到了信息孤岛问题,并开始寻找解决信息孤岛问题的方法,然而20多年过去了,全世界无数的非常聪明的IT人士想尽了各种方法,例如BI、EAI、EDI、ETL、ESB,然而当前的众多事实表明,信息孤岛问题不但没有从根本上加以解决,反而越来越严重。人们为什么无法根除信息孤岛问题呢?产生信息孤岛的根本原因在于关系数据库理论,因为关系数据理论单机时代的产物,创始人当时未考虑数据在各个信息系统之间的互联互通问题!关系数据库理论是在互联网产生之前的单机第 8 页 共 30 页(大数据资料)实现数据开放共享的方法9时代创立的。关
21、系数据库理论于1970年6月由IBM公司的埃德加考特(Edgar Frank Codd)创立。ORACLE诞生于1979年。互联网诞生于1973年至1984年之间。1984年,美国国防部将TCP/IP作为计算机网络的标准。关系数据库理论中没有数据交换共享的概念,也没有数据接口的概念。关系数据库所关心的只是如何处理自己的数据(单机中的数据),而未考虑如何处理从其它数据库发过来的数据,也未考虑如何把数据发送到其它数据库。关系数据库的特点是:“你的数据库处理你的数据,我的数据库处理我的数据。我不处理你的数据,你也不处理我的数据,你我之间是没有关系的。”在单机时代、局域网时代,关系数据库在处理结构化数
22、据方面发挥出了巨大的作用。然而,随着互联网时代的到来,人们不但希望信息系统处理自己的数据,还希望各个信息系统之间可以共享交换数据,希望数据可以互联互通。为了解决信息孤岛问题,人们发明了BI、EAI、EDI、ETL、ESB等等很多方法。随着IT技术的飞速发展,全世界的各行各业建立了大量的信息系统,然而20多年来全世界花费了巨大的人力、物力来解决信息孤岛问题,到如今,信息孤岛问题不但没有根除,反而比以前更严重,信息系统之间的互联互通、数据的开放共享还是非常困难!第 9 页 共 30 页(大数据资料)实现数据开放共享的方法10第第3章章 利用万能数据结构表实现数据开放共享利用万能数据结构表实现数据开
23、放共享本文解决信息孤岛实现数据开放共享的方法非常简单,犹如火车通过钢轨的标准化而实现了铁路交通的互联互通,万能数据结构表就是信息系统的标准的钢轨。3.13.1火车的互联互通及机械零部件的互换性对信息系统设计的启示:标准化火车的互联互通及机械零部件的互换性对信息系统设计的启示:标准化火车之所以能够在全国各地互联互通,是因为全国的钢轨都是标准的,我国的各种火车都是以标准的钢轨为基础而设计的。机械零部件的互换性是机械中的一个非常重要特性。机械工程师在设计机械设备时都要尽量采用标准的零部件。火车的互联互通及机械零部件的互换性都是以“标准化”为基础。如果说全国各地的钢轨各不相同,那么无论采用什么样的换车
24、轮的方法,都不可能从根本上解决铁路交通的孤岛问题。这个道理大家都能理解。奇怪的是在IT领域,人们到目前为止还是采用“换车轮的模式”来解决信息孤岛问题。IT行业的软件工程师几乎没有标准的概念。软件设计人员在设计软件系统时几乎不考虑任何标准,各种信息系统中的数据完全由软件设计人员自己任意定义,其结果就是各种信息系统中的数据全是不标准、不规范的异构数据。铁路交通以“钢轨的标准化”而从根本上避免了“铁路交通孤岛”问题的产生。如果各种信息系统的数据及数据结构也采用标准化的数据和数据结构,那么,也可以从根本上实现各种信息系统之间的互联互通!然而利用关系数据库技术,不可能使数据结构标准化、统一化。本文中的“
25、事物信息表”可存贮各种各样的结构化数据,可以成为标准的数据结构表。关系数据库理论存在致命缺陷的一个重要原因在于“由设计人员自己随意定义数据结构”,其结果就产生了大数据时代的“数据类型多”的大问题。为了从根本上解决“数据类型多”的问题,利用本文的方法在设计信息系统时,不充许数据库的设计人员随意地定义数据结构,为了使数据可以互联互通,存贮任何数据都必须采用统一的、标准的、固定的数据结构表“万能数据结构表”来存贮。本文之所以自始至终强调“只用一张表或若干张结构完全一样的事物信息表存贮数据、数据的完整性”,目的就是让数据可以在不同的信息系统第 10 页 共 30 页(大数据资料)实现数据开放共享的方法
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据资料 实现 数据 开放 共享 方法

限制150内