技术基础篇数据处理第三讲.ppt
《技术基础篇数据处理第三讲.ppt》由会员分享,可在线阅读,更多相关《技术基础篇数据处理第三讲.ppt(69页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第第6章(章(part1)数据资源管理技术数据资源管理技术一、数据处理的概念所谓数据处理,就是把来自科学研究、生产实践和社会经济活动等领域中的原始数据用一定的设备和一定的手段按一定的使用要求加工成另一种形式的数据,以便获得对人们决策有价值的信息的过程。第二篇技术篇第二篇技术篇二、数据处理的发展阶段1.手工处理2.机械设备处理3.计算机系统处理由算盘、计算尺、手摇计算机等进行处理由卡片、制表设备等进行处理完全由计算机系统进行处理三、数据处理的基本内容1.数据收集(数据采集)(1)定义:数据收集就是按照用户的需要和系统的要求收集必要的原始数据(2)收集方式人工收集 联机方式收集比较:人工方式及时性
2、差,出错率高;联机方式快速、准确,但投资较大。联机方式是数据采集的发展方向由人通过一定的中间环节获得数据(如档案文件、帐册、票据凭证等)。要对数据的来源和数据本身的准确性充分了解,以保证引用资料的准确性。将某种计算机装置、测试装置等直接与电子数据处理系统相联接,将所需数据直接送入计算机处理系统,由计算机直接处理。2.数据加工处理(1)数据的转换和录入l数据转换:也叫数据的预处理,是将采集到的原始数据通过一定手段转换成适合于计算机处理的形式,使数据代码化。原始数据的分类:原始数据的分类:数值型数据:由数字字符组成,可直接进行数据录入文字信息或特定符号:必须预先经过“编码”处理才能录入l数据录入方
3、法:传统手工方法;传统手工方法;源数据自源数据自动化方法。动化方法。(2)数据分类和合并l分类:根据一定顺序将无序的数据元素序列调整成为一个有序序列,也就是将数据元素按某一关键字进行排序,形成一个有序文件。l合并:将两个或多个简单有序集合中的数据项目按同样的顺序连接成一个有序集合。3.数据传输数据传输有两层含义实现数据资源的共享与交换数据处理结果的输出如:利用计算机通信网络共享各网点的数据资源。常以报告、文件图表等形式输出给各用户,并传送到各部门。4.数据存储l数据存储:是对原始待加工的数据及已加工的各种信息的储存 涉及的两个问题物理存储:将数据存储在适当的介质上逻辑组织:按数据逻辑内在联系和
4、使用方式,把数据组成合理的结构5.数据管理 数据管理就是对数据的更新和维护,也就是指对原文件中的记录或数据项进行修改、插入(增加)、删除及数据存储的调整,数据正确性的检查和安全性的保证等。更新过程录入更新更新新文件更新文件旧文件6.数据检索l数据检索即从计算机存储数据中查找和选取所需要的数据l采用何种方式检索,取决于数据存储的形式数据处理的核心是数据处理的核心是数据收集和数据管理数据收集和数据管理四、文件组织只有将数据有序地组织起来,才能对数据进行有效地处理。1.数据组织的层次数据组织的层次数据按照层次方式进行组织由(位、字节、)字段、记录、文件、数据库(、数据仓库)组成n位(Bit):是计算
5、机中最小的数据单位,其值为0或1,是一个二进位,表示一个导通或未通的电(光)路。n字节(Byte):字节(Byte)是计算机信息技术用于计量存储容量和传输容量的一种计量单位,1个字节等于8位二进制。n字段(Field,也称数据项)。多个字符组成一个词或者一个完整的数字(如人名或年龄)字段是数据的最小单位,它不能再分成有意义的单位n记录(Record):由与某个特殊对象或活动有关的所有字段组成。n文件(File)同一类型的所有记录组成一个文件文件就是与某个特定主题相关的数据记录的集合。n数据库(Database):逻辑相关文件的集合。n数据仓库(Datawarehouse):由多个数据库中的信息
6、抽取组合构成。(字母J的ASCII码)数据的层次数据的层次举例举例文件字节字段记录01001010900811刘汉云 2000-9-4位0,1数据库刘汉云项目数据库包含:职员编号、姓名、聘用日期职员文件(名字字段)职员文件部门文件财务文件900811刘汉云 2000-9-4900206李卓宇 2002-7-2910810张昕阳 2001-8-22.文件的组织方式 文件是数据库组织的基础,任何对数据库的操作最终均转化为对数据文件的操作。文件的组织方式直接影响整个信息系统的效率。(1)概念)概念 文件的组织方式是指文件中的记录或数据在存储介质上的排列方式。一般按其内部结构大致分为串行组织、顺序组织
7、、随机组织、索引组织、倒排组织和链表组织等方式。(2)分类n串行组织串行组织l是最简单的一种文件组织形式,它将记录按出现的顺序一个接一个地存放在存储器的某个区中,取用某个记录时只能顺序扫描整个文件。l较多用于计算机运行过程中产生的暂时文件以及存档文件。l适用于磁带存储器。l串行组织文件简称为串行文件。n顺序组织顺序组织l指文件中各记录根据关键字(值)以升序或降序的形式存放在存储介质上的组织形式。l是经过整理的串行文件。l数据记录的逻辑顺序和物理顺序是一致的。l其存取只能以顺序方式进行,不能任意对某个记录进行直接存取。l适用于拥有大量记录,且变化不频繁的文件;也适用于成批数据顺序存取的场合。l可
8、存储在顺序介质和随机存取介质上。l顺序组织文件简称顺序文件。n随机组织随机组织l指文件中各个记录与其在存储介质上的存放位置之间毫无关系的组织方式。l用一种算法将记录的键值转换为一个近乎随机的数,根据这个确定记录在存储器上的位置。l只要确定了某个记录的存储地址(记录键),就可以直接对其进行存取,不必考虑与其他记录之间的顺序关系。l只能存储在磁盘等随机存储设备上,不能存储在磁带等顺序存储设备上。l可用于联机处理的场合,实现快速地对数据进行随机存取及查询;不适用于文件中大部分记录都需要处理的情况。l随机组织文件简称为随机文件。n索引组织索引组织l是把文件中识别各个记录的关键字集中在一起组成一个目录文
9、件(即索引表)的组织方式。l由索引表(简称索引)与主文件两个部分组成。l适用于批处理及联机处理。l优点是既可用于顺序操作,也可用于随机操作l缺点是当文件量较大时,目录文件增多,所占存储空间增大。l索引组织文件简称索引文件n倒排文件倒排文件l是对每个辅关键字都设立一个索引,每种关键字值对应一个索引项,将具有相同关键字值记录地址都保存在相应的索引项中的组织方式。l倒排组织中,记录有多个键值,根据这些键值来确定一个记录。l可以把倒排组织文件视为“多键值索引文件”。l倒排组织文件简称倒排文件倒排文件倒排文件 举例举例基于属性的倒排基于属性的倒排在一个带结构的记录文件中,如数据库文件等。文件里存放的都是
10、一条接着一条的整齐的记录,每个记录又可分为一个个的属性。检索过程往往要求找出,在某个或者某些属性上满足一定条件的记录集合。像这一类的检索我们称为基于属性的检索。比如北大里某次活动的学生报名登记表文件,部分信息如下:001 xxx142 张三 男 18 元培 002 xxx205 李四 女 17 哲学 003 xxx187 王五 男 19 生物 004 xxx325 赵六 女 18 元培 而我们利用倒排文件来实现上述非关键码的查询,就能大大提高速度。对于前面的情况设计倒排表如下:男 001,003 女 002,004 16 17 002 18 001,004 19 003 20 元培 001,0
11、04 生物 003 哲学 002 由此可见,有了倒排文件,我们就可以将查询变成几个集合之间的交,并等运算,得到的最后结果即时我们要求的,这样不用挨个读取记录,且参与运算的数据大大减少,基本可以不用多次读写磁盘而直接在内存里进行运算,大大提高了检索速度。有了这样的倒排表后,前面的查询就很容易了。如找出院系为“元培”的所有学生(简单查询),可以在院系倒排表中,取出属性值为“元培”的那一行倒排表,它里面包含的所有编号对应的记录就是所求的记录。又如找出年龄在18到20之间的所有学生(范围查询),我们可以把年龄倒排表中18,19和20这三行所对应的三个编号集合做并运算,最后结果就是我们要找的。而找出年龄
12、在19岁以上的所有男生(逻辑查询),这个我们找出19岁以上的所有编号集合,用并运算合在一起,再同性别倒排表中的男生那一行的集合做与运算,最后就能得到正确结果。n链表组织链表组织l是记录之间互相用指针连接的组织方式。l指针是特殊的数据项,指出另一记录在存储器上的位置,同时也反映了数据记录之间的联系,它不代表任何属性。l一组记录可提供几组指针,形成不同的逻辑文件,存取记录十分方便。l链表组织文件简称链表文件。第第6 6章章(part2part2)数据库技术数据库技术一、数据库系统的产生一、数据库系统的产生 1.人工处理阶段(50S中期以前)l没有软件支持,程序员直接管理数据。没有软件支持,程序员直
13、接管理数据。l数据保存在处理程序中或随程序执行人机交数据保存在处理程序中或随程序执行人机交互地输入,数据处理后将结果输出,最后数互地输入,数据处理后将结果输出,最后数据和程序占据的内存空间被一起释放。据和程序占据的内存空间被一起释放。l只有程序文件的概念,数据的组织方式由程只有程序文件的概念,数据的组织方式由程序自行设计和安排。序自行设计和安排。l问题:编程效率低,程序依赖数据,不灵活,问题:编程效率低,程序依赖数据,不灵活,容易出错。容易出错。人工管理方式应用程序 A文件A应用程序 B文件B应用程序 C文件C 2.文件管理阶段(50S后期)l程序与数据具有设备独立性,可长期保存在外程序与数据
14、具有设备独立性,可长期保存在外存储器上,构成程序文件和数据文件。存储器上,构成程序文件和数据文件。l数据不属于某个特定的程序,允许重复使用。数据不属于某个特定的程序,允许重复使用。l数据文件的结构仍取决于特定的应用,程序与数据文件的结构仍取决于特定的应用,程序与数据间的依赖关系并未根本改变。数据间的依赖关系并未根本改变。l缺点:数据冗余,数据文件间缺乏联系,修改缺点:数据冗余,数据文件间缺乏联系,修改时容易导致数据的不一致性;数据文件面向应时容易导致数据的不一致性;数据文件面向应用,当数据结构改变时,程序维护便成为系统用,当数据结构改变时,程序维护便成为系统的主要矛盾。的主要矛盾。文件管理方式
15、文件管理方式程序程序A程序程序C程序程序B文件管文件管理系统理系统文件文件B文件文件C文件文件A1文件文件A2 3.数据库阶段(60S后期)l数据库技术的出现标志着数据资源管理进入数据库阶段。数据库系统的出现,使数据管理进入了一个新阶段。l由于使用数据库管理系统来专门管理数据,实现了数据与程序的真正独立性,并且最大限度地降低了数据的冗余度。l充分实现数据在不同应用中的共享,且能并发地使用数据,对数据的安全保密和完整性也有了保证措施。数据库管理方式数据库管理方式程序程序A程序程序C程序程序B数据库数据库管理系统管理系统数数据据库库数据库系统数据库系统数据库系统:数据库系统:数据库与数据库管理系统
16、数据库与数据库管理系统 的有机结合的有机结合;1.数据库:数据库:逻辑上相关的记录和文件的集合。逻辑上相关的记录和文件的集合。2.数据库管理系统:数据库管理系统:是一组计算机程序,控制并组是一组计算机程序,控制并组 织用户的数据库的生成、维护和使用。织用户的数据库的生成、维护和使用。由数据、硬件、软件和用户四部分组成由数据、硬件、软件和用户四部分组成;用户可通过数据库管理系统对数据进行添加、修用户可通过数据库管理系统对数据进行添加、修改、删除、检索、存储、统计等多种操作。改、删除、检索、存储、统计等多种操作。二、数据库系统的结构二、数据库系统的结构美国国家标准学会(ANSI)于1975年规定了
17、数据库按三级体系结构组织的标准,也就是有名的SPARC分级结构(standard planning and requirement committee)。三级结构以内层(内模式)、中间层(模式)和外层(外模式)三个层次描述数据库。数据库的三级结构数据库的三级结构数据库管理系统中的模式n n物物物物理理理理模模模模式式式式:也也称称内内模模式式,描描述述数数据据的的物物理理存存储储形形式,直接与操作系统或硬件相联系。式,直接与操作系统或硬件相联系。n n逻逻逻逻辑辑辑辑模模模模式式式式:也也称称模模式式,数数据据库库数数据据的的完完整整表表示示,是是所所有有用用户户的的公公共共数数据据视视图图。
18、模模式式仅仅仅仅涉涉及及数数据据类型的描述,不涉及具体的数据值。类型的描述,不涉及具体的数据值。n n用用用用户户户户模模模模式式式式:也也称称子子模模式式或或叫叫外外模模式式,针针对对每每一一个个用用户户或或应应用用,又又由由模模式式导导出出若若干干个个子子模模式式。子子模模式式是是直直接接面面向向用用户户的的,用用户户能能够够看看见见并并使使用用的的是是逻逻辑辑结结构构的的局局部部数数据据描描述述。每每一一个个子子模模式式都都是是模模式式的的一一个个子子集集;也也可可以以看看作作是是模模式式的的一一个个窗窗口口。一个数据库系统可以有多个子模式。一个数据库系统可以有多个子模式。两级映射可保证
19、三种模式之间的相互独立性两级映射可保证三种模式之间的相互独立性n模式与子模式之间的映射模式与子模式之间的映射 把概念数据库与用户级数据库联系起来n模式与内模式之间的映射模式与内模式之间的映射 把概念数据库与物理数据库联系起来三、数据模型三、数据模型模型模型:对现实世界事物特征的模拟和抽象就对现实世界事物特征的模拟和抽象就是这个事物的模型。是这个事物的模型。计算机不能直接处理现实世界中的具体计算机不能直接处理现实世界中的具体事物,所以必须先把具体事物转换为抽象的事物,所以必须先把具体事物转换为抽象的模型,然后再将其转换为计算机可以处理的模型,然后再将其转换为计算机可以处理的数据,从而以模拟的方式
20、实现对现实世界事数据,从而以模拟的方式实现对现实世界事物的处理。物的处理。模型应满足以下要求:模型应满足以下要求:n n真实地反映现实世界;真实地反映现实世界;n n易被人理解;易被人理解;n n便于在计算机上实现;便于在计算机上实现;数据模型:数据模型:是用来描述数据及数据间关系的一组概念,数据描述包括两个方面:数据的基本结构、数据间的联系和数据的约束等静态属性;数据上的操作之类的动态属性。数据模型分为三级:数据模型分为三级:概念数据模型:概念数据模型:是面向用户、面向现实世界的数据模型,与DBMS无关,它描述一个组织的概念化结构,如实体关系模型。逻辑数据模型:逻辑数据模型:是用户从数据库中
21、看到的数据模型,与所选用的DBMS相关,也称数据库模型数据库模型。常见的有:层次模型、网状模型、关系模型。物理数据模型:物理数据模型:反映数据存储结构的模型,不仅与DBMS有关,而且还与操作系统有关。具体描述数据如何组织、如何存储在物理介质上。数据库模型分为三级:数据库模型分为三级:层次模型:层次模型:以树状结构描述数据,数据元素组以树状结构描述数据,数据元素组成的记录称为节点,最上层的节点称为根,上下层成的记录称为节点,最上层的节点称为根,上下层节点之间的关系为父节点之间的关系为父-子关系,一个父节点可有多个子关系,一个父节点可有多个子节点,而一个子节点只能有一个父节点。子节点,而一个子节点
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 技术 基础 数据处理 第三
限制150内