数据挖掘原理与算法精品文稿.ppt
《数据挖掘原理与算法精品文稿.ppt》由会员分享,可在线阅读,更多相关《数据挖掘原理与算法精品文稿.ppt(54页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据挖掘原理与算法2023/2/41第1页,本讲稿共54页空间挖掘技术概述 n大量的空间数据是从遥感、地理信息系统(GIS)、多媒体系统、医学和卫星图像等多种应用中收集而来,收集到的数据远远超过了人脑分析的能力。日益发展的空间数据基础设施为空间数据的自动化处理提出了新的课题。n空间数据的最常用的数据组织形式是空间数据库。空间数据库必须保存空间实体,这些空间实体是用空间数据类型和实体的空间关系来表示出来的。空间数据库,不同于关系数据库,它一般具有空间拓扑或距离信息,通常需要以复杂的多维空间索引结构组织。n空间挖掘(Spatial Mining)或被称作空间数据挖掘/空间数据库的知识发现,是数据挖
2、掘技术在空间数据方面的应用。简言之,空间数据挖掘,就是从空间数据库中抽取隐含的知识、空间关系或非显式地存储在空间数据库中的其他模式,用于理解空间数据、发现数据间(空间或非空间)的关系。n由于空间数据的复杂性及其应用的专业性,在一般的数据挖掘的基本概念的基础上,需要研究空间数据挖掘特有的理论、方法和应用。2023/2/42第2页,本讲稿共54页第八章第八章 空间挖掘空间挖掘 内容提要内容提要n引言 n空间数据概要n空间数据挖掘基础,空间统计学n泛化与特化n空间规则n空间分类算法n空间聚类算法n空间挖掘的其他问题n空间数据挖掘原型系统介绍n空间数据挖掘的研究现状与发展方向n其他2023/2/43第
3、3页,本讲稿共54页空间数据的主要特点n空间数据是指与二维、三维或更高维空间的空间坐标及空间范围相关的数据,例如地图上的经纬度、湖泊、城市等。n访问空间数据要比访问非空间数据更复杂。对空间数据的访问要使用专门的操作和数据结构。空间数据可以用包含着诸如“接近、南、北、包含于”等空间操作符的查询来访问。n空间数据存放在记录着实体的空间性数据和非空间性数据的空间数据库里。由于空间数据关联着距离信息,所以空间数据库通常用使用距离或拓扑信息的空间数据结构或者索引来存储。就数据挖掘而论,这些距离信息提供了所需的相似性度量的基础。2023/2/44第4页,本讲稿共54页空间数据的复杂性特征空间数据的复杂性特
4、征n空间数据的复杂性特征主要表现在以下几个方面:n空间属性之间的非线性关系:空间属性之间的非线性关系:空间属性之间的非线性关系是空间系统复杂性的重要标志,被作为空间数据挖掘的主要任务之一。n空间数据的多尺度特征:空间数据的多尺度特征:空间数据的多尺度性是指空间数据在不同观察层次上所遵循的规律以及体现出的特征不尽相同。多尺度特征是空间数据复杂性的又一表现形式。n空间信息的模糊性:空间信息的模糊性:模糊性几乎存在于各种类型的空间信息中,如空间位置的模糊性、空间相关性的模糊性以及模糊的属性值等等。n空间维数的增高:空间维数的增高:空间数据的属性增加极为迅速,如在遥感领域,由于传感器技术的飞速发展,波
5、段的数目也由几个增加到几十甚至上百个,如何从几十甚至几百维空间中提取信息、发现知识则成为研究中的又一难题。n空间数据的缺值:空间数据的缺值:数据的缺值现象源自由于某种不可抗拒的外力而使数据无法获得或发生丢失。如何对丢失数据进行恢复并估计数据的固有分布参数,成为解决数据复杂性的难点。2023/2/45第5页,本讲稿共54页空间查询问题空间查询问题n查询是挖掘的技术,空间查询及其操作的主要特点有:n空间操作相对复杂和不精确:空间操作相对复杂和不精确:传统的访问非空间数据的选择查询使用的是标准的比较操作符:,。而空间选择是一种在空间数据上的选择查询,要用到空间操作符,包括接近、东、西、南、北、包含、
6、重叠或相交等。下面是几个空间选择查询的例子:n例如,“查找北海公园附近的房子”。n空间连接(空间连接(Spatial JoinSpatial Join)问题:)问题:在两个空间关系上的一个空间性连接操作被称为空间连接(Spatial Join)。在空间连接中,关系都是空间性的,需要与空间连接对应的条件描述。n例如,“相交”关系用于多边形;“相邻”关系用于点。n相同的地理区域经常有不同的视图:相同的地理区域经常有不同的视图:一个区域不同的视图(如基础设施、城市规划、绿化等)保存在单独的GIS文件中,融合这些数据,通常需要一个称为“地图覆盖”(Map Overlay)的操作来实现。n一个空间实体可
7、用空间和非空间的属性来描述。当其空间属性用一些空间数据结构存储起来之后,非空间属性就可以存储在一个关系数据库里。对空间数据库来说,不同的空间实体经常是和不同的位置相关联的,而且在不同的实体之间进行空间性操作的时候,经常需要在属性之间进行一些转换。2023/2/46第6页,本讲稿共54页空间数据结构n由于空间数据的独特性质,有很多数据结构专门被设计用来存储或索引空间数据。这些结构有的考虑的是空间实体的轮廓表示,有的是空间数据的索引方法。n空间实体表示的最常用方法是“最小包围矩形”。n空间索引技术大多是基于对空间目标的近似技术,例如,n空间映射法n(1 1)采用低维空间向高维空间映射的方式:)采用
8、低维空间向高维空间映射的方式:维空间具有个顶点的目标可以映射成*维空间的点。映射后,可以直接采用点索引技术。n(2 2)直接向一维空间映射:)直接向一维空间映射:通常数据空间被划分成大小相同的网格单元,通过给这些网格单元编码形成一维目标,用传统的一维的索引结构(如+树等)索引。n分割方法n(1 1)采用不允许空间重叠的索引方法:)采用不允许空间重叠的索引方法:将所在的数据空间按某种方法(如二叉树划分、四叉树划分、格网划分等)划分成彼此不相交的子空间。n(2 2)采用允许空间重叠的索引法:)采用允许空间重叠的索引法:将索引空间划分为多级的子空间,这些子空间允许重叠,但是一个空间实体完全包含在某一
9、子空间中。2023/2/47第7页,本讲稿共54页最小包围矩形n通过完整包含一个空间实体的最小包围矩形(MBR:Minimum Bounding Rectangle)来表示该空间实体。例如,下图显示一湖泊的MBR:n如果用传统坐标系统来对这个湖定向,水平轴表示东西方向,垂直轴表示南北方向,那么就可以把这个湖放在一个矩形里(中间图所示)n还可以通过一系列更小的矩形来表现这个湖(右图所示)n另一种更简单的方法是用一对不相邻的顶点坐标来表示一个MBR,如用(x1,y1),(x2,y2)来表示(中间图所示)。2023/2/48第8页,本讲稿共54页空间索引技术n空间索引是指依据空间实体的位置和形状或空
10、间实体之间的某种空间关系,按一定顺序排列的一种数据结构,其中包含空间实体的概要信息。n空间索引的性能优劣直接影响空间数据库和地理信息系统的整体性能,也对空间数据挖掘的效率有影响。n几种比较有代表性的空间数据索引结构技术:n网格文件 n四叉树 nR-树nk-D树 2023/2/49第9页,本讲稿共54页网格文件n根据正交的网格划分维的数据空间。维数据空间的网格由个一维数组表示,这些数组称为刻度,将其保存在主存。刻度的每一边界构成-1维的超平面。整个数据空间被所有的边界划分成许多维的矩形子空间,这些矩形子空间称为网格目录,用维的数组表示,将其保存在硬盘上。网格目录的每一网格单元包含一外存页的地址,
11、这一外存页存储了该网格单元内的数据目标,称为数据页。一数据页允许存储多个相邻网格单元的目标。网格文件的查找简单,查找效率较高,适用于点目标的索引。2023/2/410第10页,本讲稿共54页四叉树n四叉树通过把空间按等级分解成为区域(单元)来表示空间实体。四叉树实际上每一节点有4个子树,用于对空间点的表示与索引。n如二维空间的四叉树,每个子节点对应一个矩形,用四种方位西北(),东北(),西南(),东南()表示n空间区域被分为n层,四叉树中的每级对应一个层次级别,层的数量n是依赖于所需要的精确度的。例如,2023/2/411第11页,本讲稿共54页-树n-树是-树在多维空间的扩展n其叶子节点包含
12、多个形式为(OI,MBR)的实体,OI为空间目标标志,MBR为该目标在维空间中的最小包围矩形。n非叶子节点包含多个形式为(CP,MBR)的实体。CP为指向子树根节点的指针,MBR为包围其子节点中所有MBR的最小包围矩形。n-树必须满足如下特性:n若根节点不是叶子节点,则至少有两棵子树;n除根之外的所有中间节点至多有棵子树,至少有棵子树;n每个叶子节点均包含至个数据项;n所有的叶子节点都出现在同一层次;n所有节点都需要同样的存储空间(一个磁盘页)。2023/2/412第12页,本讲稿共54页k-D树nk-D树被设计用来对多属性的数据进行索引,而不是必要的空间数据。k-D树是二叉树的一个变种,树中
13、的每一层用来索引一个属性。树中的每个结点表示这个空间基于一个分割点被分割成两个子集。n和R-树一样,每个最低级别的区间只有一个实体。但是,分割不是用MBR来进行的。它首先按照一个维分割,然后按照另一个维分割,直到每个区间只有一个实体。2023/2/413第13页,本讲稿共54页第八章第八章 空间挖掘空间挖掘 内容提要内容提要n引言 n空间数据概要n空间数据挖掘基础,空间统计学n泛化与特化n空间规则n空间分类算法n空间聚类算法n空间挖掘的其他问题n空间数据挖掘原型系统介绍n空间数据挖掘的研究现状与发展方向n其他2023/2/414第14页,本讲稿共54页空间数据库的操作是数据挖掘的基础n假定A
14、和B是二维空间中的两个空间实体。每个实体由空间中的点的集合组成:A,B。两个空间实体之间存在若干拓扑关系。这些关系基于两个实体的位置:n分离(Disjoint):A与B分离,表示B中任何点都不在A中,反之亦然。n重叠/相交:A与B重叠或相交表示至少有一个点既在A里也在B里。n等价:A与B这两个实体的所有点都是共有的。n包含于:A包含于B,表示A的所有点都在B里。反之不一定。n覆盖/包含:A覆盖或包含B,当且仅当B包含于A。n根据实体在空间中的位置,可以定义方向,通常采用的是传统的地图方向:像东、南、西、北等等。n空间谓词有三种形式:n表示拓扑关系的谓词,如相交、覆盖等;n表示空间方向的谓词,如
15、东、西、左、右等;n表示距离的谓词,如接近、远离等。2023/2/415第15页,本讲稿共54页实体之间的距离的定义n常用的两个空间实体之间的距离有:n最小值方法:最小值方法:定义实体A和B的距离为A中的所有点与和B中的所有点之间的欧氏或曼哈顿距离中最小的,即n最大值方法:最大值方法:定义实体A和B的距离为A中的所有点与和B中的所有点之间的欧氏或曼哈顿距离中最大的,即n平均值方法:平均值方法:定义实体A和B的距离为A中的所有点与和B中的所有点之间的欧氏或曼哈顿距离的平均值,即n中心方法:中心方法:定义实体A和B的距离为A中的中心点与和B中的中心点之间的欧氏或曼哈顿距离的平均值,即2023/2/
16、416第16页,本讲稿共54页空间统计学n空间统计学(Spatial Statistics)是依靠有序的模型来描述无序事件,根据不确定性和有限的信息来分析、评价和预测空间数据。n基于足够多的样本,在统计空间实体的几何特征量的最小值、最大值、均值、方差、众数或直方图的基础上,可以得到空间实体特征的先验概率,进而根据领域知识发现共性的几何知识。n空间统计学具有较强的理论基础和大量的成熟算法。空间统计学是基本的数据挖掘技术,特别是多元统计分析(如判别分析、主成分分析、因子分析、相关分析、多元回归分析等)。n统计方法是分析空间数据的最常用的方法。统计方法能够有效处理数值型数据,其主要方法是基于统计不相
17、关假设的。在空间数据库中许多空间数据通常是相关的,即空间对象受其邻近对象的影响,难以满足这种假设,这样就会引起问题。它是空间统计学向着实用的挖掘技术发展的一个重要研究课题。n统计方法对非线性规划不能很好建模,难以处理不完全或不确定性数据,而且运算的代价较高。它是空间统计学向着实用的挖掘技术发展的另一个研究课题。2023/2/417第17页,本讲稿共54页第八章第八章 空间挖掘空间挖掘 内容提要内容提要n引言 n空间数据概要n空间数据挖掘基础,空间统计学n泛化与特化n空间规则n空间分类算法n空间聚类算法n空间挖掘的其他问题n空间数据挖掘原型系统介绍n空间数据挖掘的研究现状与发展方向n其他2023
18、/2/418第18页,本讲稿共54页空间数据的蕴含着丰富的概念n众所周知,概念层次的使用显示了数据间关系的层次。应用空间数据特性,概念层次承认了层级中不同层次规则和关系的发展。n从空间数据中挖掘所蕴含的概念是空间挖掘的重要任务之一。n泛化与特化是概念归纳的主要手段,它对空间数据挖掘也是如此。2023/2/419第19页,本讲稿共54页逐步求精的分层技术n逐步求精(Progressive Refinement)的分层是基于空间关系的,因此空间关系可以应用在一个更粗糙或者更精细的层次上。n由于空间应用的数据量十分庞大,在寻求更多精确响应之前要先做出一些近似响应。MBR就是一个近似物体形状的办法。四
19、叉树、R-树和其他大多数空间索引技术都采用了一种逐步求精的方式。n逐步求精可以看作是对处理问题无用的数据所做的过滤。2023/2/420第20页,本讲稿共54页泛化n数据库中的数据和对象在原始的概念层次包含有详细的信息,经常需要将大量数据的集合进行概括并以较高的概念层次展示,即对数据进行泛化。n基于泛化的数据挖掘方法假定背景知识以概念层次的形式存在。概念层次可由专家提供,或借助数据分析自动生成。n空间数据库中可以定义两种类型的概念层次:n空间概念层:地理区域之间空间关系的概念层次。n非空间概念层:非空间属性所联系的非空间数据对应的概念层次。n空间数据应用的归纳可以被分为两种子类:n空间数据支配
20、泛化:空间数据支配泛化做的是基于空间位置的聚类(所有靠近的实体被分在一组中)。n非空间数据支配泛化:根据非空间属性值的相似性做聚类。2023/2/421第21页,本讲稿共54页空间数据支配泛化算法n在空间数据支配泛化算法中,首先对空间数据进行归纳:归纳进行至区域的数量达到阈值为止。然后对相关的非空间属性做相应地更改。n例如,要知道我国西北部地区的平均降雨量,可以在空间层次中寻找西北部所有省,再对非空间属性(降雨量)进行比较,或者归纳(平均降雨量多、中等、少量等)。n典型的空间数据支配泛化算法描述:算法算法8-1空间数据支配泛化算法输入:空间数据库D;空间层次H;概念层次C;查询Q。输出:所需一
21、般特征的规则r。(1)D从数据库D中按查询Q获得的数据集合;(2)根据H的结构,把数据合并到区域中,直到区域的数目达到所需的阈值,或者已经到达H中所要求的层次;(3)FOR each 所找的区域 DO BEGIN(4)对非空间属性执行面向属性的归纳;(5)产生并输出所找到的泛化规则;(6)END.2023/2/422第22页,本讲稿共54页非空间数据支配泛化算法非空间数据支配泛化算法n算法首先对非空间属性作面向属性的归纳,将其泛化至更高的概念层次。然后,将具有相同的泛化属性值的相邻区域合并在一起,可用邻近方法忽略具有不同非空间描述的小区域。n查询的结果生成包含少量区域的地图,这些区域共享同一层
22、次的非空间描述。2023/2/423第23页,本讲稿共54页统计信息网格方法统计信息网格方法STINGSTING介绍介绍n统计学信息网格方法(STatistical INformation Grid-based methodSTING),使用了一种类似四叉树的分层技术,把空间区域分成矩形单元。对空间数据库扫描一次,可以找到每个单元的统计参数(平均数,变化性,分布类型)。网格结构中的每个结点概括了该网格中所含内部属性的信息。通过获取这些信息,很多数据挖掘请求(包括聚类)都可以通过检验单元统计得到响应。nSTING方法可以看作是一种层次聚类技术。层级的顶层的组成就是整体空间。最低层是代表每个最小单
23、元的叶子结点。如果使用一个单元在下一层中拥有四个子单元(网格)的话,单元的分割与四叉树中是一样的。2023/2/424第24页,本讲稿共54页第八章第八章 空间挖掘空间挖掘 内容提要内容提要n引言 n空间数据概要n空间数据挖掘基础,空间统计学n泛化与特化n空间规则n空间分类算法n空间聚类算法n空间挖掘的其他问题n空间数据挖掘原型系统介绍n空间数据挖掘的研究现状与发展方向n其他2023/2/425第25页,本讲稿共54页空间规则的主要类型n空间规则可以概括对空间实体的结构及其之间关系的描述。在空间数据挖掘中有三种类型的规则:n空间特性规则:描述数据,如北京市家庭平均年收入为30000元。n空间判
24、别规则:描述不同种类数据间的差异,依靠它们能够区分不同种类的特点。如北京市家庭平均年收入为30000元,而上海的家庭平均年收入为35000元。n空间关联规则:是两个数据集合之间的关联。如在北京市、住在国贸附近的家庭的平均收入为50000元。n所有这些规则都可以被看作是对空间类型的描述,而描述是一种为数据库或者其中一些子集找到一个表示的方法。特性规则是一种最简化的形式。2023/2/426第26页,本讲稿共54页空间关联规则n空间关联规则是空间数据实体之间的关联,有:n非空间的先决条件和空间性的结果:如在北京、所有的重点学校都是位于老住宅区附近。n空间性先决条件和非空间的结果:如在北京、房子在国
25、贸附近,就比较贵。n空间性先决条件和空间性结果:如在北京、所有市区的房子都在三环以内。n空间关联规则挖掘是传统关联规则挖掘的延伸,常用最小支持度和最小可信度来作为基本的统计参数,由于空间数据的特点,往往是在多层概念上进行归纳。n挖掘空间关联规则的有效方法是自上而下、逐步加深的搜索技术。首先在高的概念层次进行搜索,在较粗的精度级别查找频繁发生的模式和在这些模式中较强的隐含关系;然后,对频繁发生的模式加深搜索至较低的概念层次,这种处理持续到找不到频繁发生的模式为止。2023/2/427第27页,本讲稿共54页空间关联规则基本步骤n典型的五步算法:n步骤步骤1 1:通过给定的查询抽取出相关的数据。:
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 原理 算法 精品 文稿
限制150内