数据挖掘原理与SPSS Clementine应用宝典第15章 复杂对象数据挖掘.ppt
《数据挖掘原理与SPSS Clementine应用宝典第15章 复杂对象数据挖掘.ppt》由会员分享,可在线阅读,更多相关《数据挖掘原理与SPSS Clementine应用宝典第15章 复杂对象数据挖掘.ppt(111页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据挖掘原理与数据挖掘原理与SPSSClementine应用宝典应用宝典第第15章章复杂对象数据复杂对象数据挖掘挖掘第第1515章章 复杂对象数据挖掘复杂对象数据挖掘 2Copyright 2003-12,SPSS Taiwan Corp.Copyright 2003-12,SPSS Taiwan Corp.15.1 15.1 空间数据库挖掘空间数据库挖掘 15.2 15.2 多媒体数据挖掘多媒体数据挖掘 15.3 15.3 文本挖掘文本挖掘15.4 15.4 挖掘万维网挖掘万维网15.5 15.5 挖掘数据流挖掘数据流15.6 15.6 时间序列数据挖掘时间序列数据挖掘 15.7 15.7
2、挖掘事务数据库中的序列模式挖掘事务数据库中的序列模式15.8 15.8 挖掘生物学数据中的序列模式挖掘生物学数据中的序列模式3Copyright 2003-12,SPSS Taiwan Corp.Copyright 2003-12,SPSS Taiwan Corp.15.1 15.1 空间数据库挖掘空间数据库挖掘 空间数据库挖掘(SDM)实质上是空间信息技术发展的必然结果,它是数据库挖掘(DM)的一个重要分支,面对的都是空间数据库(spatial database,SDB)。空间实体之间又具有空间拓扑、空间距离、空间方位这3种关系4Copyright 2003-12,SPSS Taiwan C
3、orp.Copyright 2003-12,SPSS Taiwan Corp.15.1.1 15.1.1 空间数据概述空间数据概述空间数据是指与二维、三维或更高维空间的空间坐标及空间范围相关的数据 空间数据的复杂性特征有:空间属性之间的非线性关系空间数据的多尺度特征空间信息的模糊性空间维数的增高空间数据的缺值5Copyright 2003-12,SPSS Taiwan Corp.Copyright 2003-12,SPSS Taiwan Corp.15.1.1.2 15.1.1.2 空间查询工作空间查询工作 空间查询及其操作的主要特点有:空间操作相对复杂和不精确空间连接(Spatial Joi
4、n)问题相同的地理区域经常有不同的视图一个空间实体可用空间和非空间的属性来描述6Copyright 2003-12,SPSS Taiwan Corp.Copyright 2003-12,SPSS Taiwan Corp.很多基本空间查询是数据挖掘行为的基础,这些查询包括:区域查询或范围查询:寻找那些与在查询中指定区域相交的实体。最邻近查询:寻找与指定实体相邻的实体距离扫描:寻找与指定的实体相距一段确定距离的实体,这个距离是逐渐增大的。小提示:所有这些查询都可以用来辅助空间聚类或分类操作。15.1.1.2空间查询工作空间查询工作 7Copyright 2003-12,SPSS Taiwan Co
5、rp.Copyright 2003-12,SPSS Taiwan Corp.15.1.2 15.1.2 空间数据挖掘中的基础计算模型空间数据挖掘中的基础计算模型 空间关系计算 (1)常用的两个空间实体之间的距离有:最小值方法最小值方法:定义实体A和B的距离为A中的所有点与和B中的所有点之间的欧氏或曼哈顿距离中最小的,即 (15-1)8Copyright 2003-12,SPSS Taiwan Corp.Copyright 2003-12,SPSS Taiwan Corp.大值方法大值方法:定义实体A和B的距离为A中的所有点与和B中的所有点之间的欧氏或曼哈顿距离中最大的,即 (15-2)平均值方
6、法平均值方法:定义实体A和B的距离为A中的所有点与和B中的所有点之间的欧氏或曼哈顿距离的平均值,即 (15-3)空间关系计算空间关系计算9Copyright 2003-12,SPSS Taiwan Corp.Copyright 2003-12,SPSS Taiwan Corp.中心方法中心方法:定义实体A和B的距离为A中的中心点与和B中的中心点之间的欧氏或曼哈顿距离的平均值,即 (15-4)其中最简单的方法就是取实体A的中心点和B的中心点,该中心点可以通过查找实体的几何中心来识别。空间关系计算空间关系计算10Copyright 2003-12,SPSS Taiwan Corp.Copyrigh
7、t 2003-12,SPSS Taiwan Corp.15.1.2 15.1.2 空间数据挖掘中的基础计算模型空间数据挖掘中的基础计算模型(2)两个空间实体之间存在若干拓扑关系。这些关系基于两个实体的位置:分离(Disjoint):A与B分离,表示B中任何点都不在A中,反之亦然。重叠/相交:A与B重叠或相交表示至少有一个点既在A里也在B里。等价:A与B这两个实体的所有点都是共有的。11Copyright 2003-12,SPSS Taiwan Corp.Copyright 2003-12,SPSS Taiwan Corp.l包含于:A包含于B,表示A的所有点都在B里,反之不一定。l覆盖/包含:
8、A覆盖或包含B,当且仅当B包含于A。(3)方位是描述两个点状实体位置关系的一种度量,如果要分析面状实体间的方位关系,则应把多边形转换为重心点或其它点状实体。15.1.2 15.1.2 空间数据挖掘中的基础计算模型空间数据挖掘中的基础计算模型12Copyright 2003-12,SPSS Taiwan Corp.Copyright 2003-12,SPSS Taiwan Corp.15.1.2.215.1.2.2空间实体信息模型空间实体信息模型 空间场模型空间场模型空间场模型主要用于模拟在空间上连续分布的地理现象,属性取值既可以式连续的,也可以是离散的。空间场数据模型的优点是数据结构简单,便于
9、空间法分析与模拟。缺点是不利于表达空间实体,数据量也大。13Copyright 2003-12,SPSS Taiwan Corp.Copyright 2003-12,SPSS Taiwan Corp.15.1.215.1.2空间数据挖掘中的基础计算模型空间数据挖掘中的基础计算模型 空间要素模型图15-3 基于要素的空间信息模型对现实世界的抽象基于要素的空间信息模型对现实世界的抽象现实世界现实世界专题要素专题要素1实体实体1专题要素专题要素2专题要素专题要素n实体实体2实体实体n时间特征时间特征属性特征属性特征空间关空间关 系特征系特征几何特征几何特征14Copyright 2003-12,SP
10、SS Taiwan Corp.Copyright 2003-12,SPSS Taiwan Corp.15.1.2 15.1.2 空间数据挖掘中的基础计算模型空间数据挖掘中的基础计算模型小提示:实体必须符合三个条件:可被识别,重要(与问题相关),可被描述(有特征)。表15-2 现实世界与信息世界的对应关系 15Copyright 2003-12,SPSS Taiwan Corp.Copyright 2003-12,SPSS Taiwan Corp.15.1.215.1.2空间数据挖掘中的基础计算模型空间数据挖掘中的基础计算模型空间网络模型空间网络模型空间网络结构模型中地理现象被抽象为链、结点以及
11、它们之间的连通关系(图15-4 对空间网络的抽象)。图的形式化定义为 (15-10)图15-4 对空间网络的抽象ACDB16Copyright 2003-12,SPSS Taiwan Corp.Copyright 2003-12,SPSS Taiwan Corp.15.1.215.1.2空间数据挖掘中的基础计算模型空间数据挖掘中的基础计算模型位置位置属性一体化的空间实体信息模型属性一体化的空间实体信息模型 一般空间实体的形式化模型为一个四元组,分别代表空间实体四个方面的特征。其中位置特征数据为 (15-11)17Copyright 2003-12,SPSS Taiwan Corp.Copyri
12、ght 2003-12,SPSS Taiwan Corp.15.1.3 15.1.3 空间数据挖掘基础空间数据挖掘基础 空间数据挖掘(SDM)是指对空间数据库中非明确存在的知识,空间关系,或其它有意义的模式等的提取。15.1.3.1 15.1.3.1 空间数据挖掘的框架体系空间数据挖掘的框架体系 一般认为可以大致分为三 层结构,如图15-5空间数据挖掘的体系结构所示。其中,第一层是数据源;第二层是挖掘器;第三层是用户界面。18Copyright 2003-12,SPSS Taiwan Corp.Copyright 2003-12,SPSS Taiwan Corp.图15-5 空间数据挖掘的体系
13、结构19Copyright 2003-12,SPSS Taiwan Corp.Copyright 2003-12,SPSS Taiwan Corp.15.1.3.2 15.1.3.2 空间数据挖掘的方法体系空间数据挖掘的方法体系空间评价。空间分类与聚类。空间分布计算。空间优化。空间回归分析。空间动态模拟与预测。空间与时序关联知识归纳。20Copyright 2003-12,SPSS Taiwan Corp.Copyright 2003-12,SPSS Taiwan Corp.15.1.415.1.4几种空间数据挖掘算法几种空间数据挖掘算法15.1.4.1 空间关联分析 空间关联规则挖掘是传统关
14、联规则挖掘的延伸,常用最小支持度和最小可信度来作为基本的统计参数,由于空间数据的特点,往往是在多层概念上进行归纳。21Copyright 2003-12,SPSS Taiwan Corp.Copyright 2003-12,SPSS Taiwan Corp.挖掘空间关联规则的有效方法是自上而下、逐步加深的搜索技术。首先在高的概念层次进行搜索,在较粗的精度级别查找频繁发生的模式和在这些模式中较强的隐含关系;然后,对频繁发生的模式加深搜索至较低的概念层次,这种处理持续到找不到频繁发生的模式为止。空间关联分析空间关联分析22Copyright 2003-12,SPSS Taiwan Corp.Cop
15、yright 2003-12,SPSS Taiwan Corp.15.1.4.115.1.4.1空间关联分析空间关联分析典型的五步算法:典型的五步算法:Step1:通过给定的查询抽取出相关的数据。Step2:应用一个粗的空间运算方法,计算整个相关数据的集合。Step3:过滤出那些支持度小于最小支持度阈值的1阶谓词。Step4:应用一个细化的空间计算方法,从所导出的粗的谓词集合中计算谓词。Step5:向低层深入,在多个概念层次上找到关联规则的完整集合。23Copyright 2003-12,SPSS Taiwan Corp.Copyright 2003-12,SPSS Taiwan Corp.1
16、5.1.4.215.1.4.2空间分类算法和空间趋势分析空间分类算法和空间趋势分析空间分类指分析空间对象导出与一定空间特征有关的分类模式 小小提提示示:空间因素可以是非空间属性和空间属性,也可以是二者同时使用。(1)对于样本数据的训练可以通过改造传统的分类算法来完成 (2)空间决策树 空间分类技术建构决策树采用两步方法。这个方法的思想基础是空间实体可以与其接近的实体来描述。假设类的描述是基于与实体相近最相关的谓词的集合。建造一个决策树24Copyright 2003-12,SPSS Taiwan Corp.Copyright 2003-12,SPSS Taiwan Corp.空间决策树有五个主
17、要步骤:根据已知的分类,从数据D中找到例子S。确定最佳谓词p用来分类。一般首先在较粗的层次中寻找相关谓词,然后再在较为细化的层次。空间决策树空间决策树25Copyright 2003-12,SPSS Taiwan Corp.Copyright 2003-12,SPSS Taiwan Corp.找到最佳的缓冲区大小和形状。对于取样中的每个实体,它周围的区域被称为缓冲区。目标是选择一个能产生对测试集中的类型进行最不同的缓冲区。使用p和C,对每个缓冲区归纳谓词。使用泛化的谓词和ID3建造二叉树T。26Copyright 2003-12,SPSS Taiwan Corp.Copyright 2003-
18、12,SPSS Taiwan Corp.15.1.4.3 15.1.4.3 空间聚类方法空间聚类方法 空间聚类分析是空间模式识别和空间数据挖掘的重要手段之一。它的目的是要在一个较大的多维数据集中根据距离的计算找出簇,或稠密区域。小提示:空间聚类找到的聚类不应该依赖于检验空间中的点的顺序,而且聚类也不应该受不相干的点影响。本节介绍的空间聚类方法是基于坐标属性一体化的空间信息模型,27Copyright 2003-12,SPSS Taiwan Corp.Copyright 2003-12,SPSS Taiwan Corp.15.1.4.3 15.1.4.3 空间聚类方法空间聚类方法从两类直至每个样
19、本为一类的系统聚类算法步骤如下:对地理特征向量中的每一个元素进行无量纲化。令类别数k=2,置迭代误差阈值emin=0.100001(可根据需要设置)。置迭代次数t=0,k 个初始聚类中心为:对第t 次迭代,若有 则把样本Si 分配到第j0 个聚类域 。如此,所有的m 个样本可以被划分到k 个聚类域 中.28Copyright 2003-12,SPSS Taiwan Corp.Copyright 2003-12,SPSS Taiwan Corp.计算新的聚类中心 式中Nj 为第j个聚类域中包含的样本个数。若 则停止迭代,第t 次迭代结果为划分为k 个类别的聚类方案,转向(7);否则,t=t+1,
20、转向(4)。当k m 时,k=k+1,转向(3);否则,系统聚类结束。聚类算法步骤聚类算法步骤(续)续)29Copyright 2003-12,SPSS Taiwan Corp.Copyright 2003-12,SPSS Taiwan Corp.15.2 15.2 多媒体数据挖掘多媒体数据挖掘15.2.1 多媒体数据挖掘的特点多媒体数据复杂。多媒体信息语义关联性强。多媒体信息具有时空相关性。知识的表达和解释比较困难,多媒体挖掘所得出的模式往往比较隐晦。30Copyright 2003-12,SPSS Taiwan Corp.Copyright 2003-12,SPSS Taiwan Corp
21、.15.2.2 15.2.2 多媒体数据挖掘概述多媒体数据挖掘概述多媒体数据挖掘典型系统结构 多媒体数据挖掘系统是在基于内容的多媒体数据检索系统发展的基础上出现的。它的一般结构图如图15-8所示。图图15-8多媒体数据挖掘系统结构多媒体数据挖掘系统结构挖掘任务媒体数据库多媒体数据集知识库挖掘引擎数据立方体媒体属性特征数据预处理用户挖掘接口31Copyright 2003-12,SPSS Taiwan Corp.Copyright 2003-12,SPSS Taiwan Corp.15.2.2.2 15.2.2.2 多媒体数据挖掘的内容多媒体数据挖掘的内容 关于多媒体数据挖掘的内容一般包括图像数
22、据挖掘、音频数据挖掘、关于多媒体数据挖掘的内容一般包括图像数据挖掘、音频数据挖掘、视频数据挖掘等。视频数据挖掘等。图像挖掘图像挖掘 图像包含着丰富的视觉特性和空间特性。视频挖掘视频挖掘 视频包括丰富的内容特性,除了图像具有的视觉特性和空间特性外,还具有时间特性、视频对象特性和运动特性等。32Copyright 2003-12,SPSS Taiwan Corp.Copyright 2003-12,SPSS Taiwan Corp.多媒体数据挖掘的内容多媒体数据挖掘的内容音频挖掘音频挖掘 音频挖掘通常有两种途径:运用语音识别技术将语音识别成文字,将音频挖掘转换成文本挖掘;直接从音频中提取声音特征,
23、如音调、韵律等,运用聚类的方法分析声音模式。Web Web 挖掘挖掘多媒体综合挖掘多媒体综合挖掘 多媒体概念与单媒体的区别在于,它是一个集成的系统概念,媒体之间有联系。33Copyright 2003-12,SPSS Taiwan Corp.Copyright 2003-12,SPSS Taiwan Corp.15.2.3 15.2.3 多媒体数据挖掘方法多媒体数据挖掘方法在图像和视频数据库中可以挖掘涉及多媒体对象的关联规则,至少包含以下三类:图像内容和非图像内容特征间的关联与空间关系无关的图像内容的关联与空间关系有关的图像内容的关联34Copyright 2003-12,SPSS Taiwa
24、n Corp.Copyright 2003-12,SPSS Taiwan Corp.15.2.3.2 15.2.3.2 多媒体数据的相似搜索多媒体数据的相似搜索对多媒体数据相似性搜索,主要考虑两种多媒体标引和检索系统:(1)基于描述的检索系统,主要是在图像描述之上建立标引和执行对象检索,如关键字、标题、尺寸、创建时间等;(2)基于内容的检索系统,它支持基于图像内容的检索,如颜色构成、质地、形状、对象和小波变换等。35Copyright 2003-12,SPSS Taiwan Corp.Copyright 2003-12,SPSS Taiwan Corp.两种查询两种查询在基于内容的检索系统中,
25、通常有两种查询:基于图像样本的查询(image sample-based queries)。图像样本查询是指找出所有与给定图像样本相似的图像。图像特征描述查询(image feature specification queries)。图像特征描述查询是指给出图像的特征描述或概括36Copyright 2003-12,SPSS Taiwan Corp.Copyright 2003-12,SPSS Taiwan Corp.15.2.3.2 15.2.3.2 多媒体数据的相似搜索多媒体数据的相似搜索 到目前为止人们已经提出了几种在图像数据库中基于图像特征标识的相似检索方法:基于颜色直方图的特征标识多
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据挖掘原理与SPSS Clementine应用宝典第15章 复杂对象数据挖掘 数据 挖掘 原理 SPSS Clementine 应用 宝典 15 复杂 对象
限制150内