数据挖掘原理与SPSS Clementine应用宝典第4章数据选择.ppt
《数据挖掘原理与SPSS Clementine应用宝典第4章数据选择.ppt》由会员分享,可在线阅读,更多相关《数据挖掘原理与SPSS Clementine应用宝典第4章数据选择.ppt(18页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据挖掘原理与数据挖掘原理与SPSS Clementine应用宝典应用宝典第第4章章 数据选择数据选择数据挖掘的对象数据挖掘的对象选择建模数据选择建模数据构造建模数据集构造建模数据集11/1/202211/1/202211/1/20222 2LOGO4.1 数据挖掘的对象数据挖掘的对象 4.1.1 数据库数据库 一一个个数数据据库库系系统统也也称称为为数数据据库库管管理理系系统统(DBMS),由由一一些些相相关关数数据组成,并通过软件程序管理和存储这些数据。据组成,并通过软件程序管理和存储这些数据。DBMS提提供供数数据据库库结结构构定定义义,数数据据检检索索语语言言(SQL等等),数数据据存
2、存储储,并发、共享和分布式机制,数据访问授权等功能。并发、共享和分布式机制,数据访问授权等功能。关关系系数数据据库库由由表表组组成成,每每个个表表有有一一个个唯唯一一的的表表名名,属属性性(列列或或域域)集集合合组组成成表表结结构构,表表中中数数据据按按行行存存放放,每每一一行行称称为为一一个个记记录录。记记录录间间通通过过键键值值加加以以区区别别。关关系系表表中中的的一一些些属属性性域域描描述述了了表表间间的的联联系系,这种语义模型就是实体关系(这种语义模型就是实体关系(ER)模型。)模型。关关系系数数据据库库是是当当前前最最流流行行、最最常常见见的的数数据据库库之之一一,为为数数据据挖挖掘
3、掘研研究究工作提供了丰富的数据源。工作提供了丰富的数据源。3 3LOGO4.1.1 数据库数据库目前研究的主要问题有:目前研究的主要问题有:超大数据量。超大数据量。动态变化的数据。动态变化的数据。噪声。噪声。数据不完整。数据不完整。冗余信息。冗余信息。数据稀疏。数据稀疏。4 4LOGO4.1.2 数据仓库数据仓库 数据仓库(数据仓库(Data Warehouse)的一个综合性的定义是:它是一)的一个综合性的定义是:它是一个集成的,面向主题的、设计用语决策支持功能(个集成的,面向主题的、设计用语决策支持功能(DSF)的数据库)的数据库的集合,数据中的每一个数据单元在时间上都是和某个时刻相关的。的
4、集合,数据中的每一个数据单元在时间上都是和某个时刻相关的。联机操作数据库系统的主要任务是执行联机事务和查询处理。这种系统称为联机事务处理联机事务处理(OLTP)系统。它们涵盖了一个组织的大部分日常操作,如购买、库存、制造、银行、工资、注册、记帐等。5 5LOGO4.1.2 数据仓库数据仓库OLTP处理一个行业或组织的日常操作所必须的数据。事处理一个行业或组织的日常操作所必须的数据。事务型数据库中的数据记录总是被多用户访问和不断更新。务型数据库中的数据记录总是被多用户访问和不断更新。相反,数据存在于数据仓库中的部分原因是由于相反,数据存在于数据仓库中的部分原因是由于OLTP环环境不再使用这些数据
5、。大多数数据仓库中的数据是历史境不再使用这些数据。大多数数据仓库中的数据是历史性的,有时间戳的,并且不再改变(只读)。性的,有时间戳的,并且不再改变(只读)。粒度是一个用于描述存储信息的详细程度的术语。操作粒度是一个用于描述存储信息的详细程度的术语。操作数据代表了最低的粒度,因为每个数据项包含一个单个数据代表了最低的粒度,因为每个数据项包含一个单个事务的信息。数据仓库中数据的粒度是一个设计要点,事务的信息。数据仓库中数据的粒度是一个设计要点,它依赖于客户的需要以及所采集数据的数量。它依赖于客户的需要以及所采集数据的数量。6 6LOGO4.1.2 数据仓库数据仓库 数据仓库同时也可以看作是一个采
6、集、存储、管理和分析数据数据仓库同时也可以看作是一个采集、存储、管理和分析数据的过程(的过程(Gardner,1998)。数据仓库最有效的数据挖掘工具是多)。数据仓库最有效的数据挖掘工具是多维分析方法(维分析方法(Multidimensional Data Analysis),也称为联机分),也称为联机分析处理(析处理(OLAP,Online Analytical Processing)。下图显示了仓)。下图显示了仓储过程的关键组件。储过程的关键组件。外部数据依赖数据ETL例程(提取/变换/加载)数据仓库决策支持系统报告提取/汇总数据操作型数据库独立数据集市数据仓库过程模型数据仓库过程模型 7
7、 7LOGO4.1.3 文本文本 文本数据一般存放在文本数据库中。文本数据库中文本数据一般存放在文本数据库中。文本数据库中存放的内容均为文字,这些文字并不是简单的关键词,存放的内容均为文字,这些文字并不是简单的关键词,而是长句、段落甚至全文,文本数据库多数为非结构化而是长句、段落甚至全文,文本数据库多数为非结构化的,也有些是半结构化的(如,题录数据加全文、的,也有些是半结构化的(如,题录数据加全文、HTML、Email邮件等)。邮件等)。Web网页也是文本信息,把众网页也是文本信息,把众多的多的Web网页组成数据库就是最大的文本数据库。网页组成数据库就是最大的文本数据库。8 8LOGO4.1.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据挖掘原理与SPSS Clementine应用宝典第4章 数据选择 数据 挖掘 原理 SPSS Clementine 应用 宝典 选择
限制150内