《数据仓库原理、设计与应用.ppt》由会员分享,可在线阅读,更多相关《数据仓库原理、设计与应用.ppt(28页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第第1 1章章数据仓库与数据挖掘概述数据仓库与数据挖掘概述 随着信息技术的不断推广和应用,许多企业都已经在使用管理信随着信息技术的不断推广和应用,许多企业都已经在使用管理信息系统处理管理事务和日常业务。这些管理信息系统为企业积累息系统处理管理事务和日常业务。这些管理信息系统为企业积累了大量的信息。企业管理者开始考虑如何利用这些信息海洋对企了大量的信息。企业管理者开始考虑如何利用这些信息海洋对企业的管理决策提供支持。因此,产生了与传统数据库有很大差异业的管理决策提供支持。因此,产生了与传统数据库有很大差异的数据环境要求和从这些海洋数据中获取特殊知识的工具需要。的数据环境要求和从这些海洋数据中获取
2、特殊知识的工具需要。本章目标:本章目标:(1)(1)了解数据仓库的发展与展望了解数据仓库的发展与展望 。(2)(2)理解数据仓库的体系结构和参照结构。理解数据仓库的体系结构和参照结构。(3)(3)初步了解数据挖掘技术、数据挖掘技术与工具初步了解数据挖掘技术、数据挖掘技术与工具 。(4)(4)掌握数据挖掘的应用掌握数据挖掘的应用 。数据仓库与数据挖掘概述数据仓库与数据挖掘概述1.11.11.11.1数据仓库的发展与展望数据仓库的发展与展望1.21.21.21.2数据仓库的体系结构数据仓库的体系结构数据仓库的体系结构数据仓库的体系结构 1.31.31.31.3数据仓库的参照结构数据仓库的参照结构数
3、据仓库的参照结构数据仓库的参照结构 1.41.41.41.4数据挖掘技术概述数据挖掘技术概述数据挖掘技术概述数据挖掘技术概述 1.51.51.51.5数据挖掘技术与工具数据挖掘技术与工具数据挖掘技术与工具数据挖掘技术与工具 1.61.61.61.6数据挖掘的应用数据挖掘的应用数据挖掘的应用数据挖掘的应用 练练练练 习习习习1.11.1数据仓库的发展与展望数据仓库的发展与展望 从传统数据库到数据仓库从传统数据库到数据仓库从传统数据库到数据仓库从传统数据库到数据仓库 随着市场竞争的加剧,信息系统的用户已经不满足于仅仅随着市场竞争的加剧,信息系统的用户已经不满足于仅仅用计算机去处理每天所发生的事务数
4、据,而是需要信息用计算机去处理每天所发生的事务数据,而是需要信息能够支持决策的信息,去帮助管理决策。这就需要能够支持决策的信息,去帮助管理决策。这就需要一种能够将日常业务处理中所收集到的各种数据转变为一种能够将日常业务处理中所收集到的各种数据转变为具有商业价值信息的技术,传统数据库系统无法承担这具有商业价值信息的技术,传统数据库系统无法承担这一责任。因为传统数据库的处理方式和决策分析中的数一责任。因为传统数据库的处理方式和决策分析中的数据需求不相称。这些不相称性主要表现在决策处理中的据需求不相称。这些不相称性主要表现在决策处理中的系统响应问题、决策数据需求的问题和决策数据操作的系统响应问题、决
5、策数据需求的问题和决策数据操作的问题。问题。1.11.1数据仓库的发展与展望数据仓库的发展与展望 1.决策处理的系统响应问题决策处理的系统响应问题2.决策数据需求的问题决策数据需求的问题3.决策数据操作的问题决策数据操作的问题4.数据仓库与传统数据库的对比数据仓库与传统数据库的对比1.11.1数据仓库的发展与展望数据仓库的发展与展望 对对比内容比内容数据数据库库数据数据仓库仓库数据内容数据内容当前当前值值历历史的、存档的、史的、存档的、归纳归纳的、的、计计算的数据算的数据数据目数据目标标面向面向业务业务操作程序、重操作程序、重复复处处理理面向主面向主题题域、管理决策分析域、管理决策分析应应用用
6、数据特性数据特性动态变动态变化、按字段更新化、按字段更新静静态态、不能直接更新、只定、不能直接更新、只定时时添加添加数据数据结结构构高度高度结结构化、复构化、复杂杂、适、适合操作合操作计计算算简单简单、适合分析、适合分析使用使用频频率率高高中到低中到低数据数据访问访问量量每个事每个事务务只只访问访问少量少量记记录录有的事有的事务务可能要可能要访问访问大量大量记录记录对对响响应时间应时间的的要求要求以秒以秒为单为单位位计计量量以秒、分以秒、分钟钟、甚至小、甚至小时为计时为计量量单单位位定义:定义:“一个面向主题的、集成的、随时间变化的、非易失性一个面向主题的、集成的、随时间变化的、非易失性数据的
7、集合,用于支持管理层的决策过程数据的集合,用于支持管理层的决策过程”。特性:特性:面向主题性面向主题性数据集成性数据集成性数据的时变性数据的时变性数据的非易失性数据的非易失性数据的集合性数据的集合性支持决策作用。支持决策作用。1.1.2 数据仓库的定义与基本特性数据仓库的定义与基本特性 1.1.3 数据仓库的未来发展 基于关系对象数据库的数据仓库网络的影响操作型数据仓库要求Web中的代理技术 1.2 1.2 数据仓库的体系结构数据仓库的体系结构 1.2.1 1.2.1 数据仓库的概念结构数据仓库的概念结构数据仓库的概念结构数据仓库的概念结构 从数据仓库的概念结构看,应该包含:数据源、数据准从数
8、据仓库的概念结构看,应该包含:数据源、数据准备区、数据仓库数据库、数据集市备区、数据仓库数据库、数据集市/知识挖掘库以及各知识挖掘库以及各种管理工具和应用工具。种管理工具和应用工具。数据源业务系统外部数据源数据准备区数据仓库数据库应用工具管理工具数据集市/知识挖掘库应用工具数据集市/知识挖掘库图1.1 数据仓库的概念结构1.2.2 1.2.2 1.2.2 1.2.2 虚拟数据仓库结构虚拟数据仓库结构虚拟数据仓库结构虚拟数据仓库结构虚拟数据仓库利用描述了业务系统中数据位置和抽取数虚拟数据仓库利用描述了业务系统中数据位置和抽取数虚拟数据仓库利用描述了业务系统中数据位置和抽取数虚拟数据仓库利用描述了
9、业务系统中数据位置和抽取数据算法的元数据直接从业务系统中抽取查询的数据进行据算法的元数据直接从业务系统中抽取查询的数据进行据算法的元数据直接从业务系统中抽取查询的数据进行据算法的元数据直接从业务系统中抽取查询的数据进行概括、聚合操作后,将最终结果提供给用户概括、聚合操作后,将最终结果提供给用户概括、聚合操作后,将最终结果提供给用户概括、聚合操作后,将最终结果提供给用户 用户图1.2 虚拟数据仓库结构数据仓库查询管理服务器业务系统数据库1.2.3 1.2.3 数据集市结构数据集市结构数据集市结构数据集市结构数据集市结构或称为主题结构的数据仓库是按照主题进行构思所形数据集市结构或称为主题结构的数据
10、仓库是按照主题进行构思所形成的数据仓库,没有一个独立的数据仓库。系统的数据不存储在同成的数据仓库,没有一个独立的数据仓库。系统的数据不存储在同一数据仓库中,每个主题有自己的物理存储区。一数据仓库中,每个主题有自己的物理存储区。数据仓库查询管理服务器业务系统数据库主题1主题21.2.4 1.2.4 单一数据仓库结构单一数据仓库结构单一数据仓库结构单一数据仓库结构将所有的主题都集中到一个大型数据库中的体系结构。数据源中数将所有的主题都集中到一个大型数据库中的体系结构。数据源中数据被按照同一标准抽取到独立的数据仓库中,用户在使用时再根据据被按照同一标准抽取到独立的数据仓库中,用户在使用时再根据主题将
11、数据仓库中的数据发布到数据集市中。主题将数据仓库中的数据发布到数据集市中。数据仓库查询管理服务器业务系统数据库数据仓库数据集市1数据集市21.2.5 1.2.5 分布式数据仓库结构分布式数据仓库结构分布式数据仓库结构分布式数据仓库结构在企业各个分公司具有相当大的独立性时,企业总部设置一个全局在企业各个分公司具有相当大的独立性时,企业总部设置一个全局数据仓库,各个分公司设置各自的局部数据仓库。局部数据仓库主数据仓库,各个分公司设置各自的局部数据仓库。局部数据仓库主要存储各自的未经转换的细节数据,全局数据仓库中主要存储经过要存储各自的未经转换的细节数据,全局数据仓库中主要存储经过转换的综合数据转换
12、的综合数据 站点A 站点B 站点C 站点D全局数据仓库局部数据仓库局部数据仓库局部数据仓库局部数据仓库总部1.31.3数据仓库的参照结构数据仓库的参照结构 数据仓库的基本功能包含:数据抽取,数据筛选、清理,清理后的数据仓库的基本功能包含:数据抽取,数据筛选、清理,清理后的数据加载,设立数据集市,完成数据仓库的查询、决策分析和知识数据加载,设立数据集市,完成数据仓库的查询、决策分析和知识的挖掘等操作。的挖掘等操作。数据仓库的管理层分成数据管理与元数据管理两部分,主要负责对数据仓库的管理层分成数据管理与元数据管理两部分,主要负责对数据仓库中的数据抽取、清理、加载、更新与刷新等操作进行管理。数据仓库
13、中的数据抽取、清理、加载、更新与刷新等操作进行管理。数据仓库环境支持层包含数据传输和数据仓库基础两部分。数据仓库环境支持层包含数据传输和数据仓库基础两部分。数据仓库基本功能层数据仓库基本功能层数据仓库管理层数据仓库管理层数据仓库环境支持层数据仓库环境支持层1.3.1 1.3.1 数据仓库基本功能层数据仓库基本功能层数据仓库基本功能层数据仓库基本功能层数据源数据源数据准备区数据准备区数据仓库结构数据仓库结构 数据集市数据集市/知识知识挖掘库挖掘库存取与使用存取与使用数据来源主要包含:业务数据、历史数据、办公数据、数据来源主要包含:业务数据、历史数据、办公数据、数据来源主要包含:业务数据、历史数据
14、、办公数据、数据来源主要包含:业务数据、历史数据、办公数据、WebWebWebWeb数数数数据、外部数据以及数据源元数据据、外部数据以及数据源元数据据、外部数据以及数据源元数据据、外部数据以及数据源元数据 数据准备区的功能结构部分由数据标准化处理、数据的过滤与数据准备区的功能结构部分由数据标准化处理、数据的过滤与数据准备区的功能结构部分由数据标准化处理、数据的过滤与数据准备区的功能结构部分由数据标准化处理、数据的过滤与匹配、数据的净化处理、标明数据的时间戳、确认数据质量与匹配、数据的净化处理、标明数据的时间戳、确认数据质量与匹配、数据的净化处理、标明数据的时间戳、确认数据质量与匹配、数据的净化
15、处理、标明数据的时间戳、确认数据质量与元数据抽取和创建等操作组成元数据抽取和创建等操作组成元数据抽取和创建等操作组成元数据抽取和创建等操作组成 数据仓库的功能结构部分由数据重整和数据仓库创建以及元数数据仓库的功能结构部分由数据重整和数据仓库创建以及元数数据仓库的功能结构部分由数据重整和数据仓库创建以及元数数据仓库的功能结构部分由数据重整和数据仓库创建以及元数据管理组成据管理组成据管理组成据管理组成 数据集市数据集市数据集市数据集市/知识挖掘库的功能结构与数据仓库的功能结构极为知识挖掘库的功能结构与数据仓库的功能结构极为知识挖掘库的功能结构与数据仓库的功能结构极为知识挖掘库的功能结构与数据仓库的
16、功能结构极为相似相似相似相似 数据仓库的数据存取与使用结构主要为数据仓库的最终用户提数据仓库的数据存取与使用结构主要为数据仓库的最终用户提数据仓库的数据存取与使用结构主要为数据仓库的最终用户提数据仓库的数据存取与使用结构主要为数据仓库的最终用户提供进行决策分析和挖掘知识的功能。数据仓库的数据存取与使供进行决策分析和挖掘知识的功能。数据仓库的数据存取与使供进行决策分析和挖掘知识的功能。数据仓库的数据存取与使供进行决策分析和挖掘知识的功能。数据仓库的数据存取与使用结构应该包含数据仓库存取与检索、元数据管理以及数据仓用结构应该包含数据仓库存取与检索、元数据管理以及数据仓用结构应该包含数据仓库存取与检
17、索、元数据管理以及数据仓用结构应该包含数据仓库存取与检索、元数据管理以及数据仓库分析与报告库分析与报告库分析与报告库分析与报告 1.3.2 1.3.2 数据仓库的管理层数据仓库的管理层数据仓库的管理层数据仓库的管理层 数据管理层中的数据抽取、新数据需求与查询管理主要负责完成从数据管理层中的数据抽取、新数据需求与查询管理主要负责完成从数据源中抽取数据的管理。数据源中抽取数据的管理。数据仓库中的数据加载、存储、刷新和更新系统则负责对从数据源数据仓库中的数据加载、存储、刷新和更新系统则负责对从数据源中所抽取的数据在完成筛选、净化处理以后,将这些数据加载、存中所抽取的数据在完成筛选、净化处理以后,将这
18、些数据加载、存储到数据仓库中;捕获数据源中的数据变化,用最新数据充实数据储到数据仓库中;捕获数据源中的数据变化,用最新数据充实数据仓库;根据用户的需求和数据仓库管理的要求对数据仓库进行更新仓库;根据用户的需求和数据仓库管理的要求对数据仓库进行更新等工作。等工作。安全性与用户授权管理系统主要负责数据仓库的安全管理工作。安全性与用户授权管理系统主要负责数据仓库的安全管理工作。数据仓库的数据归档、恢复及净化系统主要负责定期对数据仓库中数据仓库的数据归档、恢复及净化系统主要负责定期对数据仓库中的数据进行归档、备份。净化系统则负责对从数据源所抽取的数据的数据进行归档、备份。净化系统则负责对从数据源所抽取
19、的数据进行数据的筛选、数据标准的统一、数据内容的统一等各种求精、进行数据的筛选、数据标准的统一、数据内容的统一等各种求精、重整净化工作的管理。重整净化工作的管理。数据抽取与新数数据抽取与新数据需求与查询据需求与查询管理管理数据加载、存储、数据加载、存储、刷新和更新系刷新和更新系统统安全性与用户授安全性与用户授权管理系统权管理系统数据归档、恢复数据归档、恢复及净化系统及净化系统1.3.3 1.3.3 数据仓库的元数据管理层数据仓库的元数据管理层数据仓库的元数据管理层数据仓库的元数据管理层负责管理数据仓库所使用的元数据,其中包括:负责管理数据仓库所使用的元数据,其中包括:数据仓库、数据集市数据仓库
20、、数据集市/知识挖掘库和词汇表管理知识挖掘库和词汇表管理元数据抽取、创建、存储和更新管理元数据抽取、创建、存储和更新管理预定义的查询和报表以及索引管理预定义的查询和报表以及索引管理刷新与复制管理,登录、归档、恢复与净化管理刷新与复制管理,登录、归档、恢复与净化管理数据仓库、数数据仓库、数据集市和词汇据集市和词汇表管理表管理元数据抽取、元数据抽取、创建、存储和创建、存储和更新管理更新管理预定义的查询、预定义的查询、报表和索引管报表和索引管理理刷新与刷新与复制管复制管理理登录、归档、登录、归档、恢复与净化恢复与净化管理管理1.3.4 1.3.4 数据仓库的环境支持层数据仓库的环境支持层数据仓库的环
21、境支持层数据仓库的环境支持层 数据传输层包含了:数据传输层包含了:数据传输和传送网络数据传输和传送网络客户客户/服务器代理和中间件服务器代理和中间件复制系统复制系统数据传输的安全保障系统数据传输的安全保障系统 数据传输和传送数据传输和传送网络网络客户客户/服务器代服务器代理和中间件理和中间件复制系统复制系统安全和保障系统安全和保障系统1.41.4数据挖掘技术概述数据挖掘技术概述 1.4.1 1.4.1 数据挖掘的发展数据挖掘的发展数据挖掘的发展数据挖掘的发展 在促进数据挖掘诞生、发展和应用的众多原因中主要有:在促进数据挖掘诞生、发展和应用的众多原因中主要有:在促进数据挖掘诞生、发展和应用的众多
22、原因中主要有:在促进数据挖掘诞生、发展和应用的众多原因中主要有:超大规模数据库的出现超大规模数据库的出现超大规模数据库的出现超大规模数据库的出现 先进的计算机技术先进的计算机技术先进的计算机技术先进的计算机技术 经营管理的实际需要经营管理的实际需要经营管理的实际需要经营管理的实际需要 数据的精深计算能力。数据的精深计算能力。数据的精深计算能力。数据的精深计算能力。1.4.2 1.4.2 数据挖掘的定义数据挖掘的定义数据挖掘的定义数据挖掘的定义从从从从技技技技术术术术角角角角度度度度看看看看,数数数数据据据据挖挖挖挖掘掘掘掘是是是是从从从从大大大大量量量量的的的的、不不不不完完完完全全全全的的的
23、的、有有有有噪噪噪噪声声声声的的的的、模模模模糊糊糊糊的的的的、随随随随机机机机的的的的实实实实际际际际数数数数据据据据中中中中,提提提提取取取取隐隐隐隐含含含含在在在在其其其其中中中中的的的的、人人人人们们们们所所所所不不不不知知知知道道道道的的的的、但但但但又又又又是是是是潜潜潜潜在在在在有用的信息和知识的过程。有用的信息和知识的过程。有用的信息和知识的过程。有用的信息和知识的过程。从从从从商商商商业业业业应应应应用用用用角角角角度度度度看看看看,数数数数据据据据挖挖挖挖掘掘掘掘是是是是一一一一种种种种崭崭崭崭新新新新的的的的商商商商业业业业信信信信息息息息处处处处理理理理技技技技术术术术
24、,其其其其主主主主要要要要特特特特点点点点是是是是对对对对商商商商业业业业数数数数据据据据库库库库中中中中的的的的大大大大量量量量业业业业务务务务数数数数据据据据进进进进行行行行抽抽抽抽取取取取、转转转转化化化化、分分分分析析析析和和和和模模模模式式式式化化化化处理,从中提取辅助商业决策的关键知识。处理,从中提取辅助商业决策的关键知识。处理,从中提取辅助商业决策的关键知识。处理,从中提取辅助商业决策的关键知识。数据挖掘工具与传统数据分析工具的比较 传统数据分析工具传统数据分析工具(DSS/EIS)(DSS/EIS)数据挖掘工具数据挖掘工具工具特点工具特点回顾型的、验证型的回顾型的、验证型的预测
25、型的、发现型的预测型的、发现型的分析重点分析重点已经发生了什么已经发生了什么预测未来的情况、解释发生预测未来的情况、解释发生的原因的原因分析目的分析目的从最近的销售文件中列出最从最近的销售文件中列出最大客户大客户锁定未来的可能客户,以减锁定未来的可能客户,以减少未来的销售成本少未来的销售成本数据集大数据集大小小数据维、维中属性数、维中数据维、维中属性数、维中数据均是少量的数据均是少量的数据维、维中属性数、维中数据维、维中属性数、维中数据均是庞大的数据均是庞大的启动方式启动方式企业管理人员、系统分析员、企业管理人员、系统分析员、管理顾问启动与控制管理顾问启动与控制数据与系统启动,少量的人数据与系
26、统启动,少量的人员指导员指导技术状况技术状况成熟成熟统计分析工具已成熟,其他统计分析工具已成熟,其他工具正在发展中工具正在发展中1.5 数据挖掘技术与工具 1.5.1 1.5.1 常用数据挖掘技术常用数据挖掘技术常用数据挖掘技术常用数据挖掘技术 数据挖掘的发展受到数据库系统、统计学、机器学习、可视化数据挖掘的发展受到数据库系统、统计学、机器学习、可视化数据挖掘的发展受到数据库系统、统计学、机器学习、可视化数据挖掘的发展受到数据库系统、统计学、机器学习、可视化技术、信息技术以及其它学科的影响,例如神经网络、模糊技术、信息技术以及其它学科的影响,例如神经网络、模糊技术、信息技术以及其它学科的影响,
27、例如神经网络、模糊技术、信息技术以及其它学科的影响,例如神经网络、模糊/粗粗粗粗糙集理论、知识表示、归纳技术与高性能计算等。糙集理论、知识表示、归纳技术与高性能计算等。糙集理论、知识表示、归纳技术与高性能计算等。糙集理论、知识表示、归纳技术与高性能计算等。从常用的数据挖掘技术来看可以分成三大类:从常用的数据挖掘技术来看可以分成三大类:从常用的数据挖掘技术来看可以分成三大类:从常用的数据挖掘技术来看可以分成三大类:传统分析类传统分析类传统分析类传统分析类 知识发现类知识发现类知识发现类知识发现类 其它最新发展的一些数据挖掘技术。其它最新发展的一些数据挖掘技术。其它最新发展的一些数据挖掘技术。其它
28、最新发展的一些数据挖掘技术。1.5.2 常用数据挖掘工具常用数据挖掘工具数数数数据据据据挖挖挖挖掘掘掘掘工工工工具具具具按按按按照照照照使使使使用用用用方方方方式式式式,可可可可以以以以分分分分成成成成:决决决决策策策策方方方方案案案案生生生生成成成成工工工工具具具具、商商商商业业业业分分分分析析析析工工工工具具具具和和和和研研研研究究究究分分分分析析析析工具三大类。工具三大类。工具三大类。工具三大类。按按按按照照照照数数数数据据据据挖挖挖挖掘掘掘掘的的的的技技技技术术术术可可可可以以以以分分分分成成成成:基基基基于于于于神神神神经经经经网网网网络络络络的的的的工工工工具具具具、基基基基于于于
29、于规规规规则则则则和和和和决决决决策策策策树树树树的的的的工工工工具具具具、基基基基于于于于模糊逻辑的工具和综合性数据挖掘工具等。模糊逻辑的工具和综合性数据挖掘工具等。模糊逻辑的工具和综合性数据挖掘工具等。模糊逻辑的工具和综合性数据挖掘工具等。按按按按照照照照数数数数据据据据挖挖挖挖掘掘掘掘的的的的应应应应用用用用范范范范围围围围可可可可以以以以将将将将挖挖挖挖掘掘掘掘工工工工具具具具分分分分成成成成专专专专用用用用型型型型数数数数据据据据挖挖挖挖掘掘掘掘工工工工具具具具和和和和通通通通用用用用型型型型数数数数据据据据挖挖挖挖掘掘掘掘工工工工具。具。具。具。1.5.3 数据挖掘工具的评价标准数
30、据挖掘工具的评价标准模式种类的数量模式种类的数量模式种类的数量模式种类的数量 解决复杂问题的能力解决复杂问题的能力 操作性能操作性能 数据获取能力数据获取能力 挖掘结果的输出挖掘结果的输出挖掘结果的输出挖掘结果的输出噪声数据的处理及挖掘工具的鲁棒性噪声数据的处理及挖掘工具的鲁棒性 1.5.4 常用数据挖掘工具选择常用数据挖掘工具选择 1.6 数据挖掘的应用数据挖掘的应用1.6.1 数据挖掘与数据仓库数据挖掘与数据仓库大大大大多多多多数数数数数数数数据据据据挖挖挖挖掘掘掘掘工工工工具具具具需需需需要要要要在在在在集集集集成成成成的的的的、一一一一致致致致的的的的、经经经经过过过过清清清清理理理理
31、的的的的数据上进行挖掘。数据上进行挖掘。数据上进行挖掘。数据上进行挖掘。数数数数据据据据挖挖挖挖掘掘掘掘过过过过程程程程中中中中所所所所需需需需要要要要的的的的数数数数据据据据处处处处理理理理与与与与分分分分析析析析工工工工具具具具完完完完全全全全可可可可以以以以在在在在数据仓库的数据处理与数据分析工具中找到,数据仓库的数据处理与数据分析工具中找到,数据仓库的数据处理与数据分析工具中找到,数据仓库的数据处理与数据分析工具中找到,数数数数据据据据仓仓仓仓库库库库中中中中的的的的OLAPOLAP完完完完全全全全可可可可以以以以为为为为数数数数据据据据挖挖挖挖掘掘掘掘提提提提供供供供有有有有关关关关
32、的的的的数数数数据据据据操作支持操作支持操作支持操作支持 数数数数据据据据挖挖挖挖掘掘掘掘技技技技术术术术在在在在数数数数据据据据仓仓仓仓库库库库中中中中的的的的应应应应用用用用,正正正正好好好好弥弥弥弥补补补补了了了了数数数数据据据据仓仓仓仓库库库库只能提供大量数据,而无法进行深度信息分析的缺陷。只能提供大量数据,而无法进行深度信息分析的缺陷。只能提供大量数据,而无法进行深度信息分析的缺陷。只能提供大量数据,而无法进行深度信息分析的缺陷。1.6.2 数据挖掘过程数据挖掘过程 确定挖掘对象确定挖掘对象确定挖掘对象确定挖掘对象准备数据准备数据准备数据准备数据建立模型建立模型建立模型建立模型数据挖
33、掘数据挖掘数据挖掘数据挖掘结果分析结果分析结果分析结果分析知识应用阶段知识应用阶段知识应用阶段知识应用阶段 业务对象 源数据 集成数据 目标数据 预处理数据 商业模式 知识 应用方案业务分析人员数据分析人员数据管理人员1.6.3 1.6.3 数据挖掘的用户数据挖掘的用户 练 习 1.1.为为什什么么不不能能依依靠靠传传统统的的业业务务处处理理系系统统进进行行决决策策分析?分析?2.2.在在将将数数据据源源中中的的数数据据加加载载到到数数据据仓仓库库之之前前需需要要完成那些工作?为什么要进行这些工作?完成那些工作?为什么要进行这些工作?3.3.如如果果创创建建一一个个数数据据仓仓库库,主主要要是是分分析析关关于于客客户户的的人人口口统统计计(收收入入、家家庭庭人人口口、家家庭庭位位置置、爱爱好好等等)。数数据据仓仓库库的的目目的的在在于于将将特特定定的的产产品品推推销销给给合合适适的的潜潜在在客客户户群群。这这个个数数据据仓仓库库应应该该从从哪哪些些地地方方获获取取数数据据源源,数数据据仓仓库库的的体体系系结结构构应应该包含哪些部分。该包含哪些部分。4.从数据挖掘与数据库、统计学、机器学习的关系来讨论什么是数据挖掘?5.在数据挖掘过程中需要涉及到哪些过程?6.在现实中有哪些人需要使用数据挖掘技术来帮助他的工作?
限制150内