第5章数据挖掘的实施过程ppt课件.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《第5章数据挖掘的实施过程ppt课件.ppt》由会员分享,可在线阅读,更多相关《第5章数据挖掘的实施过程ppt课件.ppt(101页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第5章数据挖掘的实施过程ppt课件 Still waters run deep.流静水深流静水深,人静心深人静心深 Where there is life,there is hope。有生命必有希望。有生命必有希望第第5章章 前前面面介介绍绍了了数数据据挖挖掘掘的的基基本本方方法法。在在本本章章中中我我们们进进一一步步说说明明数数据据挖挖掘掘的的实实施施过过程。程。5.1 数据挖掘过程模型数据挖掘过程模型5A 数数据据挖挖掘掘是是一一个个过过程程,它它是是从从大大量量数数据据中中抽抽取取出出有有价价值值的的信信息息或或知知识识以以提提供供决决策依据。策依据。由由于于每每一一种种数数据据挖挖掘掘
2、方方法法(算算法法及及技技术术要要求求)都都有有其其自自身身的的特特点点且且实实现现步步骤骤与与具具体体应应用用问问题题有有密密切切相相关关性性,因因此此成成功功应应用用数数据据挖挖掘掘技技术术以以达达到到目目标标的的过过程程本本身身就就是一件很复杂的事情。是一件很复杂的事情。5.1 数据挖掘过程模型数据挖掘过程模型5A 一一般般来来说说,数数据据挖挖掘掘项项目目要要经经历历的的过过程程包包括括问问题题的的理理解解、数数据据的的理理解解收收集集和和准准备备、建建立立数数据据挖挖掘掘模模型型、评评价价所所建建的的模模型型、将将建建立立的的模模型型投投入入应应用用等等一一系系列列任任务务。这这里里
3、,数数据据挖挖掘掘过过程程的的系系统统化化、工工程程化化方方法法学学和和支支持持系系统统(软软件件或或工工程程)对对解解决决应应用用问题起着至关重要的作用。问题起着至关重要的作用。5.1 数据挖掘过程模型数据挖掘过程模型5A 为为了了抽抽象象系系统统化化方方法法,人人们们提提出出了了一一些数据挖掘过程的参考模型或标准:些数据挖掘过程的参考模型或标准:SPSS提出的提出的5A(Assess、Access、Analyze、Act、Automate);SAS提出的提出的SEMMA(采样(采样Sample,探索探索Explore,修正修正Modify,建模建模Model,评估评估Assess)数据挖掘
4、特别兴趣小组提出的数据挖掘特别兴趣小组提出的“数据挖掘数据挖掘交叉行业标准过程交叉行业标准过程”CRISP-DM(Cross-IndustryStandardProcessforDataMining)。)。5.1 数据挖掘过程模型数据挖掘过程模型5A 在在这这些些模模型型中中,5A模模型型强强调调的的是是支支持持数数据据挖挖掘掘过过程程的的工工具具应应具具备备的的功功能能和和能能力力,它是对支持数据挖掘工具的定义。它是对支持数据挖掘工具的定义。SEMMA强强调调的的是是结结合合SAS公公司司的的挖挖掘工具进行应用开发的方法。掘工具进行应用开发的方法。CRISP-DM则则从从进进行行数数据据挖挖
5、掘掘方方法法学学的的角角度度强强调调实实施施数数据据挖挖掘掘项项目目的的方方法法和和步步骤骤,并并独独立立于于每每种种具具体体数数据据挖挖掘掘算算法法和和数数据挖掘系统。据挖掘系统。5.1 数据挖掘过程模型数据挖掘过程模型5A 5A模模型型认认为为任任何何数数据据挖挖掘掘方方法法学学都都由由5个个 基基 本本 元元 素素 组组 成成,即即 Assess、Access、Analyze、Act、Automate。Assess:正确、彻底的评价任务的需求及数据。正确、彻底的评价任务的需求及数据。Access:方方便便、快快速速的的存存取取任任务务所所涉涉及及的的数数据。据。Analyze:适当、完备
6、的分析技术和工具。:适当、完备的分析技术和工具。Act:具具有有推推荐荐性性、有有说说服服力力的的演演示示。用用大大量量的的列列表表和和图图形形或或者者通通过过办办公公软软件件来来演演示示数数据据挖挖掘掘软软件件的的能能力力。软软件件应应该该具具备备快快速速回回答答用用户户提提问问的的控控制制性性和和灵灵活活性性,这这样样才才便便于于用用户户更更好好、更更快快地做决策。地做决策。Automate:为为用用户户提提供供最最易易于于使使用用、最最方方便的自动化软件。便的自动化软件。5.1 数据挖掘过程模型数据挖掘过程模型5A 针针对对着着5个个过过程程,5A描描述述了了各各元元素素在在数数据据挖挖
7、掘掘技技术术应应用用中中所所需需完完成成的的任任务务和和应应该该提提供的支持功能。供的支持功能。(1)AssessAssess是是指指要要正正确确地地理理解解和和设设置置数数据据,一一旦旦充充分分了了解解了了数数据据的的上上下下文文后后,就就可可以以正正确确地地收收集集它它并并在在其其上上做做需需要要的的决决策策。实实现现Assess的的软软件件技技术术方方案案可可以以不不同同,但但问问题题含含义相同。义相同。a.将技术与组织的目标、策略和步骤结合起来。将技术与组织的目标、策略和步骤结合起来。b.拥拥有有世世界界范范围围的的咨咨询询和和培培训训,目目的的是是交交付付高高级级分分析析工工具具给给
8、分分析析员员后后,能能快快速速实实现现数数据据挖挖掘及其应用掘及其应用。5.1 数据挖掘过程模型数据挖掘过程模型5A(2)AccessAccess是是指指数数据据集集合合(DB、DW、DM)应应该该完完全全符符合合评评价价的的要要求求和和质质量量。若若数数据据集集合合不不充充分分,须须补补充充附附加加的的数数据据。选选用用的的数数据据挖挖掘掘软软件件必必须须在在所所要要求求的的数数据据上上灵灵活活地地工工作作,并并满满足下列存取准则。足下列存取准则。易易于于存存取取和和连连接接各各种种数数据据源源,包包括括数数据据表表、公公司数据库、数据仓库和其它必要的外部数据库。司数据库、数据仓库和其它必要
9、的外部数据库。能能直直接接从从ASCII正正文文、数数据据表表、数数据据库库文文件件读读入数据。入数据。能处理大量(能处理大量(GB以上)的数据文件。以上)的数据文件。5.1 数据挖掘过程模型数据挖掘过程模型5A(3)AnalyzeAnalyze要要求求分分析析工工具具具具备备两两类类分分析析方方法和工具:发现工具和验证工具。法和工具:发现工具和验证工具。验验证证工工具具检检验验发发现现工工具具所所产产生生的的结结果果是否合理。是否合理。发发现现型型方方法法和和工工具具包包括括基基因因遗遗传传算算法法、规规则则推推导导、模模糊糊逻逻辑辑、数数据据可可视视化化、聚聚类类算法、因素分析、神经网络、
10、决策树等。算法、因素分析、神经网络、决策树等。验验证证方方法法和和工工具具包包括括回回归归、逻逻辑辑回回归归、判别分析、预测建模等。判别分析、预测建模等。理理想想的的数数据据挖挖掘掘软软件件应应该该具具备备这这两两类类分分析析方方法法和和工工具具,同同时时应应该该包包括括下下列列分分析析特性。特性。5.1 数据挖掘过程模型数据挖掘过程模型5A 统统计计过过程程、范范围围和和深深度度较较强强,应应包包括括预预测测、分段、分类等。分段、分类等。集集成成商商业业和和统统计计图图形形功功能能、具具备备多多种种可可选选的的2D/3D图图类类,能能用用数数据据定定点点模模式式显显示示和和跟跟踪踪等。等。辅
11、辅助助分分析析的的模模版版、过过程程导导引引、示示范范、在在线线帮帮助等,能帮助分析员快速选择和获得结果。助等,能帮助分析员快速选择和获得结果。数数据据、文文件件、中中间间结结果果管管理理功功能能。能能合合并并和和分分离离文文件件、选选择择数数据据子子集集、处处理理数数据据缺缺值值、净净化化、改改善善数数据据完完整整性性、支支持持IF-THEN-ELSE条件操作。条件操作。数数据据转转换换功功能能。有有一一组组完完备备的的转转换换函函数数支支持持变变量量/特特征征和和条条件件的的计计算算,可可以以重重复复计计算算、编编辑原来的变量辑原来的变量/特征。特征。5.1 数据挖掘过程模型数据挖掘过程模
12、型5A 可可裁裁减减的的工工作作环环境境。有有脚脚本本/宏宏语语言言支支持持的的可可重重复复任任务务的的自自动动化化、批批处处理理及及其其菜菜单单按按钮功能,以支持一般用户快速使用。钮功能,以支持一般用户快速使用。灵灵活活的的动动态态输输出出。表表结结果果可可以以转转动动和和轮轮换换,易易于于观观察察数数据据全全貌貌和和用用鼠鼠标标重重新新组组织织表表数数据据,以以便便于于清清晰晰的的提提交交、观观察察、探探索索数数据据结果并做进一步的特殊分析。结果并做进一步的特殊分析。基基于于线线性性回回归归和和ANOVA的的预预测测性性建建模模,具具有有相相关关性性、分分类类分分析析、预预测测等等基基本本
13、分分析析功功能。能。插插件件/模模块块功功能能。可可以以提提供供特特殊殊的的功功能能模模块块,以支持特定的分析。以支持特定的分析。5.1 数据挖掘过程模型数据挖掘过程模型5A(4)Act用用大大量量的的列列表表和和图图形形或或者者通通过过办办公公软软件件来来演演示示数数据据挖挖掘掘软软件件的的能能力力。软软件件应应该该具具备备快快速速回回答答用用户户提提问问的的控控制制性性和和灵灵活活性性,这这样样才才便便于于用用户户更更好好、更更快快地地做做决决策策。数数据据挖挖掘掘软件应该提供下面的演示特性。软件应该提供下面的演示特性。l l完好的集成图形功能,以提供专业级的演示。完好的集成图形功能,以提
14、供专业级的演示。l lOLE支持,以易于嵌入图表节省报告时间。支持,以易于嵌入图表节省报告时间。l lINTERNET特特性性,以以易易于于图图表表的的网网上上传传输输和本地察看。和本地察看。l l演示模版特性,以节省编辑时间。演示模版特性,以节省编辑时间。l l特特殊殊查查询询功功能能,以以利利于于快快速速提提供供附附加加的的分分析析能能力来响应用户的提问。力来响应用户的提问。l l报告注解功能,以加入注解到报告中。报告注解功能,以加入注解到报告中。5.1 数据挖掘过程模型数据挖掘过程模型5A(5)AutomateAutomate是是指指面面向向用用户户的的操操作作尽尽可可能能完完善善和和自
15、自动动化化软软件件的的应应用用过过程程。吸吸取取专专业业分分析析决决策策人人员员及及多多数数用用户户的的意意见见和和见见解解,以以最最快快的的方方式式显显示示分分析析结结果果,以以标标准准的的接接口口、按按钮钮式式的的功功能能/菜菜单单、丰丰富富的的帮帮助助、可可选选的的附附加加分分析析将将软软件件呈呈现现给给用用户户。为为此此,软件应提供以下自动化功能:软件应提供以下自动化功能:5.1 数据挖掘过程模型数据挖掘过程模型5A l lOLE自自动动化化开开发发者者的的机机制制,允允许许用用户户在在通通用用代代码码级级(VB、EXCEL、ACCESS、PB等)使用软件。等)使用软件。l l内内建建
16、编编程程语语言言/脚脚本本/宏宏,使使用用户户可可以以方方便便的创建自己的应用。的创建自己的应用。l l制制作作能能力力,能能编编写写产产生生日日常常报报告告的的命命令令行行文件。文件。5.2数据挖掘过程模型数据挖掘过程模型CRISP-DMCRISP-DM模模型型是是由由几几家家相相关关开开发发和和应应用用行行业业的的跨跨国国公公司司和和集集团团所所支支持持(并并由由欧欧洲洲委委员员会会部部分分支支持持)的的一一个个特特别别兴兴趣趣小小组组在在1997年年7月月到到1999年年4月月间间研研究究后后提提出出的。的。这这几几家家公公司司分分别别是是数数据据仓仓库库提提供供商商NCR在在丹丹麦麦的
17、的SEC公公司司,德德国国的的汽汽车车、航航天天航航空空、电电信信和和咨咨询询业业公公司司DAIMLER-BENZAG,英英国国的的数数据据挖挖掘掘系系统统开开发发商商ISL(CLEMENTINE的的研研发发商商,1998年年其其成成为为SPSS的的子子公公司司)以以及及荷荷兰兰最最大大的的银银行行、保险业公司保险业公司OHRA。5.2数据挖掘过程模型数据挖掘过程模型CRISP-DM由由于于其其直直接接动动机机是是将将数数据据挖挖掘掘技技术术转转化化为为商商业业应应用用,所所提提出出的的过过程程模模型型均均在在项项目目中中进进行行实实际际实实践践和和验验证证,因因此此具具有有一一定定的的代代表
18、表性。性。CRISP-DM模模型型采采用用分分层层方方法法将将一一个个数数据据 挖挖 掘掘 项项 目目 的的 生生 存存 周周 期期 定定 义义 为为 6个个 阶阶 段段(PHASE)和)和4个层次(个层次(LEVEL)。)。5.2数据挖掘过程模型数据挖掘过程模型CRISP-DMCRISP-DM模型模型6个阶段为:个阶段为:BUSINESSUNDERSTANDING、DATAUNDERSTANDING、DATAPREPARATION、MODELING、EVALUATION和和DEPLOYMENT阶段间的顺序并不严格,比如商业理解阶段间的顺序并不严格,比如商业理解和数据理解之间常常需要反复,数据
19、准备和和数据理解之间常常需要反复,数据准备和数据模型建立也常常需要反复。数据模型建立也常常需要反复。阶段间有循环,比如在对模型进行评价阶段间有循环,比如在对模型进行评价后,如果不满意,可能需要重新对商业问题后,如果不满意,可能需要重新对商业问题进行理解,重新开始建模。一个阶段的任务进行理解,重新开始建模。一个阶段的任务完成后,如果需要继续扩展挖掘的范围,则完成后,如果需要继续扩展挖掘的范围,则需要重新开始循环。需要重新开始循环。5.2数据挖掘过程模型数据挖掘过程模型CRISP-DMCRISP-DM模型模型4个层次是:个层次是:阶段划分(阶段划分(PHASE)定义通用任务(定义通用任务(GENE
20、RICTASK)定义专用任务(定义专用任务(SPECIALIZEDTASK)处理实例(处理实例(PROCESSINSTANCE)每个每个PHASE由若干由若干GENERICTASK组成,每个组成,每个GENERICTASK又需要实施若又需要实施若干干SPECIALIZEDTASK,每个,每个SPECIALIZEDTASK由若干由若干PROCESSINSTANCE来完成。来完成。5.2数据挖掘过程模型数据挖掘过程模型CRISP-DM其其中中,上上两两层层独独立立于于具具体体数数据据挖挖掘掘方方法法,即即是是一一般般数数据据挖挖掘掘项项目目均均需需实实施施的的步步骤骤(这这解解决决了了“WHATT
21、ODO?”的的问问题题)。这这两两层层的的任任务务将将结结合合具具体体数数据据挖挖掘掘项项目目的的“上上下下文文”(CONTEXT)映映射射到到下下两两层层的的具具体体任任务和过程。务和过程。项项目目的的“上上下下文文”是是指指项项目目开开发发中中密密切切相相关关、需需要要综综合合考考虑虑的的一一些些关关键键问问题题,如如应应用用领领域域、数数据据挖挖掘掘问问题题类类型型、技技术术难难点点、工工具及其提供的技术等。具及其提供的技术等。下下两两层层注注重重解解决决如如何何完完成成每每个个阶阶段段所所要要完完成成的的任任务务和和任任务务的的输输出出所所要要求求的的必必要要映映射射活动(这用于解决活
22、动(这用于解决“HOWTODO”的问题)。的问题)。5.2数据挖掘过程模型数据挖掘过程模型CRISP-DMCRISP-DM6个阶段的含义是:个阶段的含义是:(1)BUSINESSUNDERSTANDING在在开开始始阶阶段段,专专注注于于从从商商业业的的角角度度理理解解项项目目目目标标和和需需求求,然然后后将将这这种种知知识识转转换换成成一一种种数数据据挖挖掘掘的的问问题题定定义义,并并设设计计出出达达到目标的一个初步计划。到目标的一个初步计划。5.2数据挖掘过程模型数据挖掘过程模型CRISP-DM(2)DATAUNDERSTANDING在在数数据据理理解解阶阶段段,先先收收集集初初步步的的数
23、数据据,然然后后进进行行熟熟悉悉数数据据的的各各种种活活动动,包包括括识识别别数数据据的的质质量量问问题题、找找到到对对数数据据的的基基本本观观察察或或假假设设隐隐含含的的信信息息来来检检测测出出感感兴兴趣趣的的数数据据子集。子集。5.2数据挖掘过程模型数据挖掘过程模型CRISP-DM(3)DATAPREPARATION数数据据预预处处理理阶阶段段覆覆盖盖了了从从数数据据构构造造到到最最终终数数据据集集合合(将将要要输输入入建建模模工工具具的的数数据据)的的所所有有活活动动。数数据据预预处处理理任任务务很很可可能能要要执执行行多多次次,并并且且没没有有任任何何规规定定的的顺顺序序。任任务务包包
24、括括表表、记记录录属属性性的的选选择择以以及及为为了了适适合合建建模工具的要求对数据进行的转换和净化。模工具的要求对数据进行的转换和净化。5.2数据挖掘过程模型数据挖掘过程模型CRISP-DM(4)MODELING在在建建模模阶阶段段,可可以以选选择择和和应应用用各各种种建建模技术将其参数校正到优化值。模技术将其参数校正到优化值。5.2数据挖掘过程模型数据挖掘过程模型CRISP-DM(5)EVALUATION从从数数据据分分析析的的观观点点看看:在在开开始始进进入入这这个个阶阶段段时时已已经经建建立立了了看看上上去去是是高高质质量量的的模模型型。但但在在最最终终扩扩展展模模型型之之前前,要要更
25、更彻彻底底地地评评价价模模型型,对对所所建建模模型型再再次次考考察察其其执执行行的的步骤并确信其正确地达到了商业目标。步骤并确信其正确地达到了商业目标。这这里里,一一个个关关键键的的目目的的是是确确定定是是否否有有某某些些重重要要的的商商业业问问题题还还没没有有充充分分地地考考虑虑。在在这这个个阶阶段段的的结结尾尾,应应该该获获得得使使用用数数据据挖挖掘结果的判定。掘结果的判定。5.2数据挖掘过程模型数据挖掘过程模型CRISP-DM(6)DEPLOYMENT创创建建完完模模型型并并不不意意味味着着项项目目结结束束。所所获获得得的的知知识识要要用用一一种种用用户户可可以以使使用用的的方方式式来来
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 实施 过程 ppt 课件
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内