数据挖掘与Clementine使用培训电信学习教案.pptx
《数据挖掘与Clementine使用培训电信学习教案.pptx》由会员分享,可在线阅读,更多相关《数据挖掘与Clementine使用培训电信学习教案.pptx(306页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、会计学1数据挖掘与数据挖掘与Clementine使用使用(shyng)培训培训电信电信第一页,共306页。2一、数据挖掘概述一、数据挖掘概述(i sh)n n什么是数据挖掘n n数据挖掘的实现(shxin)路线和流程n n数据挖掘方法论CRISP-DM第1页/共306页第二页,共306页。3为什么进行数据挖掘?为什么进行数据挖掘?商业商业(shngy)观点观点n n业务中产生了大量的数据,这些数据存储在业务系统中却不能创造价值n n客户信息数据n n客户交易行为数据n n客户反馈数据n n网络数据n nn n计算机变得越来越便宜、功能却越来越强大n n商业(shngy)竞争越来越激烈,对客户了
2、解越多就意味着机会越大第2页/共306页第三页,共306页。4为什么进行数据挖掘?为什么进行数据挖掘?技术技术(jsh)观点观点n n业务中的数据量呈现指数增长(业务中的数据量呈现指数增长(GB/GB/小时)小时)n n传统传统(chunt(chunt ng)ng)技术难以从这些大量数据中发现有价值的规律技术难以从这些大量数据中发现有价值的规律n n数据挖掘可以帮助我们从大量数据中发现有价值的规律数据挖掘可以帮助我们从大量数据中发现有价值的规律TheDataGapTotalnewdisk(TB)since1995Numberofanalysts From:R.Grossman,C.Kamath
3、,V.Kumar,“Data Mining for Scientific and Engineering Applications”第3页/共306页第四页,共306页。5一个一个(y)市场营销的例子市场营销的例子在数据中发现有价值的规则(guz)或者模式女性对市场活动做出回应(hu yn),男性对市场活动不做出回应(hu yn),和年龄无关第4页/共306页第五页,共306页。6一个一个(y)市场营销的例子市场营销的例子数据(shj)变的复杂会如何?女性对市场活动做出回应,老年男性(nnxng)也可能对市场活动做出回应第5页/共306页第六页,共306页。7一个一个(y)市场营销的例子市场营
4、销的例子数据挖掘可以(ky)从异常复杂的数据中发现规律通过(tnggu)数据挖掘发现回应的5条规则:1、如果收入大于29622,有孩子,并且孩子的数量小于等于2,那么对市场活动会回应通过数据挖掘发现不回应的5条规则:1、如果收入小于12640.3,并且有一个孩子,那么对市场活动不会回应第6页/共306页第七页,共306页。8数据挖掘收益数据挖掘收益(shuy)分析分析向60%的客户发信,得到了90%的收益数据挖掘的意义第7页/共306页第八页,共306页。9利润利润(lrn)分析图分析图第8页/共306页第九页,共306页。10数据挖掘效果模拟数据挖掘效果模拟(mn)分析分析数据挖掘以前数据挖
5、掘以后差别发信的数量1,000,000750,000(250,000)成本$1,000,000$750,000($250,000)响应的数量10,0009,000(1,000)每个响应的收入$125$125$0总收入$1,250,000$1,125,000($125,000)净利润$250,000$375,000$125,000建模的费用040,000$40,000最终的利润$250,000$335,000$85,000目的:发现新客户(使响应(xingyng)率从1%提高到1.2%)第9页/共306页第十页,共306页。11什么什么(shn me)是数据挖掘?是数据挖掘?n n不同的定义不同
6、的定义n n从大量数据中发现非平凡的、先前不知道的、有价值的规律的过程从大量数据中发现非平凡的、先前不知道的、有价值的规律的过程(guchng)(guchng)n n从大量数据中自动化(或者半自动化)的发现有价值规律的过程从大量数据中自动化(或者半自动化)的发现有价值规律的过程(guchng)(guchng)n n数据挖掘的其他名称数据挖掘的其他名称n n数据库内知识发现(数据库内知识发现(KDD-Knowledge discovery in databases KDD-Knowledge discovery in databases)n n数据数据/模式分析模式分析n n商业智能商业智能n
7、n人工智能人工智能n n第10页/共306页第十一页,共306页。12数据挖掘的起源数据挖掘的起源(qyun)n n来源于机器学习(xux)/人工智能、模式识别、统计学和数据库n n传统技术的局限性n n巨量的数据n n高维数据n n数据分布不理想机器学习/模式识别统计学数据挖掘数据库系统第11页/共306页第十二页,共306页。13数据挖掘面临数据挖掘面临(minlng)的挑战的挑战n n海量数据n n高维数据n n数据复杂性n n数据质量问题n n数据所有权和分布(fnb)n n隐私问题第12页/共306页第十三页,共306页。14数据挖掘方法论数据挖掘方法论项目项目顺利实施顺利实施(sh
8、sh)的保的保证证 商业理解(lji)数据理解(lji)数据准备 建立模型 模型评估 模型发布第13页/共306页第十四页,共306页。15商业商业(shngy)理解理解商业(shngy)理解 数据(shj)理解数据准备建立模型模型评估结果发布确定商业目标形势评估确定数据挖掘目标制定项目计划背景商业目标成功标准拥有资源需求、假定和限制风险和偶然性专业术语成本和收益数据挖掘目标数据挖掘成功标准项目计划工具和方法评估第14页/共306页第十五页,共306页。16数据数据(shj)理解理解商业(shngy)理解 数据(shj)理解数据准备建立模型模型评估结果发布收集原始数据数据描述数据探索性分析数据
9、质量描述数据收集报告数据描述报告探索性数据分析报告数据质量报告第15页/共306页第十六页,共306页。17数据数据(shj)准备准备商业(shngy)理解 数据(shj)理解数据准备建立模型模型评估结果发布选择数据确定分析包含/剔除数据数据集数据集描述数据清理数据清理报告数据重构生成新的变量(字段)生成新的记录整合数据合并相关数据格式化数据改变数据格式,适应分析第16页/共306页第十七页,共306页。18建立建立(jinl)模型模型商业(shngy)理解 数据(shj)理解数据准备建立模型模型评估结果发布选择建模技术产生检验设计建立模型评价模型模型技术模型假设检验设计参数设定建模模型评价参
10、数设定的修订模型描述第17页/共306页第十八页,共306页。19模型模型(mxng)评估评估商业(shngy)理解 数据(shj)理解数据准备建立模型模型评估结果发布结果评估数据挖掘过程回顾确定下一步的工作评估数据挖掘结果被认可的模型数据挖掘过程的回顾列出可能的行动决策第18页/共306页第十九页,共306页。20结果结果(ji gu)发布发布商业(shngy)理解 数据(shj)理解数据准备建立模型模型评估结果发布发布结果计划监测和维护模型计划生成最终数据挖掘报告项目回顾结果发布计划监测和维护模型计划最终数据挖掘报告数据挖掘报告展现项目检验总结第19页/共306页第二十页,共306页。21
11、商业理解商业理解(lji)是数据挖掘的是数据挖掘的起点起点C2C1解决方案商业价值商业(shngy)需要第20页/共306页第二十一页,共306页。22商业理解商业理解(lji)的内容的内容n n数据挖掘能解决什么样的商业数据挖掘能解决什么样的商业(shngy)问问题?题?n n数据挖掘得到的结果,是否可以采取相应数据挖掘得到的结果,是否可以采取相应的行动以提高利润或降低成本?的行动以提高利润或降低成本?n n我们期望模型能够给我们怎样的精确率?我们期望模型能够给我们怎样的精确率?n n有那些前提假定?有那些前提假定?第21页/共306页第二十二页,共306页。23约束约束(yush)分析分析
12、n n时间约束分析时间约束分析n n资源资源(zyun)约束分析约束分析n n人力资源人力资源(zyun)n n数据资源数据资源(zyun)n n软件资源软件资源(zyun)n n硬件资源硬件资源(zyun)第22页/共306页第二十三页,共306页。24制定制定(zhdng)特定的数据挖掘特定的数据挖掘目标目标制定的数据挖掘目标应具有制定的数据挖掘目标应具有(jyu)(jyu):可评估性(可评估性(assessable)assessable)可实现性(可实现性(attainableattainable)第23页/共306页第二十四页,共306页。25如何给定一个如何给定一个(y)数据挖掘问数
13、据挖掘问题题n n是检验性数据挖掘还是探索性数据挖掘?是检验性数据挖掘还是探索性数据挖掘?n n确定哪些是可以实现的数据挖掘问题确定哪些是可以实现的数据挖掘问题n n 结果可测度结果可测度(c du)(c du)性性n n 信息(数据)的可获得性信息(数据)的可获得性n n 评估和控制其他相关因素的影响评估和控制其他相关因素的影响第24页/共306页第二十五页,共306页。26数据来源数据来源(liyun)与数据之间与数据之间的关系的关系第25页/共306页第二十六页,共306页。27使数据使数据(shj)适合数据适合数据(shj)挖掘挖掘n n对数据进行适当的合并和汇总n n一般数据挖掘分析
14、都要一个行列(记录变量)的二维表,必须把从不同数据源得到的不同格式的数据整合成这样一张表,要求:n n所有的记录含有排列(pili)顺序一致的变量n n所有记录的变量信息是完整的(理想化状态,在现实中很难达到)第26页/共306页第二十七页,共306页。28检查数据质量检查数据质量(zhling)n n影响数据质量的几个主要问题n n缺失值n n不合理值n n不同数据源的不一致(yzh)n n异常值第27页/共306页第二十八页,共306页。29对数据对数据(shj)进行适当的变换进行适当的变换n n数据的标准化变换n n生成新的变量n n数据的重新编码(bin m)n n数据降维,从变量角度
15、或者从记录角度第28页/共306页第二十九页,共306页。30数据挖掘模型数据挖掘模型(mxng)的分类的分类n n数据描述(mio sh)和汇总(Data description and summarization)n n细分(Segmentation)n n概念描述(mio sh)(Concept descriptions)n n分类(Classification)n n预测(Prediction)n n相关分析(Dependency analysis)第29页/共306页第三十页,共306页。31数据挖掘技术数据挖掘技术(jsh)的分类的分类数据挖掘描述(mio sh)预测(yc)统计回
16、归关联规则决策树可视化聚类顺序关联汇总神经网络分类时间序列预测第30页/共306页第三十一页,共306页。32数据挖掘的典型结果数据挖掘的典型结果(ji gu)金融金融n n 问题描述:预测信用水平是好还是差,银行据此决定(judng)是否向客户发放贷款,发放多少 n n 结果描述:(决策树)收入(shur)大于5万元/年是否有无储蓄帐户是否房主否是是否批准不批准批准第31页/共306页第三十二页,共306页。33数据挖掘的典型结果数据挖掘的典型结果(ji gu)电信电信n n 问题描述:根据客户信息,预测客户流失(lish)可能性n n 结果描述:(神经网络)输 入流失(lish)概率(0.
17、87)输 出男293000元/月套餐A130元/月第32页/共306页第三十三页,共306页。34数据挖掘的典型数据挖掘的典型(dinxng)结果结果零售零售n n问题(wnt)描述:如何决定超市中商品的摆放来增加销售额n n结果描述:(Web图)第33页/共306页第三十四页,共306页。35数据挖掘的典型数据挖掘的典型(dinxng)结果结果制造业制造业n n 问题描述:如何对市场进行(jnxng)细分,使产品满足最有价值客户n n 结果描述:(Koholen聚类)第34页/共306页第三十五页,共306页。36数据挖掘的典型数据挖掘的典型(dinxng)结果结果政府政府n n 问题描述:
18、如何从众多申请经费或者纳税(n shu)中发现欺诈n n 结果描述:(回归、神经网络)第35页/共306页第三十六页,共306页。37检验检验(jinyn)(jinyn)的形式的形式n n方法层面的检验方法层面的检验n n 训练集和检验集训练集和检验集n n 不同不同(b tn)(b tn)方法的互相印证和比较方法的互相印证和比较n n 模型准确性的检验模型准确性的检验:n n商业层面上的检验商业层面上的检验n n 利润率的检验利润率的检验n n 模型结果可操作性的检验模型结果可操作性的检验n n 其他检验其他检验第36页/共306页第三十七页,共306页。38关注那些关注那些(nxi)(nx
19、i)错误的预测错误的预测第37页/共306页第三十八页,共306页。39数据挖掘不成功数据挖掘不成功(chnggng)的的几种可能性几种可能性n n糟糕的数据糟糕的数据n n组织抵制组织抵制(dzh)n n结果没有被有效的发布结果没有被有效的发布n n得到了无用的结果得到了无用的结果第38页/共306页第三十九页,共306页。40模型发布模型发布(fb)(fb)的形式的形式n n书面报告书面报告n n数据库更新数据库更新n n针对特定主题针对特定主题(zht)的应用系统的应用系统第39页/共306页第四十页,共306页。41数据挖掘的体系结构数据挖掘的体系结构用户界面SPSS Data Acc
20、ess PackClementine Solutions Publisher RuntimeC/S结构或B/S结构发布数据挖掘模型C/S结构建立数据挖掘模型数据库模型库分析员ClementineSPSS Data Access Pack第40页/共306页第四十一页,共306页。42第41页/共306页第四十二页,共306页。43二、二、Clementine概述概述(i sh)n nClementine在数据挖掘中的地位n nClementine发展历史(lsh)n nClementine的配置n nClementine操作基础第42页/共306页第四十三页,共306页。44数据挖掘的一般流程
21、及数据挖掘软件数据挖掘的一般流程及数据挖掘软件数据挖掘的一般流程及数据挖掘软件数据挖掘的一般流程及数据挖掘软件(ru(ru n n jin)jin)在数据挖掘过程中的地位在数据挖掘过程中的地位在数据挖掘过程中的地位在数据挖掘过程中的地位Better Better data mining data mining resultsresults!InsightInsightBusinesBusiness s problemproblem?What What you knowyou know第43页/共306页第四十四页,共306页。45数据挖掘方法论数据挖掘方法论项目项目(xingm)顺利实施的保证
22、顺利实施的保证 商业(shngy)理解 数据理解 数据准备 建立模型 模型评估 模型发布第44页/共306页第四十五页,共306页。46ClementineClementine发展发展(fzhn)(fzhn)历程历程n nClementine是ISL(Integral Solutions Limited)公司开发(kif)的数据挖掘工具平台n n1998年SPSS公司收购了ISL公司,对Clementine产品进行重新整合和开发(kif),现在Clementine已经成为SPSS公司的又一亮点1994:Clementine V1.0发布1998:被SPSS收购1999:Clementine S
23、erverClementine Solution Publisher2000:Clementine V6.02002 年9月:Clementine 7.02003 年9月:Clementine 7.1中文版2003 年4季度Clementine 8.01998-200 72004 年1季度Clementine 8.1中文版2006 年12月Clementine 10.0中文版第45页/共306页第四十六页,共306页。47ClementineClementine的软件的软件(run jin)(run jin)构成构成n nClementine Client;n nClementine Serv
24、er;n nClementine Batch;n nSPSS Data Access Pack;n nClementine Solution Publisher(Optional)。第46页/共306页第四十七页,共306页。48ClementineClementine的两种运行的两种运行(ynxng)(ynxng)方式方式n n单机版运行单机版运行单机版运行单机版运行n n以下情况必须以下情况必须以下情况必须以下情况必须(bx)(bx)使用单机版运使用单机版运使用单机版运使用单机版运行:行:行:行:n n数据存储在本机,且不能在网络上数据存储在本机,且不能在网络上数据存储在本机,且不能在网络
25、上数据存储在本机,且不能在网络上共享;共享;共享;共享;n n机器不联网;机器不联网;机器不联网;机器不联网;n n无无无无Clementine ServerClementine Server可供使用。可供使用。可供使用。可供使用。n n以下情况可以使用单机版运行:以下情况可以使用单机版运行:以下情况可以使用单机版运行:以下情况可以使用单机版运行:n n要处理的数据量很小(比如:小于要处理的数据量很小(比如:小于要处理的数据量很小(比如:小于要处理的数据量很小(比如:小于2M2M)并且数据存储在单机或可到达)并且数据存储在单机或可到达)并且数据存储在单机或可到达)并且数据存储在单机或可到达局域
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 Clementine 使用 培训 电信 学习 教案
限制150内