[精选]数据挖掘技术介绍31022.pptx
《[精选]数据挖掘技术介绍31022.pptx》由会员分享,可在线阅读,更多相关《[精选]数据挖掘技术介绍31022.pptx(40页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数 据 挖 掘 技 术 简 介 演讲人:钟云飞 Email:2002年7月19日大 纲 什么是数据挖掘 数据挖掘的标准流程:CRISPDM 数据挖掘工具SPSS Clementine简介第一部分:什么是数据挖掘?数据挖掘都干了些什么?英国电信需要发布一种新的产品,需要通过直邮的方式向客户推荐这种产品。使直邮的回应率提高了100数据挖掘都干了些什么?GUS日用品零售商店需要准确的预测未来的商品销售量,降低库存成本。通过数据挖掘的方法使库存成本比原来减少了3.8%数据挖掘都干了些什么?汇丰银行需要对不断增长的客户群进行分类,对每种产品找出最有价值的客户。营销费用减少了30数据挖掘都干了些什么?美国
2、国防财务部需要从每年上百万比的军火交易中发现可能存在的欺诈现象。发现可能存在欺诈的交易,进行深入调查,节约了大量的调查成本数据挖掘都干了些什么?美国国内税务局需要提高对纳税人的服务水平。合理安排税务官的工作,为纳税人提供更迅捷、更准确的服务通过数据挖掘您可以发现最有价值的客户通过数据挖掘您可以使组合销售更有效率通过数据挖掘您可以留住那些最有价值的客户通过数据挖掘您可以用更小的成本发现欺诈现象 通过采用自动或半自动的手段,在海量数据中发现有意义的行为和规则的探测和分析活动。数据挖掘能够帮助你选择正确瞄准潜在目标,向现有的客户提供额外的产品,识别那些准备离开的好客户。什么是数据挖掘 电信:流失 银
3、行:聚类(细分),交叉销售 百货公司/超市:购物篮分析(关联规则)保险:细分,交叉销售,流失(原因分析)信用卡:欺诈探测,细分 电子商务:网站日志分析 税务部门:偷漏税行为探测 警察机关:犯罪行为分析 医学:医疗保健数据挖掘应用领域数据挖掘效益分析(直邮)(Big Bank&Credit Card Company)目的:发现新客户数据挖掘以前 数据挖掘以后 差别发信的数量1,000,000 750,000(250,000)成本$1,000,000$750,000($250,000)响应的数量10,000 9,000(1,000)每个响应的毛利$125$125$0总毛利$1,250,000$1,
4、125,000($125,000)净利润$250,000$375,000$125,000建模的费用0 40,000$40,000最终的利润$250,000$335,000$85,000第二部分:数据挖掘标准流程 CRISP-DMCRISPDM简介 CRISPDM是CRoss-Industry Standard ProcessData Mining的缩写 由SPSS、NCR、Daimler-Benz在1996年制定 CRISP是当今数据挖掘业界通用流行的标准之一 它强调数据挖掘在商业中的应用,解决商业中存在的问题,而不是把数据挖掘局限在研究领域CRISPDM 商业理解 数据理解 数据准备 建立模
5、型 模型评估 模型发布商业理解(Business Understanding)找问题确定商业目标 对现有资源的评估 确定问题是否能够通过数据挖掘来解决 确定数据挖掘的目标 制定数据挖掘计划数据理解(Data Understanding)确定数据挖掘所需要的数据 对数据进行描述 数据的初步探索 检查数据的质量数据准备(Data Preparation)选择数据 清理数据 对数据进行重建 调整数据格式使之适合建模建立模型(Modeling)对各个模型进行评价 选择数据挖掘模型 建立模型模型评估(Evaluation)评估数据挖掘的结果 对整个数据挖掘过程的前面步骤进行评估 确定下一步怎么办?是发布
6、模型?还是对数据挖掘过程进行进一步的调整,产生新的模型模型发布(Deployment)把数据挖掘模型的结果送到相应的管理人员手中 对模型进行日常的监测和维护 定期更新数据挖掘模型第三部分:数据挖掘工具SPSS Clementine简介Make a difference with the predictive power of data mining应用Clementine达到你数据挖掘的目标 图形化的界面、数据流的形式建立模型,保证了应用Clementine进行数据挖掘关注商业更甚于关注技术本身 开放式的技术是更好的保护您的投资的保障 高度的扩展性保证对数据库中大量的数据进行挖掘 业界领先的发
7、布技术使数据挖掘结果更好的传递到相应管理人员手中把你的商业经验溶入数据挖掘过程是数据挖掘成功的关键Better Better data mining data mining results results!Insight InsightBusiness Business problem problem?What What you know you know丰富的数据挖掘算法 PredictionNeural net,C5.0 ClassificationNeural net,C5.0 SegmentationKohonen,Kmeans,C5.0 AssociationApriori,GRI,
8、Web graph SequenceCaprI,Neural Net,Regression与SPSS及AnswerTree无缝集成提供更多的算法Logistic RegressionDiscriminant AnalysisFactor AnalysisMany more.C&RTCHAIDExhaustive CHAIDQUEST使你在数据仓库上的投资得到最大的回报SybaseDB2InformixOpenIngressOracleSQL Server+ODBC drivers for others+ODBC socket for native drivers开放的建模性能在Clementi
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 精选 数据 挖掘 技术 介绍 31022
限制150内