[精选]数据挖掘技术介绍31022.pptx
数 据 挖 掘 技 术 简 介 演讲人:钟云飞 Email:2002年7月19日大 纲 什么是数据挖掘 数据挖掘的标准流程:CRISPDM 数据挖掘工具SPSS Clementine简介第一部分:什么是数据挖掘?数据挖掘都干了些什么?英国电信需要发布一种新的产品,需要通过直邮的方式向客户推荐这种产品。使直邮的回应率提高了100数据挖掘都干了些什么?GUS日用品零售商店需要准确的预测未来的商品销售量,降低库存成本。通过数据挖掘的方法使库存成本比原来减少了3.8%数据挖掘都干了些什么?汇丰银行需要对不断增长的客户群进行分类,对每种产品找出最有价值的客户。营销费用减少了30数据挖掘都干了些什么?美国国防财务部需要从每年上百万比的军火交易中发现可能存在的欺诈现象。发现可能存在欺诈的交易,进行深入调查,节约了大量的调查成本数据挖掘都干了些什么?美国国内税务局需要提高对纳税人的服务水平。合理安排税务官的工作,为纳税人提供更迅捷、更准确的服务通过数据挖掘您可以发现最有价值的客户通过数据挖掘您可以使组合销售更有效率通过数据挖掘您可以留住那些最有价值的客户通过数据挖掘您可以用更小的成本发现欺诈现象 通过采用自动或半自动的手段,在海量数据中发现有意义的行为和规则的探测和分析活动。数据挖掘能够帮助你选择正确瞄准潜在目标,向现有的客户提供额外的产品,识别那些准备离开的好客户。什么是数据挖掘 电信:流失 银行:聚类(细分),交叉销售 百货公司/超市:购物篮分析(关联规则)保险:细分,交叉销售,流失(原因分析)信用卡:欺诈探测,细分 电子商务:网站日志分析 税务部门:偷漏税行为探测 警察机关:犯罪行为分析 医学:医疗保健数据挖掘应用领域数据挖掘效益分析(直邮)(Big Bank&Credit Card Company)目的:发现新客户数据挖掘以前 数据挖掘以后 差别发信的数量1,000,000 750,000(250,000)成本$1,000,000$750,000($250,000)响应的数量10,000 9,000(1,000)每个响应的毛利$125$125$0总毛利$1,250,000$1,125,000($125,000)净利润$250,000$375,000$125,000建模的费用0 40,000$40,000最终的利润$250,000$335,000$85,000第二部分:数据挖掘标准流程 CRISP-DMCRISPDM简介 CRISPDM是CRoss-Industry Standard ProcessData Mining的缩写 由SPSS、NCR、Daimler-Benz在1996年制定 CRISP是当今数据挖掘业界通用流行的标准之一 它强调数据挖掘在商业中的应用,解决商业中存在的问题,而不是把数据挖掘局限在研究领域CRISPDM 商业理解 数据理解 数据准备 建立模型 模型评估 模型发布商业理解(Business Understanding)找问题确定商业目标 对现有资源的评估 确定问题是否能够通过数据挖掘来解决 确定数据挖掘的目标 制定数据挖掘计划数据理解(Data Understanding)确定数据挖掘所需要的数据 对数据进行描述 数据的初步探索 检查数据的质量数据准备(Data Preparation)选择数据 清理数据 对数据进行重建 调整数据格式使之适合建模建立模型(Modeling)对各个模型进行评价 选择数据挖掘模型 建立模型模型评估(Evaluation)评估数据挖掘的结果 对整个数据挖掘过程的前面步骤进行评估 确定下一步怎么办?是发布模型?还是对数据挖掘过程进行进一步的调整,产生新的模型模型发布(Deployment)把数据挖掘模型的结果送到相应的管理人员手中 对模型进行日常的监测和维护 定期更新数据挖掘模型第三部分:数据挖掘工具SPSS Clementine简介Make a difference with the predictive power of data mining应用Clementine达到你数据挖掘的目标 图形化的界面、数据流的形式建立模型,保证了应用Clementine进行数据挖掘关注商业更甚于关注技术本身 开放式的技术是更好的保护您的投资的保障 高度的扩展性保证对数据库中大量的数据进行挖掘 业界领先的发布技术使数据挖掘结果更好的传递到相应管理人员手中把你的商业经验溶入数据挖掘过程是数据挖掘成功的关键Better Better data mining data mining results results!Insight InsightBusiness Business problem problem?What What you know you know丰富的数据挖掘算法 PredictionNeural net,C5.0 ClassificationNeural net,C5.0 SegmentationKohonen,Kmeans,C5.0 AssociationApriori,GRI,Web graph SequenceCaprI,Neural Net,Regression与SPSS及AnswerTree无缝集成提供更多的算法Logistic RegressionDiscriminant AnalysisFactor AnalysisMany more.C&RTCHAIDExhaustive CHAIDQUEST使你在数据仓库上的投资得到最大的回报SybaseDB2InformixOpenIngressOracleSQL Server+ODBC drivers for others+ODBC socket for native drivers开放的建模性能在Clementine 中通过CEMI加入新的算法ClementineClementine的系统结构的系统结构 1.Perform many operations in the database.2.Perform the rest on a powerful server.3.Use the client processor for viewing results.Clementine Server delivers huge Clementine Server delivers huge performance gainsperformance gains Generating a distribution graph 995 seconds when processed on the desktop 69 seconds when processed on the server 19 seconds when pushed back into the database In-database processing delivers better In-database processing delivers better performance as data sets get largerperformance as data sets get larger Selecting cases seconds required for millions of records when processed on the server v.in the databaseClementine Server cuts Clementine Server cuts model building time up to 90%model building time up to 90%Model building time needed for building models on the server as a percentage of the time needed for building the model on the desktopClementine Solution Publisher:Clementine Solution Publisher:领先的模型发布技术领先的模型发布技术Model exportClementine Solution Publisher:model and processingSPSS为您提供全方位的服务,帮助您获得商业成功 全方位的服务 全球性的公司 与业界领袖的伙伴关系谢谢大家!9、静夜四无邻,荒居旧业贫。5 月-235 月-23Sunday,May 21,2023 10、雨中黄叶树,灯下白头人。03:37:4003:37:4003:375/21/2023 3:37:40 AM 11、以我独沈久,愧君相见频。5 月-2303:37:4003:37May-2321-May-23 12、故人江海别,几度隔山川。03:37:4003:37:4003:37Sunday,May 21,2023 13、乍见翻疑梦,相悲各问年。5 月-235 月-2303:37:4003:37:40May 21,2023 14、他乡生白发,旧国见青山。21 五月 20233:37:40 上午03:37:405 月-23 15、比不了得就不比,得不到的就不要。五月 233:37 上午5 月-2303:37May 21,2023 16、行动出成果,工作出财富。2023/5/21 3:37:4003:37:4021 May 2023 17、做前,能够环视四周;做时,你只能或者最好沿着以脚为起点的射线向前。3:37:40 上午3:37 上午03:37:405 月-23 9、没有失败,只有暂时停止成功!。5 月-235 月-23Sunday,May 21,2023 10、很多事情努力了未必有结果,但是不努力却什么改变也没有。03:37:4003:37:4003:375/21/2023 3:37:40 AM 11、成功就是日复一日那一点点小小努力的积累。5 月-2303:37:4003:37May-2321-May-23 12、世间成事,不求其绝对圆满,留一份不足,可得无限完美。03:37:4003:37:4003:37Sunday,May 21,2023 13、不知香积寺,数里入云峰。5 月-235 月-2303:37:4003:37:40May 21,2023 14、意志坚强的人能把世界放在手中像泥块一样任意揉捏。21 五月 20233:37:40 上午03:37:405 月-23 15、楚塞三湘接,荆门九派通。五月 233:37 上午5 月-2303:37May 21,2023 16、少年十五二十时,步行夺得胡马骑。2023/5/21 3:37:4003:37:4021 May 2023 17、空山新雨后,天气晚来秋。3:37:40 上午3:37 上午03:37:405 月-23 9、杨柳散和风,青山澹吾虑。5 月-235 月-23Sunday,May 21,2023 10、阅读一切好书如同和过去最杰出的人谈话。03:37:4003:37:4003:375/21/2023 3:37:40 AM 11、越是没有本领的就越加自命不凡。5 月-2303:37:4003:37May-2321-May-23 12、越是无能的人,越喜欢挑剔别人的错儿。03:37:4003:37:4003:37Sunday,May 21,2023 13、知人者智,自知者明。胜人者有力,自胜者强。5 月-235 月-2303:37:4003:37:40May 21,2023 14、意志坚强的人能把世界放在手中像泥块一样任意揉捏。21 五月 20233:37:40 上午03:37:405 月-23 15、最具挑战性的挑战莫过于提升自我。五月 233:37 上午5 月-2303:37May 21,2023 16、业余生活要有意义,不要越轨。2023/5/21 3:37:4003:37:4021 May 2023 17、一个人即使已登上顶峰,也仍要自强不息。3:37:40 上午3:37 上午03:37:405 月-23MOMODA POWERPOINTLorem ipsum dolor sit amet,consectetur adipiscing elit.Fusce id urna blandit,eleifend nulla ac,fringilla purus.Nulla iaculis tempor felis ut cursus.感 谢 您 的 下 载 观 看专家告诉