《数据挖掘算法及软件介绍精.ppt》由会员分享,可在线阅读,更多相关《数据挖掘算法及软件介绍精.ppt(46页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据挖掘算法及软件介绍第1页,本讲稿共46页Page 2主要内容主要内容一、数据挖掘概念及流程一、数据挖掘概念及流程二、数据挖掘方法分类介绍二、数据挖掘方法分类介绍 二二-1、分类算法及案例、分类算法及案例 二二-2、聚类分析及案例、聚类分析及案例 二二-3、关联规则及案例、关联规则及案例 二二-4、时间序列分析及案例、时间序列分析及案例 二二-5、回归分析及案例、回归分析及案例 二二-6、异常分析及案例、异常分析及案例 二二-7、文本挖掘、文本挖掘 二二-8、推荐系统、推荐系统三、常用数据挖掘软件介绍三、常用数据挖掘软件介绍四:数据挖掘和分析应避免的误区四:数据挖掘和分析应避免的误区误区第2
2、页,本讲稿共46页Page 3一、数据挖掘概念及流程一、数据挖掘概念及流程 数据挖掘(Data Mining)就是对观测到的数据集(经常是庞大的、不完全的、有噪声的、模糊的、随机的)进行分析,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识,目的是发现未知的关系和以数据拥有者可以理解并对其有价值的新颖方式来总结数据。第3页,本讲稿共46页数据清理筛选数据清理筛选数据数据目标数据目标数据预处理预处理及变换及变换变换后的数据变换后的数据数据挖掘数据挖掘解释解释/评估评估一、数据挖掘概念及流程一、数据挖掘概念及流程Page 4第4页,本讲稿共46页二:数据挖掘方法分类介绍二:数据挖掘方
3、法分类介绍数据挖掘数据挖掘数据挖掘数据挖掘聚类分析聚类分析聚类分析聚类分析预测预测预测预测K-meansK-meansK-K-中心点算法中心点算法中心点算法中心点算法分类分析分类分析分类分析分类分析KNNKNN算法算法算法算法BayesBayes算法算法算法算法时间序列时间序列时间序列时间序列统计回归统计回归统计回归统计回归分类算法分类算法分类算法分类算法决策树决策树决策树决策树神经网络神经网络神经网络神经网络相关性分析相关性分析相关性分析相关性分析回归分析回归分析回归分析回归分析关联规则关联规则关联规则关联规则AprioriApriori算法算法算法算法线性回归线性回归线性回归线性回归逻辑回
4、归逻辑回归逻辑回归逻辑回归序列模式挖掘序列模式挖掘序列模式挖掘序列模式挖掘异常分析异常分析异常分析异常分析非时间序列非时间序列非时间序列非时间序列SLIQSLIQC4.5C4.5CARTCARTCHAIDCHAID概率回归概率回归概率回归概率回归统计分析统计分析统计分析统计分析方差、极差、偏度等统计特征值方差、极差、偏度等统计特征值方差、极差、偏度等统计特征值方差、极差、偏度等统计特征值异常点分析异常点分析异常点分析异常点分析Page 5时间序列时间序列时间序列时间序列决策树算法决策树算法决策树算法决策树算法第5页,本讲稿共46页Page 6挖掘模式预测型(Predictive)描述型(Des
5、criptive)实际功能分为以下几种模式:分类:对没有分类的数据进行分类;预测:用历史来预测未来;关联分析:关联规则;聚类:物以类聚;序列模式:在多个数据序列中发现共同的行为模式;异常分析:从数据分析中发现异常情况。文本数据挖掘:从大量文字中寻找共性进行分析。二:数据挖掘方法分类介绍二:数据挖掘方法分类介绍第6页,本讲稿共46页Page 7二-1:分类算法及案例分析分类:预测种类字段基于训练集形成一个模型,训练集中的类标签是已知的。使用该模型对新的数据进行分类预测:对连续性字段进行建模和预测。典型应用信用评分Direct Marketing医疗诊断性用卡欺诈判断第7页,本讲稿共46页客户客户
6、ID年龄学历是否有是否有房房是否结是否结婚婚 变量变量5变量变量6变量变量7是否欺诈是否欺诈训练数据119中专无 11230大学 有 00328高中有 01测试数据440大学有 10518中专无 11633大学无 11客户客户ID年龄学历是否有是否有房房是否结是否结婚婚 变量变量5变量变量6变量变量7是否欺诈是否欺诈需要判断的新数据727高中有 0?848高中无 1?934大学有 1?需要的历史数据表需要判断的新业务数据表结论:可以得出ID为7的客户卡属于欺诈的可能性为90%,ID为8和9的客户不是欺诈的可能性为95%。二-1:分类算法及案例分析Page 8第8页,本讲稿共46页二-1:分类算
7、法及案例分析Page9年龄overcast学历?是否结婚?010118=50%。Page19买尿布的客户买尿布的客户二者都买二者都买的客户的客户买啤酒的客户买啤酒的客户第19页,本讲稿共46页二-3:关联规则及案例算法结论:第一类:30%的人群同时购买了牛奶,矿泉水和笔;第二类:20%的人群同时买了尿布、啤酒;而在买尿布的人群中40%的人同时买了啤酒。业务调查和分析:1、第一类不合理。牛奶和矿泉水本身都属于饮品类,功能不同,给消费者的感受也不同,当需求不同时,买矿泉水的人可能不会再去买牛奶,因为矿泉水比牛奶更能达到解渴的效果。2、按常规思维,尿布与啤酒风马牛不相及,产生这一现象的原因是:美国的
8、太太们常叮嘱她们的丈夫下班后为小孩买尿布,而他们中有30%到40%的人同时也为自己买一些啤酒。决策建议:把啤酒和尿布放在靠近的位置出售,达到的效果:此后两者的销售额都提高了2-3倍。Page20第20页,本讲稿共46页二-3:关联规则及案例行业案例:行业案例:1)超市产品组合分析(产品的互相摆放和)超市产品组合分析(产品的互相摆放和针对性销售);针对性销售);2)读者行为分析,书籍推荐(如互联网京)读者行为分析,书籍推荐(如互联网京东、淘宝上的各种产品的推荐);东、淘宝上的各种产品的推荐);3)保险行业的保险产品推荐。)保险行业的保险产品推荐。Page21第21页,本讲稿共46页二-4:时间序
9、列分析及案例 时间序列分析时间序列分析:描述时间序列数据随时间变化的描述时间序列数据随时间变化的数据的规律或趋势,并对其建模。包括时间序列趋势分析、数据的规律或趋势,并对其建模。包括时间序列趋势分析、周期模式匹配等。例如:通过对交易数据的演变分析,可周期模式匹配等。例如:通过对交易数据的演变分析,可能会得到能会得到89%89%情况股票情况股票X X上涨一周左右后,股票上涨一周左右后,股票Y Y会上涨会上涨 这样一条序列知识。这样一条序列知识。历史往往是重复过去的故事加上一定的变化规律。历史往往是重复过去的故事加上一定的变化规律。应用场景:预测未来。应用场景:预测未来。Page22第22页,本讲
10、稿共46页一次指数平滑一次指数平滑(例例题题分析分析)Page23一次指数平滑一次指数平滑(例例题题分析分析)第23页,本讲稿共46页二-4:时间序列分析及案例 案例:案例:某企业某企业1992年年2006年的销售收入时间序列如年的销售收入时间序列如下表所示下表所示.试用时间序列算法预测试用时间序列算法预测2008年的销售收入年的销售收入,并计并计算预测的标准误差。算预测的标准误差。时间 1992 1994 1996 1998 2000 2002 2004 2006销售收入(万元)50000.860574.687306.9120649.8139241153772201816231892.7Pa
11、ge24第24页,本讲稿共46页二-4:时间序列分析及案例 结论:结论:2008年的预测值为年的预测值为261840万元,公司可以根据预测收入来万元,公司可以根据预测收入来进行下一年政策的调整和各种财务预算的调整工作。进行下一年政策的调整和各种财务预算的调整工作。Page25第25页,本讲稿共46页二-4:时间序列分析及案例行业案例:可用于任何行业时间序列数据。行业案例:可用于任何行业时间序列数据。各种保险基金收支结的预测股票价格和波动预测厂家的材料、成本、销售额等预测航班旅客成行率的预测中国年底总人口预测中国城镇人口预测中国GDP的预测(不变价格)中国航空运输年度总周转量的预测中国航空运输月
12、度总周转量的预测Page26第26页,本讲稿共46页二-5:回归分析及案例Page27 回归分析是对具有因果关系的影响因素(自变量)和预测对象(因变量)所进行的数理统计分析处理。第27页,本讲稿共46页二-5:回归分析及案例Page28第28页,本讲稿共46页二-5:回归分析及案例Page29 算法结果:物流人才需求量=-28+25*职工总人数 结论:只要知道当地职工总人数,则可以估算出当地所需要的物流人才(类似的如需要多少公务人员,需要多少社保管理人员,需要多少警察等)。社保方面:类似医疗保险总费用和当地人口之间的关系,各类社保基金收入和当地经济情况之间的关系等等。第29页,本讲稿共46页二
13、-5:回归分析及案例 案例描述:案例描述:消费是宏观经济必不可少的环节,消费是宏观经济必不可少的环节,完善消费模型可以为宏观调控提供重要的依据。下完善消费模型可以为宏观调控提供重要的依据。下面给出了我国面给出了我国20年的人均消费性支出、人均现金收年的人均消费性支出、人均现金收入和人均实物收入的数据,对其三者之间的关系可入和人均实物收入的数据,对其三者之间的关系可以利用回归的方法进行分析研究。以利用回归的方法进行分析研究。Page30第30页,本讲稿共46页二-5:回归分析及案例Page31第31页,本讲稿共46页二-5:回归分析及案例 模型结论:在人均实物收入不变的情况下每增加模型结论:在人
14、均实物收入不变的情况下每增加1 1元人均现元人均现金金 收入,则人均消费支出将增加收入,则人均消费支出将增加0.57620.5762元,人均实物收入同理元,人均实物收入同理增长方式。这样的话如果有当地人均现金收入和人均实物收入的增长方式。这样的话如果有当地人均现金收入和人均实物收入的数据就可以估算人均消费性支出。数据就可以估算人均消费性支出。Page32通过一定的算法使用历史数据得出模型结果为:通过一定的算法使用历史数据得出模型结果为:第32页,本讲稿共46页二-5:回归分析及案例实用案例:实用案例:1、城市居民家庭人均可支配收入与储蓄存款关系的分析;、城市居民家庭人均可支配收入与储蓄存款关系
15、的分析;2、铸造厂产品成本分析;、铸造厂产品成本分析;3、个人所得税和、个人所得税和GDP的关系分析;的关系分析;4、居民家庭教育支出和消费性支出之间的关系。居民家庭教育支出和消费性支出之间的关系。Page33第33页,本讲稿共46页二-6:异常分析及案例 异常分析:异常分析:异常值outlier:一组测定值中与平均值的偏差超过两倍标准差的测定值。与平均值的偏差超过三倍标准差的测定值,称为高度异常的异常值。对某些行业来说,异常数据反而有比较高的分析价值,针对异常数据分析出原因,可以更好的制定策略和方针。比如金融行业的金融欺诈、信用卡欺诈,保险行业的保险欺诈、警察部门的犯罪嫌疑人甄别等等。异常数
16、据挖掘的核心在于合理描述异常的类型,并用算法精确描述;比如异常类型包括:数值过大或过小、数值频率太高或太小、行为异常(欺诈)等等。Page34第34页,本讲稿共46页二-6:异常分析及案例Page35第35页,本讲稿共46页 通过异常值判别法得到表2,再经过关联分析得出表4 的结果。结论:TCH 话务高一定导致SDCCH话务高,但是 SDCCH话务高,TCH话务量却不一定高。这与实际相符。目的:找出异常数据,分析异常数据的产生原因,以此进行相关业务政策调整。二-6:异常分析及案例Page36第36页,本讲稿共46页行业案例:行业案例:1、电信、保险、银行中的欺诈检测与风险分析 2、发现电子商务
17、中的犯罪行为 3、灾害气象预报 4、税务局分析不同团体交所得税的记录,发现异常模型和趋势 6、海关、民航等安检部门推断哪些人可能有嫌疑 7、7、海关报关中的价格隐瞒 8、营销定制:分析花费较小和较高顾客的消费行为 9、医学研究中发现医疗方案或药品所产生的异常反应 10、计算机中的入侵检测 11、运动员的成绩分析 二-6:异常分析及案例Page37第37页,本讲稿共46页 文本数据挖掘(Text Mining)是指从文本(文字)数据中抽取有价值的信息和知识的计算机处理技术。应用应用 1、基于内容的搜索引擎,代表性的系统有百度、google、北京大学天网、京东、淘宝等。2、信息自动分类,比如智多星
18、中文文本分类。3、自动问答、机器翻译。4、文本分析已经涉足到医疗、舆情、金融等方面。二-7:文本挖掘Page38第38页,本讲稿共46页 推荐算法的本质是通过一定的方式将用户和物品联系起来,从而有效的给用户推荐本身感兴趣或需要但是没有发现的物品。个性化推荐系统的应用场景:电子商务(据说Amazon 35%的销售额来自推荐系统)、电影和视频网站、个性化音乐网络电台、社交网络、个性化阅读、基于位置的服务、个性化邮件、个性化广告(上下文广告、搜索广告、个性化展示广告)。二-8:推荐系统Page39第39页,本讲稿共46页三:常用数据挖掘工具Page40 右侧是右侧是2012年数据挖掘年数据挖掘工具排
19、行,值得注意的是,工具排行,值得注意的是,今年排名前五名的数据挖掘今年排名前五名的数据挖掘工具中有四个是开源软件。工具中有四个是开源软件。此外此外R还击败还击败SQL和和Java,在最受欢迎的数据挖掘应在最受欢迎的数据挖掘应用编程语言排行榜中排名用编程语言排行榜中排名第一。第一。第40页,本讲稿共46页三:常用数据挖掘工具Page41优点缺点数据量典型行业R免费开源、功能强大,扩展性强。很多人为了方便会写些R包,很多R包的正确性和效率难以保证;数据量大速度慢。由于包更新多,要精通R难。小、中、大(比较麻烦)金融、互联网、网游SPSS傻瓜式操作,入门容易,可视化好。功能无法满足行业特殊要求、不适
20、合嵌入别的软件产品、费用高小银行、金融、政府SAS功能强大,可信度高。费用超高,入门和精通难大银行、金融Matlab功能强大,速度快,精度高,主用于研究。费用高中学校、研究所、金融第41页,本讲稿共46页三:常用数据挖掘工具Page42 R是一套完整的数据处理、计算和制图软件系统。其功能包括:数据存储和处理系统;数组运算工具(其向量、矩阵运算方面功能尤其强大);完整连贯的统计分析工具;优秀的统计制图功能;简便而强大的编程语言:可操纵数据的输入和输出,可实现分支、循环,用户可自定义功能。使用R的比较著名的公司:谷歌、mango、豆瓣、ebay、腾讯和阿里、艾瑞、华为的大数据解决方案。第42页,本
21、讲稿共46页三:常用数据挖掘工具Page43 混合编程:R软件、Java代码、Oracle结合(通过rJava包RJDBC包);JAVA很适合开发应用系统,但是数学建模和计算能力非其所长,如果该系统需要进行大量的统计或者优化的计算,调用R是一种很好的方式。Oracle存储数据,JAVA负责系统的构建,R用来做运算引擎,从而实现应用型和分析性相结合的系统。第43页,本讲稿共46页三:常用数据挖掘工具Page44 通过对R软件的预演工作,当前已经实现和能实现大部分数据挖掘算法(混合编程,嵌入各大产品中应用),包括:时间序列预测、分类和预测、聚类分析、关联规则分析、回归分析等。不足之处是对于混合编程中的数据展现不够理想。第44页,本讲稿共46页四:数据挖掘和分析应避免的误区Page45 一、数据分析报告中呈现的是已知的结论和经验重复别人的路!二、数据分析报告不能够解决任何商业问题做没有意义的分析!三、数据分析报告中的原始数据不准确(缺失&错误)!四、数据分析的源头和起因是业务不懂业务和市场,分析无效!五、数据分析报告仅仅在于陈述事实,而非发掘原因!。六、数据分析报告超过“一百页”,但是却没有明确的建议劳民&伤财!第45页,本讲稿共46页Page46 谢谢大家!谢谢大家!第46页,本讲稿共46页
限制150内