数据挖掘概念与技术精品文稿.ppt
《数据挖掘概念与技术精品文稿.ppt》由会员分享,可在线阅读,更多相关《数据挖掘概念与技术精品文稿.ppt(33页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据挖掘概念与技术第1页,本讲稿共33页 第一课分类一、数据挖掘及知识的定义1、数据挖掘定义:从大量数据中提取或“挖掘”知识;2、数据挖掘技术:分类、预测、关联和聚类等;3、数据挖掘过程:数据的清理、集成、选择、变换、挖掘、模型评估、知识表示;4、知识定义:知识就是“压缩”浓缩就是精华!1)Occam Razor:因不宜超出果之需!2)信息论:熵3)MDL准则:minimum description length第2页,本讲稿共33页 第一课分类二、神经网络知识预备1、单层神经网络;2、多层神经网络。第3页,本讲稿共33页 第一课分类三、SPSS软件及Logistic回归知识预备1、回归方法分
2、类多个因变量多个因变量(y1,y2,yk)路径分析路径分析结构方程模型分析结构方程模型分析一个一个因变因变量量 y连续型因变量连续型因变量(y)-线性回归分析线性回归分析分类型因变量分类型因变量(y)-Logistic 回归分析回归分析时间序列因变量时间序列因变量(t)-时间序列分析时间序列分析生存时间因变量生存时间因变量(t)-生存风险回归分析生存风险回归分析第4页,本讲稿共33页 第一课分类三、SPSS软件及Logistic回归知识预备2、回归方法适用前提1)大样本,样本量为自变量个数的20倍左右;2)因变量或其数学变换与自变量有线性关系;3)扰动项(误差项)符合正态分布;4)自变量间不存
3、在诸如多重共线性等关系;5)误差项方差不变;等等。第5页,本讲稿共33页 第一课分类三、SPSS软件及Logistic回归知识预备3、Logistic回归方法介绍1)Logit变换Logit变换是Logistic回归模型的基础。现实中常要研究某一事件A发生的概率P及P值的大小与某些影响因此之间的关系,但由于P对X的变化在P0或P1的附近不是很敏感的,或说是缓慢的,比如像可靠系统,可靠度P已经是0.998了,即使再改善条件和系统结构,它的可靠度增长也只能是在小数点后面的第三位或第四位之后,于是自然希望寻找一个P的函数形式(P),使它在P0或P1附近变化幅度较大,且最好函数形式简单,根据数学上导数
4、的意义,提出用来反映(p)是在P附近的变化是很适合的,同时希望P0或P1时,有较大的值,因此取,即:第6页,本讲稿共33页 第一课分类三、SPSS软件及Logistic回归知识预备3、Logistic回归方法介绍2)Logistic回归设因变量是一个二分类变量,其取值为=1和=0。影响取值的个自变量分别为,则Logistic变换如下式表示:第7页,本讲稿共33页 第一课分类四、神经网络与Logistic回归优缺点对比1、神经网络优缺点1)优点:数据类型无要求,高度智能,强“鲁棒”性,可进行非线性拟合,能容忍缺失值,异常值的出现等;2)缺点:“黑箱”过程导致知识结果难于解释。2、Logistic
5、回归方法优缺点1)优点:线性回归方程的知识结果使得所获知识易于解释;2)缺点:数据类型要求高,回归方法成立前提多,只适用于线性拟合,缺失值,异常值会导致结果精确度大为下降。3、二者区别:硬计算与软计算,知识表达方式不同第8页,本讲稿共33页 第二课预测一、相关概念1、神经网络的“过拟合”现象1)“过拟合”指的是神经网络对训练集进行训练的过程中,无法识别数据中的“噪音”,并且把“噪音”的影响毫无保留的存贮于网络参数(权重、偏置)中。“过拟合”会导致神经网络对测试集进行分类、预测时,产生不必要的偏差。2)解决“过似合”现象办法之一为Nfold交差验证。2、MSE、NMSE等概念的定义1)MSE:均
6、方误差(注:与均方差的区别),其定义为误差平方和除以它的自由度。第9页,本讲稿共33页 第二课预测一、相关概念 2)NMSE定义:注:此处的方差为样本总体方差。NMSE的物理意义为标准化的MSE。第10页,本讲稿共33页 第二课预测二、预测实验1、实验目的:1)理解分类与预测区别2)熟练使用神经网络软件NeuroSolutions解决预测问题。3)学会运用灵敏度分析,对属性进行灵敏度测量。4)学会通过多次训练模型,避免模型停止在局部最优。2、实验原理1)神经网络方法原理2)多元线性统计方法原理(注意什么是线性,其内涵是什么?)第11页,本讲稿共33页 第三课聚类分析一、聚类分析定义、特征、应用
7、及评估1、定义:将物理或抽象的集合分组成为由类似的对象组成的多个类的过程被称为聚类。1)聚类的方法类型(1)划分方法:K平均和K中心算法;(2)层次方法:系统聚类;(3)基于密度方法:种类较多,对发现数据“噪音”有优势;(4)基于网格方法:小波聚类为典型,效率高,复杂度低;(5)基于模型方法:统计学中的分类树方法利用信息熵、贝叶斯统计原理为分类原则、竞争学习与自组织特征图。第12页,本讲稿共33页 第三课聚类分析一、聚类分析定义、特征、应用及评估2、聚类与分类的区别1)聚类所要划分的类未知,而分类要划分的类已知;2)聚类不依赖预先定义的类和带类标号的训练实例,因此它是观察式的学习,而不是示例学
8、习;3)聚类的有监督与分类的无监督的区别。3、聚类分析的应用:是一种重要的数据挖掘方法,广泛应用于信用卡欺诈、定制市场(移动客户划分及定价等)、医疗分析。特别是孤立点的挖掘与分析,有着重要的实际应用。4、聚类质量的评估:相异度第13页,本讲稿共33页 第三课聚类分析二、K平均聚类方法、系统聚类及决策树方法1、K平均聚类方法1)原理:随机选择k个对象,每个对象初始地代表一个类的平均值或中心,对剩余每个对象,根据其到类中心的距离,被划分到最近的类;然后重新计算每个类的平均值。不断重复这个过程,直到所有的样本都不能再分配为止(指中心点改变很小的时候,称之为收敛)。2)特征:k事先定好;创建一个初始划
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 概念 技术 精品 文稿
限制150内