[精选]数据挖掘技术概述讲义.pptx
《[精选]数据挖掘技术概述讲义.pptx》由会员分享,可在线阅读,更多相关《[精选]数据挖掘技术概述讲义.pptx(182页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据挖掘技术数据挖掘技术博士wdzhaofudan.edu 1分类和预测分类和预测2分类分类n对离散数据的分类称为分类,对数值数据的分类称为预测。n分类要解决的问题是为一个事件或对象归类,即确定一个特定的对象属于哪一类。分分类类函数或分函数或分类类模型模型分类器分类器n分类模型是通过那些历史数据训练出来的。n这里用于建立模型的数据称为训练集,通常是已经掌握的历史数据。n在训练集中每个对象都赋予一个类别的标记,不同的类别具有不同的标记。n分类就是通过分析训练集中的数据,为每个类别做出准确的描述或建立分析模型或挖掘出分类规则,然后用这个分类规则对其它数据对象进行分类。3分类规则实例分类规则实例低风
2、险收入¥40,000工作时间5年高负债高风险高风险低风险否否否是是是If 收入¥40,000 而且工作时间5年 then低风险4分类数据分类数据nThe data used to build a classification model consists ofnA set of records.nEach record has the same number of fields.nOne field in these record contains indicators of classes which records belong to.This field is called target
3、 field.nOther fields are called independent fields which describe the individual objects represented by the records.5决策表实例决策表实例6决策树决策树nare widely used in data mining.nwere developed in machine learning and statistics.nare used to build classification and prediction models.nare widely available.判定树分类
4、算法output训练集决策树input新数据分类7使用决策树进行分类使用决策树进行分类n决策树 n一个树形的结构n内部节点上选用一个属性进行分割n每个分叉都是分割的一个局部n叶子节点表示一个分类n决策树生成算法分成两个步骤n树的生成n开始,数据都在根节点n递归的进行数据分片n树的修剪:去掉一些可能是噪音或者异常的数据n决策树使用:对未知数据进行分割n按照决策树上采用的分割属性逐层往下,直到叶子节点8决策树算法决策树算法n基本算法贪心算法n自上而下分而治之的方法n开始时所有的实例都在根节点n属性都是分类型 如果是连续的,将其离散化n所有记录用所选属性递归的进行分割n属性的选择是基于一个启发式规则
5、或者一个统计的度量 如信息增益n停止分割的条件n一个节点上的实例都属于同一个类别;n没有属性可以再用于对数据进行分割9属性选择的统计度量属性选择的统计度量n信息增益Information gain ID3/C4.5n所有属性假设都是分类型字段n经过修改之后可以适用于数值型字段n基尼指数Gini index IBM Intelligent Minern能够适用于分类和数值字段n其他10信息增益度度量信息增益度度量ID3/C4.5n任意样本分类的期望信息:nIs1,s2,sm=Pi log2pi i=1.mn其中,数据集为S,m为S的分类数目,PinCi为某分类标号,Pi为任意样本属于Ci的概率,
6、si为分类Ci上的样本数n由A划分为子集的熵:nEA=j|s1j|+|smj|/|s|*Is1j,smjnA为属性,具有V个不同的取值n信息增益:GainA=Is1,s2,sm EA11训练集训练集12使用信息增益进行属性选择使用信息增益进行属性选择gClass P:buys_ puter=“yesgClass N:buys_ puter=“nogIp,n=I9,5=0.940g pute the entropy for age:HenceSimilarly0.69413分枝分枝14决策树决策树age?overcaststudent?credit rating?noyesfairexcelle
7、nt40nonoyesyesyes30.4015决策树在犯罪分析中的应用决策树在犯罪分析中的应用 有无固定有无固定职职业业家庭家庭经济经济状状况况年年龄龄文化程度文化程度有无特有无特长长社会关系社会关系犯犯罪罪记录记录违违法法记录记录家庭家庭和睦和睦状况状况犯罪犯罪记录记录次数次数是否是否经经常常 博博犯罪程度犯罪程度无差30-40初中否有差有4是严重有中20-30中专否无差无0是较轻有差40初中有有差无2是严重有差20-30高中有有中有6是严重有差20-30中专否无中有1否较轻有差30-40大专有有差无3是严重无中20初中有无好有5是严重无差20-30初中否有差无0否严重有好40小学否有中无
8、2否严重无差40初中否无差无0否严重无差30-40高中否无好无4否较轻无好20-30中专有无差有2否较轻16犯罪潜在风险决策树犯罪潜在风险决策树 1718典型的银行卡顾客分类树典型的银行卡顾客分类树 19基尼指数基尼指数Gini Indexn集合T包含n个类别的记录,那么其Gini指数就是pj 类别j出现的频率n如果集合T分成两局部 N1 and N2。那么这个分割的Gini就是n提供最小Ginisplit 就被选择作为分割的标准.20过拟合问题过拟合问题训练数据测试数据此处剪枝决策树深度错误率剪枝剪枝n 防止过拟合n决策树泛化21Pruning Treen目的:n消除决策树的过拟合Over
9、Fitting问题n实质:消除训练集中的异常和噪声n两种方法:n先剪枝法Public 算法n后剪枝法Sprint 算法22误分类率误分类率C1C2C3C10r12r13C2r210r23C3r31r320实际类别分类类别Cost(or loss)matrix23决策树算法的可伸缩性决策树算法的可伸缩性 nID3、C4.5等算法对规模较小,可以一次放入内存的训练样本集很有效,但实际上数以百万计样本的超大型训练集是常见的,大多数情况下无法把训练样本集全部放入内存,导致这些算法的有效性降低。因此需要增加可伸缩的方法以节省空间。nIBM的研究人员运用一些特殊数据结构,例如属性表和类表,在1996年提出
10、了一种快速的、可伸缩的SLIQ算法,可以处理离散属性和连续属性。SLIQ算法首先把训练样本集划分成假设干子集,使每一个子样本集都能放入内存,然后对每个子样本集分别构造一棵决策树,再把这些决策树综合,得到最终决策树。SLIQ 算法可以处理大规模的训练样本集,具有较好的伸缩性。与传统决策树算法相比,减少了运行时间。SLIQ算法在执行过程中需要随时修改类表,类表常驻内存,而类表的大小会随着训练样本集的增大而增大,因此SLIQ算法对内存容量有一定的要求。24常用的决策树算法常用的决策树算法n ID3,C4.5,C5.0n CART n CHAID25CART算法算法 nCART算法采用一种二分递归分割
11、的方法,每次都把当前样本集分割为两个子样本集,使生成的决策树的非叶结点都有两个分枝,因此CART算法生成的决策树是结构简单的二叉树。这种算法选择分枝属性A的判别函数如下:式中pL和pR分别是属性A的左右分枝的样本数占总体的比例,piL和piR分别表示属性A的左右分枝中样本子集属于类别i的比例,m为分类类别数。使A最大的属性A作为分枝的属性,因为这需要满足下面的条件:n左右分枝样本的数量差不多。n左右分枝的样本集尽量不要属于同一类。n此外,CART 算法也使用后剪枝。在决策树生成过程中,考虑到多展开一层就会有更多信息被发现,CART 算法运行到不能再长出分枝为止,从而得到一棵最大的决策树。然后C
12、ART 对生成的决策树进行剪枝。剪枝算法使用独立于训练样本集的测试样本集对子树的分类错误进行计算,找出分类错误最小的子树作为最终的分类模型。26评估分类算法的准确性评估分类算法的准确性nK次交叉校验k-fold cross validation:把数据集分为k子集,用k-1个子集为训练集,1个子集作为测试集,然后k次交叉验证。n如何提高分类算法的准确率?27Baggingn基本思想是用一个不稳定数据集小的变化可能使分类结果有显著的变化、弱学习算法准确率不高,对一个训练集用该算法使用屡次,得到多个分类模型。对于新样本的分类,可以用这些分类模型进行投票得票最多的类别作为结果,结果会提高决策树的分类
13、准确率。28Boostingn基本思想是每个样本都赋予权重,每次迭代对分类错误的样本增加权重,以便下次的样本关注这些样本。这种方法也能提高不稳定分类算法的准确率。nBoosting和Bagging的区别是Bagging的训练集是随机选择,相互独立的,分类模型可以并行生成;而Boosting的训练集不是独立的,与前一轮的学习有关,分类模型只能顺序生成。29神经网络神经网络30神经网络的组成神经网络的组成n神经网络是由许多人工神经元通过一定的互联方式组成。这些神经元的结构比较简单,但它们复杂的连接拓扑结构会形成功能很强的网络。n如以下图所示,神经元一般有多个输入x1,xn,这些输入通过组合函数加权
14、求和,然后再利用神经元的激活函数f产生输出y。n神经元之间的连接强度用权值w表示。神经元的输入和输出之间的关系用函数表示:其中 是神经元的偏置,在网络初始化时赋予小的随机数。激活函数activation function常用Sigmoid函数还有线性函数和双曲正切函数等。神经元 x1x2xny输入输出w1wnw231典型的多层前馈神经网络典型的多层前馈神经网络 x1x2x3输入层隐层输出层wijwjkOjOkOi不同层次神经元之间的连接强度用相应的权wij、wjk表示,这些权在网络初始化时被赋予很小的随机数,例如-0.5到0.5或-1.0到1.0之间的值。整个信息的处理是单向的,网络没有环形结
15、构。输入xi直接提供给输入层的神经元,对于输入层的神经元i,它的输出Oi等于输入Ii:Oi=Ii。这些神经元的加权和同时提供隐层的神经元,隐层神经元的输出构成输出层神经元的输入,输出层的神经元给定样本的分类或预测。隐层神经元j的输入是其输入的线性组合:用激活函数Sigmoid函数作用于隐层的神经元j,j的输出Oj用下式计算:输出层神经元的输入和输出与隐层神经元的情况类似。隐层和输出层的非线性激活关系使神经网络可以近似任何函数。32BPBP神经网络的训练神经网络的训练1 1n分析业务问题。n选择训练样本集,对其输入值和输出值进行预处理。n依靠经验确定网络的拓扑结构,并对神经元的权值和偏置进行初始
16、化。n利用反向传播等算法训练网络,不断调整网络权值减少预测误差,获得网络的最正确权。n用测试集检验网络的分类或预测质量。n预测未知样本的分类。BP神经网络是一种监督学习方法,使用反向传播的学习算法:通过迭代处理一组训练样本,把每个样本的网络输出值Tk与实际值Ok比较,然后按一定的方式调整网络权和神经元的偏置,使得实际值和网络输出值之间的误差平方和最小:式中sample为样本集。这种网络权的调整“后向进行,即由输出层,经由隐层,屡次重复训练,直到满足误差要求。33BPBP神经网络的训练神经网络的训练2 2为使ERR最小,可以利用最优化理论的梯度下降法更新网络权值。通常有两种方法更新权和偏置:一种
17、是每训练一个样本就更新权和偏置,另一种是在处理训练集中的所有样本之后再更新权和偏置。这实际上是以wij和wjk为变量的多元函数ERR的最小化问题。利用梯度下降法,权的更新方式如下:式中是学习率,这个参数可防止陷入局部最小。学习率太小,会使网络学习速度慢,而太大的学习率可能使学习过程振荡。通常在网络训练的初期学习率设置大一些,随着训练误差的减少,学习率可逐渐变小。34神经网络的应用神经网络的应用1n在财务方面,神经网络可用来协助投资公司预测普通股的表现、公司的债券等级或公司破产的可能性。nVISA国际公司用神经网络来帮助侦测信用卡欺诈,它监控所有VISA交易并且注意持卡人消费形态的改变。收入负债
18、年龄付款记录信誉良好风险值信誉不良风险值35神经网络的应用神经网络的应用2n股票拐点趋势预测:利用历史价格数据预测中短期从2到10或15天的价格走势。36贝叶斯分类器贝叶斯分类器 37贝叶斯定理贝叶斯定理 n假设X和Y在分类中可以分别表示样本的属性集和类别。PX,Y表示它们的联合概率,pX|Y 和pY|X表示条件概率,其中是后验概率,而称为Y的先验概率。X和Y的联合概率和条件概率满足以下关系:n变换后得到38朴素贝叶斯分类器朴素贝叶斯分类器 n对于属性集 ,如果 之间相互独立,即 ,有朴素贝叶斯分类器:其中 是常数,先验概率 可以通过训练集中每类样本所占的比例估计。给定 ,如果要估计测试样本X
19、的分类,由朴素贝叶斯分类器得到y类的后验概率:只要找出使最大的类别y即可。39贝叶斯分类器在供电电容生产中的应用贝叶斯分类器在供电电容生产中的应用1 1 n假设某段时期内某电脑主板制造商所用的供电电容是由三家电容生产厂提供的。对制造商在这段时期内的业务数据进行抽样,得到下表。n因为三家电容工厂的供电电容在电脑主板生产商的仓库中是均匀混合的,并无明显的区别标志。现在电脑主板生产商想通过对数据进行分析,解决下面两个问题:1随机地从仓库中取一只供电电容是次品的概率。2从仓库中随机地取一只供电电容,假设取到的是一只次品,想分析此次品来自哪家工厂的可能性最大。40贝叶斯分类器在供电电容生产中的应用贝叶斯
20、分类器在供电电容生产中的应用2 2 41贝叶斯分类器在垃圾邮件处理中的应用贝叶斯分类器在垃圾邮件处理中的应用 n贝叶斯分类器是对邮件的内容进行分析,不仅考虑关键词在垃圾邮件中出现的概率,也考虑关键词在正常邮件中的概率。当一封新的邮件到达时,这封邮件的内容将被分解成字串。依据数据库中这些词的概率通过公式进行计算,用贝叶斯定理计算出的垃圾邮件可能性高于某个阈值时就判定这封邮件是垃圾邮件。n贝叶斯过滤防范有一定的智能性,通过一定的学习方法可以对数据库词的概率进行更新,可以适应垃圾邮件的变化情况。42nK-K-最近邻分类最近邻分类n遗传算法遗传算法n粗糙集理论粗糙集理论n模糊理论模糊理论n 其他分类方
21、法其他分类方法43聚类聚类Clustering44聚类聚类-Definition of clusteringClustering is a process of partitioning a set of objects such as customers into groups in which the objects in the same group are similar to each other and the objects in different groups are dissimilar,according to some similarity measure.-聚类就是把
22、整个数据分成不同的组,并使组与组之间的差距尽可能大,组内数据的差异尽可能小。-Clustering is often called unsupervised classification-Clustering is used for customer segmentation45Customer Segmentation-Customer segmentation is a process to divide customers into groups or segments.Customers in the same segment have similar needs or behavio
23、rs so that similar marketing strategies or service policies can be applied to them.-Segmentation according to some variablesE.g.,use customer type variable to divide customers into corporate customers and individual customers-Segmentation using a data mining techniquesE.g.,a clustering algorithm or
24、decision tree algorithm47发现客户的特征发现客户的特征n客户分割segmentation是一种发现用户特性的方法。数据驱动的分割将一个基于数据的客户信息的自然客户分组:从而给你一个客户信息的概况,这可以直接转化为增加客户的经营策略。新浪微博兴趣圈自动挖掘 :/tech.it168./a2012/0220/1314/5.shtml 48与分类的区别与分类的区别n与分类不同,在开始聚集之前用户并不知道要把数据分成几组,也不知分组的具体标准,聚类分析时数据集合的特征是未知的。n聚类根据一定的聚类规则,将具有某种相同特征的数据聚在一起也称为无监督学习。分类用户则知道数据可分为几
25、类,将要处理的数据按照分类分入不同的类别,也称为有监督学习。49聚类问题的数学描述聚类问题的数学描述n给定数据集合V,根据数据对象间的相似程度将数据集合分成组,并满足:则该过程称为聚类。Ci称为簇。50基本概念基本概念n Cluster centern Cluster sizen Cluster densityn Cluster descriptionsn一个好的聚类方法要能产生高质量的聚类结果簇,这些簇要具备以下两个特点:n高的簇内相似性n低的簇间相似性51聚类需求聚类需求 n可伸缩性n能够处理不同类型的属性n能发现任意形状的簇n在决定输入参数的时候,尽量不需要特定的领域知识;n能够处理噪声
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 精选 数据 挖掘 技术 概述 讲义
限制150内