《大数据挖掘技术之DM经典模型16149.docx》由会员分享,可在线阅读,更多相关《大数据挖掘技术之DM经典模型16149.docx(21页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、大数据挖掘技术之DM经典模型(下)数据分析微信公众号datadw关注你想了解的,分享你需要的。接着上篇大数据据挖掘技术之之DM经典模模型(上)文文章,接下来来我们将探讨讨朴素贝叶斯斯模型、线性性回归、多元元回归、逻辑辑回归分析等等模型。4、朴素贝叶斯斯模型表查询模型简单单有效,但是是存在一个问问题。随着输输入数量的额额增加,每个个单元格中训训练样本的数数量会迅速减减少。如果维维度为2,且且每一维有110个不同的的变量,那么么就需要1000个单元格格,而当有33个维度时,就就需要10000个单元格格,4个维度度就是100000.这样样成指数级的的增长,哪怕怕的传统数据据挖掘中都会会遇到明显瓶瓶颈
2、。当试图预测某一一个概率值时时,朴素贝叶叶斯模型就提提供这一办法法。基本思想想:每个输入入变量本身就就包含一些预预测需要的信信息。比如目目标变量是取取消业务的概概率,解释变变量是市场、获获取渠道、初初始信用评分分、利率计划划、电话号码码类型、手机机号以及客户户年龄。这些些变量都具有有预测能力。根根据取消率的的显著差异性性,可将每个个变量划分在在不同的范围围中。简单理解:条件件概率是指给给定B的条件件下A的概率率以及给定AA的条件下BB的概率。解释:给定B的的条件下A发发生的概率,等等于给定A的的条件下B发发生的概率乘乘以A和B发发生的概率的的比例。如果A代表停止止续签,B代代表使用黑莓莓手机,
3、然后后给定使用黑黑莓手机的条条件下停止续续签的概率,就就是给定停止止续签的条件件下使用黑莓莓手机的概率率乘以总体停停止续签的概概率与总体使使用黑莓手机机的概率之比比。4.1、概率、几几率和释然概率:0到11之间的一个个数字,表示示一个特定结结果发生的可可能性。一种种估计结果概概率的方法是是计算样本数数据中出现结结果次数的百百分比。几率:某一特特定结果发生生于不发生的的概率比。如如果一个事件件发生的概率率是0.2,那那么不发生的的概率是0.8。那么其其发生的几率率就是1/44。几率的取取值是0到无无穷。似然:两个相相关的条件概概率比。即给给定B发生的的情况下,某某一特定结果果A发生的概概率和给定
4、BB不发生的情情况下A发生生的概率之比比。4.2、朴素贝贝叶斯计算对任意数量属性性中的每一个个属性,朴素素贝叶斯公式式都将目标事事件的几率与与该事件的似似然联系起来来。回到基于于营销市场、渠渠道获取、最最初信用评分分、费率计算算、电话号码码类型、手机机型号以及客客户年龄来预预测客户流失失的例子。例例如上面谈到到的黑莓手机机续签的案例例,我们关注注的是。1、停停止续签的总总体几率。22、黑莓手机机用户停止的的似然。3、在在整个州市场场停止续签的的似然。之所以定义为“朴素”,是基于所所有似然相乘乘都基于输入入变量相互独独立的假设。在在这个案例中中,假设的是是使用黑莓手手机的似然与与市场独立(并并且
5、存在于该该州的似然与与手机类型独独立)。而在在实际中,这这种真正相互互独立的情况况很少见。朴素贝叶斯模型型最吸引人的的点:对于待待评分的观测测,如果缺失失某些输入值值,可以简单单地将缺失的的似然从模型型中去掉。意意味着,包含含那些并不是是对所有有用用都可用的输输入(用户年年龄),但如如果知道这些些变量,它们们就有用。给给定不同输入入的概率,且且这些输入与与停止续签相相关,朴素贝贝叶斯公式就就可以计算停停止续签的几几率,而公司司对这种停止止续签的用户户更感兴趣。4.3、朴素与与表查询模型型的比较对于概率型目标标来说,朴素素贝叶斯模型型和表查询模模型密切相关关。两者之间间的主要区别别就在于如何何使
6、用维度。在在表查询模型型中,使用所所有维度依次次定义单元格格,然后计算算每一个单元元格的目标概概率。因此,表表查询模型可可以获取变量量之间的相互互作用。在朴朴素中,需要要为每一个维维度单独计算算似然,之后后组合这些似似然,从而计计算出目标概概率。似然的的组合有一个个假设:各维维度关于目标标彼此独立。表表查询没有说说明这样一类类属性的组合合关系,即由由于在训练数数据中出现的的频率很低,导导致这些概率率很低的属性性就不会出现现。在朴素模型中可可以预测任何何从未出现过过的组合,但但要这样做,就就必须假设这这些输入所造造成的影响彼彼此独立。表表查询模型没没有这样的假假设,所以当当数据多到可可以支持一个
7、个可信的估计计模型时,表表查询模型也也许会做的更更好。5、线性回归回归模型也是一一种预测建模模技术。在EExcel中中就可以使用用线性回归。回回归模型也很很复杂,这里里谈到最佳拟合合曲线。输入入变量和目标标变量必须都都是数值变量量,回归方程程描述了两者者之间的一种种算术关系。“最佳的”关系是指最大限度地减少了从数据点到拟合曲线的垂直距离的平方和。5.1最佳拟合合曲线如下图,显示了了一个知名博博主发表的一一篇文章日浏浏览率随着时时间和被关注注度之间的关关系。图中使使用描点的符符号是空心圆圆,它有助于于清楚的显示示各点之间的的聚集情况。例例如,在较短短时间内用户户的关注度分分布非常密集集。当使用不
8、不同的颜色比比较不同的客客户组时,这这种散点图尤尤其有用。随着时间的增加加,博客的日日访问量会越越来越低,最最后维持到一一个水平。画画出来的曲线线更像是一个个双曲线。根根据X轴,时时间的递增。YY轴,日访问问量的增加。我我们可以模拟拟出这个博主主的访问量随随时间变化的的曲线。如果果在保证博客客质量的同时时,我们就可可以预测博主主的一篇博客客的访问量大大致在什么范范围。可能这这里有很多的的误差或不精精确的地方。但但是通过拟合合曲线,我们们更能从直观观上看到,曲曲线的走势。如如果曲线更精精确的化,我我们甚至可以以模拟出曲线线的函数表达达式。如果用作数据点点的标记并没没有完全拟合合,散点图可可以传递
9、出更更多的信息。最最佳拟合曲线线的性质:在在所有可能的的曲线中,最最佳拟合曲线线指的是从观观察点到曲线线垂直距离的的平方最下的的那条曲线,散散点图显示了了每个点到曲曲线之间的距距离。最佳拟合曲线的的定义就是最最小二乘法的的定义。欧式式距离公式对对该值进行了了开方,在没没有计算机的的年代,计算算欧式距离非非常困难。当当时,高斯提提出这一观点点,就是利用用计算平方和和,代替计算算距离之和。这这样做的目的的,就使最佳佳拟合曲线系系数很容易计计算。这里谈到的是线线性回归,其其实回归模型型是一个直线线方程,这里里只是来描述述一个拟合曲曲线,其实算算不上一个回回归曲线。在在现实之中,更更多线性回归归的模型
10、很少少见,更多的的是曲线拟合合。5.2拟合的优优点对于一个给定的的数据集,总总是可以找到到一条最佳的的拟合曲线。但但是,存在很很多条曲线,哪哪条才是最佳佳的。这里引引入“残差”,就是度量量预测值与实实际值之差。还还有一个标准准方法,成为为,用来衡量量描述曲线对对观测数据的的拟合程度。(1)残差如图,身高与体体重模型的残残差。一个无偏模型在在丢失高值点点方面应与丢丢失低值点类类似。在残差差图中,最重重要的一点就就是,这些值值是位于拟合合曲线之上的的可能性与之之下的可能性性是否一样。从从图中我们也也可以看到在在曲线上与在在曲线下的样样本点是不一一样的。一个良好的模型型所产生的估估计值应该接接近真实
11、值,所所以残差应该该集中于曲线线轴附近。如如图中也是可可以看到抛离离曲线的一些些孤立点。这这些点出现的的原因,可能能是由于一些些人为记录的的原因造成的的。在统计学中,残残差在回归方方程中要考虑虑误差项。最最佳拟合曲线线的方程是:Y=aX+b但该曲线,不是是完整的模型型。统计人员员会将模型方方程表示为:代表误差项项,因为X并并不能完美的的展示Y。误误差项表示模模型无法解释释的Y的部分分。Y=aX +bb+(2)R(R这这里代表是RR的平方)对于最佳拟合曲曲线,R的取取值始终在001之间。当当该值接近11时,说明该该曲线在捕获获输入和目标标之间的关系系方面表现很很好。若接近近于0,则说说明最佳拟合
12、合曲线的表现现很差。在001的范围围内,值越大大表明两者之之间存在很强强的关系,越越下其关系越越下。相比于随机猜测测的平均值,模模型的估计值值有多好。定定义简单,但但计算起来复复杂。R要比比较最佳拟合合曲线与y平平均值的水平平线。1减去去两个误差的的比值可以计计算出R。分分子式最佳拟拟合曲线残差差的平方和。分分母是水平线线的残差平方方和。R度量量了最佳拟合合曲线优于均均值作为估计计的程度。R度量了数据的的稳定性。同同一数据集中中不同的样本本是否会生成成相似的模型型。当R值较较低时,不同同的样本可能能会表现出非非常不同的行行为。或者,在在此基础上,再再加入少量观观察值可能会会极大地改变变模型的系
13、数数。当R值较较高时,再加加入少量观察察值就不会有有上述的改变变。5.3全局效应应回归方程能发现现数据中的全全局模式。即即,方程系数数应该对范围围内的所有输输入变量都起起作用。这表表明回归模型型善于捕获那那些总是正确确的模式,不不是产于处理理局部模式。例如,考虑不同同年龄的汽车车保险购买人人的风险。年年轻司机的风风险较高。随随着驾驶人员员经验的不断断增加,风险险会逐步降低低。而对年龄龄很大的驾驶驶者,风险又又会增加。因因为年龄很难难作为回归方方程的输入。因因为没有全局局模式,对于于不同的年龄龄组,年龄的的影响变化又又会不同。在很多程度上,这这个需要根据据建模人员的的熟悉程度,可可以使用那些些在
14、不同取值值范围的变量量作为输入参参数。但是,回回归方程本身身不会发现局局部模式。6、多元回归引入线性回归的的那个例子使使用了单一的的输入持续期来解释日日访问量随时时间的变化。当当一个回归模模型有多个输输入时,就称称其为多元回回归。6.1、等式线性回归模型的的一般形式(没没有误差项)是是:Y=a+a1x1+a2x2+a3x3+.+annxn。这个个方程通过添添加更多变量量,并为每个个变量选定系系数,对最佳佳曲线方程进进行了扩展。尽管通过引入更更多维度,可可以将线性回回归的几何解解释扩展到多多元回归曲线变为平平面再变到超超平面。考虑虑到每个字变变量对因变量量估计值的贡贡献会更容易易些,即可以以由系
15、数决定定自变量贡献献的大小和方方向。6.2、目标变变量的范围一个回归方程可可以产生任何何值。如果对对X没有限制制,那么Y也也是没有限制制的。对 YY=aX+bb 就可以说说明这一点,该该方程是一条条简单的直线线,取值随之之X的取值而而边变化,从从负无穷到正正无穷。但实实际情况非如如此。许多目目标变量的范范围并不是无无穷的,甚至至不是连续的的。对于这些些情况,统计计学家引入了了一个链接函函数将回归方方程产生的YY值映射到目目标变量的一一个适合的范范围。当目标标遵循某一已已知的分布时时,就可以选选择一个链接接函数,它产产生的值与目目标的平均值值相同,同时时也会产生一一个类似的分分布。即使不不知道确
16、切的的分布,也可可以引入链接接函数将估计计映射到目标标的一个适当当的范围。后面我们会介绍绍逻辑回归分分析,那里使使用一个链接接函数将线性性回归的无穷穷范围映射到到01的区区间,该区间间等价于概率率估计。6.3、使用多多元回归的其其他注意事项项回归模型中有多多个输入变量量时,会产生生一些在单一一输入中不存存在的问题。理想情况下,所所有输入之间间应该线性无无关。被模型显示地包包含的输入之之间可能存在在相互。添加一个新输入入将会改变所所有原输入的的系值取值。(1)线性无关关与朴素贝叶斯类类似,多元模模型的输入之之间应该线性性无关。这一一位置改变其其中一个输入入值应该对其其他输入值没没有影响。实实际情
17、况很难难实现真正独独立性。一般般情况,注意意不要包含彼彼此密切相关关的自变量就就可以。如果果包含这些变变量,往往会会导致模型的的一个输入变变量有较大的的正系数而另另一个输入变变量有较大的的负系数。两两个变量本质质上相互抵消消,因此这两两个系数的取取值并不会对对任何变量有有真正意义上上的影响。(2)交互即使两个变量是是完全独立的的,它们对目目标的影响也也可能是相关关的。一个冰冰淇淋的吸引引力可能依赖赖于价格和天天气尤其是某某天的炎热程程度。这些变变量可以认为为是独立的(当当然,冰淇淋淋的价格并不不取决于温度度,温度可能能会影响冰淇淇淋的价格,但但是这里假设设不会)。尽尽管这些变量量相互独立,价价
18、格对目标的的影响扔可能能受温度的影影响。当天气气炎热的时候候,人民不是是在意冰淇淋淋的价额都会会购买。当天天气寒冷的时时候,只有真真正物美价廉廉才可能会吸吸引人民购买买。类似的,价格的的变化对住户户率的影响可可能会随着距距离市中心的的远近不同而而不同。这就就是交互的例例子。当认为交互很重重要时,一般般情况下,可可以通过添加加新变量引入入这些交互,而而这些新变量量是标准化交交互中涉及变变量值的产物物。(3)添加变量量可以改变模模型中的原有有变量的取值值一种很自然的模模型开发方法法从一个仅有有一个输入的的简单模型开开始,然后通通过增加变量量逐步提高其其复杂性。如如果所有输入入变量都是完完全独立的,
19、那那么添加或删删除其中一个个变量不会更更改模型中的的其他变量的的系数。但是是输入变量几几乎不可能完完全独立,所所有包含另一一个变量会改改变系数的大大小,甚至可可能改变模型型中其他原有有变量系数的的正负值。6.4、多元回回归的变量选选择多元回归模型在在有大量输入入时,它的表表现并不理想想。选择正确确的输入变量量对任何建模模而言都是最最重要的部分分。这里谈到到“领域知识”,就是首先先要考虑的是是对该问题所所知道的一些些先验知识以以及以往人民民解决此类问问题的额方法法。有的时候候领域知识对对一时模型的的预测可以提提供一个很好好的指标指向向。当使用领域知识识和常识创建建了一张候选选变量列表后后,用于创
20、建建回归模型的的软件通常可可以帮助使用用者选择出模模型所需的最最好变量。使使用的方法:(1)前向选择择前向现在开始使使用一组输入入变量,其中中一些变量或或全部变量都都可以出现在在最终模型里里。第一步是是为每一个输输入变量创建建一个单独的的回归模型;如果有n个个输入变量,那那么第一步会会考虑具有一一个输入变量量的n个不同同的回归模型型。选择测试试得分最高的的模型所对应应的变量作为为前向选择模模型中的第一一个变量。选择最佳模型的的一种方法是是选择R值最最低的模型。另另一种方法是是使用统计检检验中F-检检验的方法。最最好的模型是是在验证集上上的误差最小小的模型。这这看上去更像像是数据挖掘掘,因为它使
21、使用了验证集集,并没有对对输入或目标标值做出任何何假设。选定了第一个变变量后,这以以过程会在此此重复进行。第第二次通过将将每个剩余变变量与第一步步已选定的变变量组合以创创建包含有两两个输入变量量的n-1个个回归模型。这这些模型中最最好的模型将将会是下一次次迭代的基础础,下次迭代代会测试带有有三个变量的的多元回归模模型。持续这这一过程直到到满足某些停停止条件为止止。终止条件件可以是到达达最大的选择择变量个数,或或者继续增加加变量不能在在继续提高模模型的某个阈阈值。(2)逐步选择择逐步选择与前向向选择非常类类似,只有一一点不同。在在每个步骤中中除了增加一一个变量外,还还可以删除一一个变量,较较早进
22、入模型型的一个变量量可能由于后后续变量的联联合作用而不不再是有效变变量。(3)后向消去去后向消去选择变变量的方法首首先使用所有有的n个输入入变量创建了了一个多元回回归模型。使使用统计检验验,消去较糟糟糕的变量,然然后重置该模模型。持续该该过程直到满满足某些停止止条件,比如如到达理想变变量的最小数数目。7、逻辑回归分分析线性回归模型有有一种特殊的的形式。该形形式对任意数数量的输入变变量都可用,但但当只有一个个输入变量时时,效果最明明显。回归公公式是一条直直线方程。直直线的一个属属性是它可以以向两端无限限延伸。除与与X轴平行的的直线外,回回归模型没有有最大值和最最小值。这些些属性使得线线性回归模型
23、型适用于估计计那些取值范范围可能很广广的连续变量量。相同的属性使得得线性回归模模型适用于建建模无界的、连连续的目标,而而不适于建模模二元结果,比比如是否或好好坏。因为二二元问题是极极其常见的,这这就逻辑回归归分析模型。7.1建模二元元输出建模二元输出似似乎不像是一一个评估任务务。有两个类类别的,任务务是将每条记记录分配到其其中的一个类类。这就是一一个分类任务务。然而,该该任务可以重重述为“某个记录属属于其中一个个类的概率是是多少?”,因为概率率是数字,这这个问题就转转化为一项评评估任务。(1)使用线性性回归评估概概率在谈到基于客户户的持续期估估计订阅在报报纸上的支付付额度模型上上。呼叫中心心通
24、过与用户户取得联系,其其中一些客户户同意签订订订阅协议。签签订合约不久久后他们便开开始接收报纸纸,随后他们们要支付一笔笔账单。一些些新用户不会会抽时间来支支付这第一张张订单,从而而消减了报纸纸的收入。一一段时间后,没没有支付订单单的客户被停停止收到报纸纸,其中一些些支付账单的的新客户并有有可能在很长长时间后成为为良好的客户户。不过在前前面几个星期期,客户不愿愿意付款的可可能性非常大大。目标值为0可以以表示为从未未付款的客户户,为1的表表示付过款的的客户,所有有这里会存在在一条最佳拟拟合曲线。但但不能保证这这是一个好的的模型。因为为在超过一定定天后,这一一概率轨迹值值大于1,而而且这一估计计值会
25、随着持持续期的增加加而无限的增增加。这就是是直线的性质质:显然存在在弊端,没有有最大值或最最小值。(2)将回归直直线弯成曲线线显然,直线不是是一个估计概概率的合适形形状。逻辑回回归分析通过过将回归直线线弯成一个更更合适的形状状来解决这一一问题。我们们要获得一个个取值范围在在01之间间的函数。这这就是逻辑函函数。7.2、逻辑函函数朴素贝叶斯模型型是乘以一串串似然来估计计几率,然后后将其转换成成概率。把线线性回归转换换成逻辑回归归也使用了这这类技巧。第一步:通过PP与1-P之之间将概率PP转换为几率率。几率和概概率表示同一一件事情。不不同点在于,概概率取值范围围01,几几率是0到正正无穷。在去去几
26、率的对数数值以生成一一个从负无穷穷到正无穷的的函数。从这一点来看,概概率被转换为为一个从负无无穷到正无穷穷的连续函数数这正式线线性回归的优优势。把几率率的对数值作作为目标变量量而建立回归归方程。尽管逻辑回归看看起来比直线线更“弯曲”,但它只能能发现全局模模式,而不是是局部模式。局局部模式的获获取需要显示示的体现在变变量确定其影影响。为线性性回归找出最最佳拟合曲线线所使用的普普通最小二乘乘法并不适用用与逻辑回归归分析,它使使用最大似然然的方法,通通过最大似然然法拟合模型型。最大似然法拟合合模型拟合任何类型的的参数模型对对意味着要使使用数据来找找出最佳参数数,利用这些些最佳参数计计算的预测值值与实
27、际值尽尽可能相符。这这与模型评分分的情况恰恰恰相反。在评评分过程中,给给定一组参数数值模型,模模型为某些输输入产生最佳佳的估计值。给定一个待定的的参数值和一一组观察值,这这一函数返回回该参数值正正确的概率。虽虽然一般不存存在这样的函函数,但在给给定参数的情情况下,训练练集中出现目目标值的概率率和参数的似似然之间存在在一个有用的的关系成正比。似似然是不确定定性相关的一一种度量,这这与概率是一一种绝对度量量的情况不同同,但使用似似然相比较与与候选参数优优势已经明显显。似然函数数的实际计算算公式取决于于对数据的各各种假设,这这又反过来取取决于使用特特定的参数模模型。对于逻辑回归,似似然函数有一一个精
28、确的最最佳值。可以以使用数值优优化的方法来来最大化似然然值,并可以以保证找到最最大点。总结:概率统计的思想想是所有数据据挖掘技术的的基础。给定定一个理想目目标统计描述述,就可以用用相似度来度度量候选值与与原型或理想想对象的距离离来对候选进进行评分。欧欧式距离是一一种常见的相相似度度量,但但也有许多其其他可能的方方法。表查询模型使用用了一种不同同的相似度度度量的方法。所所有落入表中中同一单元格格的观察值都都会得到相同同得的分值。根根据训练数据据的特征为分分配到该单元元格的记录评评分。有许多多方法可以定定义表查询模模型的单元格格,但最简单单的方式将每每个输入的取取值范围划分分成同等大小小的组,如三
29、三等分或五等等分。表查询有个问题题,随着输入入数量的增加加,每一单元元格内训练样样本数会急剧剧减少。如果果有很多输入入,就很难满满足多的数据据来做出具有有置信度的估估计。一种解解决方案是将将若干个小单单元格结合成成一个较大的的单元格。朴素模型解决的的方法是对每每个维度都使使用所有的训训练数据,然然后再结合每每一维度的贡贡献。“朴素”一词是指输输入变量相互互独立的假设设,但这个假假设在实际中中往往不成立立。常见的统计模型型是回归模型型。线性回归归模型通过对对一个输入乘乘以一个系数数之后再求和和,从而将所所有的输入结结合起来。拟拟合一个回归归模型意味着着发现一些系系数值,这些些系数值最大大限度减少了了估计误差的的平方值。线线性回归有很很多好处,但但并不适用与与所有情况。尤尤其是,它不不适用与概率率估计。逻辑辑回归模型利利用S形函数数而不是一条条直线来拟合合观测数据。它它将产生范围围仅在0-11的估计,因因此适用于表表示概率。所有的回归模型型都能发现全全局模式,也也就是说,它它们发现了变变量所有的输输入值的模式式。事实上有有很多模式是是局部的,关关于什么是局局部模式,下下面我们会谈谈到决策树,它它在寻找输入入和目标之间间的局部模式式方面非常强强大。
限制150内