最新多元统计之判别分析精品课件.ppt
《最新多元统计之判别分析精品课件.ppt》由会员分享,可在线阅读,更多相关《最新多元统计之判别分析精品课件.ppt(110页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、多元统计之判别分析多元统计之判别分析2022-8-14中国人民大学六西格玛质量管理研究中心2 4.1 判别分析的基本理论判别分析的基本理论 4.2 距离判别距离判别 4.3 Bayes判别判别 4.4 Fisher判别判别 4.5 逐步判别逐步判别 4.6 判别分析方法步骤及框图判别分析方法步骤及框图 4.7 判别分析的上机实现判别分析的上机实现 4.8 判别分析应用的几个例子判别分析应用的几个例子 第四章第四章 判别分析判别分析 2022-8-14中国人民大学六西格玛质量管理研究中心94.2 4.2 距离判别距离判别 目录 上页 下页 返回 结束 2022-8-14中国人民大学六西格玛质量管
2、理研究中心104.2 4.2 距离判别距离判别 目录 上页 下页 返回 结束 2022-8-14中国人民大学六西格玛质量管理研究中心114.2 4.2 距离判别距离判别 目录 上页 下页 返回 结束 4.2.2 多总体情况1. 协差阵相同。 2022-8-14中国人民大学六西格玛质量管理研究中心124.2 4.2 距离判别距离判别 目录 上页 下页 返回 结束 2. 协差阵不相同。 2022-8-14中国人民大学六西格玛质量管理研究中心134.2 4.2 距离判别距离判别 目录 上页 下页 返回 结束 2022-8-14中国人民大学六西格玛质量管理研究中心144.2 4.2 距离判别距离判别
3、目录 上页 下页 返回 结束 2022-8-14中国人民大学六西格玛质量管理研究中心154.3 Bayes4.3 Bayes判别判别 目录 上页 下页 返回 结束 贝叶斯(Bayes)统计的思想是:假定对研究的对象已有一定的认识,常用先验概率分布来描述这种认识,然后我们取得一个样本,用样本来修正已有的认识(先验概率分布),得到后验概率分布,各种统计推断都通过后验概率分布来进行。将贝叶斯思想用于判别分析,就得到贝叶斯判别。2022-8-14中国人民大学六西格玛质量管理研究中心164.3 Bayes4.3 Bayes判别判别 目录 上页 下页 返回 结束 2022-8-14中国人民大学六西格玛质量
4、管理研究中心174.4 Fisher4.4 Fisher判别判别 目录 上页 下页 返回 结束 2022-8-14中国人民大学六西格玛质量管理研究中心184.4 Fisher4.4 Fisher判别判别 目录 上页 下页 返回 结束 2022-8-14中国人民大学六西格玛质量管理研究中心194.4 Fisher4.4 Fisher判别判别 目录 上页 下页 返回 结束 2022-8-14中国人民大学六西格玛质量管理研究中心204.4 Fisher4.4 Fisher判别判别 目录 上页 下页 返回 结束 2022-8-14中国人民大学六西格玛质量管理研究中心214.4 Fisher4.4 Fi
5、sher判别判别 目录 上页 下页 返回 结束 2022-8-14中国人民大学六西格玛质量管理研究中心224.5 4.5 逐步判别逐步判别 目录 上页 下页 返回 结束 在多元回归中熟知,变量选择的好坏直接影响回归的效果,而在判别分析中也有类似的问题。如果在某个判别问题中,将其中最主要的指标忽略了,由此建立的判别函数其效果一定不好。但是在许多问题中,事先并不十分清楚哪些指标是主要的,这时,是否将有关的指标尽量收集加入计算才好呢?理论和实践证明,指标太多了,不仅带来大量的计算,同时许多对判别无作用的指标反而会干扰了我们的视线。因此适当筛选变量的问题就成为一个很重要的事情。凡具有筛选变量能力的判别
6、方法统称为逐步判别法。和通常的判别分析一样,逐步判别也有许多不同的原则,从而产生各种方法。有关逐步判别法的理论基础详见1所讨论指标的附加信息检验。2022-8-14中国人民大学六西格玛质量管理研究中心234.5 4.5 逐步判别逐步判别 目录 上页 下页 返回 结束 逐步判别的原则2022-8-14中国人民大学六西格玛质量管理研究中心244.5 4.5 逐步判别逐步判别 目录 上页 下页 返回 结束 2022-8-14中国人民大学六西格玛质量管理研究中心254.5 4.5 逐步判别逐步判别 目录 上页 下页 返回 结束 ()这时既不能选进新变量,又不能剔除已选进的变量,将已选中的变量建立判别函
7、数。2022-8-14中国人民大学六西格玛质量管理研究中心264.6 判别分析方法步骤及框判别分析方法步骤及框图图 目录 上页 下页 返回 结束 使用判别分析可以看作是下面6个步骤的过程:第第1 1步:判别分析的对象步:判别分析的对象判别分析的研究目的:1. 确定在两个或者更多事先定义的组上的一组变量的平均得分剖面是否存在显著性差异。2. 确定哪些变量在两个或更多组的平均得分剖面的差异中解释最多。3. 在一组变量得分的基础上,建立将对象(个体、公司、产品等等)分类的步骤。4. 建立由这组变量形成的组与组之间判别函数的数目及构成。 2022-8-14中国人民大学六西格玛质量管理研究中心274.6
8、 判别分析方法步骤及框判别分析方法步骤及框图图 目录 上页 下页 返回 结束 第2步:判别分析的研究设计判别分析的成功应用需要考虑到几个要点。这些要点包括解释变量和被解释变量的选择、估计判别函数所需的样本量和为了验证目的对样本的分割。(一)解释变量和被解释变量的选择解释变量和被解释变量的选择要应用判别分析,研究者必须首先指定解释变量与被解释变量。这里,解释变量为定量变量,而被解释变量为定性变量。2022-8-14中国人民大学六西格玛质量管理研究中心284.6 判别分析方法步骤及框判别分析方法步骤及框图图 目录 上页 下页 返回 结束 研究者首先应该关注被解释变量。被解释变量的组数可以是两个或更
9、多,但这些组必须具有相互排斥性和完全性。被解释变量有时确实是定性的变量。然而也有一些情况,即使被解释变量不是真的定性变量,判别分析也是适用的。我们可能有一个被解释变量是顺序或者间隔尺度的变量,而要作为定性变量使用。这种情况下我们可以创建一个定性变量。当确定了被解释变量后,研究者必须确定分析中应包括的解释变量。解释变量的选择通常有两种方法。第一种是从以前的研究中或者从该研究问题根本的理论模型中确定变量。第二种方法是直觉运用研究者的知识,直观地选择没有以前研究或理论存在但是逻辑上与预测解释变量的组相关的变量。2022-8-14中国人民大学六西格玛质量管理研究中心294.6 判别分析方法步骤及框判别
10、分析方法步骤及框图图 目录 上页 下页 返回 结束 (二)样本容量样本容量判别分析对样本量与预测变量个数的比率很敏感。许多研究建议比率为每个预测变量20个观测。尽管这个比率在实际中难以保持,但研究者应注意,当样本量相对于解释变量个数在减少时,结果是不稳定的。建议最小的样本量是每个变量有5个观测。除总的样本量以外,研究者还必须考虑每组的样本容量。至少,最小的组的大小必须超过解释变量的个数。作为实际的指导,每组应至少有20个观测。但即使所有的组大小都超过了20,研究者还应注意组的相对大小。如果组的大小相差很大,这可能影响到判别函数的估计和观测的分类。在分类阶段,大的组有不相称的高的分类机会。202
11、2-8-14中国人民大学六西格玛质量管理研究中心304.6 判别分析方法步骤及框判别分析方法步骤及框图图 目录 上页 下页 返回 结束 (三)样本的分割样本的分割很多时候样本需要分割为两个子样本,一个用于估计判别函数,另一个用于验证。每个子样本都有适当的大小来支持结论是很重要的。分割样本有很多种方法,最常用的一种是通过一个子样本来估计判别函数,而用另一个子样本来验证。常用的过程是将整个样本随机地分为两组。其中的一组,分析样本是用来估计判别函数的。另一组保留样本,是用来验证结论的。这种验证方法称为分割样本或者交叉验证方法。2022-8-14中国人民大学六西格玛质量管理研究中心314.6 判别分析
12、方法步骤及框判别分析方法步骤及框图图 目录 上页 下页 返回 结束 如果划分分析样本和保留样本没有固定的原则。最常用的程序是分为两半。当选择分析组和保留组的个体时,通常遵循比例分层抽样。也就是分析组和保留组的各组大小比率应与整个样本的各组大小比率相同。如果研究者要划分样本,这个样本应该充分的大。一般来讲,研究者需要整个样本至少为100,将它分为两组。2022-8-14中国人民大学六西格玛质量管理研究中心324.6 判别分析方法步骤及框判别分析方法步骤及框图图 目录 上页 下页 返回 结束 第3步:判别分析的假定推导判别函数的关键假定是解释变量的多元正态性和由被解释变量定义的各组的未知但相等的协
13、方差结构。不满足多元正态性假定在估计判别方程时可能会出现问题。因此,如果可能的话,建议使用Logistic回归作为一种替代方法。不等的协方差矩阵可能会负面影响分类过程。如果样本量小而协方差阵不等,那么估计过程的统计显著性会受到负面影响。最可能的情况是在适当的样本量的组之间存在不等的协方差阵,那么观测会被“过度归类”到大的协方差阵的组中。可以通过增加样本量和使用各组特定的协方差阵减小这种影响。2022-8-14中国人民大学六西格玛质量管理研究中心334.6 判别分析方法步骤及框判别分析方法步骤及框图图 目录 上页 下页 返回 结束 最后,如果组间的协方差阵存在大的差异,没有方法可以减小这种影响时
14、,在许多统计问题中可以使用二次判别技术。另一个可能影响结果的是解释变量的多重共线性。当使用逐步判别时这种考虑尤为重要。研究者在解释判别方程时必须注意多重共线性的程度和它对哪些变量进入逐步解的影响。2022-8-14中国人民大学六西格玛质量管理研究中心344.6 判别分析方法步骤及框判别分析方法步骤及框图图 目录 上页 下页 返回 结束 第第4 4步:估计判别模型和评估整体拟合步:估计判别模型和评估整体拟合为了推导判别函数,研究者必须确定估计的方法,然后确定保留的函数个数。随着估计的函数,可以用多种方法来评估模型拟合。首先,判别Z得分,可以为每一个观测计算。基于Z得分的各组均值的比较提供了组与组
15、之间判别的一种测量。通过分到正确类中的观测来测量预测精度。一系列准则可以用来评价判别过程是否达到了实际的或者统计的显著性。最后,个体诊断可以分析每个观测的分类精度和它对于整个模型估计的相对影响。2022-8-14中国人民大学六西格玛质量管理研究中心354.6 判别分析方法步骤及框判别分析方法步骤及框图图 目录 上页 下页 返回 结束 (一)计算方法推导判别函数时可以使用两种计算方法:联立(直接)法和逐步法。联立估计在计算判别函数时同时考虑所有的解释变量。这样,判别函数是基于解释变量的整个集合来计算的,而不管每个解释变量的判别力。 逐步估计是另一种估计方法。它以解释变量的判别力为基础,每次进入一
16、个变量到判别函数中。逐步估计开始是选取一个最有判别力的变量。然后这个变量与其他的解释变量一一配对,那么与第一个变量一起最能够提高判别力的变量被选中。第三个及以后的用类似的方式选取。增加新的变量时,如果一些前面选中的变量所包含的关于组差异信息可由后面选中的变量所包含,它们将被剔除。最后,既不能选进新的变量,又不能剔除已有变量。 2022-8-14中国人民大学六西格玛质量管理研究中心364.6 判别分析方法步骤及框判别分析方法步骤及框图图 目录 上页 下页 返回 结束 (二)评估整体拟合一旦判别方程通过了显著性检验,注意力转向确定保留的判别函数的整体拟合。这个评估包括三个任务:计算每个观测的判别Z
17、得分,检验各组在判别Z得分上的差异和评估组的关系的预测精度。1.计算判别Z得分 2022-8-14中国人民大学六西格玛质量管理研究中心374.6 判别分析方法步骤及框判别分析方法步骤及框图图 目录 上页 下页 返回 结束 这个得分是定量变量,提供了在每个函数上比较对象的直接手段。有类似的Z得分的观测被认为在构成函数的变量上比得分悬殊的观测更相似。判别函数既有用标准化的权重和值,也有用非标准化的权重和值。标准化形式更易于解释,而非标准化形式更易于计算判别Z得分。 2022-8-14中国人民大学六西格玛质量管理研究中心384.6 判别分析方法步骤及框判别分析方法步骤及框图图 目录 上页 下页 返回
18、 结束 应当注意判别函数不同于分类函数,也称为费歇线性判别函数。分类函数,可用于对观测进行分类。在这种分类方法中,一个观测的解释变量的值代入分类函数中,这个观测针对每组可以计算一个分类得分。然后这个观测被分到分类得分最高的组中。我们使用判别函数作为分类手段,是因为它提供了每个判别函数的一个简洁表示,简化了解释过程和对解释变量贡献的评估。 2022-8-14中国人民大学六西格玛质量管理研究中心394.6 判别分析方法步骤及框判别分析方法步骤及框图图 目录 上页 下页 返回 结束 2. 检验组的差异一种评估整体拟合的方法是根据判别Z得分,确定各组个体的差异大小。组差异的一种综合测量是比较组的重心,
19、即组中所有个体的平均判别Z得分。重心的差异是用马氏距离来测量的,这样检验可用来确定差异是否在统计上显著。研究者应保证即使有显著的判别函数,组间应存在显著的差异。在每个判别函数上组的重心可以从球面的角度来绘图显示结果。通常用前两个或者三个判别函数来作图。每组的值显示了它在降维的空间中的值(并非画出所有的函数)。2022-8-14中国人民大学六西格玛质量管理研究中心404.6 判别分析方法步骤及框判别分析方法步骤及框图图 目录 上页 下页 返回 结束 3. 评价组关系预测的精度判别分析中每个观测是通过它是否被正确归类来评价的。要这样做,应当解决一些主要的考虑:利用分类矩阵的统计和实际的基本原理、分
20、割点的确定、分类矩阵的构造和评价分类精度的标准。判别函数的显著性检验并没有说明函数拟合有多好。比如,假定两个组在0.01的水平上有显著性差异,如果样本量足够大,组的均值(重心)可能实际上相等。因此显著性水平可能并不是反映判别函数判别能力的很好的指标。为了确定一个判别函数的预测能力,研究者必须构造分类矩阵。 2022-8-14中国人民大学六西格玛质量管理研究中心414.6 判别分析方法步骤及框判别分析方法步骤及框图图 目录 上页 下页 返回 结束 如果统计检验显示判别函数显著,通常构造分类矩阵来提供函数的判别效力的更精确的估计。然而,在分类矩阵构造之前,研究者必须确定临界得分。每个观测的判别得分
21、与临界得分比较来确定个体应分到哪一类中。在构造分类矩阵时,研究者希望确定最优临界得分(也称临界Z值)。最优临界得分会因各组大小是否相等而不同。如果两组是相同的大小,最优临界得分是两组重心的中点。 2022-8-14中国人民大学六西格玛质量管理研究中心424.6 判别分析方法步骤及框判别分析方法步骤及框图图 目录 上页 下页 返回 结束 2022-8-14中国人民大学六西格玛质量管理研究中心434.6 判别分析方法步骤及框判别分析方法步骤及框图图 目录 上页 下页 返回 结束 所有计算最优临界得分的公式都假定正态分布和已知组的协方差结构。为了用分类矩阵来验证判别分析的结果,样本必须随机地分割为分
22、析样本和保留样本。保留样本的每个观测的判别得分可与临界得分相比较,进行分类。分类的结果用矩阵的形式表示出来。 2022-8-14中国人民大学六西格玛质量管理研究中心444.6 判别分析方法步骤及框判别分析方法步骤及框图图 目录 上页 下页 返回 结束 2022-8-14中国人民大学六西格玛质量管理研究中心454.6 判别分析方法步骤及框判别分析方法步骤及框图图 目录 上页 下页 返回 结束 评估模型拟合的最后一个方法就是在每个观测的基础上研究预测结果。与回归分析的残差分析相似,目的是为了理解被错判的观测和不是该组代表的观测。研究者可以通过马氏距离来评估一个观测与该组其他个体的相似性。靠近重心的
23、观测被认为比远离重心的观测更加代表该组。用图形的方式表示观测是研究观测特征的另一种方法。尤其是错判的观测。一种常用的方法是将观测点根据判别Z得分绘图,并且画出各组重叠部分和错判的观测。如果保留了两个或两个以上的判别函数,可以用区域图来表示各组所对应的区域和最优临界点。将每个观测与组的重心画在一起,不仅可以用组的重心反映一般特征,还可以反映组中成员的变动。 2022-8-14中国人民大学六西格玛质量管理研究中心464.6 判别分析方法步骤及框判别分析方法步骤及框图图 目录 上页 下页 返回 结束 第5步:结果的解释2022-8-14中国人民大学六西格玛质量管理研究中心474.6 判别分析方法步骤
24、及框判别分析方法步骤及框图图 目录 上页 下页 返回 结束 解释判别函数传统的方法是观察计算判别函数时赋予每个变量的标准化判别权重(有时也称为判别系数)的符号和大小。忽略符号时,较大权重的解释变量意味着对判别函数的判别力贡献更多。符号只是代表那个变量有正的还是负的贡献。对判别权重的解释也有一些批评。比如解释变量存在多重共线性情况时,判别权重可能会出现问题。另一个问题是判别权重被认为不稳定。近年来,由于判别权重的缺陷,判别载荷逐渐作为解释的基础。判别载荷,有时也称为结构相关系数,是每个解释变量与判别函数的简单相关系数。判别载荷反映的是每个解释变量对判别函数的相对贡献。判别载荷也可能存在不稳定性。
25、 2022-8-14中国人民大学六西格玛质量管理研究中心484.6 判别分析方法步骤及框判别分析方法步骤及框图图 目录 上页 下页 返回 结束 当存在两个或以上的判别函数的时候,我们面临着其他的解释问题。首先,我们能简化判别权重或载荷以利于刻画判别函数吗?再者,我们如何表示解释变量对判别函数的影响?我们介绍函数旋转和能力指数的概念来解决这两个问题。 2022-8-14中国人民大学六西格玛质量管理研究中心494.6 判别分析方法步骤及框判别分析方法步骤及框图图 目录 上页 下页 返回 结束 在推导出判别函数以后,它们可以旋转来重新分配方差。旋转保持了原始结构和判别解的稳定性,而且使方程更易于解释
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 最新 多元 统计 判别分析 精品 课件
限制150内