《应用多元统计分析》第五版ppt课件.pptx
《《应用多元统计分析》第五版ppt课件.pptx》由会员分享,可在线阅读,更多相关《《应用多元统计分析》第五版ppt课件.pptx(74页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、在日常生活中,随处都可以看到浪费粮食的现象。也许你并未意识到自己在浪费,也许你认为浪费这一点点算不了什么第五章 判别分析v5.1 引言v5.2 距离判别v5.3 贝叶斯判别v5.4 费希尔判别1在日常生活中,随处都可以看到浪费粮食的现象。也许你并未意识到自己在浪费,也许你认为浪费这一点点算不了什么判别分析的目标v目标1(预测方面):分类(或分配)。在已知历史上用某些方法已把研究对象分成若干组(亦称类或总体)的情况下,来判定新的观测样品应归属的组别。v目标2(描述方面):分离。就是用图形(通常二维,有时三维或一维,一般通过降维实现)方法或代数方法描述来自各组的样品之间的差异性,最大限度地分离各组
2、。2在日常生活中,随处都可以看到浪费粮食的现象。也许你并未意识到自己在浪费,也许你认为浪费这一点点算不了什么5.1 引言v要判定一个样品的归属,理想的情况似乎是能够获得完备的用于分类的信息,以作出准确的判断。但这往往是不太现实的,因为要获得完备的信息可能根本做不到(如红楼梦后四十回的作者到底是谁)要做破坏性的试验(如欲获知某电子仪器的寿命)成本高昂(如许多疾病只有通过代价高昂的手术才能确诊)。v实践中往往是依据不完备信息来进行判别分类的。3在日常生活中,随处都可以看到浪费粮食的现象。也许你并未意识到自己在浪费,也许你认为浪费这一点点算不了什么判别分类的例子v有偿付力与无偿付力的财产责任保险公司
3、。测量变量:总资产,股票与债券价值,股票与债券的市值,损失支出,盈余,签定的保费金额。v非溃疡胃病组(胃功能紊乱者)与控制组(“正常”者)。测量变量:焦虑、依赖性、罪恶感、完美主义的量度。4在日常生活中,随处都可以看到浪费粮食的现象。也许你并未意识到自己在浪费,也许你认为浪费这一点点算不了什么v两种野草。测量变量:萼片与花瓣的长度,花瓣裂缝的深度,苞的长度,花粉直径。v新产品的速购者与迟购者。测量变量:教育,收入,家庭大小,过去更换品牌的次数。v良好信用与不良信用风险。测量变量:收入,年龄,信用卡数目,家庭规模。5在日常生活中,随处都可以看到浪费粮食的现象。也许你并未意识到自己在浪费,也许你认
4、为浪费这一点点算不了什么本章讨论的判别分析v每一组中所有样品的p维指标值 构成了该组的一个p元总体分布。v我们对新样品x进行的判别归类将在很大程度上依赖于各组的总体分布或其分布特征。v距离判别和贝叶斯(Bayes)判别只能用于分类。v费希尔(Fisher)判别即可用于分类,也可用于分离,且更多地用于后者。v这些都是基于判别变量为定量变量的。6在日常生活中,随处都可以看到浪费粮食的现象。也许你并未意识到自己在浪费,也许你认为浪费这一点点算不了什么5.2 距离判别v一、两组距离判别v二、多组距离判别7在日常生活中,随处都可以看到浪费粮食的现象。也许你并未意识到自己在浪费,也许你认为浪费这一点点算不
5、了什么一、两组距离判别v设组1和2的均值分别为1和2,协差阵分别为1和2(1,20),x是一个新样品(p维),现欲判断它来自哪一组。v(基于马氏距离的)判别规则:v1.1=2=时的判别v2.12时的判别8在日常生活中,随处都可以看到浪费粮食的现象。也许你并未意识到自己在浪费,也许你认为浪费这一点点算不了什么1.1=2=时的判别 9在日常生活中,随处都可以看到浪费粮食的现象。也许你并未意识到自己在浪费,也许你认为浪费这一点点算不了什么 其中 。v令 ,则上述判别规则可简化为称W(x)为两组距离判别的(线性)判别函数,称a为判别系数向量。10(5.2.3)在日常生活中,随处都可以看到浪费粮食的现象
6、。也许你并未意识到自己在浪费,也许你认为浪费这一点点算不了什么误判概率v误判概率v设1Np(1,),2Np(2,),则其中 是两组之间的马氏距离。v可见,两个正态组越是分开(即越大),两个误判概率就越小,此时的判别效果也就越佳。当两个正态组很接近时,两个误判概率都将很大,这时作判别分析就没有什么实际意义了。11在日常生活中,随处都可以看到浪费粮食的现象。也许你并未意识到自己在浪费,也许你认为浪费这一点点算不了什么组之间是否已过于接近的界定v我们可对假设H0:1=2,H1:12进行检验,若检验接受原假设H0,则说明两组均值之间无显著差异,此时作判别分析一般会是徒劳的。v若检验拒绝 H0,则两组均
7、值之间虽然存在显著差异,但这种差异对进行有效的判别分析未必足够大,此时还应看误判概率是否超过了一个合理的水平。12在日常生活中,随处都可以看到浪费粮食的现象。也许你并未意识到自己在浪费,也许你认为浪费这一点点算不了什么v例5.2.1 设p=1,1和2的分布分别为N(1,2)和N(2,2),1,2,2均已知,12,则判别系数a=(12)/20,判别函数:判别规则:误判概率:误判概率图示:13在日常生活中,随处都可以看到浪费粮食的现象。也许你并未意识到自己在浪费,也许你认为浪费这一点点算不了什么抽取样本估计有关未知参数v设 是来自组1的样本,是来自组2的样本,n1+n22p,则1和2的一个无偏估计
8、分别为的一个联合无偏估计为其中14在日常生活中,随处都可以看到浪费粮食的现象。也许你并未意识到自己在浪费,也许你认为浪费这一点点算不了什么v实际使用的判别函数为这里 。其判别规则为v若1和2都为正态组,则两个误判概率P(2|1)和P(1|2)可估计为其中。该误判概率的估计是有偏的,但大样本时偏差的影响是可以忽略的。15(5.2.5)在日常生活中,随处都可以看到浪费粮食的现象。也许你并未意识到自己在浪费,也许你认为浪费这一点点算不了什么误判概率的非参数估计v若两组不能假定为正态组,则P(2|1)和 P(1|2)可以用样本中样品的误判比例来估计,通常有如下三种非参数估计方法:v(1)回代法令n(2
9、|1)为样本中来自1而误判为2的个数,n(1|2)为样本中来自2而误判为1的个数,则P(2|1)和P(1|2)可估计为 该方法简单、直观,且易于计算。但遗憾的是,它给出的估计值通常偏低,除非n1和n2都非常大。16在日常生活中,随处都可以看到浪费粮食的现象。也许你并未意识到自己在浪费,也许你认为浪费这一点点算不了什么出现误判率低估的原因v同样的样本信息被重复使用。判别函数自然对构造它的样本数据有更好的适用性,以致出现偏低的误判率。17在日常生活中,随处都可以看到浪费粮食的现象。也许你并未意识到自己在浪费,也许你认为浪费这一点点算不了什么v(2)划分样本将整个样本一分为二,一部分作为训练样本,用
10、于构造判别函数,另一部分用作验证样本,用于对该判别函数进行评估。误判概率用验证样本的被误判比例来估计,其估计是无偏的。该方法的两个主要缺陷:(i)需要用大样本;(ii)该方法构造的判别函数只用了部分样本数据,与使用全部样本数据构造的判别函数相比,损失了过多有价值的信息,其效用自然不如后者,表现为前者的误判概率通常将高于后者的,而后者的误判概率才是我们真正感兴趣的。该缺陷随样本容量的增大而逐渐减弱,甚至可基本忽略。18在日常生活中,随处都可以看到浪费粮食的现象。也许你并未意识到自己在浪费,也许你认为浪费这一点点算不了什么v(3)交叉验证法(或称刀切法)从组1中取出x1j,用该组的其余n11个观测
11、值和组2的n2个观测值构造判别函数,然后对x1j进行判别,j=1,2,n1。同样,从组2中取出x2j,用这一组的其余n21个观测值和组1的n1个观测值构造判别函数,再对x2j作出判别,j=1,2,n2。令 n*(2|1)样本中来自1而误判为2的个数n*(1|2)为样本中来自2而误判为1的个数 则两个误判概率P(2|1)和P(1|2)的估计量为它们都是接近无偏的估计量。19在日常生活中,随处都可以看到浪费粮食的现象。也许你并未意识到自己在浪费,也许你认为浪费这一点点算不了什么v以上所述误判概率的这三种非参数估计方法同样适用于其它的判别方法或判别情形,并且可类似地推广到多组的情形。20在日常生活中
12、,随处都可以看到浪费粮食的现象。也许你并未意识到自己在浪费,也许你认为浪费这一点点算不了什么2.12时的判别v判别规则:v也可采用另一种形式:选择判别函数为 它是x的二次函数,相应的判别规则为 21(5.2.10)在日常生活中,随处都可以看到浪费粮食的现象。也许你并未意识到自己在浪费,也许你认为浪费这一点点算不了什么v例5.2.2 在例5.2.1中,设1和2这两个组的方差不相同,分别为,这时当1x0),2(0),k(0),x到总体i的平方马氏距离为判别规则为 v该判别规则不受变量单位的影响。v若1=2=k=,则上述判别规则可简化。d2(x,i)=(xi)1(xi)=x1x2i1x+i1i =x
13、1x2(Iix+ci)其中 ,判别规则简化为24在日常生活中,随处都可以看到浪费粮食的现象。也许你并未意识到自己在浪费,也许你认为浪费这一点点算不了什么这里Iix+ci为线性判别函数。v当组数k=2时,可将上式写成v它等价于(5.2.3)式的判别规则:因为25(5.2.14)(5.2.15)在日常生活中,随处都可以看到浪费粮食的现象。也许你并未意识到自己在浪费,也许你认为浪费这一点点算不了什么v实践中1,2,k和1,2,k一般都是未知的,它们的值可由相应的样本估计值代替。设 是从组i中抽取的一个样本,则i可估计为(i=1,2,k)。26在日常生活中,随处都可以看到浪费粮食的现象。也许你并未意识
14、到自己在浪费,也许你认为浪费这一点点算不了什么1=2=k=的情形v的联合无偏估计为其中n=n1+n2+nk,为第i组的样本协方差矩阵。v实际应用中使用的判别规则是其中 。27(5.2.17)在日常生活中,随处都可以看到浪费粮食的现象。也许你并未意识到自己在浪费,也许你认为浪费这一点点算不了什么1,2,k不全相等的情形vi可估计为Si(i=1,2,k)。v实际应用中使用的判别规则是其中28(5.2.18)在日常生活中,随处都可以看到浪费粮食的现象。也许你并未意识到自己在浪费,也许你认为浪费这一点点算不了什么判别分类是否有效v除非各组均值向量之间有明显的差异,否则就不适合作判别分类。v在各组数据满
15、足一定的条件下,可先进行多元方差分析。如果检验没有发现均值间有显著差异,则此时再作判别分类将是白费精力如果检验结果有显著差异,则可考虑再进行判别分类,但并不意味着所作的判别一定有效,最终还得看一下误判概率。29在日常生活中,随处都可以看到浪费粮食的现象。也许你并未意识到自己在浪费,也许你认为浪费这一点点算不了什么采用线性还是二次判别函数的策略v(1)一般而言,如果各组的样本容量普遍较小,则选择线性判别函数应是一个较好的策略。相反地,如果各组的样本容量都非常大,则更倾向于采用二次判别函数。v(2)对1,2,k作齐次性检验,即检验假设H0:1=2=k,H1:1,2,k不全相等即使检验所需的正态性假
16、定能够满足,检验的结果也只能作为重要的参考依据,而不宜作为决定性的依据,最终还是应视具体的情况而定。30在日常生活中,随处都可以看到浪费粮食的现象。也许你并未意识到自己在浪费,也许你认为浪费这一点点算不了什么v(3)我们有时也凭直觉判断一下计算出的S1,S2,Sk是否比较接近,以决定是否应假定各组的协方差矩阵相等。v(4)如果对使用线性还是二次判别函数拿不准,则可以同时采用这两种方法分别进行判别,然后用交叉验证法来比较其误判概率的大小,以判断到底采用哪种方法更为合适。但小样本情形下得到的误判概率估计不够可靠。31在日常生活中,随处都可以看到浪费粮食的现象。也许你并未意识到自己在浪费,也许你认为
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 应用多元统计分析 应用 多元 统计分析 第五 ppt 课件
限制150内