厦门大学应用多元统计分析第4判别分析.ppt
《厦门大学应用多元统计分析第4判别分析.ppt》由会员分享,可在线阅读,更多相关《厦门大学应用多元统计分析第4判别分析.ppt(62页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、厦门大学应用多元统计分析第4判别分析 Still waters run deep.流静水深流静水深,人静心深人静心深 Where there is life,there is hope。有生命必有希望。有生命必有希望第一节第一节 引言引言n在我们的日常生活和工作实践中,常常会遇到判别分析问题,在我们的日常生活和工作实践中,常常会遇到判别分析问题,即根据历史上划分类别的有关资料和某种最优准则,确定一即根据历史上划分类别的有关资料和某种最优准则,确定一种判别方法,判定一个新的样本归属哪一类。例如,某医院种判别方法,判定一个新的样本归属哪一类。例如,某医院有部分患有肺炎、肝炎、冠心病、糖尿病等病人的
2、资料,记有部分患有肺炎、肝炎、冠心病、糖尿病等病人的资料,记录了每个患者若干项症状指标数据。现在想利用现有的这些录了每个患者若干项症状指标数据。现在想利用现有的这些资料找出一种方法,使得对于一个新的病人,当测得这些症资料找出一种方法,使得对于一个新的病人,当测得这些症状指标数据时,能够判定其患有哪种病。又如,在天气预报状指标数据时,能够判定其患有哪种病。又如,在天气预报中,我们有一段较长时间关于某地区每天气象的记录资料中,我们有一段较长时间关于某地区每天气象的记录资料(晴阴雨、气温、气压、湿度等),现在想建立一种用连续(晴阴雨、气温、气压、湿度等),现在想建立一种用连续五天的气象资料来预报第六
3、天是什么天气的方法。这些问题五天的气象资料来预报第六天是什么天气的方法。这些问题都可以应用判别分析方法予以解决。都可以应用判别分析方法予以解决。n把这类问题用数学语言来表达,可以叙述如下:设有把这类问题用数学语言来表达,可以叙述如下:设有n个样个样本,对每个样本测得本,对每个样本测得p项指标(变量)的数据,已知每个样项指标(变量)的数据,已知每个样本属于本属于k个类别(或总体)个类别(或总体)G1,G2,Gk中的某一类,且中的某一类,且它们的分布函数分别为它们的分布函数分别为F1(x),F2(x),Fk(x)。我们希。我们希望利用这些数据,找出一种判别函数,使得这一函数具有某望利用这些数据,找
4、出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来,种最优性质,能把属于不同类别的样本点尽可能地区别开来,并对测得同样并对测得同样p项指标(变量)数据的一个新样本,能判定项指标(变量)数据的一个新样本,能判定这个样本归属于哪一类。这个样本归属于哪一类。n 判别分析内容很丰富,方法很多。判断分析按判别的总体数判别分析内容很丰富,方法很多。判断分析按判别的总体数来区分,有两个总体判别分析和多总体判别分析;按区分不来区分,有两个总体判别分析和多总体判别分析;按区分不同总体所用的数学模型来分,有线性判别和非线性判别;按同总体所用的数学模型来分,有线性判别和非线性判别
5、;按判别时所处理的变量方法不同,有逐步判别和序贯判别等。判别时所处理的变量方法不同,有逐步判别和序贯判别等。判别分析可以从不同角度提出问题,因此有不同的判别准则,判别分析可以从不同角度提出问题,因此有不同的判别准则,如马氏距离最小准则、如马氏距离最小准则、Fisher准则、平均损失最小准则、最准则、平均损失最小准则、最小平方准则、最大似然准则、最大概率准则等等,按判别准小平方准则、最大似然准则、最大概率准则等等,按判别准则的不同又提出多种判别方法。本章仅介绍常用的几种判别则的不同又提出多种判别方法。本章仅介绍常用的几种判别分析方法:距离判别法、分析方法:距离判别法、Fisher判别法、判别法、
6、Bayes判别法和逐步判别法和逐步判别法。判别法。第二节第二节 距离判别法距离判别法一一 马氏距离的概念马氏距离的概念 二二 距离判别的思想及方法距离判别的思想及方法 三三 判别分析的实质判别分析的实质 一、马氏距离的概念一、马氏距离的概念n 图图4.1n为为此此,我我们们引引入入一一种种由由印印度度著著名名统统计计学学家家马马哈哈拉拉诺诺比比斯斯(Mahalanobis,1936)提出的)提出的“马氏距离马氏距离”的概念。的概念。n 二、距离判别的思想及方法二、距离判别的思想及方法 1、两个总体的距离判别问题、两个总体的距离判别问题n 问题:设有协方差矩阵问题:设有协方差矩阵相等的两个总体相
7、等的两个总体G1和和G2,其均值,其均值分别是分别是 1和和 2,对于一个新的样品,对于一个新的样品X,要判断它来自哪个总,要判断它来自哪个总体。体。n 一般的想法是计算新样品一般的想法是计算新样品X到两个总体的马氏距离到两个总体的马氏距离D2(X,G1)和和D2(X,G2),并按照如下的判别规则进行判断,并按照如下的判别规则进行判断n这个判别规则的等价描述为:求新样品这个判别规则的等价描述为:求新样品X到到G1的距离与到的距离与到G2的距离之差,如果其值为正,的距离之差,如果其值为正,X属于属于G2;否则;否则X属于属于G1。n我们考虑我们考虑 n n n n这里我们应该注意到:这里我们应该
8、注意到:2、多个总体的距离判别问题、多个总体的距离判别问题n n n n 三、判别分析的实质三、判别分析的实质n我们知道,判别分析就是希望利用已经测得的变量数据,找我们知道,判别分析就是希望利用已经测得的变量数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来。为了更清楚的认识于不同类别的样本点尽可能地区别开来。为了更清楚的认识判别分析的实质,以便能灵活的应用判别分析方法解决实际判别分析的实质,以便能灵活的应用判别分析方法解决实际问题,我们有必要了解问题,我们有必要了解“划分划分”这样概念。这样概念。
9、n设设R1,R2,Rk是是p维空间维空间R p的的k个子集,如果它们互不个子集,如果它们互不 相交,且它们的和集为相交,且它们的和集为R p,则称,则称R1,R2,Rk为为R p的一的一个划分。个划分。n n 这样我们将会发现,判别分析问题实质上就是在某种意义上,这样我们将会发现,判别分析问题实质上就是在某种意义上,以最优的性质对以最优的性质对p维空间维空间R p构造一个构造一个“划分划分”,这个,这个“划分划分”就构成了一个判别规则。这一思想将在后面的各节中体现就构成了一个判别规则。这一思想将在后面的各节中体现的更加清楚。的更加清楚。第三节第三节 贝叶斯(贝叶斯(Bayes)判别法)判别法一
10、一 Bayes判别的基本思想判别的基本思想 二二 Bayes判别的基本方法判别的基本方法 n从上节看距离判别法虽然简单,便于使用。但是该方法也有从上节看距离判别法虽然简单,便于使用。但是该方法也有它明显的不足之处。它明显的不足之处。第一,判别方法与总体各自出现的概率的大小无关;第一,判别方法与总体各自出现的概率的大小无关;第二,判别方法与错判之后所造成的损失无关。第二,判别方法与错判之后所造成的损失无关。Bayes判别判别法就是为了解决这些问题而提出的一种判别方法。法就是为了解决这些问题而提出的一种判别方法。一、一、Bayes判别的基本思想判别的基本思想n n n n 二、二、Bayes判别的
11、基本方法判别的基本方法n n如果已知样品如果已知样品X来自总体来自总体Gi 的先验概率为的先验概率为qi,则在规则则在规则R下,由(下,由(4.12)式知,误判的总平均损失为)式知,误判的总平均损失为n n n n 第四节第四节 费歇(费歇(Fisher)判别法)判别法一一 Fisher判别的基本思想判别的基本思想 二二 Fisher判别函数的构造判别函数的构造 三三 线性判别函数的求法线性判别函数的求法 nFisher判别法是判别法是1936年提出来的,该方法的主要思想是通过年提出来的,该方法的主要思想是通过将多维数据投影到某个方向上,投影的原则是将总体与总体将多维数据投影到某个方向上,投影
12、的原则是将总体与总体之间尽可能的放开,然后再选择合适的判别规则,将新的样之间尽可能的放开,然后再选择合适的判别规则,将新的样品进行分类判别。品进行分类判别。一、一、Fisher判别的基本思想判别的基本思想n 二、二、Fisher判别函数的构造判别函数的构造1、针对两个总体的情形、针对两个总体的情形n 2、针对多个总体的情形、针对多个总体的情形n n 三、线性判别函数的求法三、线性判别函数的求法n n n n这里值得注意的是,本书有几处利用极值原理求极值时,只这里值得注意的是,本书有几处利用极值原理求极值时,只给出了不要条件的数学推导,而有关充分条件的论证省略了,给出了不要条件的数学推导,而有关
13、充分条件的论证省略了,因为在实际问题中,往往根据问题本身的性质就能肯定有最因为在实际问题中,往往根据问题本身的性质就能肯定有最大值(或最小值),如果所求的驻点只有一个,这时就不需大值(或最小值),如果所求的驻点只有一个,这时就不需要根据极值存在的充分条件判定它是极大还是极小而就能肯要根据极值存在的充分条件判定它是极大还是极小而就能肯定这唯一的驻点就是所求的最大值(或最小值)。为了避免定这唯一的驻点就是所求的最大值(或最小值)。为了避免用较多的数学知识或数学上的推导,这里不追求数学上的完用较多的数学知识或数学上的推导,这里不追求数学上的完整性。整性。n 第五节第五节 实例分析与计算机实现实例分析
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 厦门大学 应用 多元 统计分析 判别分析
限制150内