判别分析.doc
《判别分析.doc》由会员分享,可在线阅读,更多相关《判别分析.doc(10页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数学建模概率部分1判别分析判别分析第一节第一节 判别分析概述判别分析概述1、判别分析的基本思想、判别分析的基本思想判别分析应用十分广泛。例如,在工业生产中,要根据某种产品的一些非破坏测试性测试指标判别产品的质量等级;在经济分析中,根据人均国民收入、人均农业产值、人均消费水平等指标判断一个国家的经济发展程度;在考古研究中,根据挖掘的古人头盖骨的容量、周长等判断此人的性别;在地质勘探中,根据某地的地质结构、化探和物探等各项指标来判断该地的矿化类型;在医学诊断中,医生要根据某病人的化验结果和病情征兆判断别人患哪一种疾病等等。可见,判别分析是一种十分使用的统计分析方法。那么判别分析的基本思想是什么呢?
2、用统计的语言来描述就是已知有 g 个总体,每个总体可认为是属于的指标取值的全体,它们的123,gG G GGiGiG12(,)TipXXXX分布函数均为 p 维的函数(贝叶斯方法用到分布) ,对于任一给定的新样品12( ),( ),( )gF x F xF x关于指标 X 的观测值,我们要判断该样品应属于这 g 个总体中的哪一个。12( ,)Tpxx xx在实际应用中,通常由取自各总体的关于指标 X 的样本为该总体的代表,该样本称为训练样本,判别分析即用训练样本中各总体的信息以构造一定的准则来决定新样本的归属问题判别分析即用训练样本中各总体的信息以构造一定的准则来决定新样本的归属问题。训练样本
3、往往是历史上对某现象长期观察或者使用昂贵的试验手段的得到的,因此对当前的新样品,我们自然希望将指标中的信息同各总体训练样本中的信息进行比较,以便在一定程度上判定新样品的所属类型。2、多元正态分布的参数估计、多元正态分布的参数估计在工程实际中,大部分数据都属于正态分布或近似正态分布,即使不是正态分布,也可以根据中心极限定理转换成正态分布,所以正态分布的参数求解是必须的。多元正态分布不再象一元正态分布表达方式那么简单,它的主要参数是均值向量和协方差矩阵(教材概率与数理统计有介绍) ,即为,往往参数都是未知的往往参数都是未知的,( , )N12(,),cov(,)pijp pXX 而这两个参数又是计
4、算不可缺少的,为了解决这个问题,有必要引入下面相关内容:设随机向量 X 服从 p 维正态分布,为来自 X 的样本(np) ,n 为( , )pN12(,)nXXX样本个数,在此每个都为 p 维列随机向量,令iX11ni iXXn数学建模概率部分21()()n T kk iSXXXX称为样本均值向量,S 为样本离差矩阵。若令为样品的观察值,则 S 的观察值为XixiX。1()()n T kk ksxxxx定理:若为来自总体 X 的样本,则12(,)nXXX( , )pXN:(1)和分别是的最大似然估计量,即。而和的最大似然估计值分别XS n,SXn 为与11ni ixxn 11()()n T k
5、k ksxxxxnn(2)和分别是的最小方差无偏估计,而和分别是的最小方差无偏估计X1S n,x1s n,值。注:注:若 X 不为正态总体,则结论可能变得弱些,但是近似计算也是可以应用的。例:假定青黄麻植株的重量与干黄麻植株的重量服从二元正态分布,即1X2X12(,)( , )XXN:今测试了 10 株黄麻,数据如表,试估计均值向量和协方差阵的最小方差无偏估计值。序号123456789101x683645567623432134542x543234121110124128131141125111解: 126854154311110xXx 1010101111111111122222222()(
6、)TT kkkkT kk kkkkkkkxxxxxxxxSXXXXxxxxxxxx=1010 2 111122 111010 2 221122 11()()()()()()kkk kkkkk kkxxxxxxxxxxxx 数学建模概率部分3第二节第二节 距离判别距离判别判别分析的基本思路就是想办法建立一定的判别准则,按照准则判断样品的归属。而建立准则的方法有很多中,比如 fisher 准则,贝叶斯准则,距离判别准则等,这里距离判别比较简单实用,所以以下主要以此准则展开方法介绍。1、距离的简介、距离的简介我们比较熟悉的就是欧式距离,即在几何空间中以几何长度定义的距离:2222 1122pp( ,
7、 )()()()() ()Tdx yxyxyxyxyxy欧式距离在判别过程中主要有两个弊端:一是没有考虑总体分布的分散程度,如果总体分布比较分散,在判断时就会出现归属不清的现象;二是欧式距离大小与度量单位有关,这就给判别带来很大麻烦,如果两个总体单位不同,稍不注意就会造成判断错误。为了克服这样的缺点,下面介绍判别分析中主要的距离度量方法马氏距离马氏距离。定义:定义:设 x,y 是来自总体均值向量为,协方差矩阵为的总体两个样品,则 x,y 两点之间的马氏距离定义为:;21( , )()()Tdx yxyxy定义定义 x 与总体与总体 G 的马氏距离为的马氏距离为:。 (为逆矩阵)21( ,)()
8、()Tdx Gxx1这样要得到马氏距离,只需要将以上公式开方即可。注:可以证明注:可以证明马氏距离与欧式距离有类似性质:非负性、自反性(d(x,y)=d(y,x))和三角不等式,这样就便于理解了。2、两总体的距离判别、两总体的距离判别判别准则:112221, ( ,)( ,), ( ,)( ,)xG d x Gd x GxG d x Gd x G 下面分别就两总体的协方差矩阵相等和不相等两种情况进一步讨论该判别准则。(1)设12 可以证明:,其中221 2112( ,)( ,)2( )2()()Tdx Gdx GW xx121()2则以上的判别准则可以改为:12,( )0,( )0xG W x
9、xG W x 数学建模概率部分4进一步,令,则可表为,分析不难发现 W(x)是 x 的线1 12()TT( )W x( )()TW xx性函数,即我们常用的是线性判别常用的是线性判别,同时也有非线性判别。但实际问题中,通常是未知的,我们所具有的资料只是来自两个 p 维总体的样本样本12, 观测值,称为训练样本观测值,称为训练样本。设为来自的容量为的训练样本(都为 p 维向量) ; 1(1)(1) 1,nxx1G1n(1) ix为总体的训练样本,容量为,这时,可以通过训练样本估计的值(实 2(2)(2) 1,nxx2G2n12, 际上对于实际问题总体的信息很少能够获得,都是近似计算的) 。111
10、2(1)(1)(2)(2) 12 1112(1)(1)(1)(1) 1 1(2)(2)(2)(2) 2 112 121211,()()()()1()21()2nnii iin T ii in T ii ixxxxnnSxxxxSxxxxSSnn 这时,判别函数的估计为:1 12( )()()TW xx则两个总体的距离判别准则为:12,( )0 ,( )0xG W xxG W x(2)设12 两总体协方差不相等时,判别函数就不再是线性的了,不过这并不影响计算,如下:( )W x2211 21222111( )( ,)( ,)()()()()TTW xdx Gdx Gxxxx再利用准则判别:12,
11、( )0,( )0xG W xxG W x 为 x 的二次函数。( )W x实际计算使用估计值11 222111( )()()()()TTW xxxxx例:例:某种职业的适应性资料是进行了两个指标的测验得到的,设“适应该职业”为总体,1G“不适应该职业”为总体,且两总体分别服从和,其中均未知。但根2G1(, )N2(, )N12, 数学建模概率部分5据过去资料估计出。今对某一新人,想知道他是否适合这个职业,122411,6214 先对他进行测验,得成绩,试计算 x 到各总体的马氏距离,并回答此人是否适合这个职3 5x 业?解:属于,应用判别函数12 1 12( )()()TW xx待入数据得,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 判别分析
限制150内