欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    多元统计分析讲义(第三章)(共26页).doc

    • 资源ID:14556424       资源大小:1.58MB        全文页数:26页
    • 资源格式: DOC        下载积分:20金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要20金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    多元统计分析讲义(第三章)(共26页).doc

    精选优质文档-倾情为你奉上注意电子文档使用范围Equation Chapter 1 Section 1多 元 统 计 分 析Multivariate Statistical Analysis主讲:统计学院 许启发(xuqifa1975)统计学院应用统计学教研室School of Statistics2004年9月第三章 判别分析【教学目的】1 让学生了解判别分析的背景、基本思想;2 掌握判别分析的基本原理与方法;3 掌握判别分析的操作步骤和基本过程;4 学会应用聚类分析解决实际问题。【教学重点】1 注意判别分析与聚类分析的关系(联系与区别);2 阐述各种判别分析方法。§1 概述一、 什么是判别分析1研究背景科学研究中,经常会遇到这样的问题:某研究对象以某种方式(如先前的结果或经验)已划分成若干类型,而每一类型都是用一些指标来表征的,即不同类型的的观测值在某种意义上有一定的差异。当得到一个新样本观测值(或个体)的关于指标的观测值时,要判断该样本观测值(或个体)属于这几个已知类型中的哪一个,这类问题通常称为判别分析。也就是说,判别分析(discriminant analysis)是根据所研究个体的某些指标的观测值来推断该个体所属类型的一种统计方法。判别分析的应用十分广泛。例如,在工业生产中,要根据某种产品的一些非破坏性测量指标判别产品的质量等级;在经济分析中,根据人均国民收入,人均工农业产值,人均消费水平等指标判断一个国家的经济发展程度;在考古研究中,根据挖掘的古人头盖骨的容量,周长等判断此人的性别;在地质勘探中,根据某地的地质结构,化探和物探等各项指标来判断该地的矿化类型;在医学诊断中,医生要根据某病人的化验结果和病情征兆判断病人患哪一种疾病,等等。值得注意的是,作为一种统计方法,判别分析所处理的问题一般都是机理不甚清楚或者基本不了解的复杂问题,如果样本观测值的某些观测指标和其所属类型有必然的逻辑关系,也就没有必要应用判别分析方法了。2基本思想及意义用统计的语言来描述判别分析,就是已知有个总体(每个总体可认为是属于的指标取值的全体),它们的分布函数均为p维函数,对于任一给定的新样本观测值关于指标的观测值,我们要判断该样本观测值应属于这g 个总体中的哪一个。在实际应用中,通常由取自各总体的关于指标的样本为该总体的代表,该样本称为训练样本。判别分析即提取训练样本中各总体的信息以构造一定的准则来决定新样本观测值的归属问题。训练样本往往是历史上对某现象长期观测或者是用昂贵的试验手段得到的,因此对当前的新样本观测值,我们自然希望将其指标值中的信息同各总体训练样本中的信息作比较,使可在一定程度上判定新样本观测值的所属类型。概括起来,下述几个方面体现了判别分析的重要意义。第一,为未来的决策和行动提供参考。例如,以前对一些公司在破产前两年观测到某些重要的金融指标值。现在,要根据另一个同类型公司的这些指标的观测值,预测该公司两年后是否将濒临破产的危险,这便是一种判别,其结论可以帮助该公司决策人员及早采取措施,防止将来可能破产的结局。第二,避免破产的破坏。例如,一只灯泡的寿命只有将它用坏时才能得知;一种材料的强度只有将它压坏时才能获得。一般地,我们希望根据一些非破坏性的测量指标,便可将产品分出质量等级,这也要用到判别分析。第三,减少获得直接分类信息的昂贵代价。例如在医学诊断中,一些疾病可用代价昂贵的化验和手术得到确诊,但通常人们往往更希望通过便于观测(从而也可能导致误诊)的一些外部症状来诊断,以避免过大的开支和对患有不必要的损伤。第四,在直接分类信息不能获得的情况下可用判别分析。例如,要判断某未署名的文学作品是否出自某已故作家之手,很显然,我们不能直接去问他。这时可以用这位已故作家署名作品的写作特点(用一些变量描述)为训练样本,用判别分析方法在一定程度上判定该未署名作品是否由该作家所作。从以上例子也可以清楚地看到,如果不是利用直接明确的分类信息来判断某样本观测值的归属问题,难免会出现误判的情况。判别分析的任务是依据训练样本所提供的信息,建立在某种意义下最优(如误判概率最小,或误判损失最小等)的准则来判定一个新样本属于哪一个总体。根据判别准则的不同,我们主要介绍距离判别、Fisher判别和Bayes判别。二、 判别分析的分类及准则1分类(1)按照判别组数分:两组判别和多组判别;(2)按照所用的数学模型分:线性判别和非线性判别;(3)按照处理度量的方法分:逐步判别和序贯判别。2准则主要有:马氏距离最小准则,Fisher准则,平均损失最小准则,最小平方准则,最大似然准则,最大概率准则。并可由此提出判别方法:距离判别法,Fisher判别法,Bayes判别法,逐步判别法。三、 判别分析与聚类分析判别分析是用以判别个体所属群体的一种统计分析方法,产生于20世纪30年代。判别分析是在已知研究对象分成若干类型(或组别)并已取得各种类型的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,然后对未知样品进行判别分类。聚类分析,一批给定样品要划分的类型事先并不知道,正需要通过聚类分析来给以确定类型。判别分析与聚类分析经常结合使用:通过聚类分析首先确定出几个类型,对难以分类的样品再使用判别分析,确定其类别归属。§2 距离判别法距离判别是通过定义样本指标的观测值(p维)到各总体的距离,以其大小判定样本观测值属于哪个总体。常用的距离是Mahalanobis距离(简称马氏距离),其定义如下:设G是p维总体,均值向量为,协方差矩阵为,定义p维样本到总体G的马氏距离为一、 基本思想首先根据已知分类的数据,分别计算各类的重心即分组(类)的均值。判别准则是对任给的一次观测,若它与第类的重心距离最近,就认为它来自第类。距离判别法对各类总体分类并无特殊的要求。二、 两个总体的距离判别法设有两个总体(或称两类)、,其均值向量和协差阵分别为和,从第一个总体中抽取个样品,从第二个总体中抽取个样品,每个样品测量个指标。总体 总体变量样品变量样品均值均值任取一样品(待判),实测指标值为,问应归并为哪一类?1计算到总体和的距离,分别记为:和;2判别3距离的定义(马氏距离)(1)当时此时,考察样品到两总体的马氏距离的平方差,由于其中,。令,则判别准则可以简化为:更进一步,令,则可表示为:上式表明,当和均已知时,是的线性函数,称之为线性判别,称之为判别系数。线性判别函数因其使用方便而得到广泛的应用。但在实际问题中,和通常是未知的,我们所具有的资料只是来自两个总体的训练样本。这时,可以通过训练样本对及作估计。设为来自的样本(每个均为维列向量),则 式中,为样本的协差阵。和为无偏估计。这时,判别函数的估计为其中,。则NOTE:对于当维时,若两个总体的分布分别为和,属于多维的一种特例。教材P105给出该特例形式,并且给出了错判的概率。(2)当时正如本节开始所述,可由和的大小判定属于哪个总体,或令作为判别函数,这时判别函数是的二次函数。实际应用中,若和未知,可用总体的训练样本对它们作估计,从而得到判别函数的估计为其中,与表达同上。三、 多个总体的距离判别 将两个总体的情况推广到多个总体。设有个p维总体,均值向量分别为,协方差矩阵分别为,从每个总体中抽取个样品,每个样品测量个指标()。类似两总体的距离差别,计算新样本观测值到各总体的距离,比较这个距离,判定属于其距离最短的总体(若最短距离不惟一,则可将归于具有最短距离总体中的任一个,因此,不妨设最短距离惟一)。下面仍就各协方差矩阵相等和不等的情况予以详细讨论。1当时此时,由前面的马氏距离定义知:,则判别函数为:则到的距离最小等价于对所有的,有,从而判别准则可以写为当和通常是未知的,可以利用各总体的训练样本对其进行估计,得到估计的判别函数。设为来自的样本(每个均为维列向量),则 式中,为的样本离差阵。和为无偏估计。2当不全相等时这时只需直接计算,若,则判。同样地,若和是未知的,则可以用它们的估计量和计算得到到各总体的距离,从而进行判断。或者,可以构造判别函数判别准则同上。四、 判别准则的评价当一个判别准则提出以后,很自然的问题就是它们的优良性如何。通常,一个判别准则的优劣,用它的误判概率来衡量。以两总体为例,一个判别准则的误判概率即属于而判归或者相反的概率。但只有当总体的分布完全已知时,才有可能精确计算误判概率。在实际应用中,这种情况是很少见的,因为在大多数情况下,我们可利用的资料只是来自各总体的训练样本,而总体的分布是未知的。下面我们以两个总体为例,介绍两种以训练样本为基础的评价判别准则优劣的方法。它们也很容易推广到多个总体的情况。1貌似误判率方法当利用各总体的训练样本构造出判别准则后,评价此准则优劣的一个可行的办法是通过对训练样本中的各样本逐个回判(即将各样本观测值代入判别准则中进行再判别),利用回判的误判率来衡量判别准则的效果,具体方法如下:设和为两个总体,为来自和的容量分别为和的训练样本,以此按一定方法(如距离判别法)构造一个判别准则(或判别函数),以全体训练样本作为个新样本,逐个代入已建立的判别准则中判别其归属,这个过程称为回判。为明了起见,将回判结果连同其实际分类列成如下的四格表3.1。表3.1 两总体回判结果回判情况实际归类合计其中,代表属于的样品被正确判归的个数;代表属于的样品被正确判归的个数;代表属于的样品被正确判归的个数;代表属于的样品被正确判归的个数。定义貌似误判率为回归中判错样品的比例,记为,即在一定程度上反映了某判别准则的误判率且对任何误判准则都易于计算。但是,是由建立判别函数的数据反过来又用作评估准则优劣的数据而得到的,因此作为真实误判率的估计是有偏的,往往要比真实的误判率来的小。但作为误判概率的一种近似,当训练样本容量较大时,还是具有一定的参考价值。2.刀切法刀切法也称为Lachenbruch删除法或交差确认法(Cross-Validation)。其基本思想是每次剔除训练样本中的一个样本,利用其余容量为的训练样本建立判别准则(或判别函数),再用所建立的判别准则对删除的那个样本观测值作判断,对训练样本中的每个样本观测值重复上述步骤,以其误判的比例作为误判概率的估计。具体地说:(1)从总体的容量的训练样本开始,剔除其中的一个样本观测值,用剩余的容量为的训练样本和总体的容量为的训练样本建立判别函数;(2)用(1)中建立的判别函数对删除的那个样本观测值作判别;(3)重复步骤(1)和(2),直到的训练样本中的个样本观测值依次被删除和判别,用记误判的样本观测值个数;(4)对总体的训练样本重复步骤(1),(2)和(3),并用记误判的样本观测值个数。则总的误判比例为可以证明它是实际误判概率的渐近无偏估计。刀切法比貌似误判率法要更合理些,但缺点是计算量较大。在SAS等统计软件中有专门的计算程序,因此借助计算机的威力,刀切法还是值得推荐的一种评价判别准则优良性的方法。最后需要指出的是,判别准则的误判率在一定的程度上还依赖于所考虑的各总体之间的分离程度。各总体之间相互离得越远,就越有可能建立有效的判别准则,否则,某些总体靠得很近,使用判别分析本身就意义不大,更不用说建立有效的判别准则了。另外,各总体的协方差矩阵是否相等,严格地说也需要进行统计检验。当各总体服从多元正态分布时,我们可以对各总体的均值向量是否相等进行统计检验以确定使用判别分析是否有意义。同时,也可对各总体的协方差阵是否相等进行检验以确定是采用线性判别函数还是二次判别函数(具体检验方法可参看文献8第五章)。但这些检验方法往往十分复杂,在实际应用中,我们可就协方差矩阵相等和不相等情况下,分别利用线性判别函数和二次判别函数作分析,通过貌似误判率方法或刀切法估计各情况下判别准则的优劣,以选择一个较优的判别准则。SAS软件包含了检验协方差阵相等的程序,因此借助统计软件,可以进行更深入的统计分析。五、 应用举例例3.1 P108。例3.2 P111。§3 费歇(Fisher)判别法这种判别法是历史上最早提出的判别方法之一,也叫线性判别法,该方法对总体的分布无须作出具体的要求。一、 判别原理(基本思想)设是来自第类(组)的样本数据阵,其中的行表示样本点,列表示变量(值),。任给一个样本点,要判断应该属于哪个组别,需要找到的线性判别函数现在的问题是按照什么样的原则选择向量呢?因为向量表示维空间中的一个方向,如果按照这个方向做一条直线(建立一个一维坐标系),那么表示向量在这条直线上投影坐标。同样,将各组样本均值投影到这条直线,得到各组样本均值在这条直线上的投影坐标。显然这些坐标值相距越大,越容易分辨究竟属于哪个组。如图3.1所示,若判别函数选择,由于三个组的重心在的投影相距较远,比较容易判别待判样本点属于哪一个组。反之,若判别函数选择,由于三个组的重心在的投影相距较远,不容易判别待判样本点的归属。Fisher判别法就是要找到一个由个变量组成的线性函数,使得各自组内点的函数值尽可能接近,而不同组之间点的函数值尽可能疏远。具体地,Fisher判别法就是要求的选择能使之间的离差平方和尽量大,使得各组内离差平方和尽量小。其中,因此,可以构造函数选择适当的使得达到最大值。根据极值的必要条件,令由知,于是当成立时,有写成矩阵形式,上式变为其中。上式告诉我们,向量是的特征根对应的单位特征向量。由于有个特征根及单位特征向量,按主成分分析的思想,自然应取最大特征根及相应的单位特征向量,这样构成的判别函数 这里给出的是一维Fisher判别函数。在有些问题中,仅用一个线性判别函数不能很好地区分各个类(组)别,可以利用前若干个特征所对应的单位正交特征向量构造个判别函数,并称为多维判别。可使达到极大。由于的大小可以衡量判别函数的判别效果,故称为判别效率。二、 两总体的Fisher判别1基本原理从两个总体中抽取具有个指标的样品观测数据,借助方差分析的思想构造一个判别函数或判别式:,其中系数确定的原则是使两组间的区别最大,而使每个组内部的离差最小。有了判别式以后,对于一个新样品,将它的个指标代入判别式中求出的值,然后与判别临界值(分界点)进行比较,就可以判别它应属于哪一个总体。2判别函数的导出(1)找到判别式不妨设已经建立了判别式:,则可以得到变换后的两组的重心。第一组样品的重心:第二组样品的重心:组间变差:组内变差:可以构造指标的选取原则就是使得极大化 利用微积分中求极值的必要条件可求出使达到最大的,详细过程见教材P117。其中,。(2)设置判别准则有了判别函数之后,要得到判别准则还要确定临界值(分界点),在两总体先验概率相等的假设下,一般常取为与的加权平均值,即判别准则:当时,若,则判定;若,则判定当时,若,则判定;若,则判定3计算步骤其基本步骤归纳如下:STEP01:建立判别式;STEP02:计算临界值,设置判别准则;STEP03:检验判别效果不妨设两个总体服从正态分布且具有相同的协差阵。构造原假设和备择假设:,构造检验统计量:其中,得出结论:当被拒绝时,认为判别有效;否则,认为判别无效。3应用举例例3.1:教材P121。三、 多总体的Fisher判别其讨论同前,注意和两总体判别之间的关系。§4 贝叶斯(Bayes)判别法统计学中现在有两个主要的学派:频率学派与贝叶斯学派,贝叶斯学派是在与频率学派的争论中逐步发展起来的。争论的问题主要有:未知参数是否可以看作随机变量?事件的概率是否一定要有频率解释?概率是否可以用经验来确定?一、 贝叶斯统计概述为了说明二者的异同,简单介绍三种信息。1总体信息即总体分布或总体所属分布族给我们的信息,譬如,“总体是正态分布”这一句话就给我们带来很多信息:它的密度函数是条钟形曲线;它的切阶矩都存在;有关正态变量的一些事件的概率可以计算;有正态分布可以导出卡方分布、t分布和F分布等重要分布;还有许多成熟的点估计、区间估计和假设检验方法可供我们选用。总体信息是很重要的信息,为了获取此种信息往往耗资巨大。美国军界为了获得某种新的电子元器件的寿命分布,常常购买成千上万个此种元器件,做大量寿命实验、获得大量数据后才能确认其寿命分布是什么。我国为确认国产轴承寿命分布服从两参数威布尔分布前后也花了五年时间,处理几干个数据后才定下的。又如保险费的确定与人的寿命分布密切相关,在保险业中,人的寿命分布被称为寿命表,中国人的寿命表人不同于外国人的寿命表,男人的寿命表不同于女人的寿命表,北方人的寿命表不同于南方人的寿命表,当代人的寿命表与若干年前人的寿命表也是不同的,而要确定这些寿命表是一项耗资费时的工作,至今我国还缺乏此类寿命决。确定我国各类人群的寿命表是我国统计工作者的重要任务。2样本信息即从总体抽取的样本给我们提供的信息。这是最“新鲜”的信息,并巳愈多愈好。人们希望通过对样本的加工和处理对总体的某些特征作比较为精确的统计推断,没有样本就没有统计学可言。基于上述两种信息进行的统计推断被称为经典统计学,它的基本观点是把数据(样本)看成是来自具有一定概率分布的总体,所研究的对象是这个总体,而不局限于数据本身。据现有资料看,这方面最早的工作是高斯(Gauss,17771855)和勒让德(Legendre,17521833)的误差分析、正态分布和最小二乘法。从十九世纪末期到二十世纪上半叶,经皮尔逊(Pearson, 18571936)、费歇尔(Fisher,18901962)奈曼(Keyman)的等人杰出的工作创立了经典统汁学。如今统计学教材几乎全是叙述经典统汁学的理论与方法。二十世纪下半叶,经典统计学在工业、农业、医学、经济、管理、军事等领域里获得了广泛的应用。这些领域中又不断提出新的统计问题,这又促进了经典统计学的发展,随着经典统计学的持续发展与广泛应用、它本身的缺陷也逐渐暴露出来,主要集中在:小样本问题研究上、区间估计的解释上、似然原理的认识上。除上述两种信息外,在我们周围还存在第三种信息先验信息,它也可用于统计推断。3先验信息即在抽样之前有关统计问题的一些信息,一般说来,先验信息主要来源于经验和历史资料。先验信息在日常生活和工作中也经常可见,不少人在自觉地或不自觉地使用它。看下面二个例子。例1 英国统计学家Savage(1961)曾考察如下二个统计实验:A一位常饮牛奶加茶的妇女声称,她能辨别先倒进杯子里的是茶还是牛奶。对此做了十次试验她都正确地说出了。B一位音乐家声称,他能从一页乐谱辨别出是海顿(Haydn)还是莫扎持(Mozart)的作品。在这十次试验中,他都能正确辨别。在这两个统计试验中,假如认为被实验者是在猜测,每次成功概率为0.5,那么十次都猜中的概率为,这是个很小的概率,是几乎不可能发生的,所以“每次成功概率为0.5”的假设应被拒绝。被实验者每次成功概率要比0.5大得多。这就不是猜测,而是他们的经验在帮了他们的忙。可见经验(先验信息的一种)在推断中不可忽视,应加以利用。例2 “免检产品”是怎样决定的?某厂的产品每天都要抽检几件,获得不合格品率的估计。经过一段时间后就积累大量的资料,根据这些历史资料(先验信息的一种)对过去产品的不合格率可构造一个分布:这个对先验信息进行加工获得的分布称为先验分布。这个先验分布是综合了该厂过去产品的质量情况。如果这个分布的概率绝大部分集中在附近,那该产品可认为足“信得过产品”。假如以后的多次抽检结果与历史资料提供的先验分布是一致的。使用单位就可以对它作出“免检产品”的决定,或者每月抽检一、二次就足够丁,这就省去了大量的人力与物力。可见历史资料在统计推断中应加以利用。基于上述三种信息(总体信息、样本信息和先验信息)进行的统计推断被称为贝叶斯统计学,它与经典统计学的主要差别在于是否利用先验信息。在使用样本信息上也是有差异的。贝叶斯学派重视已出现的样本观察值,而对尚未发生的样本观察值不予考虑,贝叶斯学派很重视先验信息的收集、挖掘和加工,使它数量化,形成先验分市,参加到统计推断中来,以提高统计推断的质虽。忽视先验信息的利用,有时是一种浪费,有时还会导致不合理的结论。贝叶斯统计起源于英国学者贝叶斯(Bayes,1702一1761)死后发表的一篇论文“论有关机遇问题的求解”。在此论文中他提出著名的贝叶斯公式和一种归纳推理方法。随后拉普拉斯等人用贝叶斯提出的方法导出些有意义的结果。之后虽有一些研究和应用,但由于其理论尚不完整,应用中又出现些问题,致使贝叶斯方法长期未被普遍接受。真到二次大战后,瓦尔德提出统计决策函数论后又引起很多人对贝叶斯方法研究的兴趣。因为在这个理论中贝叶斯解被认为是一种最优决策函数。在Savage(1954)、Jeffreys(1961)、Good(1950)、Lindley(1961)、Box(1973)、Tiao(1973)、Berger(1985)等贝叶斯学者的努力下,对贝叶斯方法在观点、方法和理论上不断的完善。另外在这段时期贝叶斯统计在工业、经济、管理等领域内获得一批无可非议的成功应用。贝叶斯统计的研究论文和著作愈来愈多,国际会议也经常举行。如今贝叶斯统计已趋成熟,贝叶斯学派巳发展成为一个有影响的统计学派,开始打破了经典统汁学一统天下的局面。贝叶斯学派的最基本的观点是:任一个未知量都可看作一个随机变量,应用一个概率分布去描述对的未知状况。这个概率分布是在抽样前就有的关于的先验信息的概率陈述。这个概率分布被称为先验分布。有时还简称为先验(Prior)。因为任一未知量都有不确定性,而在表述不确定性程度时,概率与概率分心是最好的语言。例3 学生估计一新教师的年龄。依据学生们的生活经历,在看了新教师的照片后立即会有反应:“新教师的年龄在20岁到40岁之间,极有可能在30岁左右。”一位统计学家与学生们交谈,明确这句话中“左右”可理解为岁,“极有可能”可理解为90%的把握。于是学生们对新教师年龄(未知量)的认识(先验信息)可综合为图所示的概率分布,这也是学生们对未知量(新教师年龄)的概率表述。5%5%90%2025353040这里有二个问题需要进步讨论。第一,按图所示的概率分布我们可谈论未知量位于某个区间的概率。譬如,位于37到43岁间的概率为0.90、即可这个概率陈述在经典统计中是不允许的,因为经典统计认为是常量,它要么在37岁列43岁之间(概率为1),要么在这个区间之外(上述事件概率为0),不应有0.9的概率。然而,实际这种说法经常存在。第二,图中的概率0.90为是在大量重复试验个获得的,而是学生们根据自己的生活经历的积累对该事件发生可能性所给出的信念,这样给出的概率在贝叶斯统计中是允许的,并称为它为主观概率。它与古典概率和用频率确定的概率有相同的含义,只要它符合概率的三条公理即可。这点频率学派是难以接受的,他们认为经典统计学是用大量重复试验的频率来确定概率、是“客观的”,因此符合科学的要求,而认为贝叶斯统计是“主观的”,因比(至多)只对个人作决策有用。这是当前对贝叶斯统计的主要批评。贝叶斯学派认为引入主观概率及由此确定的先验分布至少把概率与统计的研究与应用范围扩大到不能大量重复的随机现象中来。其次,主观概率的确定不是随意的,而是要求当事人对所考察的事件有较透彻的了解和丰富的经验,甚至是这一行的专家,在这个基础上确定的主观概率就能符合实际。把这样一些有用的先验信息引入统计推断中来只会有好处,当然误用主观概率与先验分布的可能性是存在的。最后,贝叶斯学派也经常揭露频率学派的“客观性”,总体分布的选择对答案所产生的影响远比先验分布选择所产生的影响重大的多,而前者恰好也经常是主观的。另外评价一个统计方法好坏的标准上的选择,主观性也是很大的,都朝着对自己有利的方向选择。Good(1973)说得直截了当:“主观主义者直述他的判断,而客观主义者以假设来掩盖其判断,并以此享受科学客观性的荣耀。”4贝叶斯公式贝叶斯公式的事件形式在初等概率中都有叙述,这里用随机变量的密度函数叙述贝叶斯公式,从中介绍贝叶斯学派的一些具体想法。全概率公式定义1:把基本空间分为n个事件,假如:(1);(2)之间互不相容;(3)则称事件组为基本空间的一个分割。B1B5B2B4B3定理1(全概率公式):设事件基本空间的一个分割,则对中任一事件,有定理2(贝叶斯公式的事件形式):设事件基本空间的一个分割,且它们各自概率皆已知且为正,又设是中一事件,且在诸给定下事件的条件概率可以通过试验手段获得,则在给定下,事件的条件概率为:贝叶斯公式的密度函数形式(1)依赖于参数的密度函数在经典统计中记为或,它表示在参数空间中不同的对应不同的分布。可在贝叶斯统计中记为,它表示在随机变量给定某个值时,总体指标X的条件分布。(2)根据参数的先验信息确定先验分布。这是贝叶斯学派在最近几十年里,重点研究的问题。(3)从贝叶斯观点看,样本的产生要分二步进行。第一步设想从先验分布产生一个样本,这一步是“老天爷”做的,人们是看不到的,故用“设想”二字;第二步是从总体分布产生一个样本,这个样本是具体的,人们能看得到,此样本x发生的概率是与如下联合密函数成正比这个联合密度函数是综合了总体信息和样本信息,常称为似然函数,记为。频率学派和贝叶斯学派都承认似然函数,他们都认为:在有了样本观察值后,总体和样本中所含的信息都被包含布似然函数之中,可在使用似然函数作统计推断时,二派之间存在差异。(4)由于是设想出来的,它仍然是未知的,它是按先验分布而产生的,要把先验信息进行综合,不能只考虑,而应对的一切可能加以考虑。故要用参与进一步综合。这样一来,样本和参数的联合分布把三种可用的信息都综合进去了。(5)我们的任务是要对未知数作出统计推断。在没有样本信息时,人们只能据先验分布对作出推断。在有样本观察值之后,我们应该依据对作出推断。为此我们需要把进行如下分解:其中是的边缘密度函数它与无关,或者说,中不含的任何信息。因此能用来对作出推断的仅是条件分布。它的计算公式是 (1)这就是贝叶斯公式的密度函数形式。这个在样木x给定下,的条件分布被称为的后验分布。它是集中了总体、样本和先验等三种信息中有关的一切信息,而又是排除一切与无关的信息之后所得到的结果。故基于后验分布对进行统计推断是更为有效,也是最合理的。(6)在是离散随机变量时,先验分布可用先验分布列表示。这时后验分布也是离散形式。 (2)假如总体X也是离散的,那只要把(1)或(2)中的密度函数看作概率函数即可。5后验分布是三种信息的综合一般说来,先验分布是反映人们在抽样前对的认识,后验分布是反映人们在抽样后对的认识。之间的差异是由于样本x出现后人们对认识的一种调整。所以后验分布可以看作是人们用总体信息和样本信息(综合称为抽样信息)对先验分布作调整的结果。例 为了提高某产品质量,公司经理考虑增加投资来改进土产设备,预计需投资90万元,但从投资效果看,下属部门有二种意见:改进生产设备后,高质量广品可占90改进生产设备后,高质量产品可占70经理当然希望发生,公司效益可得很大提高,投资改进设备也是合算的。但根据下属二个部门过去建议被采纳的情况、经理认为,的可信程度只有40,的可信程度只有60。即,这二个都是经理的主观概率。经理不想仅用过去的经验来决策此事,想慎重一些,通过小规模试验后观其结果再定。为此做了一项试验,试验结果(记为A)如下:A:试制五个产品,全是高质量的产品。经理对这次试验结果很高兴希望用此试验结果来修改他原先对和的看法,即要求后验概率与。这可用贝叶斯公式的离散形式(2)来完成。如今已有先验慨率与。还需要二个条件概率与,这可用二项分布算得,由全概率公式可算得。最后由(2)式可算得这表明,经理根据试验A的信息调整自已的看法,把对和的可信度04和0.6调整到07和03。后老是综合了经理的主观概率和试验结果而获得的,要比主观概率更有吸引力,更贴近当今的实际,这就是贝叶斯公式的应用。经过实验A后,经理对增加投资改进质量的兴趣增大。但因投资额大,还想再做一次小规模试验,观其结果再作决策。为此又做了一批试验,试验结果(记为B)如下:B:试制10个产品,有9个是高质量产品。经理对此试验结果更为高兴。希望用此试验结果对和再作一次调整。为此把上次后验概率看作这次的先验概率,即,用二项分布还可算得由此可算得和后验概率,。经理看到,经过二次试验,(高质量产品可占90)的概率已上升到0.883,到可以下决心的时候了,他能以883的把握保证此项投资能取得较大经济效益。二、 Bayes判别的基本思想Bayes统计的基本思想:假定对所研究的对象(总体)在抽样前已有一定的认识,常用先验概率分布来描述这种认识。然后基于抽取的样本再对先验认识作修正,得到所谓后验概率分布,而各种统计推断都基于后验概率分布来进行。将Bayes统计的思想用于判别分析,就得到Bayes判别方法。设为个维总体,分别具有互不相同的维概率密度函数。在进行判别分析之前,我们往往已对各总体有一定了解,实际中通常表现在某些总体较之其它总体出现的可能性会相对大一些。例如,对某厂生产的产品,正品总比次品多,即出现的样本观测值属于正品总体的可能性要比属于次品总体的可能性要相对大一些。又如,在全年365天中,发生大地震的可能性要比无大地震或无地震的可能性要小得多。因此,一个合理的判别准则应该考虑到每个总体出现的可能性的大小(即先验概率分布)。一般来说,将一个随机样本观测值应该首先考虑判入有较大可能出现的总体中。设这个总体出现的先验概率分布为,显然应有且除考虑各总体出现的先验概率外,还应考虑误判所造成的损失问题。在大多数实际问题中,若将属于总体的样品归为,则会造成一定的损失,反之亦然,但造成损失的程度可能有所不同。例如,将一个正品电子元件判为次品,所损失的只是生产厂家(如果这种元件的成本不是很昂贵的话),但若判为正品而使用在更大的系统中,则有可能造成整个系统的损坏(这种损失往往是很大的)。又如,将实际生病的人判为无病,有可能导致病情加重甚至死亡而造成损失。反之将无病者诊断为有病,可给他们造成不必要的医疗费用支出和精神负担。总之,在制定判别准则时,应考虑到误判的损失问题。而这通常在判别分析前就是可以估计的,我们用表3.1的损失矩阵描述。表3.1 损失矩阵判定为实际为000其中表示将实际属于的样品判为所造成的损失度量。一个判别准则的实质就是对空间作一个不相重叠的划分:,若样品落入,则判此样品属于总体,因此一个判别准则可简记为。以表示在判别准则D之下将事实上来自的样品误判为来自的概率,则由此误判而造成的损失为。因此,在一个给定的判别准则D之下对而言所造成的损失,应该是误判为的所有损失,按照各误判概率加权求和,即在此判别准则下,将来自的样品错判为其它总体的期望损失为(注意)又由于各总体出现的先验概率为,故在判别准则D之下总期望损失为我们看到,总期望损失L与判别准则D有关,Bayes判别即选择,使L达到最小。下面分两个及多个总体情形分别予以讨论。三、 两总体的Bayes判别1一般总体设为2个维总体,概率密度分别为和,总体的先验概率分布为和,误判损失分别为和。对中的一个划分:,有则总期望损失为由于第二项与D无关,要使L达到最小,只需第一项达到最小。这只需选择为上式中的被积函数取非正值的范围即可,即取为此时,因此,两一般总体的Bayes判别如下:对给定的样品,计算两总体的概率密度函数在处的值,判定准则为下面给出此判别准则的几个特例:(1)等先验概率的情形实际应用中,若各总体的先验概率分布未知,一般有两种处理方法,如果训练样本是通过随机观测得到的,通常取先验概率为各个训练样本的容量占总观测数的比例。如果对其先验概率分布基本不了解,可假定各总体的先验概率观测值相等。在两总体情况下,即假定,这时Bayes判别准则为(2)等误判损失的情形若误判损失难以确定,通常假定。这时Bayes判别准则为(3)等先验概率及等误判损失的情形这时,从而Bayes判别准则为应用中,总体的概率密度函数通常是未知的,我们可用的资料是来自各总体的训练样本。通常的作法是利用训练样本对总体的概率密度作非参数估计(如最邻近估计,核估计等)。由于这些估计涉及较多的统计和数学知识,在此不作进一步介绍。下面只就正态总体情况作详细讨论。2一般总体设为2个不同的维正态总体,这时其概率密度为(1)若这时,由距离判别中的相关结论,可得其中,从而,前面的Bayes判别准则为我们看到,在总体服从正态分布的假定下,Bayes判别函数与第二节的等协方差矩阵的距离判别函数是一样的,只是判别准则中的判别限有所差异,这是因为Bayes判别考虑了总体的先验概率分布和误判损失。若假定了等先验概率和等误判损失,则二者就完全一样了。但值得注意的是距离判别中并未假定和为正态总体。实际应用中,若未知,则可以用训练样本估计,即用,以及代替中的。(2)若经推导,可得判别准则为其中,实际应用中,若未知,则可以用训练样本估计,即用,以及,。3应用举例表数据是某气象站预报某地区有无春旱的观测资料,和是与气象有关的综合预报因子。其中包括春旱发生的6个年份的、的观测值和无春旱的8个年份的相应观测值。其先验概率分别用训练样本的容量比例确定,即和,并假定误判损失c(1|2)=c(2|1)。试在正态总体及等协

    注意事项

    本文(多元统计分析讲义(第三章)(共26页).doc)为本站会员(飞****2)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开