多元统计分析知识点多元统计分析课件精品.doc
【精品文档】如有侵权,请联系网站删除,仅供学习与交流多元统计分析知识点多元统计分析课件精品.精品文档.多 元 统 计 分 析(1)题 目: 多元统计分析知识点目录第一章绪论1§1.1什么是多元统计分析1§1.2多元统计分析能解决哪些实际问题2§1.3主要内容安排2第二章多元正态分布2§2.1基本概念2§2.2多元正态分布的定义及基本性质81.(多元正态分布)定义92.多元正态变量的基本性质10§2.3多元正态分布的参数估计111.多元样本的概念及表示法122. 多元样本的数值特征123.和 的最大似然估计及基本性质154.Wishart分布17第五章 聚类分析18§5.1什么是聚类分析18§5.2距离和相似系数191Q型聚类分析常用的距离和相似系数202.R型聚类分析常用的距离和相似系数25§5.3八种系统聚类方法261.最短距离法272.最长距离法303.中间距离法324.重心法355.类平均法376.可变类平均法387.可变法388.离差平方和法(Word方法)38第六章判别分析39§6.1什么是判别分析39§6.2距离判别法401、两个总体的距离判别法402.多总体的距离判别法45§6.3费歇(Fisher)判别法461.不等协方差矩阵两总体Fisher判别法462.多总体费歇(Fisher)判别法51§6.4贝叶斯(Bayes)判别法581.基本思想582.多元正态总体的Bayes判别法59§6.5逐步判别法611.基本思想612.引入和剔除变量所用的检验统计量623.Bartlett近似公式63 第一章绪论§1.1什么是多元统计分析在自然科学、社会科学以及经济领域中,常常需要同时观察多个指标。例如,要衡量一个地区的经济发展,需要观测的指标有:总产值(X1)、利润(X2)、效益(X3)、劳动生产率(X4)、万元生产值能耗(X5)、固定资产(X6)、流动资金周转率(X7)、物价(X8)、信贷(X9)及税收(X10)也就是说一个地区的经济发展,受多种指标共同作用的影响,我们把每一个指标看成一个随机变量,可以单独研究每个随机变量,但这只能揭示该地区经济发展的一个方面,更多的时候需要把把这诸个随机变量一起研究揭示多个随机变量对该地区经济发展的共同影响,以及揭示这些随机变量内在变化规律。例如,研究某公司的经营状况,需要观测公司的财务指标有:每股净资产(X1)、净资产收益率(X2)、每股收益(X3)、每股现金流(X4)、负债率(X5)、流动比率(X6)及速动比率(X7)。可以单独研究每个随机变量,更多的时候需要把这诸个随机变量一起研究,揭示这些随机变量内在变化规律。多元统计分析研究多个随机变量之间相互依赖关系以及内在统计规律性的一门统计学科。多元统计分析包括的主要内容:多元(正态)总体的参数估计和假设检验、聚类分析、判别分析、主成分分析、因子分析、对应分析、典型相关分析、多重多元回归分析等。介绍多元统计分析方法时,需要的时候增加一些线性代数的知识。§1.2多元统计分析能解决哪些实际问题经济学:对我国32个省市自治区的社会情况进行分析。工业:服装厂生产服装。为了适应大多数顾客的需要,如何确定服装的主要指标及分类的型号。指标:身长、袖长、胸围、腰围、肩宽、肩厚等十几个指标(主要指标:长度、胖瘦)投资组合:§1.3主要内容安排多元(正态)总体的参数估计、聚类分析、判别分析、主成分分析、因子分析、典型相关分析等。上机操作。第二章多元正态分布§2.1基本概念1.随机向量的概率分布定义1 将p个随机变量的整体称为p维随机向量,记为在多元统计分析中,仍然将所研究对象的全体称为总体。一元总体分布函数和分别密度定义:为随机变量X的概率分布,记为。离散型: k=1,2,3, 连续型:定义2 设是p维随机向量,它的多元分别函数定义为记为,其中记为。定义3 设是p维随机向量,若存在有限个或可列个p维数向量,,记 (k=1,2,3,),且满足,则称X为离散型随机向量,称(k=1,2,3,)为的概率分布。设p维随机向量,若存在一个非负函数,使得对一切,有则称X为连续随机向量,称为分布密度函数,易见例1试证函数为随机向量的密度函数。证:(1)易见(2)定义4 设是p维随机向量,称由q(<p)个分量组成的子向量的分布为的边缘(或边际)分布(通过变换中各分量的次序,总可以假定正好是的前q个分量,其余p-q个分量为),即,相应的取值也可以分成两部分。的边缘分布函数为当有分布密度时,则的分布密度为例2 对例1中的求边缘密度函数。解:当时当时0从而有同理可得到定义5 若p维随机向量的联合分布等于各自边缘分布的乘积,则称是相互独立的一切对于连续型随机变量,有 一切(有时候根据几何图形判断概率,根据试验的背景判断独立性)例3 例2中的与是否相互独立?解:例1中密度函数例2中求得的边缘分布 及所以有,即与相互独立。如果相互独立,则任何与独立,反之不真。2.随机向量的数字特征定义6设,若(i=1,2,3,)存在,则称为X的均值(向量)或期望,也记为均值向量性质:其中X、Y为随机向量,A、B为常数矩阵。定义7 设, 称为X的方差矩阵或协方差矩阵,有时简记为称随机向量X和Y的协方差矩阵为若X的协方差矩阵存在,且每个分量的方差大于零,则X的相关系数矩阵为其中 (i,j=1,2,3,p)为与的相关系数。记标准离差矩阵则有易见。实际上,对于任意非零向量,为半正定矩阵。例4 设,则可得容易验证若,称X与Y不相关。若X与Y独立,则X与Y不相关,反之不成立。(正态分布反之成立)协方差矩阵性质:§2.2多元正态分布的定义及基本性质多元正态分布在多元统计分析中所处的地位,如同一元统计分析中一元正态分布所处的地位一样重要,多元统计分析中的许多理论和方法都是直接或间接建立在正态分布的基础上,多元正态分布是多元统计分析的基础。另外,在实用中遇到的随机向量常常是服从或近似服从正态分布。因此,现实世界中许多实际问题的解决办法都是以总体服从正态分布或近似正态分布为前提。1.(多元正态分布)定义定义8 若p维随机向量的密度函数为其中,而是p为常数向量,是p阶正定矩阵,则称X服从p元正态分布,也称X为p维正态随机向量,简记为X。(是退化矩阵时,用特征函数的方法定义)当p=1时,记为一元正态分布密度函数。当p=2时,有二元正态分布密度函数可以写成2.多元正态变量的基本性质若X,当是p阶对角矩阵时,相互独立;若X,为常数矩阵,d为s维常数向量,则AX+d若X,将X作如下划分:则,。说明:多元正态分布的任何边缘分布为正态分布,反之不真。协方差矩阵(表明不相关)的充分必要条件是与独立。例5 ,其中设,则,其中即。,其中记(分块矩阵),则多元统计中的很多统计方法,大都假定数据来自多元正态总体。但是要判断已有的数据是否来自多元正态总体不是一件容易的事,不过要肯定数据不是来自多元正态总体,有一些简易的方法,例如服从p元正态分布,则它的每一个分量必须服从一元正态分布,因此把某个分量的n个样本作成直方图,如果断定不呈正态分布,则可以断定也不服从p元正态分布。§2.3多元正态分布的参数估计在实际应用中,多元正态总体中均值向量和协方差矩阵通常是未知的,需由样本来估计,而参数的估计方法有很多,这里用常见的极大似然估计给出其估计量。1.多元样本的概念及表示法设是p元总体中抽取的相互独立的随机样本,简称为样本,每个称为一个样品。其中为第个样品对第j个指标的观测值。每一行都是总体的简单随机样本。每个样本各分量之间有相关关系,不同样本之间一定相互独立;多元统计中样本常常是横截面数据,不同于时间序列中样本数据(纵向数据)。2. 多元样本的数值特征定义设为来自p元总体的样本,其中。 样本均值向量定义为 样本离差矩阵定义为其中 样本协方差矩阵定义为 样本相关系数矩阵定义为其中样本均值向量和离差矩阵也可以用样本资料矩阵表示。记, 则由于所以3.和 的最大似然估计及基本性质均值向量和协方差矩阵的最大似然估计及基本性质设为来自p元正态总体的容量为n的样本,每个样本,样本资料矩阵为和的最大似然估计为和的估计量的性质: ,即是的无偏估计;,即不是的无偏估计。,即是的无偏估计。 分别是的有效估计;(最小方差无偏估计) (或)分别是的一致估计量(相合估计量)。设为参数的估计量,若对于任意,当时,以概率收敛到,则称是的一致估计量。由于定理(P27)设分别是正态总体的样本均值和离差矩阵,则离差矩阵可以写为:其中,独立同服从分布;与相互独立;为正定矩阵的充要条件是。4.Wishart分布在实际应用中,常采用分别作为的估计。定义 设,且相互独立,则由组成的随机矩阵的分布称为非中心Wishart分布,记为,其中;当全部=0时,称为中心Wishart分布,记为,密度函数见书P28。当时,密度函数就是的分布密度,Wishart分布是克方分布在p为正态情况下的推广。基本性质: 设且相互独立,则样本离差矩阵,其中。 且相互独立,则若,为非奇异矩阵,则第五章 聚类分析§5.1什么是聚类分析聚类分析又称为群分析,它是数理统计中研究“物以类聚”的一种统计分析方法。在数值分类方面,可以分为两大类问题,一类是已知研究对象的分类情况,将某些未知个体归属其中某一类(判企业归宿),这是判别分析所要解决的问题;另一类问题不存在一个事前分类的情况下,而进行数据结构的分类,这就是本章聚类分析所要解决的问题(怎么把企业聚类)。聚类分析起源于分类学,在考古的分类学中,人们主要依靠经验和专业知识来实现分类。随着生产技术和科学的发展,人类的认知不断加深,分类越来越细,要求也越来越高,有时光凭经验和专业知识是不能进行确切分类的,往往需要定性和定量分析结合起来去分类,于是数学工具逐渐被引进分类学中,形成了数值分类学。随着多元分析的引进,聚类分析又逐渐从数值分类学中分离出来而形成一个相对独立的分支。在社会经济领域存在大量分类问题:例如,根据某些经济指标将全国32个省市自治区分类;根据上市公司总股本、流通股本、每股收益等指标,将2400多家上市公司分类;根据N个国家的森林面积、森林覆盖面积、林木积蓄量及草原面积把N个国家进行科学分类;学生按各科考试成绩分类;酒分成好、中、次分析;将杭州市所有企业按经济类型、生产规模分类。这些都属于聚类问题。聚类问题内容丰富,有系统聚类法、动态聚类法、模糊聚类法、图论,其中系统聚类法是目前国内外应用最为广泛的一种方法,本章仅介绍此种方法聚类法。§5.2距离和相似系数变量(在不同的个体上取不同的值,这个量称为变量)类型:间隔尺度(数值尺度)变量是用数值来表示的();有序尺度变量度量时没有明显数量关系,有次序关系();名义尺度变量度量时既无数量关系又无次序关系,只是用特征和状态来描述()。主要研究具有间隔尺度的变量。设是p项指标(p维随机向量)中抽取的n个样本数据,有资料矩阵其中为第个样品对第j个指标的观测值。第i个样本为矩阵的的第i行,所以第i个样本与第j个样本的相似性可用中的第i行与第j行的相似性来描述;两个变量与的相似性,可以通过第i列与第j列来描述。为了将样本或变量分类,就需要研究样本(变量)之间的关系:一种研究方法是将每个样本(变量)看成p(n)维空间的一个点,在p(n)维空间定义两点之间的距离,距离较近的点归为一类,距离较远的点归为不同的类;另一种方法是用相似系数,定义的相似系数应该使性质越接近的变量(样本)相似系数的绝对值越接近1,而彼此无关系或关系甚微的变量(样本)的相似系数接近0,我们把性质比较接近的变量(样本)归为一类,不怎么接近归为不同的类。1Q型聚类分析常用的距离和相似系数对样本分类(Q型聚类分析)常用的距离和相似系数距离)明氏(Minkowski)距离当q=1时,是绝对值距离当q=2时,是欧氏距离当q=时,是切比雪夫距离欧氏距离平方明氏距离的缺点:与个分量的量纲有关。例 向量有4个样本(*0.01)1222300(3.00)1172320(3.20)244460(4.60)2184290(2.90)如果用绝对值距离,那么=25=17,=34变量的差异很大,第四个分量要比第一、三个分量大几十倍到近百倍。与的第一、三个分量虽然只相差1或2个单位,但想对它们的第四个分量的差别而言要大得多;与的第一、三个分量相等,第二、四个分量来讲相差不大。这些说明与的距离应该比与的距离大,可与结果不一致。既然第四个分量比第一、三个分量大近百倍,我们可以让第三个分量的量纲不变,而让第四个分量缩小100倍,仍用绝对值距离,则有总之,此例说明,在计算距离或相似系数之前,应先对数据进行适当的变换。标准化变换令此时,第个样本与第个样本的标准化形式为欧氏距离为极差标准化变换正规化变换)马氏(Mahalanobis)距离样本与样本的马氏距离为其中向量的协方差矩阵常用样本协方差矩阵估计,样本到总体的马斯距离定义为其中是总体的均值向量,是协方差矩阵。马氏距离既排除了变量之间的相关性干扰,而且还不受各指标量纲的影响,用马氏距离时不需对原始数据变换。)兰氏(Canberra)距离()如果把任何两个样本的距离计算出来后,可得到距离矩阵其中主对角线上元素均为零。(2012.10.9)是一个是对称矩阵,只需计算上(或下)三角形矩阵,矩阵中的元素较小的,说明两样本点的距离近,否则较远。也可以对非数值尺度变量之间定义距离,举例说明。相似系数)夹角余弦当=1时,说明两个样本与完全相似;当1时,说明两个样本与相似密切;当=0时,说明两个样本与完全不一样;当0时,说明两个样本与差别大。把所有的相似系数都算出来,可以排成相似系数矩阵其中主对角线上元素均为1。应把相似的归为一类,不相似的归为不同的类。)相关系数这里, (行平均数)样本相关系数矩阵其中主对角线上元素均为1。 2.R型聚类分析常用的距离和相似系数对指标分类(R型聚类分析)常用的距离和相似系数令表示变量与变量之间的距离(第i列与第j列)明氏距离(第i个变量与第j个变量的)马氏距离(第i个变量与第j个变量的马氏距离为)其中协方差矩阵,而 )兰氏(Canberra)距离()相似系数)夹角余弦此时的相似系数矩阵其中主对角线上元素均为1。根据中元素对p个变量进行分类。)相关系数这里 变量的相关系数矩阵§5.3八种系统聚类方法讨论系统聚类分析方法之前,先说明一个事实,令那么任何相似系数都可以转化为距离,下面只讨论距离。系统聚类分析法的基本思想:把n个样本(或p个变量)各自看成一类,规定样本(或变量)之间的距离以及类与类之间的距离,选择距离最小的一对聚成一个新类,计算新类与其它类的距离,再将距离最小的两类合并,每次并类至少减少一个类,直至所有的样本(或变量)都聚成一类为止。当样本(变量)之间的距离选定后,还必须规定类与类之间的距离,对于类与类之间的距离可以定义两类中最近两点的距离,也可以定义最远两点的距离,还可以定义中心之间的距离,不同定义方式产生不同的系统聚类分析法。以下用(或)表示样本与之间的距离(变量与变量的距离),用(或)表示类与类之间的距离。1.最短距离法类与类之间的距离定义为设类与类合并成一个新类,则任意一类与新类的距离是最短距离法聚类步骤:(1)定义样本之间的距离,得一距离矩阵()()()()()()()()()主对角线上元素均为0.(2)找出非主对角线最小元素,设其为,则将和合并成为新类,记为,即。(3)给出计算新类与其它类的距离公式:将中第p、q行及p、q列用上面的公式并成一个新行新列,新行新列对应,所得矩阵记为(有可能同时并为两个新类或三类并成一个新类)。(4)对重复上述对的(2)、(3)两步的;如此下去,直到所有的元素并成一类为止。例1 五个样本:=1、=2、=3.5、=7和=9,试用最短距离法对五个样本进行分类。(1)样本之间采用绝对值距离,得距离矩阵012.568101.5572.51.503.55.5653.502875.520(2)最小元素,新类(3)新类与其它类的距离,按公式得距离矩阵01.5571.503.55.553.50275.520(4)中非主对角线最小元素是1.5,则将相应的两类和合并成新类,再按公式计算各类与的距离,得距离矩阵03.55.53.5025.520(5)距离矩阵()03.53.50(作树枝图或聚类图)5个样本分成两类比较合理,第一类1,2,3.5;第二类7,9。在实际应用中,有时给出一个阈值T,要求类与类之间的距离小于T,因此有些样本可能归不了类,这样的样本常称为孤立点。最短距离法也可以用于指标(变量)分类,分类时可以用距离,也可以用相似系数,用相似系数时把公式换成公式2.最长距离法定义类与类之间的距离为两类最远样本的距离,即最长距离法与最短距离法的并类步骤完全一样,也是将各样本先各自看成一类,然后合并距离最近的两类。设类与类合并成一个新类,则任意一类与新类的距离是再找非主对角线上最小元素的两类合并,直至所有的样本全归为一类为止。最长距离法与最短距离法有两点不同:一是类与类之间的距离不同;二是新类与其它类的距离计算所用的公式不同。聚类策略完全一样。将例1应用最长距离法按步骤聚类。(1)样本之间采用绝对值距离,得距离矩阵012.568101.5572.51.503.55.5653.502875.520(2)最小元素,新类(3)新类与其它类的距离,按公式得距离矩阵02.5682.503.55.563.50285.520(4)中非主对角线最小元素是2,则将相应的两类和合并成新类,再按公式计算各类与的距离得距离矩阵085.5802.55.52.50(5)距离矩阵()0880(作树枝图或聚类图)3.中间距离法类与类之间既不采用两类之间最近的距离,也不采用两类之间最远的距离,二是采用介于两者之间的距离,所以称为中间距离法xy (1) (2) (3)(2)两边乘以2,有 (4)(4)-(3),得新类与任意一类的距离公式这是与连线中点与的距离计算公式。一般有例 将例1用中间距离法分类(用代替,用代替)(1)样本之间采用欧氏距离平方,得距离矩阵016.253664102.2525496.252.25012.2530.25362512.2504644930.2540(2)最小元素,新类得距离矩阵0430.2556.254012.2530.2530.2512.250456.2530.2540(4)中非主对角线最小元素是,则将相应的两类和合并成新类,将相应的两类和合并成新类,再按公式计算与的距离(5)距离矩阵030.2530.250(作聚类图)4.重心法定义类与类之间的距离时,为了体现出每类包含的样本的个数,给出重心法。设类和的重心(即该类样本的均值)分别是和,则与之间的距离是,与分别有样本、个,将与合并成新类,则有个样本,的重心,任意一类的重心为,与的距离为当时,即为中间距离法公式。(2012.10.16)例 五个样本:=1、=2、=3.5、=7和=9,试用重心法对五个样本进行分类。(1)(用代替,用代替)得到五个样本的距离矩阵016.253664102.2525496.252.25012.2530.25362512.2504644930.2540(2)最小元素,新类(3)新类与(其它)类的距离,此时、,按公式计算,有得距离矩阵0430.2556.254012.255.530.2512.250456.255.540(4)中非主对角线最小元素是,则将相应的两类和合并成新类(),将相应的两类和合并成新类(),再按公式计算与的距离(5)距离矩阵034.0334.030(作聚类图)5.类平均法类平均法两类元素两两之间距离平方的平均。与任意一类的距离为6.可变类平均法 (其中是可变的,1)7.可变法 (1)8.离差平方和法(Word方法)设有n个样本分成k类:,用表示中的第i个样本,表示中的样本个数,是的重心,则中样本的离差平方和为离差平方和法的基本思想是来自于方差分析:同组方差小,异组方差大。(举例说明思想)Word方法合并新类到任意一类的距离公式为兰斯(Lance)和威廉姆斯(Williams),在点之间采用欧氏距离时,得到八种系统聚类分析法的一个统一公式:将书P8788表15。各种方法的比较目前仍是值得研究的课题,在实际应用中,采用两种方法:一种办法是根据分类问题本身专业知识结合实际需要来选择分类方法,确定分类个数;另一中方法是多用几种分类方法,把结果中的共性取出来,将有争议的样本(或变量)用判别分析法去归类。举书上的例第六章判别分析§6.1什么是判别分析是判别分析判别样本所属类型的一种统计方法。在不知样本划分的类型时,通过对一部分样本聚类来划分类型,这是聚类分析的任务;而判别分析是在已知研究对象分成若干类的情况下,根据某些准则建立判别式,然后对未知样本进行判别分类。常常判别分析与聚类分析联合起来使用。按判别的组数区分为:两组判别分析和多组判别分析;按总体所用数学模型区分为:线性判别分析和非线性判别分析;按判别时所处理的变量方法不同分为:逐步判别和序贯判别。判别分析可以从不同的角度提出问题,因此有不同的准则,如马氏距离最小准则、Fisher准则、平均损失最小准则、最小平方准则、最大似然准则、最大概率(Bayes)准则。本章主要介绍距离判别法、Fisher判别法、Bayes判别法。§6.2距离判别法基本思想:已知样本离哪一类重心的距离近,就判属于哪个类别。1、两个总体的距离判别法已知样本来自两个不同总体、之一,它们的分布分别为和。要判别究竟来自哪一个总体,就看离哪一个总体的均值的距离近,可以定义样本到总体均值的距离(如绝对值距离、欧氏距离、欧氏距离的平方、马氏距离等)样本到总体、的欧式距离定义为判别准则(举例说明)样本到总体、的欧式距离的平方距离定义为判别准则样本到总体、的马氏距离距离定义为判别准则同上。(1)当时,令 (线性判别函数)判别准则 即 令则称为的线性判别函数,为a判别系数。当未知时,可通过样本估计。(i=1,2)总体有(i=1,2)个样本样本 变量 样本 变量均值 均值记, 其中(i=1,2)记,线性判别函数为当p=1时,若两总体分布分别为和(),判别函数为 改成(u1-u2)判别准则 (画图说明)从图可见:距离判别法符合人们习惯;这种判别法会发生误判; 当与(与)越近,误判的概率越大。X来自总体,而误判的概率为X来自总体,而误判的概率为当与靠的很近,用距离判别法,错判的概率大,此时判别方法失效。有时候需要检验H0:这是协方差相等时,两个正态总体均值向量的检验。属于第三章的内容3.协方差相等时,两个正态总体均值向量的检验设且两样本独立,样本均值,。(1)有共同已知协方差阵时H0: H1:检验统计量(在H0成立时)给出检验水平,查分布表,确定临界值,拒绝域()(2)有共同未知协方差矩阵时(2012.10.23下次上机)H0: H1:检验统计量(在H0成立时)其中给出检验水平,查F分布表,确定临界值,拒绝域()1. 协方差不等时,两个正态总体均值向量的检验设且两样本独立。H0: H1:(1),令,检验统计量(在H0成立时)(2) 时检验统计量(在H0成立时)的表达式与上面不同,而的表达式与上是不同,见P3738。】(2)当时,判别准则 即 若参数向量、矩阵不知道,用样本估计。实际上,以上的判别函数和判别规则并未涉及到总体的分布类型,只要知道总体的一、二阶矩就行了,因此总体为正态分布的假定可以去掉。2.多总体的距离判别法类似两个总体的距离判别法的讨论,见书P106107。例1 见书P108111。例2 见书P111115。§6.3费歇(Fisher)判别法Fisher判别法是Fisher在1936年提出来的,这种方法和距离判别法一样,对总体分布并为提出什么特殊的要求。1.不等协方差矩阵两总体Fisher判别法不等协方差矩阵两总体Fisher判别法(画图说明)当比较小时,误判的概率比较大(1)费歇判别法的基本思想:Fisher借助方差分析法的基本思想来寻求判别函数C(X),他要求C(X)满足:尽量小,i=1,2;记,i=1,2尽量大。以上思路实际上是求一个变换C(X),使得C()与C()的差异显著,下面我们近讨论判别函数是线性函数。(2)判别函数的导出设有两个总体与,从第一(二)个总体中抽取()样本,列表如下:总体 总体,样本 变量 样本 变量均值 均值假定建立线性判别函数时将样本代入上式,得两组样本的重心分别为 (都是一维的)希望)(来自不同总体的)两个平均值与相差愈大愈好; )平方和与愈小愈好。即愈大愈好。记 (两组间方差) (两组内方差)则令 则 即 (2012.10.30)而 所以 其中 二次型 由于二次型所以从而 令 是常数因子,不依赖于k,它对方程组的解只起到共同扩大倍的作用,不影响到它的解相对比例关系,对判别系数没有影响,所以取,有方程组即 求得线性判别函数系数有了判别函数之后,欲建立判别准则,还要确定判别临界值(临界点),在总体先验概率相等的假设下,一般取判别准则(若)(3)计算步骤建立判别函数求的最大值点,令可得到,的线性判别函数。计算判别临界值,对新样本判别类别。检验判别效果(设两总体协方差矩阵相同且总体服从正态分布)H0: H1:检验统计量(在H0成立时)其中给定显著性水平,查F分布表,确定临界值,拒绝域,若实际值,拒绝H0,认为判别函数有效,否则判别函数无效。注意:参与构造判别式的样本个数不宜太少,否则会影响判别式的优良性;其次判别式选用的指标不宜过多,否则影响预报的稳定性。例1(P121)例2(P123)2.多总体费歇(Fisher)判别法(预备知识)同时对角化若A、B是两个的实对称矩阵,且B>0,则存在可逆矩阵T使与同时对角化。证明:B>0,则存在可逆矩阵,使得 (B>0,则B合同于单位矩阵I)易见是实对称矩阵,那么存在正交矩阵,使得是对角形矩阵,记,则。(预备知识)矩阵的微商设为是向量,为的实函数。则关于的微商定义为若,则由上述定义,不难推出以下公式(1)若,则实际上,(2)若,则(3)若,为对称矩阵,则 设是第i个总体的第个样本,;假定(所建立的)判别函数为记和分别是第i总体内的样本均值向量和样本协方差矩阵,则在上的样本均值和样本方差为(此处记为总的均值向量,则。1. Fisher准则就是要选取系数向量C,使得(注意:是总体第i个总体中个的代表值(j=1,2,k),所以分子乘以;分子是组间方差,分母是组内方差。)达到最大,其中是认为的正加权系数,可以取先验概率系数。若取,将,代入上式,则有其中E组内方差阵,A总体之间样本协方差矩阵。为求的最大值,根据极值存在的必要条件,令,即即满足此式的为矩阵A、E的广义特征根,非零向量C是属于的一个广义特征向量。有非零解的充要条件是可以求得A、E矩阵个非零广义特征根且,对应的单位特征向量记为(驻点:)(2012.11.6)于是可以构造个判别函数:其判别能力指标定义为:个判别函数的判别能力定义为则认为个判别函数就够了。有了判别函数,如何对待判样本分类?Fisher判别法本身并没有给出最适合的分类方法,实际中常常用下面两类分类法。(1)当取时)不加权法若则判。 (画图说明)加权法将按大小次序排列,记为,相应的判别函数的标准差为,相应的总体记为,其中,令 (画图说明)则可作为与之间的分界点,如果x使得,则判,从而判。(2)当取时)不加权法记对待判样本,计算若,则判,从而判。(此处给出的几何说明图)加权法(考虑每个判别函数的判别能力不同)记其中是由求出的广义特征根,若,则判,从而判。§6.4贝叶斯(Bayes)判别法1.基本思想条件概率 全概率公式。设构成样本空间的一个划分,则贝叶斯(Bayes)公式此处为先验概率,为后验概率,为条件概率。(举例说明)设有k个总体,它们的先验概率分别为,各总体的密度函数为,观察到一个样本x,由Bayes公式计算x来自第g总体的后验概率为(分母是常数)并且当时,判x来自第h总体。2.多元正态总体的Bayes判别法(1)判别函数的导出使用Bayes判别法作判别分析,需要知道待判总体的先验概率和密度函数,若先验概率不好确定,可用样本频率代替,或者用代替,此时先验概率不起作用。P元正态分布密度函数为把代入的表达式中,因为我们只关心寻找使最大的g,而分时中的分母不论g为何值都是常数。当时,判x来自第h总体。取对数,并去掉中与g无关的项,记为当时,判x来自第h总体。(2)假设协方差矩阵相等中含有k个总体的协方差矩阵(逆矩阵及行列式),而且对于x还是二次函数,实际计算工作量大,进一步假定协方差矩阵相等,则中、与g无关,求最大值时可以去掉。可的如下线性判别函数和判别准则(关于x的线性判别函数)当时,判x来自第h总体。(3)计算后验概率因为其中是中与g无关的部分。(分母是常数)作分类计算时,主要是根据判别式的大小,而不是后验概率,。§6.5逐步判别法 前面介绍的判别法都是用全部变量建立判别式,一般来说各变量在判别式中的作用,有重要的、有可忽略不计的,应该把重要的变量留下来,忽略作用低微的,得到一个经济的判别式,也就是说筛选出判别能力显著的变量,逐步判别法可以做到这一点。1. 基本思想:采用“有进有出”的方法,逐步引入变量。每引入一个“重要”变量进入判别式,要检验原先引入变量判别能力的显著性,把不显著的剔除,然后在引入新的“重要”的变量,直至没有“重要”的变量可引入为止。2.引入和剔除变量所用的检验统计量设有k个正态总体,(协方差矩阵相同)第个总体抽得的样本(此处样本都是行向量)假设接受H10,说明k个总体差异不显著,在此基础上建立的判别函数效果一般不显著,除非增加新的变量,拒绝H10,建立的判别式有意义。根据第三章检验H10的似然比统计量为检验H10的统计量(H10成立时,服从Wilks分布)其中,反映组内方差,组内方差与组间方差之和, 越小,则组内方差小,组间方差大,则p个变量建立的判别函数的判别能力强。给定显著性水平,由分布确定临界值使得,拒绝域。由于Wilks分布一般书上没有,可用近似公式。3.Bartlett近似公式:(H10成立时,近似服从分布)Rao近似公式:(H10成立时,近似服从F分布)(1) 引入变量检验统计量设样本都是p维的,若每个样本的最后一个分量去掉,记为都是p-1维的。第(*)组的方差记为第(*)组的组内方差为,组间方差阵与总方差阵也是如此划分,即假设计算步,已经入选变量,今