10第10章--多元统计分析.docx
《10第10章--多元统计分析.docx》由会员分享,可在线阅读,更多相关《10第10章--多元统计分析.docx(29页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第10章 多元统计分析多元统计分析是研究多个变量之间相互依赖关系以及内在统计规律性的一门统计学科。多元统计分析是实现定量分析的有效工具,在很多工程领域有着广泛使用。10.1 多元线性回归多元回归分析是研究多个变量之间关系的回归分析方法。按回归模型类型可划分为线性回归分析和非线性回归分析,我们这里介绍多元线性回归模型。10.1.1 多元线性回归模型1.模型多元线性回归分析的模型为(10.1)式中都是与无关的未知参数,其中称为回归系数。现得到个独立观测数据,由得(10.2)记,(10.3),.式可以表示为(10.4)其中为阶单位矩阵。2.参数估计模型中的参数用最小二乘法估计,即应选取估计值,使当,
2、时,误差平方和(10.5)达到最小。为此,令,.得(10.6)经整理化为以下正规方程组(10.7)正规方程组的矩阵形式为,(10.8)当矩阵列满秩时,为可逆方阵,式的解为.(10.9)将代回原模型得到的估计值.(10.10)而这组数据的拟合值为,拟合误差称为残差,可作为随机误差的估计,而(10.11)为残差平方和(或剩余平方和)。3.回归模型的假设检验对总平方和进行分解,有,(10.12)其中是由定义的残差平方和,反映随机误差对的影响;称为回归平方和,反映自变量对的影响。上面的分解中利用了正规方程组。因变量与自变量之间是否存在如模型所示的线性关系是需要检验的,显然,如果所有的 都很小,与的线性
3、关系就不明显,所以可令原假设为.当成立时由分解式定义的满足.(10.13)在显著性水平,有上分位数,若,接受;否则,拒绝。注10.1 接受只说明与的线性关系不明显,可能存在非线性关系,如平方关系。还有一些衡量与相关程度的指标,如用回归平方和在总平方和中的比值定义复判定系数.(10.14)称为复相关系数,越大,与相关关系越密切,通常,大于0.8(或0.9)才认为相关关系成立。4.回归系数的假设检验和区间估计当上面的被拒绝时,不全为零,但是不排除其中若干个等于零。所以应进一步作如下个检验:().由于,其中是中的第元素,用代替,当成立时,(10.15)对给定的,若,接受;否则,拒绝。式也可用于对作区
4、间估计(),在置信水平下,的置信区间为.(10.16)其中。10.1.2 MATLAB统计工具箱的回归分析命令MATLAB统计工具箱的回归命令很多,我们这里主要介绍线性回归的命令regress和逐步线性回归命令stepwise。1.线性回归命令regress线性回归命令regress既可以用于第5章的一元线性回归分析,也可以用于多元线性回归,其调用格式为b,bint,r,rint,stats=regress(y,X,alpha)上面命令中,各参数的含义如下:(1),输入参数y,X分别对应上面的列向量和矩阵,返回值b为回归系数的点估计,对一元线性回归分析,取即可。(2)alpha为显著性水平(缺
5、省值为0.05)。(3)bint为回归系数的区间估计。(4)r和rint分别为残差及其置信区间。(5)stats是用于检验回归模型的统计量,有4个数值,第一个是相关系数的平方(也称为拟合优度),越接近1,说明回归方程越显著;第二个是值,(这里是分布的上分位数)时,拒绝,越大,说明回归方程越显著;第三个是与对应的概率,时拒绝,回归模型成立;第四个是模型方差的估计值。例10.1 某品种水稻糙米含镉量(mg/kg)与地上部生物量(g/kg)及土壤含镉量(100mg/kg)的8组观测值见表10.1。试建立多元线性回归模型。表10.1 某水稻糙米含镉量的观测值1.3711.349.670.7617.67
6、15.9115.745.419.081.893.0610.20.050.731.036.254.931.862.335.780.060.430.873.86解 数学原理我们这里就不赘述了。利用MATLAB求得的线性回归模型为,模型的检验统计量如下:,模型整体上通过了检验。模型中系数的置信区间为,置信区间包含了零点,说明变量是不显著的,去掉变量后,得到的线性回归模型为,模型的检验统计量如下:,模型也通过了检验。画出该模型的残差及残差的置信区间如图10.1所示。图10.1 残差及残差的置信区间 通过图10.1可以看出,第4个样本观测值是奇异值,删除第4个样本观测值,重新建立的线性回归模型为,模型的
7、检验统计量如下:,最后的模型也过了检验。计算及画图的MATLAB程序如下:clc, clear, close alla=1.37, 11.34, 9.67, 0.76, 17.67, 15.91, 15.74, 5.419.08, 1.89, 3.06, 10.2, 0.05, 0.73, 1.03, 6.254.93, 1.86, 2.33, 5.78, 0.06, 0.43, 0.87, 3.86;X=ones(8,1),a(1,2,:); y=a(3,:);b,bint,r,rint,stats=regress(y,X)rcoplot(r,rint) %画出残差及其置信区间X2=ones
8、(8,1),a(1,:); b2,bint2,r2,rint2,stats2=regress(y,X2)figure, rcoplot(r2,rint2) X3=X2; X3(4,:)=; y3=y; y3(4)=;b3,bint3,r3,rint3,stats3=regress(y3,X3)figure, rcoplot(r3,rint3)2.逐步线性回归命令stepwise逐步线性回归的数学原理我们就不介绍了,感兴趣的读者可以参看其他的一些参考资料。在MATLAB统计工具箱中用作逐步回归的命令是stepwise,它提供了一个交互式画面,通过这个工具你可以自由地选择变量,进行统计分析,其通常
9、用法是:stepwise(x,y,inmodel,alpha)其中x是自变量数据,y是因变量数据,分别为(为观测值的个数,为自变量的个数,即x的第1列不包含数据1)和矩阵,inmodel是矩阵x的列数的指标,给出初始模型中包括的子集(缺省时设定为空),alpha为显著性水平。运行stepwise命令后产生一个 Stepwise Regression 窗口,显示回归系数及其置信区间,和其它一些统计量的信息。蓝色表示在模型中的变量,红色表示从模型中移去的变量。在这个窗口中有Export按钮,点击Export按钮产生一个菜单,可以向 MATLAB工作区传递参数,它们给出了统计计算的一些结果。下面通过
10、一个例子说明stepwise的用法。例10.2 水泥凝固时放出的热量与水泥中4种化学成分有关,今测得一组数据如表10.2,试用逐步回归来确定一个线性模型。表10.2 水泥放出热量及化学成分的观测值序号12345678910111213711111711312211111026295631525571315447406668615886917221842398605220473322644222634121278.574.3104.387.695.9109.2102.772.593.1115.983.8113.3109.4编写MATLAB程序如下:clc, cleara=load(gtable1
11、0_2.txt);x=a(1:4,:); y=a(5,:); stepwise(x,y,1:4)运行上述程序,得到图10.2所示的图形界面。可以看出,不显著,点图形界面中的“All Steps”按钮,移去这两个变量后的统计结果如图10.3所示。图10.2 逐步回归交互式画面图10.3 逐步回归的最终结果图10.3中的两行用红色显示,表明它们已移去,从图中可以看出,虽然剩余标准差没有太大的变化,但是统计量的值明显增大,因此新的回归模型更好一些。求得最终模型为.10.2 聚类分析聚类分析又称群分析,它是研究分类问题的一种多元统计分析。所谓类,通俗地说,就是指相似元素的集合。要将相似元素聚为一类,通
12、常选取元素的许多共同指标,然后通过分析元素的指标值来分辨元素间的差距,从而达到分类的目的。聚类分析可以分为Q型聚类(样本聚类)、R型聚类(指标聚类)。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法等。本节主要介绍常用的系统聚类法、动态聚类法和模糊均值聚类法。10.2.1 系统聚类法设有个样品,每个样品测得项指标(变量),原始数据阵为.其中(;)为第个样品的第个指标的观测数据。1. 数据的变换处理由于样本数据矩阵由多个指标组成,不同指标一般有不同的量纲,为消除量纲的影响,通常需要进行数据变换处理。常用的数据变换方法有:(1)规格化变换规格化变换是从数据矩阵
13、的每一个变量值中找出其最大值和最小值,这两者之差称为极差,然后从每个变量值的原始数据中减去该变量值的最小值,再除以极差,就得到规格化数据,即有(;).(2)标准化变换首先对每个变量进行中心化变换,然后用该变量的标准差进行标准化,即有(;),其中,。记变换处理后的数据矩阵为.(10.17)2.样品间亲疏程度的测度计算研究样品的亲疏程度或相似程度的数量指标通常有两种:一种是相似系数,性质越接近的样品,其取值越接近于1或-1,而彼此无关的变量的相似系数则越接近于0,相似的归为一类,不相似的归为不同类。另一种是距离,它将每个样品看成维空间的一个点,个样品组成维空间的个点。用各点之间的距离来衡量各样品之
14、间的相似程度。距离近的点归为一类,距离远的点属于不同的类。(1)常用距离的计算令表示样品与的距离。常用的距离有闵氏(Minkowski)距离.当时,即绝对值距离。当时,即欧氏距离。当时,即车比雪夫距离。马氏(Mahalanobis)距离马氏距离是由印度统计学家马哈拉诺比斯于1936年定义的,故称为马氏距离。其计算公式为,这里表示矩阵的第行,表示观测变量之间的协方差阵,其中,这里。(2)相似系数的计算研究样品之间的关系,除了用距离表示外,还有相似系数。相似系数是描述样品之间相似程度的一个统计量,常用的相似系数有:夹角余弦将任何两个样品与看成维空间的两个向量,这两个向量的夹角余弦用表示,则,.当时
15、,说明两个样品与完全相似;接近1时,说明与相似密切;时,说明与完全不一样;接近0时,说明与差别大。把所有两两样品的相似系数都计算出来,可排成相似系数矩阵,其中。根据可对个样品进行分类,把比较相似的样品归为一类,不怎么相似的样品归为不同的类。皮尔逊相关系数第个样品与第个样品之间的相关系数定义为,其中,。实际上,就是两个向量与的夹角余弦,其中。若将原始数据标准化,满足,这时。,其中,可根据对个样品进行分类。3.基于类间距离的系统聚类系统聚类法是聚类分析方法中使用最多的方法。其基本思想是:距离相近的样品(或变量)先聚为一类,距离远的后聚成类,此过程一直进行下去,每个样品总能聚到合适的类中。它包括如下
16、步骤:(1)将每个样品独自聚成一类,构造个类。(2)根据所确定的样品距离公式,计算个样品(或变量)两两间的距离,构造距离矩阵,记为。(3)把距离最近的两类归为一新类,其它样品仍各自聚为一类,共聚成类。(4)计算新类与当前各类的距离,将距离最近的两个类进一步聚成一类,共聚成类。以上步骤一直进行下去,最后将所有的样品聚成一类。(5)画聚类谱系图。(6)决定类的个数及各类包含的样品数,并对类做出解释。正如样品之间的距离可以有不同的定义方法一样,类与类之间的距离也有各种定义。例如可以定义类与类之间的距离为两类之间最近样品的距离,或者定义为两类之间最远样品的距离,也可以定义为两类重心之间的距离等。类与类
17、之间用不同的方法定义距离,就产生了不同的系统聚类方法。常用的系统聚类方法有,最短距离法、最长聚类法、中间距离法、重心法、类平均法、可变类平均法、可变法和离差平方和法。10.2.2 MATLAB聚类分析的相关命令及应用1.MATLAB聚类分析的相关命令常用的MATLAB聚类分析相关命令说明如下。(1)pdistB=pdist(A)计算矩阵A(看作个维行向量,每行是一个对象的数据)中两两对象间的欧氏距离。对于有个对象组成的数据集,共有个两两对象组合。输出B是包含距离信息的长度为的向量。可用squareform函数将此向量转换为方阵,这样可使矩阵中的元素对应原始数据集中对象和间的距离。B=pdist
18、(A,metric)用metric指定的方法计算矩阵A中对象间的距离。metric可取表10.3中的特征字符串值。表10.3 metric取值及含义字符串 含 义euclidean 欧氏距离(缺省值)seuclidean 标准欧氏距离cityblock 绝对值距离minkowski Minkowski距离chebychev Chebychev距离mahalanobis Mahalanobis距离hamming 海明距离(Hamming距离)cosine 1两个向量夹角的余弦correlation 1样本的相关系数spearman 1样本的Spearman秩相关系数jaccard 1Jaccar
19、d系数custom distance function 自定义函数距离B=pdist(A,minkowski,p)用Minkowski距离计算矩阵A中对象间的距离。p为闵氏距离计算用到的指数值,缺省值为2。(2)linkageZ=linkage(B)使用最短距离算法生成具层次结构的聚类树。输入矩阵B为pdist函数输出的维距离行向量。Z=linkage(B, method)使用由method指定的算法计算生成聚类树。method可取表10.4中特征字符串值。表10.4 method取值及含义 字符串 含 义 single 最短距离(缺省值) average 无权平均距离 centroid 重心
20、距离 complete 最大距离median 赋权重心距离 ward 离差平方和方法(Ward方法)weighted 赋权平均距离输出Z为包含聚类树信息的矩阵。聚类树上的叶节点为原始数据集中的对象,由1到,它们是单元素的类,级别更高的类都由它们生成。对应于Z中第行每个新生成的类,其索引为,其中为初始叶节点的数量。Z的第1列和第2列,即Z(:,1:2)包含了被两两连接生成一个新类的所有对象的索引。生成的新类索引为。共有个级别更高的类,它们对应于聚类树中的内部节点。Z的第三列Z(:,3)包含了相应的在类中的两两对象间的连接距离。(3)clustercluster的主要调用格式如下:T=cluste
21、r(Z,cutoff,c) %其中Z为linkage输出的聚类树,c是聚类的阈值,小于c的节点为一类。返回值T为聚类结果。T=cluster(Z,maxclust,n) %按照指定的聚类准则,划分成n类。(4)zsore(A)对数据矩阵进行标准化处理,处理方式为,其中是矩阵每一列的均值和标准差。(5)Hdendrogram(Z,P)由linkage产生的数据矩阵Z画聚类树状图。P是结点数,默认值是30。(6)squareformZOut=squareform(yIn)将pdist输出距离的行向量yIn转换为方阵ZOut。2.两种常用的系统聚类法(1)最短距离法最短距离法定义类与之间的距离为两类
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 10 多元 统计分析
限制150内