《第八章多元分析的基本原理[1].ppt》由会员分享,可在线阅读,更多相关《第八章多元分析的基本原理[1].ppt(59页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第八章 多元分析的基本原理本章学习要点本章内容结构第一节 概述一 什么是多元分析 1 多变量系统 (1)产品的指标 (2)教育系统 (3)单变量分析 (如图所示)(4)单变量分析的困难:变量的相关性 2 多元分析法 (1)变量相关性的例子:P180 有相关性,但是又不能用一个确定的方程描述相互关系 (2)多元分析法:P181 (3)例子二 多元分析法的分类(从应用的角度)1 用于求综合特性的多元分析法 研究的关键是:多个变量的综合特性 主要方法有:主成分分析、相关分析 2 用于预测的多元分析法 研究的关键是:通过对多个变量的综合研究,进行系统预测 主要方法有:多元回归法、因子分析法、判别函数法
2、三 多元分析在教育中的应用 1 需求 2 应用举例 3 发展动态第二节 回归分析零:引入1 多变量之间的关系 确定的函数关系,变量之间的关系可以通过计算直接得到。不确定的相关关系,教育中的例子很多。2 回归分析的任务 用确定的函数关系来描述多个相关变量之间的关系。3 回归分析的分类(根据回归函数的不同)一 直线回归(一元线性回归)1 线性回归方程 y=a x +b 其中a、b为回归系数,通过n(大于2)组样本数据,可以计算出a、b。(如果x、y是确定的函数关系,n只需要为2:P184)2 样本数据(观测值)设n=3,有(x1,y1)(x2,y2)(x3,y3)三组数据把x1、x2、x3分别代入
3、回归方程,得到三个对应的计算值y3 观测值y与计算值y的差异 三组差异分别是:4 求回归系数(1)对误差求极值(使误差最小)改错:P184(a、b互换位置),经整理得:改错:P185(a、b互换位置)(2)回归系数 5 写出回归方程并进行预测6 例:(三个学生的数学、物理成绩)(1)设 样 本 数 据 为(70,75)、(80,85)、(90,90)(2)计算回归系数得:a=0.75,b=23.3(3)写出回归方程:y=0.75 x+23.3(4)进行预测设某学生数学考试得:x=85预测物理成绩得:y=0.75*85+23.3=877 一般情况 样本数由3变为n(n 3)通过完全一样的方法,公
4、式(85)变为:改错:(a、b互换位置)最后得回归系数:改错:(a、b互换位置)二 多元线性回归 1 线性回归方程 y=a0+a1x1+a2x2+.+apxp 其中a0、a1、a2.ap为回归系数,通过m(大于p)组样本数据,可以计算出回归系数。2 样本数据(观测值)(x11,x12,.x1p,z1),(xm1,xm2,.xmp,zm)把xi1、xi2.xip分别代入回归方程,得到对应的计算值yi3 观测值zi与计算值yi的差异 根据微分学中的极值原理,a0,a1,ap应是下列方程的解经整理,得:4 求回归系数 再整理上述方程,得:上述方程组用矩阵表示,得:当(XX)满秩时(即|XX|0),逆
5、矩阵(XX)-1存在,系数矩阵A可以表示为:其中A=(a0,a1,a1,ap),称为回归方程的系数矩阵(一列矩阵)而矩阵X则为:而X是X的转置矩阵,Z是个一列矩阵 三 多项式回归(略)四 指数回归(略)五 回归分析的应用1 一元线性回归(1)样本测量值 (2)计算回归系数 得,a=12(这里a=R),b=0(3)写出回归方程:U=12 I (如图所示)(4)进行预测:设某次测量电流得I=0.8,预测电压得:U=12*0.8=9.62 多元线性回归 (1)样本数据(取自1979年某高考班)设考生的物理成绩为因变量(z),语文(x1)、数学(x2)、政治(x3)15个考生的测量;测量成绩如下(m=
6、15,p=3):编号编号 语文语文 数学数学 政治政治 物理物理 编号编号 语文语文 数学数学 政治政治 物理物理 1 1 61.5 31 59 32 61.5 31 59 32 9 9 50.5 32 67 57 50.5 32 67 57 2 2 35 23 35 23 40.5 8 40.5 8 10 10 57.5 30 47 57.5 30 475 375 37 3 3 56.5 56.5 40 40 53 53 69 69 11 11 47 4758 63 6858 63 68 4 4 35 35 19 19 58.5 21 12 58.5 21 12 28 282828 52 2
7、7 52 27 5 5 50.5 50.5 60 60 49 49 66 66 13 13 58 22 72 41 58 22 72 41 6 41.5 15 6 41.5 15 59 59 41 14 41 14 36 23 39 20 36 23 39 20 7 7 59 59 46 46 68.5 57 68.5 57 15 15 45 33 53 30 45 33 53 30 8 8 41 26 41 26 55 7 55 7(2)计算回归系数根据矩阵公式计算得a0=-44.6023,a1=0.4166,a2=0.9729,a3=0.5780(3)回归方程 y=-44.6023+0.4
8、166*x1+0.9729*x2+0.5780*x3(4)进行预测某学生考试成绩:语文=40,数学=90,政治=60 预测物理成绩为y=94.4第三节 主成分分析教学系统的多变量性(相关)教学评价的多指标性主成分分析及其广泛应用一 基本原理1 数据(假设两个相关的数据)现有n个学生,每人有两门课程成绩:(xi1,xi2)i=1,2,n2 分析把这些数据绘制在平面图上图(a)的分析:x1和x2两个指标呈现正相关图(b)的分析:将坐标x1和x2进行一定的变换,得到z1、z2坐标,而且数据在z1轴上的分散性较大,在z2轴上的分散性较小,这时我们可以以z1为主来评价学生,称z1为第一主成分,两个变量的
9、相关性减小。图(c)的分析:如果x1和x2无相关性,怎么变换也不可能确定主成分3 主成分分析(扩展到p门课程)第i个学生成绩为(p维矢量):xi=(xi1,xi2,xip)i=1,2,n通过变换,我们可以找到一种新的m维综合变量空间,且m z2的分散 ,zm的分散这里m个综合变量可以提供原指标所包含的全部信息量,且z1提供的信息最多,zm提供的信息最少。最后,z1称为原变量的第一主成分,z2称为原变量的第二主成分,zm称为原变量的第m主成分。二 主成分分析的方法1现有1个样品,有p个指标x1,x2,xp:X=(x1,x2,xp)经过线性变换,我们把p个原指标变换成m个综合指标 y1=a11x1
10、+a12x2+,+a1pxp,ym=am1x1+am2x2+,+ampxp其中ak12+ak22+,+akp2=1 (k=1,2,m)这里:(1)yi与yj相互独立(ij,i,j=1,2,m)(2)y1的方差 y2的方差 ,ym的方差2N个样品,其观测数据如下:x11 x21 ,xn1 x12 x22 ,xn2X =,x1p x2p ,xnp(1)样本数据标准化这里的平均值和标准差是对1行数据进行的(2)计算相关矩阵(协方差矩阵)经过样本标准化之后的数据矩阵,仍用X表示,对应的相关矩阵R R=XX(3)求解特征方程(特征根、特征向量)计算相关矩阵R的特征根与特征向量(P192的m应该为p)求解
11、特征方程|RI|=0 其中I:单位矩阵可得到p个非负的特征值1,2,p 且123p0各特征根对应的特征向量Qi=(ai1,ai2,aip)(i=1,2,p)(4)求主成分(5)决定主成分的个数 选择m个主分量 (m p)第i个主分量的贡献率前m个主分量的累积贡献率 三 应用 1 通常选取0.852 例 x1 5 3 -5 设反应变量X=x2的相关矩阵R=3 2-2 试求主成分 x3 -5-2 10解:(见川大编高等数学物理专业用三册一分册P124)求得:1=14,2=3,3=0(特征根),再求其对应的特征向量当1=14时,A1=(A11,A12,A13)/14 而 得:分解成:-9a11+3a
12、12-5a13=0 3a11-12a12-2a13=0 -5a11-2a12-4a13=0得a11=2,a12=1,a13=-3 即A1=(2/14,1/14,-3/14)同理:当2=3时,A2=(A21,A22,A23)/3得即得 a21=a22=a23=1 即A2=(1/3,1/3,1/3)最后得:y1=2x1/14+x2/14-3x3/14 第一主成分y2=x1/3+x2/3+x3/3 第二主成分 有关计算过程,可参考数理统计教材3 小结:P192 第五节 聚类分析分类学:根据事物性质进行分类,性质相近的分在一类,性质差别大的分在不同的类一般分类方法的缺陷:往往带有主观性和任意性,不能揭
13、示客观事物内在的本质联系和差别多元统计的应用:形成了数值分类学注:本节选用另一教材,与本书略有不同(数据矩阵行、列相反)一基本原理(系统聚类法,此外还有动态聚类法)1 设有n 个样品,m个指标,有数据矩阵:2 规格化变换(使各个指标权重相同,即同等重要)其中的两个极值分别是第j列最大值和最小值结果:每一列数据的最大值为1,最小值为0。然后,重新构造矩阵,仍用X表示注:也可不做规格化处理直接用原始数据,各指标权重可能不同3 确定距离(亲疏关系)(1)距离的性质 多元统计分析中的距离dij(样品Xi和Xj之间的距离)满足下列3个性质:dij0,对一切Xi、Xj,当且仅当Xi=Xj时,有dij=0;
14、dij=dji,即Xi与Xj的距离=Xj与Xi的距离;对于样品Xi、Xj、Xk,有dij dik+dkj,这是几何学中三角不等式的推广(任意两边之和大于第三边)。任意两个样品距离越小,说明它们越接近(一致),计算距离的方法很多,主要有欧氏距离、马氏距离(P98)、B-模距离、闵可夫斯基距离(参见吴 国防科技大学出版社:P271(2)欧氏距离(我们只介绍欧氏距离)表示第i个样品与第j个样品之间的距离(矩阵表示形式)(一般表示形式)(3)距离矩阵(按上述方法分别算出任意两个样品之间的距离)该矩阵共有n行、n列4 开始聚类(初始为n类,每个样品为1类)从D中找出一个最小值(最小距离法)涉及到的两个类
15、;在数据矩阵X中,把上述两类合并成一类,两组数据取平均值,总的类就减少了一个;重新计算D(实际上只要计算刚合并的那个类与其他各类的距离);重复、,直到所有的样品都归为一类或者归为所需要的类为止。5画出聚类谱系图二 应用例(10名学生三次测验成绩,要求为4类)1 原始数据及规格化数据2 计算距离矩阵 3 开始聚类(1)开始,第5类和第6类的距离最小(0.1919),把第5类和第6类聚类(2)现在还有9个类,数据如下:(3)重新计算距离矩阵(实际上只要计算(5,6)合类与其它各类的距离)(4)此时,第2类和第9类的距离最小(=0.2266),把第2类和第9类聚类(5)现在还有8个类,数据如下:(6)依次类推,重复上述步骤,经过6次聚类之后,可得最后4个类的距离矩阵 4 画出聚类谱系图 本章小结:多元统计方法比较符合教育应用中的许多问题,按照具体的技术方法,我们主要介绍了一元和多元回归分析、主成分分析、聚类分析,这些方法的意义、计算方法、应用过程是重点需要掌握的内容。习题:1,另外补充:2 回归分析的基础是什么?3 主成分分析的主要目标是什么?4 完成讲课中聚类分析举例中省略的四次聚类过程。5 在讲课中的多元回归分析的举例中,按照给定的回归方程,y是否会得到大于100分、小于0分的情况?如果会出现,是什么原因产生的?
限制150内