《哈尔滨工业大学-多元统计分析-数学建模必备-葛虹教学内容.ppt》由会员分享,可在线阅读,更多相关《哈尔滨工业大学-多元统计分析-数学建模必备-葛虹教学内容.ppt(120页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、多多 元元 统统 计计 分分 析析哈尔滨工业大学数学系 葛 虹第一页,共120页。多元(du yun)统计分析内容简介n第一章 多元统计(tngj)的基本概念n第二章 主成分分析n第三章 聚类分析n第四章 多元正态分布n第五章 多元回归分析第二页,共120页。第一章 多元(du yun)统计的基本概念n 第一节 随机向量n 及其数字(shz)特征第三页,共120页。随机(su j)向量极其分布P维随机(su j)向量:联合分布函数:联合密度函数:第四页,共120页。特征函数一元随机变量(su j bin lin):二元随机向量 :P元随机向量例1第五页,共120页。条件(tiojin)分布与独
2、立性两随机向量间的条件(tiojin)分布 的D.F:;d.f ;c.f 的D.F:;d.f ;c.f 的D.F:;d.f ;c.f 给定 ,的条件(tiojin)密度函数:第六页,共120页。两随机向量独立的充分必要条件(b yo tio jin)与 相互独立第七页,共120页。随机(su j)向量的数字特征随机向量的数学(shxu)期望随机向量的方差阵 第八页,共120页。两随机(su j)向量间的协方差阵随机(su j)向量的相关系数阵第九页,共120页。随机向量的数字(shz)特征的计算性质 对称(duchn),非负定;第十页,共120页。例2求:第十一页,共120页。第二节 随机向量
3、(xingling)的样本 及其数字特征P维随机(su j)样本 P维随机(su j)向量 的一个容量为n的样本:的样本(yngbn)的样本 的样本第十二页,共120页。样本均值第十三页,共120页。样本(yngbn)离差阵与样本(yngbn)方差阵样本(yngbn)离差阵样本(yngbn)方差阵第十四页,共120页。样本(yngbn)相关系数阵与 的样本(yngbn)相关系数第十五页,共120页。作 业 一1 令 (1)求c;(2)求 ;(3)证明:;(4)是否相互(xingh)独立?第十六页,共120页。2 设三个随机变量(su j bin lin)x,y,z的联合密度函数为:(1)求常数
4、k;(2)x,y,z是否相互独立?(3)试求在给定y=1/2,z=1的条件下x的分布。第十七页,共120页。3 设随机(su j)向量 的协方差阵为:(1)求相关系数阵;(2)令 ,求 的协方差阵。第十八页,共120页。实验报告一实验报告一选择一组多维有意义的数据编写SAS数据文件利用SAS作单变量的置方图,计算基本统计特征(均值、方差或标准差)并由此分析单变量的基本分布情况利用SAS计算多维随机变量的样本(yngbn)协方差阵、样本(yngbn)相关系数阵并由此分析变量之间的相关性要求打印 SAS数据文件 置方图 计算结果 分析结果第十九页,共120页。第二章 主成分(chng fn)分析第
5、一节 为什么要进行主成分(chng fn)分析第二十页,共120页。消除自变量(binling)间的相关性与多维变量(binling)降维 满足(1)(2)第二十一页,共120页。第二节 数学模型与理论(lln)主成分前提条件:目标:寻找正交矩阵(j zhn)使 (1)(2)且结论:是 的特征值;的行向量分别为相应的特征向量;第二十二页,共120页。理论主成分的计算(j sun)过程求非负定阵 的特征值:求 所对应的单位(dnwi)特征向量:写出主成分:第二十三页,共120页。第三节 样本主成分(chng fn)的计算过程首先将原始数据标准化得到标准化数据(消除(xioch)量纲影响);求标准
6、化数据的样本协方差阵 (该矩阵是原样本数据的样本相关系数阵);求 的特征值 和所对应的单位特征向量:第二十四页,共120页。写出p个主成分(chng fn)的表达式:是样本均值,是样本标准差第二十五页,共120页。选择(xunz)主成分的方法贡献率:第i 个主成分的贡献率为累积(lij)贡献率:前m 个主成分的累积(lij)贡献率为选择法则:保留m 个主成分第二十六页,共120页。第四节 主成分(chng fn)的应用利用第一主成分进行(jnxng)综合评价 若第一主成分满足:(1)其中(2)第一主成分的贡献率 ,则 可以作为一个综合评价指标第二十七页,共120页。利用第一、二个主成分(chn
7、g fn)进行分类若第一、二个主成分(chng fn)的累积贡献率 ,则由第一、二个主成分(chng fn)在平面上的散点图,可以对样品进行分类。第二十八页,共120页。实验(shyn)二 主成分分析选取一组有意义的P维数据(shj)利用SAS的“交互数据(shj)分析”对P维变量进行主成分分析,并选择主成分进行排序与分类。要求说明:1)主成分选择原理 2)所选择主成分的表达式 3)最后的排序与分类结果。第二十九页,共120页。第三章 聚类分析第一节 p维空间中的距离(jl)欧氏距离(jl)马氏距离(jl)B模距离(jl)明氏距离(jl)一点到总体(zngt)的马氏距离第三十页,共120页。第
8、二节 聚类方法(fngf)简介问题:将n个p维样本分成(fn chn)m个类系统聚类法与聚类步骤流程图动态聚类法与聚类步骤流程图第三十一页,共120页。系统(xtng)聚类法与聚类步骤流程图初始(ch sh)分类:若 与 距离(jl)最小,合并为一类no输出分类结果第三十二页,共120页。动态(dngti)聚类法与聚类步骤流程图寻找(xnzho)m个凝聚点:若 则 ;得计算(j sun)各类的重心:若 则 ;得计算各类的重心:重心改变输出分类结果yesno第三十三页,共120页。第三节 五种系统(xtng)聚类(cluster)方法最短距离法(method=single)最长距离法(metho
9、d=complete)重心(zhngxn)法(method=centroid)第三十四页,共120页。类平均法(method=average)离差平方和法(method=ward)第三十五页,共120页。可以(ky)证明:半偏第三十六页,共120页。第四节 系统(xtng)聚类在SAS中的实现proc cluster data=city method=ward outtree=DD;Var x1-x8;id region;proc tree data=DD horizontal graphics;id region;title tree of cluster;run;第三十七页,共120页。实
10、验(shyn)三 聚类分析选取一组有实际意义的数据利用SAS的五种系统聚类方法将n个样本进行分类(fn li),要求:1)说明每一种方法的分类(fn li)结果2)利用主成分分析说明哪一种分类(fn li)结果更合理第三十八页,共120页。第四章 多元(du yun)正态分布第一节 多元正态分布(fnb)第二节 多元正态分布(fnb)的函数-卡方分布(fnb)第三节 多元正态分布(fnb)的参数估计第四节 WISHART分布(fnb)第五节 正态分布(fnb)均值向量的假设检验第三十九页,共120页。一元(y yun)正态分布一元(y yun)正态分布密 度 函 数(hnsh)形式特征函数形式
11、一般正态与标准正态之间的关系多个正态变量的线性组合仍为正态变量第四十页,共120页。第一节 多元(du yun)正态分布定义1 q维标准正态分布 设 独立同分布于 ,则称随机向量(xingling)服从q 维正态分布,记 密度函数:特征函数:第四十一页,共120页。定义2 p 维一般正态分布 设 ,B为 实数矩阵,为 维实数向量,则 是 维随机(su j)正态分布,记为:其中 为非负定阵。第四十二页,共120页。定理(dngl)1 若 服从 ,则 (1),(2)第四十三页,共120页。定理(dngl)2 若 服从 (1)令 ,为 ,为 则 服从 (利用特征函数证明)(2)服从第四十四页,共12
12、0页。定理3 若 服从 ,(1)服从 ,服从 ;(2)与 相互独立(dl)(简化成 服从 ,服从 的情形,通过特征函数证明)推论:若 不服从正态分布,则 不服从正态分用于验证(ynzhng)第四十五页,共120页。定理4 服从 为一元正态随机变量定理5 若 为正定(zhn dn)矩阵,则 服从 具有密度函数(证明要点:,)用于验证(ynzhng)第四十六页,共120页。多元(du yun)正态分布的四个等价定义n 其中n 为一元正态随机变量n 特征函数n 密度(md)函数多用于验证(ynzhng)多用于证明第四十七页,共120页。第二节 多元(du yun)正态分布的函数-卡方分布定义1 中心
13、 分布与矩阵表达(biod)设 独立同分布于 ,则若记 ,且 则第四十八页,共120页。定义2 非中心 分布(fnb)与矩阵表达设 ,且 ,则 服从自由度为p,非中心参数为的卡方分布(fnb),并记为:第四十九页,共120页。定理(dngl)1 若 服从 ,且 正定,则 (1)服从 ,其中 (2)服从用于构造(guzo)检验统计量并检验异常点第五十页,共120页。定理2 设 服从(fcng),服从(fcng)且相互独立,则 服从(fcng)定理3 设 服从(fcng),为 阶实对称阵且 ,则 服从(fcng)其中(对称幂等阵的性质:1.I-A是对称幂等的;2.A的特征值是1或0;3.R(A)=
14、tr(A)第五十一页,共120页。证明要点(yodin):若A是对称幂等的,则存在正交矩阵Q 使 若 服从 A是非负定阵 存在一个矩阵 ,R(B)=r,且第五十二页,共120页。定理4 (Cochran定理)已知 (1)服从 (2)为 阶实对称(duchn)阵;且 (3)则 服从 与 服从 且相互独立 (要点:)第五十三页,共120页。定理(dngl)5 设(1)(2),(3)非负定则 且与 相互独立第五十四页,共120页。作业(zuy)二(1)若 服从(fcng)(1)求 的分布,其中:(2)X中有无相互独立的分量?(3)的分布是什么?若 服从(fcng),A与B分别是 和 阶实矩阵,证明:
15、AX与BX相互独立 第五十五页,共120页。一元正态样本(yngbn)及其性质设 是来自(li z)的一个样本样本均值是总体均值的无偏估计,即 ;样本方差是总体方差的无偏估计,即 ;第五十六页,共120页。与 分别是 和 的极大(j d)似然估计其中 与 相互独立第五十七页,共120页。第三节 多元(du yun)正态分布的参数估计定理1 若 为正定矩阵(j zhn)且 ,则 为 的极大似然估计,即 定理2 当 时,的极大似然估计是第五十八页,共120页。定理3 与 分别是 和 的无偏估计,即定理4 若 和 分别是正态总体(zngt)的样本均值和样本离差阵,则 (1)与 相互独立第五十九页,共
16、120页。(2);与 同分布 其中(qzhng)独立同分布于(3)定理5 若 为正定矩阵,则 可作为检验可作为检验(jinyn)统计量统计量?第六十页,共120页。第四节 WISHART分布(fnb)定义1 随机矩阵的分布定义2(Wishart分布)设服从(fcng)且相互独立,则称随机矩阵服从(fcng)中心Wishart 分布,并记为 结论 结论分布是Wishart分布的特例第六十一页,共120页。WISHART分布(fnb)的性质性质1 若 ,且相互(xingh)独立,则 性质2 若(1)且 独立同分布于 (2)是秩为r的实对称阵,则 第六十二页,共120页。性质3(Cochran定理)
17、若 (1)且 独立同分布于 (2)为 阶实对称阵;且 (3)则 服从(fcng)与 服从(fcng)且相互独立 第六十三页,共120页。性质(xngzh)4 若(1)(2)为非奇异阵,则 第六十四页,共120页。一元正态总体(zngt)参数的假设检验设 来自总体 第一步:建立零假设 第二步:寻找检验统计量及其在 下的分布第三步:依据(yj)小概率原理建立检验准则 由于 ,故若 ,则拒绝零假设不应含有不应含有(hn yu)未知数未知数第六十五页,共120页。设 来自总体 第一步:建立零假设 第二步:寻找(xnzho)检验统计量及其在 下的分布第三步:依据小概率原理建立检验准则 若 则拒绝零假设
18、第六十六页,共120页。服从服从(fcng)正态分布正态分布服从服从(fcng)卡方分布卡方分布服从服从(fcng)多元正态多元正态分布分布服从服从Wishart分布分布推广推广服从服从第六十七页,共120页。第五节 正态分布均值(jn zh)向量的假设检验Hotelling 分布(fnb)定义 设 ,且相互独立,则 结论1 分布(fnb)是t分布(fnb)的推广结论2 独立同分布(fnb)于 则 第六十八页,共120页。分布(fnb)与 分布(fnb)之间的关系定理 若 和 是 的样本(yngbn)均值和样本(yngbn)方差阵,记 =则 第六十九页,共120页。单一总体(zngt)均值向量
19、的检验 零假设 :已知时,检验(jinyn)统计量及其分布是:未知时,检验(jinyn)统计量是:=且 第七十页,共120页。两个正态总体均值向量(xingling)的检验零假设 :情形(qng xing)1 i.i.d于 i.i.d于(1)正定且已知时,检验统计量极其分布(2)正定且未知时,检验统计量极其分布相互相互(xingh)独立独立第七十一页,共120页。情形2 i.i.d于 i.i.d于 检验(jinyn)统计量极其分布(1)构造新样本:(2)构造统计量:相互相互(xingh)独立独立相互相互(xingh)独立独立第七十二页,共120页。作业(zuy)二(2)若 服从(fcng),且
20、 其中 为 ,为 阶的实矩阵,证明:服从(fcng)i.i.d于 i.i.d于其中 已知且两样本相互独立,推导检验 :的检验统计量极其分布第七十三页,共120页。(1)i.i.d于 (2)C为已知 阶实矩阵且秩为kp 推导检验零假设 :的检验统计量和它的分布;拒绝和接受零假设的检验法则(fz)是什么?第七十四页,共120页。实验(shyn)四选择两组有意义的一维样本检验(jinyn)零假设:说明:(1)这个检验(jinyn)的前提假设是什么(2)写出检验(jinyn)统计量的具体表达形式及利用SAS的“分析员应用”计算的统计量值(3)在什么水平下接受或拒绝了零假设 第七十五页,共120页。第五
21、章 多元回归分析(fnx)第一节 为什么要建立线性模型第二节 一元回归模型的建立第三节 一元回归模型的显著性检验第四节 一元回归模型的诊断(zhndun)第五节 曲线回归第六节 多元回归模型的建立第七节 多元回归模型与系数的显著性检验第八节 多重共线性第七十六页,共120页。第一节 为什么要建立(jinl)线性模型线性模型简单、易分析相关性意味着线性性许多常用函数经过变换(binhun)可以化为线性函数,如 一般函数可以通过Tayer公式局部线性化第七十七页,共120页。第二节 一元回归(hugu)模型的建立观察由n个样本 构成的散点图或计算样本相关系数,若呈现明显的相关性,建立数学模型 其中
22、 是未知参数,需要(xyo)利用样本对它们进行估计 第七十八页,共120页。参数 的最小二乘估计极其矩阵(j zhn)表达 模型1 最小二乘解:第七十九页,共120页。矩阵偏导数(do sh)与样本矩阵表达第八十页,共120页。模型2 最小二乘解:(1)为y关于(guny)x的回归方程(2)称 为方程的回归系数()(3)称 为残差,为残差向量(4)称 为残差平方和第八十一页,共120页。第八十二页,共120页。与 的性质(xngzh)性质(xngzh)1 性质(xngzh)2 ,且 即 的无偏估计是1.2.3.由 第八十三页,共120页。性质3 与 相互独立1.2.3.验证 与 相互独立即可。
23、一个(y)结论:服从 ,AX与BX相互独立第八十四页,共120页。第三节 一元回归(hugu)模型的显著性检验总平方和分解(fnji)决定系数法总平方和总平方和回归回归(hugu)平方和平方和残差平方和残差平方和第八十五页,共120页。方差分析法零假设检验(jinyn)统计量的确定定理 在零假设下 (1)在 下含义含义(hny)?第八十六页,共120页。(2)且与 相互独立(dl)(3)检验统计量 第八十七页,共120页。方差分析表 Analysis of Variance第八十八页,共120页。第四节 一元回归模型(mxng)的诊断前提假设:应进行如下诊断(zhndun):(1)的独立性 (
24、2)的等方差性 (3)的正态性第八十九页,共120页。误差(wch)的估计:残差残差图残差图(独立独立(dl)、等方差、等方差)第九十页,共120页。由残差检验“相互(xingh)独立,等方差”残差不独立残差不独立(dl)异方差异方差(fn ch)第九十一页,共120页。由残差检验(jinyn)的正态性(Q-Q图)的的分位数分位数理论理论(lln)分位数分位数样样本本(yngbn)分分位位数数第九十二页,共120页。(1)分布(fnb)函数与分位数 设随机变量X的分布(fnb)函数为 ,若 ,则称 是 的上侧 分位数或 的 下侧分位数.此时有:F的的 上侧分位数上侧分位数F的的 下侧分位数下侧
25、分位数第九十三页,共120页。(2)样本分布函数 设 为一组样本,将它们按大小(dxio)序排列:,于是样本分布函数为:第九十四页,共120页。(3)的样本分位数 将 按大小(dxio)序排列:它的样本分布函数为:于是,的 下侧分位数分别是:样本样本(yngbn)分位数分位数第九十五页,共120页。(4)的理论分位数 由 其中 的 理论下侧分位数可以通过查标准(biozhn)正态分布表得到:若 确实服从 理论理论(lln)分位数分位数第九十六页,共120页。(5)Q-Q图第九十七页,共120页。实验五 建立一元回归(hugu)模型选取一组有意义的数据 说明x与y之间具有较强的相关性 利用SAS
26、的“交互(jioh)数据分析”建立回归方程,并进行如下说明:1.方程的显著性如何?哪些量能反映这一点?2.方程的前提假设是否满足?如何判定?第九十八页,共120页。第五节 曲线(qxin)回归 在实际中,y与x之间的关系不一定是线性关系,这大致有两种情况:根据专业知识知道y与x之间的关系,但其中含有未知参数(cnsh),须通过实验数据加以确定;如细菌总数y与时间x之间的关系为:投入为K,L,产出为y且规模报酬不变下的生产函数为:第九十九页,共120页。通过所收集的n组 ,从所画的散点图发现y关于x的某种曲线关系.此时,需要我们选择适当的曲线拟合这些数据.例:由于钢液及炉渣对耐火材料的腐蚀,炼钢
27、厂用的钢包容积不断增大.经试验得到钢包的溶剂(rngj)y与相应使用次数x的数据.找出y与x之间的数量关系.第一百页,共120页。由散点图的形状决定(judng)拟合如下三个模型:第一百零一页,共120页。第六节 多元回归模型(mxng)的建立模型 基本形式(xngsh):样本表达:矩阵表达:第一百零二页,共120页。参数(cnsh)和 的估计参数 的最小二乘估计是参数 的无偏(w pin)估计是其中 是残差平方和第一百零三页,共120页。与 的性质(xngzh)性质(xngzh)1 性质(xngzh)2 性质(xngzh)3 与 相互独立第一百零四页,共120页。性质4 若 (1)(2)且与
28、 相互(xingh)独立(3)第一百零五页,共120页。第七节 多元回归模型(mxng)显著性检验(1)决定系数法方差分析法 零假设(jish):检验统计量与其分布:含义含义(hny)?第一百零六页,共120页。第七节 回归系数的显著性检验(jinyn)(2)零假设 检验统计量与其分布:其中(qzhng)是 的第j+1个对角元含义含义(hny)?第一百零七页,共120页。第八节 多重共线性什么是多重共线性 若p个自变量 在某种程度上是线性相关的多重共线性可以(ky)造成参数的估计值严重偏离实际值 一个解释:的共线性使 接近奇异阵,从而使 中的对角分量或 的方差很大。第一百零八页,共120页。随
29、机模拟(mn)方法多重共线性对参数估计影响的例 原线性模型:的观测值:正态随机数:由模型得到(d do):回归模型:第一百零九页,共120页。多重共线性的判定(pndng)方法1 相关系数法 若自变量间的相关系数1,则相应的两个变量之间有较强的共线性。方法2 方差膨胀系数(png zhng xsh)法()若 是把第j个自变量看作因变量,用其余p-1个变量作线性回归所得到的决定系数,则第j个自变量的方差膨胀系数(png zhng xsh)为:第一百一十页,共120页。克服(kf)多重共线性的方法 主成分回归(hugu)对 进行主成分分析前m个主成分的累积贡献率足够大建立 与 的回归(hugu)模
30、型第一百一十一页,共120页。随机模拟例的主成分回归(hugu)结果 第一主成分的贡献率为0.993 y关于第一主成分的回归(hugu)模型为:最后的整理结果为:第一百一十二页,共120页。岭回归 岭回归是一种改进的最小二乘法.系数 的岭估计(gj)为:即岭估计(gj)是参数的有偏估计(gj)k在一定的范围内时,的均方误差小于 的均方误差,即第一百一十三页,共120页。k值的确定 (1)相对稳定(利用岭迹图)(2)各系数的岭估计值有实际意义 逐步回归 这是一种从大量可能有关的变量中挑选出对因变量有显著影响的部分变量的方法。这样可以保证最后(zuhu)所得到的子集中所有变量都是显著的。第一百一十
31、四页,共120页。实验(shyn)六 建立多元回归模型选取一组有意义的数据 利用SAS的“交互数据分析”建立回归方程,并进行如下说明:1)方程和回归系数的显著性如何,如何判定?2)方程的前提假设是否满足?如何判定?3)多重共线性如何,你认为最后(zuhu)可用的回归 方程是哪一个?第一百一十五页,共120页。总复习(fx)多元正态分布均值、协方差阵以及相关系数阵的计算多元正态分布的四种等价定义多元正态分布总体参数的估计(gj)多元正态分布均值的假设检验多元正态分布与 分布之间的关系第一百一十六页,共120页。回归(hugu)分析线性回归模型及前提假设参数最小二乘估计的矩阵表达极其性质回归方程的显著性检验及其原理回归方程系数的显著性检验及其原理自变量间多重共线性的判别(pnbi)方法残差分析的意义与基本原理第一百一十七页,共120页。主成分(chng fn)分析主成分分析(fnx)的目的是什么样本主成分的计算步骤如何选择主成分主成分分析(fnx)的应用 主成分回归 综合评价第一百一十八页,共120页。聚类分析系统聚类与动态聚类的流程图五种系统聚类法的定义(dngy)系统聚类法的SAS实现第一百一十九页,共120页。第一百二十页,共120页。
限制150内