多元统计分析.pptx
《多元统计分析.pptx》由会员分享,可在线阅读,更多相关《多元统计分析.pptx(88页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1、“统”,就是全部,“计”,就是计算,统计学即是“具有全局意义的数字计算”。(陈希孺)2、统计学是收集和分析带随机性误差的数据的科学和艺术。3、一堆数字,就像一对沙子,谁喜欢?但是,一旦你发现了这一堆数字中隐藏的奥秘,你就会喜欢这对数据了,在你眼里,就是一堆沙子变成了一堆财富。统计学,就是帮你把一堆沙子变成财富的方法。即吕洞宾那根“点石成金”的手指。第1页/共88页 课课 程程 介介 绍绍 多元统计分析多元统计分析(简称多元分析简称多元分析)是统计学的一个重是统计学的一个重要分支要分支.它是应用数理统计学来研究多变量它是应用数理统计学来研究多变量(多指标多指标)问问题的理论和方法题的理论和方
2、法;它是一元统计学的推广和发展它是一元统计学的推广和发展.多元统计分析是一门具有很强应用性的课程多元统计分析是一门具有很强应用性的课程;它在它在自然科学和社会科学等各个领域中得到广泛的应用自然科学和社会科学等各个领域中得到广泛的应用;它它包括了很多非常有用的数据处理方法包括了很多非常有用的数据处理方法.第2页/共88页第一章第一章 多元正态分布多元正态分布第二章第二章 均值向量和协方差阵的检验均值向量和协方差阵的检验第三章第三章 聚类分析聚类分析第四章第四章 判别分析判别分析第五章第五章 主成分分析主成分分析第六章第六章 因子分析因子分析第七章第七章 对应分析对应分析第八章第八章 典型相关分析
3、典型相关分析本课程的内容本课程的内容多变量分析(数据结构简化)多变量分析(数据结构简化)分类方法分类方法两组变量的相关分析两组变量的相关分析基础理论基础理论第3页/共88页21世纪统计学系列教材世纪统计学系列教材 多元统计分析多元统计分析(中国人民大学出版社中国人民大学出版社,何晓群何晓群,2012.1)使用的教材使用的教材第4页/共88页1.应用多元统计分析应用多元统计分析(朱建平,(朱建平,科学出版社科学出版社,2006)2.实用多元统计分析实用多元统计分析(方开泰方开泰,1989,华东师范大学出版社华东师范大学出版社3.多元统计分析引论多元统计分析引论(张尧庭张尧庭,方开泰方开泰,科学出
4、版社科学出版社,1982)4.实用多元统计分析实用多元统计分析(王学仁王学仁,1990,上海科学技术出版上海科学技术出版社社)5.应用多元分析应用多元分析(王学民王学民,1999,)6.统计分析与统计分析与SPSS的应用(第三版的应用(第三版 薛微)薛微)7.社会统计学分析方法社会统计学分析方法SPSS软件应用软件应用(郭志刚,(郭志刚,中国人民大学出版社中国人民大学出版社,1999)参考书参考书第5页/共88页 教学方式教学方式:授课与实际例题相结合授课与实际例题相结合.本课程的特点与教学方式本课程的特点与教学方式 本课程的特点本课程的特点是将常用的多元分析方法的是将常用的多元分析方法的介绍
5、与在计算机上实现这些方法的软件紧介绍与在计算机上实现这些方法的软件紧密地结合起来,不仅介绍每种多元分析方密地结合起来,不仅介绍每种多元分析方法法 的实际背景、统计思想、统计模型、数的实际背景、统计思想、统计模型、数学原理和解题的思路,并结合实例介绍应学原理和解题的思路,并结合实例介绍应用统计软件用统计软件(SPSS)解决问题的步骤和计算解决问题的步骤和计算结果的分析。结果的分析。第6页/共88页 引 言 什么是多元统计?在实际问题中,很多随机现象涉及到的变量不止一个,而经常是多个变量,而且这些变量间又存在一定的联系。我们常常需要处理多个变量的观测数据。例如考察学生的学习情况时,就需了解学生在几
6、个主要科目的考试成绩。下表给出从中学某年级随机抽取的12名学生中5门主要课程期末考试成绩。第7页/共88页序号序号 政治政治 语文语文 外语外语 数学数学 物理物理 1 99 94 93 100 1001 99 94 93 100 100 2 99 88 96 99 97 2 99 88 96 99 97 3 100 98 81 96 100 3 100 98 81 96 100 4 93 88 88 99 96 4 93 88 88 99 96 5 100 91 72 96 78 5 100 91 72 96 78 6 90 78 82 75 97 6 90 78 82 75 97 7 75
7、 73 88 97 89 7 75 73 88 97 89 8 93 84 83 68 88 8 93 84 83 68 88 9 87 73 60 76 84 9 87 73 60 76 8410 95 82 90 62 3910 95 82 90 62 3911 76 72 43 67 7811 76 72 43 67 7812 85 75 50 34 3712 85 75 50 34 37第8页/共88页 上表提供的数据,如果用一元统计方法,势上表提供的数据,如果用一元统计方法,势必要把多门课程分开分析,每次分析处理一门必要把多门课程分开分析,每次分析处理一门课的成绩。这样处理,由于忽视
8、了课程之间可课的成绩。这样处理,由于忽视了课程之间可能存在的相关性,因此,一般说来,丢失信息能存在的相关性,因此,一般说来,丢失信息太多。分析的结果不能客观全面地反映某年级太多。分析的结果不能客观全面地反映某年级学生的学习情况。学生的学习情况。本课程要讨论的多元分析方法,它同时对多本课程要讨论的多元分析方法,它同时对多门课程成绩进行分析。这样的分析对这些课程门课程成绩进行分析。这样的分析对这些课程之间的相互关系、相互依赖性等都能提供有用之间的相互关系、相互依赖性等都能提供有用的信息。的信息。第9页/共88页 由于大量实际问题都涉及到多个变量,这由于大量实际问题都涉及到多个变量,这些变量又是随机
9、变化。所以要讨论多维随机向些变量又是随机变化。所以要讨论多维随机向量的统计规律性。量的统计规律性。多元统计分析就是讨论多维随机向多元统计分析就是讨论多维随机向量的理论和统计方法的总称。量的理论和统计方法的总称。多元统计分析多元统计分析研究研究 的对象的对象就是多就是多维随机向量维随机向量.第10页/共88页多元统计分析的发展史多元统计分析起源于上世纪初,1928年Wishart发表论文多元正态总体样本协差阵的精确分布,可以说是多元分析的开端。20世纪30年代R.A.Fisher、H.Hotelling、许宝騄等人作了一系列得奠基性工作,使多元分析在理论上得到了迅速得发展。20世纪40年代在心理
10、、教育、生物等方面有不少得应用,但由于计算量大,使其发展受到影响,甚至停滞了相当长得时间。第11页/共88页20世纪50年代中期,随着电子计算机得出现和发展,使多元分析方法在地质、气象、医学、社会学等方面得到广泛得应用。20世纪60年代通过应用和实践又完善和发展了理论,由于新的理论、新的方法不断涌现又促使它的应用范围更加扩大。第12页/共88页20世纪70年代初期在我国才受到各个领域的极大关注,并在多元统计分析的理论研究和应用上也取得了很多显著成绩,有些研究工作已达到国际水平,并已形成一支科技队伍,活跃在各条战线上。在20世纪末与本世纪初,人们获得的数据正以前所未有的速度急剧增加,产生了很多超
11、大型数据库,遍及超级市场销售、银行存款、天文学、粒子物理、化学、医学以及政府统计等领域,多元统计与人工智能和数据库技术相结合,已在经济、商业、金融、天文等行业得到了成功的应用。第13页/共88页二、多元统计分析方法的应用 多元统计分析方法的应用多元统计分析方法在经济管理、农业、医学、教育学、体育科学、生态学、地质学、社会学、考古学、环境保护、军事科学、文学等方面都有广泛的应用,这里我们例举一些实际问题,进一步了解多元统计分析的应用领域,让大家从感性上加深对多元统计分析的认识。第14页/共88页1、城镇居民消费水平通常用八项指标来描述,如人均粮食支出、人均副食支出、人均烟酒茶支出、人均衣着商品支
12、出、人均日用品支出、人均燃料支出、人均非商品支出。这八项指标存在一定的线性关系。为了研究城镇居民的消费结构,需要将相关强的指标归并到一起,这实际就是对指标进行聚类分析。2、在企业经济效益的评价中,涉及到的指标往往很多,如百元固定资产原值实现产值、百元固定资产原值实现利税、百元资金实现利税、百元工业总产值实现利税、百元销售收入实现利税、每吨标准煤实现工业产值、每千瓦时电力实现工业产值、全员劳动生产率、百元流动资金实现产值。如何将这些具有错综复杂关系的指标综合成几个较少的因子,既有利于对问题进行分析和解释,又能便于抓住主要矛盾做出科学的评价。可用主成分分析和因子分析法。第15页/共88页3、某一产
13、品是用两种不同原料生产的,试问此两种原料生产的产品寿命有无显著差异?又比如,若考察某商业行业今年和去年的经营状况,这时需要看这两年经营指标的平均水平是否有显著差异以及经营指标之间的波动是否有显著差异。可用多元正态总体均值向量和协差阵的假设检验。4、按现行统计报表制度,农村家庭纯收入是指农村常住居民家庭总收入中扣除从事生产和非生产经营用支出、税款和上交承包集体任务金额以后剩余的、可直接用于进行生产的、非生产性建设投资、生产性消费的那一部分收入。如果我们收集某年各个省、自治区、直辖市农民家庭人均纯收入的数据,可以用相应分析,揭示全国农民人均纯收入的特征以及各省、自治区、直辖市与各收入指标的关系。第
14、16页/共88页5、某医院已有100个分别患有胃炎、肝炎、冠心病、糖尿病等的病人资料,记录了他们每个人若干项症状指标数据。如果对于一个新的病人,当也测得这若干项症状指标时,可以利用判别分析方法判定他患的是哪种病。6、在地质学中,常常要研究矿石中所含化学成分之间的关系。设在某矿体中采集了60个标本,对每个标本测得20个化学成分的含量。我们希望通过对这20个化学成分的分析,了解矿体的性质和矿体形成的主要原因。第17页/共88页7、研究中国七星瓢虫在黄海、渤海的群聚与近期气象条件的关系。对1000个类似的鱼类样本,如何根据测量的特征如体重、身长、鳍数、鳍长、头宽等,我们可以利用聚类分析方法将这类鱼分
15、成几个不同品种。8、考古学家对挖掘出来的人头盖骨的高、宽等特征来判断是男或女,根据挖掘出的动物牙齿的有关测试指标,判别它是属于哪一类动物牙齿、是哪一个时代的。第18页/共88页第19页/共88页回顾 矩阵代数1.1 矩阵的逆1.2 特征值、特征向量和矩阵的迹1.3 正定矩阵和非负定矩阵1.4 特征值的极值问题第20页/共88页代数余子式设A为p阶方阵,将其元素aij所在的第i行与第j列划去之后所得(p1)阶矩阵的行列式,称为元素aij的余子式,记为Mij。Aij=(1)i+jMij称为元素aij的代数余子式。伴随矩阵第21页/共88页1.1 矩阵的逆若方阵A满足|A|0,则称A为非退化方阵;若
16、|A|=0,则称A为退化方阵。设A=(aij)是一非退化方阵,若方阵C满足AC=I,则称C为A的逆矩阵,记为C=A1,且A1=A*/|A|其中A*伴随矩阵第22页/共88页例1求 的逆矩阵解:第23页/共88页1.2 特征值、特征向量和矩阵的迹一、特征值和特征向量二、矩阵的迹第25页/共88页一、特征值和特征向量设A是p阶方阵,若对于一个数,存在一个p维非零向量x,使得Ax=x,则称为A的一个特征值或特征根,而称x为A的属于特征值的一个特征向量。求解特征值和特征向量步骤:1)令|AI|=0,求方程根即为特征值,记作1,2,p 2)对每一个特征根i,求解方程(AiI)x=0,设解为xi,则i是A
17、的一个特征值,而xi是相应的特征向量。今后,一般取xi为单位向量,即满足xixi=1。第26页/共88页例2 求 的特征值和特征向量。解:所以 A的特征值为当 时,解方程 。由第27页/共88页得基础解系:,所以对应于 的单位特征向量为 当 时,解方程 。由第28页/共88页 得基础解系:,所以对应于 的单位特征向量为 。当 时,解方程 。由得基础解系:,所以对应于 的全部特征向量为 。第29页/共88页特征值和特征向量的基本性质(1)A和A有相同的特征值。(2)若A为实对称矩阵,则A的特征值全为实数,p个特征值按大小依次表示为12p。若ij,则相应的特征向量xi和xj必正交,即xixj=0。
18、n(3)若A为p阶对称矩阵,则存在正交矩阵T及对角矩阵=diag(1,2,p),使得A=TT第30页/共88页二、矩阵的迹设A为p阶方阵,则它的对角线元素之和称为A的迹,记作tr(A),即tr(A)=a11+a22+app方阵的迹具有下述基本性质:(1)tr(AB)=tr(BA)。特别地,tr(ab)=ba。(2)tr(A)=tr(A)。(3)tr(A+B)=tr(A)+tr(B)。(4)。第31页/共88页1.3 正定矩阵和非负定矩阵设A是p阶对称矩阵,x是一p维向量,则xAx称为A的二次型。若对一切x0,有xAx0,则称A为正定矩阵,记作A0;若对一切x,有xAx0,则称A为非负定矩阵,记
19、作A0。对非负定矩阵A和B,AB表示AB0;AB表示AB0。(1)设A是对称矩阵,则A是正定(或非负定)矩阵,当且仅当A的所有特征值均为正(或非负)。(2)若A0(或0),则存在 0(或0),使得 称为A的平方根矩阵。第33页/共88页1.4 特征值的极值问题(1)若A是p阶对称矩阵,其特征值依次为12p,则(2)若A是p阶对称矩阵,B是p阶正定矩阵,12p是B1A的p个特征值,则(3)柯西许瓦兹不等式(CauchySchwarz)若B0,则(xy)2(xBx)(yB1y)第34页/共88页2023/3/2135第一章第一章 多元正态分布多元正态分布 目录 上页 下页 返回 结束 1.1 多元
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元 统计分析
限制150内