多元统计分析第1章绪论ppt课件.ppt
应用多元统计分析 Applied Multivariate Statistical A张立新曲阜师范大学经济学院1为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益第一章第一章 绪绪论论4一、课程介绍一、课程介绍4二、利用统计学进行科学研究的程序二、利用统计学进行科学研究的程序2为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益一、课程介绍:一、课程介绍:41 1、什么是多元统计分析?、什么是多元统计分析?42 2、多元统计分析的起源与发展、多元统计分析的起源与发展43 3、多元统计分析的主要方法、多元统计分析的主要方法44 4、为什么要学习多元统计分析?、为什么要学习多元统计分析?45 5、教与学相关问题、教与学相关问题46 6、软件介绍、软件介绍47 7、考核要求、考核要求48 8、参考教材、参考教材3为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益1 1、什么是多元统计分析?、什么是多元统计分析?4什么是统计学?什么是统计学?4关于如何收集、分析、解释和表达数据的科学。关于如何收集、分析、解释和表达数据的科学。4研究研究随机现象随机现象规律性的方法学。规律性的方法学。4自然界和人类社会活动中,普遍存在自然界和人类社会活动中,普遍存在三类现象三类现象。4确定性现象确定性现象:在相同的条件下出现相同的结果,称为确定性:在相同的条件下出现相同的结果,称为确定性现象或必然现象。现象或必然现象。1+1=2。属于。属于经典数学经典数学研究的范畴。研究的范畴。4随机性现象随机性现象:在相同的条件下出现不同的结果,但结果是确:在相同的条件下出现不同的结果,但结果是确定的,称为随机性现象。如掷硬币正反面。定的,称为随机性现象。如掷硬币正反面。概率统计学概率统计学4模糊性现象模糊性现象:在相同的条件下出现不确定的结果,称为模糊:在相同的条件下出现不确定的结果,称为模糊性现象。如美人与丑人。性现象。如美人与丑人。模糊数学模糊数学4为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益1 1、什么是多元统计分析?、什么是多元统计分析?4在实际问题中,很多随机现象涉及到的变量在实际问题中,很多随机现象涉及到的变量/指标不止一指标不止一个,而经常是多个变量,而且这些变量间又存在一定的个,而经常是多个变量,而且这些变量间又存在一定的联系,常常需要处理多个变量的观测数据。联系,常常需要处理多个变量的观测数据。4衡量一个地区的经济发展水平:衡量一个地区的经济发展水平:GDP,收入、消费、投资、收入、消费、投资、进出口进出口4天气预报:降雨与前一天的气温、气压、湿度等天气预报:降雨与前一天的气温、气压、湿度等4医学诊断:血压、脉搏、白血球、体温等医学诊断:血压、脉搏、白血球、体温等4学习成绩;购买行为;企业竞争力;组织文化学习成绩;购买行为;企业竞争力;组织文化4如何分析:如何分析:分开分析分开分析(可能难以避免相关性,(可能难以避免相关性,丢失信息丢失信息););对多个变量(对多个变量(多维随机向量多维随机向量)同时进行分析同时进行分析研究,即多研究,即多元统计分析。元统计分析。5为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益1 1、什么是多元统计分析?、什么是多元统计分析?4是统计学的重要分支,一元的推广和发展。是统计学的重要分支,一元的推广和发展。4又称:多变量统计分析,高级统计学,多元分析,又称:多变量统计分析,高级统计学,多元分析,高维数据统计分析。当假定总体分布是多元正态分高维数据统计分析。当假定总体分布是多元正态分布时,称为狭义多元分析,否则为广义多元分析布时,称为狭义多元分析,否则为广义多元分析4是研是研究多个随机变量之间的相互依赖关系以及内在究多个随机变量之间的相互依赖关系以及内在统计规律性的一门统计学科(理论和方法)统计规律性的一门统计学科(理论和方法)4多元统计分析的前提条件多元统计分析的前提条件多元统计对资料的分布有一定的要求多元统计对资料的分布有一定的要求;需要有足够大的样本,一般认为,需要有足够大的样本,一般认为,样本量样本量m m是研是研究变量个数究变量个数P P的的1010倍左右。倍左右。6为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益2 2、多元统计分析的起源与发展、多元统计分析的起源与发展4起源于起源于20世纪初,世纪初,1928年威沙特年威沙特(Wishart)发表论文多发表论文多元正态总体样本协方差阵的精确分布元正态总体样本协方差阵的精确分布,标志着多元分析标志着多元分析的开端的开端.4之后之后R.A.Fisher、H.Hotelling、S.N.Roy、许宝禄等人作、许宝禄等人作了一系列奠基的工作,使多元统计分析在理论上得到迅了一系列奠基的工作,使多元统计分析在理论上得到迅速的发展速的发展,在许多领域中也有了实际应用在许多领域中也有了实际应用.但由于用统计方但由于用统计方法解决实际问题时需要的计算量很大,使其发展受到影法解决实际问题时需要的计算量很大,使其发展受到影响响,甚至停滞了相当长的时间。甚至停滞了相当长的时间。4二十世纪二十世纪50年代中期年代中期,随着电子计算机的出现和发展随着电子计算机的出现和发展,使得使得多元统计分析重现活力,在地质、气象、医学、社会学多元统计分析重现活力,在地质、气象、医学、社会学等方面得到广泛的应用等方面得到广泛的应用.7为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益2 2、多元统计分析的起源与发展、多元统计分析的起源与发展41960年代通过应用和实践又完善和发展了理论年代通过应用和实践又完善和发展了理论,由于新理由于新理论、新方法的不断出现又促使它的应用范围更加扩大论、新方法的不断出现又促使它的应用范围更加扩大.4我国至我国至1970年代初期才关注到多元统计的方法;改革开年代初期才关注到多元统计的方法;改革开放后受到各个领域的极大关注放后受到各个领域的极大关注,近近30多年来我国在多元统多年来我国在多元统计方法的理论研究和应用上也取得了很多显著成绩计方法的理论研究和应用上也取得了很多显著成绩,有些有些研究工作已达到国际水平研究工作已达到国际水平4但总的说来,我国的统计学与发达国家相比差距还较大。但总的说来,我国的统计学与发达国家相比差距还较大。首先,与我国经济和科技发展对统计学的需求相比,与首先,与我国经济和科技发展对统计学的需求相比,与一个十多亿人口的大国相比,我国统计学的队伍还很小;一个十多亿人口的大国相比,我国统计学的队伍还很小;其次,统计学的应用远没有达到应有的程度。有很多能其次,统计学的应用远没有达到应有的程度。有很多能够应用统计学的行业领域还不大了解统计学。够应用统计学的行业领域还不大了解统计学。8为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益许宝禄许宝禄4在中国开创了概率论、数理统计的教学与研究工作。在内曼皮尔在中国开创了概率论、数理统计的教学与研究工作。在内曼皮尔逊理论、参数估计理论、多元分析、极限理论等方面取得卓越成就,逊理论、参数估计理论、多元分析、极限理论等方面取得卓越成就,是多元统计分析学科的开拓者之一。是多元统计分析学科的开拓者之一。4原籍浙江杭州,祖父曾任苏州知府,父亲曾任两浙盐运使。兄弟姊原籍浙江杭州,祖父曾任苏州知府,父亲曾任两浙盐运使。兄弟姊妹共妹共7人,他最幼。其两兄均为专家,姊夫俞平伯是著名的文学家人,他最幼。其两兄均为专家,姊夫俞平伯是著名的文学家.4清华大学数学系(与华罗庚同学清华大学数学系(与华罗庚同学),),1933年毕业获理学士学位,经年毕业获理学士学位,经考试录取赴英留学,体检时发现体重太轻不合格,未能成行,休养考试录取赴英留学,体检时发现体重太轻不合格,未能成行,休养一年。一年。1934年任北京大学数学系助教。年任北京大学数学系助教。41936年考取伦敦大学统计系学习数理统计,年考取伦敦大学统计系学习数理统计,1938 年博士毕业后留校年博士毕业后留校认讲师。发表了多篇数理统计学科的重要文献认讲师。发表了多篇数理统计学科的重要文献。41940年回国在西南联合大学任教;年回国在西南联合大学任教;1946年到北卡罗莱纳大学任教年到北卡罗莱纳大学任教;1947年回国在北京大学任教年回国在北京大学任教 4熟练运用英语、德语、法语、俄语熟练运用英语、德语、法语、俄语9为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益3 3、多元统计分析的主要方法、多元统计分析的主要方法4多元描述统计分析多元描述统计分析4多元方差分析多元方差分析4多元回归分析多元回归分析4聚类分析聚类分析4判别分析判别分析4对应分析对应分析4主成份分析主成份分析4因子分析因子分析4典型相关分析典型相关分析4结合分析结合分析4多维标度法多维标度法4路径分析路径分析4神经网络分析神经网络分析4结构方程模型结构方程模型10为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益4 4、为什么要学习多元统计分析?、为什么要学习多元统计分析?4应用性、实用性,进行深层次经济社会分析和解决实际问题应用性、实用性,进行深层次经济社会分析和解决实际问题的一种有效工具的一种有效工具 4培养统计思维;是培养统计思维;是科学研究不可缺少的实用工具。科学研究不可缺少的实用工具。4在自然科学和社会科学等各个领域中得到广泛的应用:经济在自然科学和社会科学等各个领域中得到广泛的应用:经济管理、工业、农业、医学、教育学、体育、生态学、地质学、管理、工业、农业、医学、教育学、体育、生态学、地质学、气象、水文、社会学、考古学、军事科学、文学等气象、水文、社会学、考古学、军事科学、文学等4物理学家物理学家爱因斯坦爱因斯坦学习和研究统计,将统计学思想应用于他学习和研究统计,将统计学思想应用于他的物理学和哲学研究中。的物理学和哲学研究中。4生物学家生物学家达尔文达尔文学习和研究统计,进化论方面的工作在本质学习和研究统计,进化论方面的工作在本质而言是属于生物统计学。而言是属于生物统计学。4护理学的奠基人护理学的奠基人 Nightingale学习和研究统计,学习和研究统计,出版世界上第出版世界上第一部医院统计的专著一部医院统计的专著医院统计与医院规划医院统计与医院规划。11为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益多元统计分析的用途多元统计分析的用途研究目标研究目标/用途用途 内容内容 方法方法 数据或结构性化简数据或结构性化简(降维)(降维)尽可能简单地表示所研究的现象,尽可能简单地表示所研究的现象,但不损失很多有用的信息,并希望但不损失很多有用的信息,并希望这种表示能够很容易的解释。这种表示能够很容易的解释。多元回归分析、聚类分析、主多元回归分析、聚类分析、主成分分析、因子分析、相应分成分分析、因子分析、相应分析、多维标度法、可视化分析析、多维标度法、可视化分析 分类和组合分类和组合 基于所测量到的一些特征,给出好基于所测量到的一些特征,给出好的分组方法,对相似的对象或变量的分组方法,对相似的对象或变量分组。分组。判别分析、聚类分析、主成分判别分析、聚类分析、主成分分析、可视化分析分析、可视化分析 变量之间的相关关变量之间的相关关系系 变量之间是否存在相关关系,相关变量之间是否存在相关关系,相关关系又是怎样体现。关系又是怎样体现。多元回归、典型相关、主成分多元回归、典型相关、主成分分析、因子分析、相应分析、分析、因子分析、相应分析、多维标度法、可视化分析多维标度法、可视化分析 预测与决策预测与决策 通过统计模型或最优准则,对未来通过统计模型或最优准则,对未来进行预见或判断。进行预见或判断。多元回归、判别分析、聚类分多元回归、判别分析、聚类分析、可视化分析、神经网络、析、可视化分析、神经网络、时间序列,马尔科夫概型分析时间序列,马尔科夫概型分析假设的提出及检验假设的提出及检验检验由多元总体参数表示的某种统检验由多元总体参数表示的某种统计假设,能够证实某种假设条件的计假设,能够证实某种假设条件的合理性。合理性。多元总体参数估计、假设检验多元总体参数估计、假设检验 12为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益回归分析回归分析定性数据建模定性数据建模聚类分析聚类分析判别分析判别分析主成分分析主成分分析因子分析因子分析结构方程结构方程统计学方法的应用以及内容之间的逻辑关系 应用范围统计方法13为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益4 4、为什么要学习多元统计分析?、为什么要学习多元统计分析?43.1 教育学教育学4 n个考生报考曲师大经济统计系个考生报考曲师大经济统计系.每个考生参加每个考生参加7 7门课门课(语文、数学、政治、外语、物理、化学、生物)的考语文、数学、政治、外语、物理、化学、生物)的考试,各门课成绩记为试,各门课成绩记为Yj1,Yj2,Yj7 。又每个考生在高又每个考生在高中学习期间,中学习期间,m门主要课程成绩为门主要课程成绩为Xj1,Xj2,Xjm(j=1,2,=1,2,n)。经对这大量的资料作统计分析,我们能经对这大量的资料作统计分析,我们能够得出:够得出:(1)1)高考成绩和高中学习期间成绩的关系高考成绩和高中学习期间成绩的关系,即给出两组即给出两组变量变量线性组合间的关系线性组合间的关系,从而可由考生在高中期间的学从而可由考生在高中期间的学习成绩来习成绩来预报高考的综合成绩或某科目的成绩预报高考的综合成绩或某科目的成绩.14为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益4 4、为什么要学习多元统计分析?、为什么要学习多元统计分析?4(2)利用利用n个学生在高中学习期间个学生在高中学习期间m门主科的考试成绩,门主科的考试成绩,可可对学生进行分类对学生进行分类,如按文、理科成绩分类,按总成绩,如按文、理科成绩分类,按总成绩分类等。若准备分类等。若准备给优秀学生发奖给优秀学生发奖,那么一等奖、二等奖,那么一等奖、二等奖的比例应该是多少?应用多元统计分析的方法可以给出的比例应该是多少?应用多元统计分析的方法可以给出公平合理地确定。公平合理地确定。4评选三好生评选三好生,评选学习奖,评选各种奖学金,推荐研究生,评选学习奖,评选各种奖学金,推荐研究生,甚至评选小偷!甚至评选小偷!4如何评选更合理?如何评选更合理?4可以使用主成份分析可以使用主成份分析15为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益4 4、为什么要学习多元统计分析?、为什么要学习多元统计分析?4比如全班有比如全班有40名学生名学生,本科生四年中主要课程包括基础课本科生四年中主要课程包括基础课,专业基础课专业基础课,本专业的限选课本专业的限选课,设共有设共有12门课门课.从教务处可从教务处可以得到全班以得到全班40名学生这名学生这12门课的成绩门课的成绩,组成的组成的40行行12列的列的数据阵数据阵X,即原始数据,即原始数据.4 (1)全班学生综合成绩的排序全班学生综合成绩的排序4 12门课的成绩可看成门课的成绩可看成12个变量个变量,这是这是多指标多指标(变量变量)系统的系统的排序评估问题排序评估问题。4如何更科学、更客观地将一个如何更科学、更客观地将一个多指标问题综合为单个综多指标问题综合为单个综合变量合变量的形式?的形式?主成分分析方法为样本排序或多指标系主成分分析方法为样本排序或多指标系统评估提供可行的方法。统评估提供可行的方法。16为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益4 4、为什么要学习多元统计分析?、为什么要学习多元统计分析?4用主成分分析方法从用主成分分析方法从12个相关的变量中可以综合得出几个相关的变量中可以综合得出几个互不相关的主成分它们是原始变量的线性组合。个互不相关的主成分它们是原始变量的线性组合。其中第一主成分综合原始变量的信息最多(一般在其中第一主成分综合原始变量的信息最多(一般在70以上),我们就用第一主成分(即单个综合指标)以上),我们就用第一主成分(即单个综合指标)F1替替代原来的代原来的12个变量;然后计算第一主成分的得分并进行个变量;然后计算第一主成分的得分并进行排序。比如排序。比如4F1是是12个变量的线性组合,且系数都是正数,数值有大个变量的线性组合,且系数都是正数,数值有大有小。显然数值大的变量对综合指标(主成分)的贡献有小。显然数值大的变量对综合指标(主成分)的贡献大;数值小的变量对综合指标(主成分)的贡献小。大;数值小的变量对综合指标(主成分)的贡献小。4成绩简单的加总并不是最科学地代表成绩简单的加总并不是最科学地代表12门课综合成绩的门课综合成绩的指标指标17为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益4 4、为什么要学习多元统计分析?、为什么要学习多元统计分析?412个原始变量(课程)提供的信息各为多少?用什么量个原始变量(课程)提供的信息各为多少?用什么量来表达?最经典的方法是用变量的方差为多少来表达。来表达?最经典的方法是用变量的方差为多少来表达。4 如果某课程全班学生的成绩都差不多,比如都是如果某课程全班学生的成绩都差不多,比如都是80分分左右,则这门课程在学生成绩的排序中不起什么作用。左右,则这门课程在学生成绩的排序中不起什么作用。这反映在原始变量的线性组合这反映在原始变量的线性组合F1(第一主成分)上该变(第一主成分)上该变量对应的系数会很小(如量对应的系数会很小(如0.1025).4 如果另一门课程全班学生的成绩相差很大,有的如果另一门课程全班学生的成绩相差很大,有的100分,分,有的只有有的只有30多分,则这门课程在学生成绩的排序中起的多分,则这门课程在学生成绩的排序中起的作用很大。这反映在原始变量的线性组合作用很大。这反映在原始变量的线性组合F1(第一主成(第一主成分)上该变量对应的系数会很大(比如分)上该变量对应的系数会很大(比如0.4525).4如果考虑课程的重要性,则需加权,变量系数也增大如果考虑课程的重要性,则需加权,变量系数也增大18为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益4实际分析中可能提取出的主成份有多个,如下表:可以实际分析中可能提取出的主成份有多个,如下表:可以3个公因子的方差贡献率为权重,可以得到学生成绩的综合个公因子的方差贡献率为权重,可以得到学生成绩的综合得分计算公式。得分计算公式。19为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益4 4、为什么要学习多元统计分析?、为什么要学习多元统计分析?43.2 医学医学4 随机抽取随机抽取300名患有抑郁症的病人名患有抑郁症的病人,按照测量到的指标按照测量到的指标,可以可以将他们分为几种类型将他们分为几种类型-聚类问题聚类问题.4 医生对病人的诊断是靠对病人观测若干症状来综合评定。如医生对病人的诊断是靠对病人观测若干症状来综合评定。如一个人发高烧,医生根据他的体温高低、白血球数目及其它症一个人发高烧,医生根据他的体温高低、白血球数目及其它症状来判断他是得感冒、肺炎还是其它。再如某人发现腹部有肿状来判断他是得感冒、肺炎还是其它。再如某人发现腹部有肿瘤,医生根据肿瘤的大小、生长的速度、边界是否清楚,质硬瘤,医生根据肿瘤的大小、生长的速度、边界是否清楚,质硬或软等症状来判断肿瘤是良性或恶性或软等症状来判断肿瘤是良性或恶性-判别问题判别问题.4某医院已有某医院已有100个分别患有胃炎、肝炎、冠心病、糖尿病个分别患有胃炎、肝炎、冠心病、糖尿病等的病人资料,记录了他们每个人若干项症状指标数据。等的病人资料,记录了他们每个人若干项症状指标数据。根据这批资料利用多元统计方法根据这批资料利用多元统计方法建立诊断准则建立诊断准则(即专家系统即专家系统)。)。如果对于一个新的病人,当也测得这若干项症状指标时,如果对于一个新的病人,当也测得这若干项症状指标时,可以利用可以利用判别分析判别分析方法判定他患的是哪种病。方法判定他患的是哪种病。20为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益4 4、为什么要学习多元统计分析?、为什么要学习多元统计分析?43.2 医学医学4有人观察发现喝咖啡的人,很多人患心肌梗塞有人观察发现喝咖啡的人,很多人患心肌梗塞MI,这种,这种现象是表象还是内在因果关系的?现象是表象还是内在因果关系的?4研究者调查研究者调查MI及非及非MI病人各病人各150例,得到如下数据例,得到如下数据4优势比优势比:4OR=(90/60)/(60/9060)=2.254 Pearson chi2(1)=12.0,P=0.001。4 结果:喝咖啡人结果:喝咖啡人MI发生的危险性是不喝的发生的危险性是不喝的2.25倍。倍。4 两组两组MI发生率差异有显著意义。发生率差异有显著意义。4 结论:喝咖啡与心肌梗塞结论:喝咖啡与心肌梗塞MI有关!对否?有关!对否?21为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益 研究者怀虑结论,考虑到其中可能混杂其它因素,研究者怀虑结论,考虑到其中可能混杂其它因素,如吸烟对喝咖啡与心肌梗塞如吸烟对喝咖啡与心肌梗塞MIMI间关系的影响,进一步间关系的影响,进一步分层分析分层分析得到。得到。表表 控制吸烟因素的干扰后结果控制吸烟因素的干扰后结果 Smoker Nosmoker MI NoMI%MI NoMI%Coffee 80 40 67 10 20 33 Noffee 20 10 67 40 80 33 优势比:优势比:OR=1,P=1.00,OR=1,P=1.00表明,在吸烟组和不吸烟组中。喝咖啡与不喝咖啡的表明,在吸烟组和不吸烟组中。喝咖啡与不喝咖啡的MIMI发生的相对危险度相同的。发生的相对危险度相同的。4 4、为什么要学习多元统计分析?、为什么要学习多元统计分析?分层分析是分层分析是在其它影响在其它影响因素保持恒因素保持恒定情况下,定情况下,评价某一危评价某一危险因素对结险因素对结果的影响。果的影响。22为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益4 4、为什么要学习多元统计分析?、为什么要学习多元统计分析?4当混杂因素较多时,分层分析较麻烦且不准确4每增加一个因素,你将倍增分组的数量。4 一方面产生大量的打印结果;另一方面即使在开始时有很大的样本量,可能在某些分组中样本量还是不足。有时无法分层的。4COX比例风险分析比例风险分析的多元分析方法,它将使你同时评价各种不同因素对结果的不同作用23为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益4 4、为什么要学习多元统计分析?、为什么要学习多元统计分析?43.3 环境科学环境科学4为了了解某大型化工厂对环境的污染程度,在厂区及邻为了了解某大型化工厂对环境的污染程度,在厂区及邻近地区有代表性的选近地区有代表性的选25个监测点个监测点(如厂区如厂区,生活区生活区,医院医院,学校学校),每天定时,每天定时(2点点,8点点,14点点,20点点)同时抽取大气同时抽取大气样品样品,测定其中测定其中6种污染气体种污染气体(二氧化硫二氧化硫,硫化氢硫化氢,碳碳4,)的的浓度浓度,前后前后4天共天共16次数据次数据,对每个监测点对每个监测点,计算每种污染计算每种污染气体气体16次实测值的次实测值的平均值平均值,得得25行行6列的数据阵列的数据阵X。由数。由数据阵据阵X出发出发,进行分析处理进行分析处理.4聚类分析聚类分析:把:把25个取样点按污染情况分为个取样点按污染情况分为5类,如分为极类,如分为极严重污染,很严重污染严重污染,很严重污染,严重污染严重污染,一般污染和较轻污染一般污染和较轻污染五大类五大类24为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益4 4、为什么要学习多元统计分析?、为什么要学习多元统计分析?4若使用若使用对应分析对应分析方法方法,不仅可得出分类结果不仅可得出分类结果,还可给还可给出有每一类污染的主要的污染气体出有每一类污染的主要的污染气体(元素元素).4 这些分类结果将为今后监测点的布局提供既合理又这些分类结果将为今后监测点的布局提供既合理又经济的方案经济的方案.4 如果在如果在25个监测点以外的其它地方个监测点以外的其它地方也同时定点测量也同时定点测量了了6种污染气体的浓度种污染气体的浓度,则由以上的分类结果用则由以上的分类结果用判别判别归类归类的方法还可给出该地区的方法还可给出该地区的污染分类的污染分类.25为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益4 4、为什么要学习多元统计分析?、为什么要学习多元统计分析?43.4 考古学考古学4(1)考古学家根据一群坟墓中的陪葬品(特别是陶磁考古学家根据一群坟墓中的陪葬品(特别是陶磁和珠宝),利用它们在式样和装饰上的差别,把它和珠宝),利用它们在式样和装饰上的差别,把它们们按时间顺序排列按时间顺序排列起来。起来。4 (2)考古学家对挖掘出来的人头盖骨的高、宽等特征考古学家对挖掘出来的人头盖骨的高、宽等特征来判断是男或女,来判断是男或女,判断所属的种族判断所属的种族,并研究最佳的,并研究最佳的测量法以及最少的测量数目。测量法以及最少的测量数目。4(3)考古学家根据挖掘出的动物牙齿的有关测试指标,考古学家根据挖掘出的动物牙齿的有关测试指标,判别它是属于判别它是属于哪类动物牙齿哪类动物牙齿,是哪一个时代的是哪一个时代的。26为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益4 4、为什么要学习多元统计分析?、为什么要学习多元统计分析?43.5 经济学经济学4构造中国国民收入的生产、分配与最终使用的计量经济模型。构造中国国民收入的生产、分配与最终使用的计量经济模型。例如根据我国例如根据我国1952年年1981年财政收入与国民收入、工农业年财政收入与国民收入、工农业总产值、人口、就业人口、固定投资等因素有关,用回归方总产值、人口、就业人口、固定投资等因素有关,用回归方法法建立预测模型建立预测模型,用予对今后的财政收入作预测。,用予对今后的财政收入作预测。4为了研究为了研究不同地区农民收支的分布规律不同地区农民收支的分布规律,抽样调查了全国,抽样调查了全国31个省市自治区的农民生活消费支出情况,如食品、衣着、燃个省市自治区的农民生活消费支出情况,如食品、衣着、燃料、住房、生活用品、文化生活等的消费。用料、住房、生活用品、文化生活等的消费。用聚类分析方法聚类分析方法对对31个地区分类个地区分类,根据分类结果还可进一步研究各类地区农,根据分类结果还可进一步研究各类地区农民的生活水平、富裕程度、以便进一步研究经济发展对策民的生活水平、富裕程度、以便进一步研究经济发展对策4市场预测产品是否畅销(市场预测产品是否畅销(判别分析法判别分析法)27为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益4 4、为什么要学习多元统计分析?、为什么要学习多元统计分析?43.5 经济学经济学4研究国民收入变量与投资性变量之间的相关关系(研究国民收入变量与投资性变量之间的相关关系(典型相关典型相关分析法分析法)4对全国对全国31个省市自治区经济效益做综合评价,涉及到的指标个省市自治区经济效益做综合评价,涉及到的指标往往很多,可考虑将这些具有错综复杂关系的指标综合成几往往很多,可考虑将这些具有错综复杂关系的指标综合成几个较少的因子,既有利于对问题进行分析和解释,又能便于个较少的因子,既有利于对问题进行分析和解释,又能便于抓住主要矛盾做出科学的评价。(抓住主要矛盾做出科学的评价。(主成分分析和因子分析主成分分析和因子分析)4考察某产品的质量指标与影响产品质量的因素(多个)之间考察某产品的质量指标与影响产品质量的因素(多个)之间的关系(的关系(多重多元回归分析法多重多元回归分析法)4某一产品用两种不同的原料生产,产品的寿命有无显著差异某一产品用两种不同的原料生产,产品的寿命有无显著差异?某商业行业今年和去年的经营状况有无显著差异?(?某商业行业今年和去年的经营状况有无显著差异?(多元多元正态的假设检验正态的假设检验)28为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益4 4、为什么要学习多元统计分析?、为什么要学习多元统计分析?4按现行统计报表制度,农村家庭纯收入是指农村常住居按现行统计报表制度,农村家庭纯收入是指农村常住居民家庭总收入中扣除从事生产和非生产经营用支出、税民家庭总收入中扣除从事生产和非生产经营用支出、税款和上交承包集体任务金额以后剩余的、可直接用于进款和上交承包集体任务金额以后剩余的、可直接用于进行生产的、非生产性建设投资、生产性消费的那一部分行生产的、非生产性建设投资、生产性消费的那一部分收入。如果我们收集某年各个省、自治区、直辖市农民收入。如果我们收集某年各个省、自治区、直辖市农民家庭人均纯收入的数据,可以用家庭人均纯收入的数据,可以用相应分析相应分析,揭示全国农,揭示全国农民人均纯收入的特征以及各省、自治区、直辖市与各收民人均纯收入的特征以及各省、自治区、直辖市与各收入指标的关系。入指标的关系。4有有100种酒,品尝家可以对每两种酒进行品尝对比,给出种酒,品尝家可以对每两种酒进行品尝对比,给出一种相近程度的得分(越相近得分越高,相差越远得分一种相近程度的得分(越相近得分越高,相差越远得分越低),希望用这些得分数据来了解这越低),希望用这些得分数据来了解这100种酒之间的结种酒之间的结构关系。可以用构关系。可以用多维标度法多维标度法来解决。来解决。29为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益4 4、为什么要学习多元统计分析?、为什么要学习多元统计分析?43.6文学文学4自从二十世纪自从二十世纪30年代末英国著名的统计学家年代末英国著名的统计学家Yule把统计方法引把统计方法引入到文学词汇的研究以来入到文学词汇的研究以来,这个领域已经取得不少进展,最有这个领域已经取得不少进展,最有名的是名的是Mosteller与与Wallace在在60年代初对美国立国三大历史文年代初对美国立国三大历史文献之一的联邦主义者文集的研究献之一的联邦主义者文集的研究.4在在1985,1986年我国复旦大学统计运筹系的李贤平教授对我国年我国复旦大学统计运筹系的李贤平教授对我国的名著红楼梦的著作权进行研究的名著红楼梦的著作权进行研究.使用的统计方法主要是使用的统计方法主要是多元分析多元分析.4 先选定数十个(先选定数十个(m个)与情节无关的虚词个)与情节无关的虚词(如如:了了,吗吗,嘛嘛,喱喱,呢呢,么么,等等)作为变量作为变量,把红楼梦一书把红楼梦一书中的中的120回作为回作为120个个样品样品,统计每一回统计每一回(即样品即样品)选定的这些虚词选定的这些虚词(即变量即变量)出现的频出现的频数数.由此得到的由此得到的120行行m列的列的数据阵作为分析的依据。数据阵作为分析的依据。30为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益4 4、为什么要学习多元统计分析?、为什么要学习多元统计分析?4在红楼梦的著作权的研究中使用较多的方法是在红楼梦的著作权的研究中使用较多的方法是聚类聚类分析分析,主成分分析主成分分析,典型相关分析典型相关分析等方法等方法,由输出的大量图由输出的大量图形可以看出形可以看出:4 (1)(1)前前8080回和后回和后4040回截然地分为两类回截然地分为两类;4 (2)(2)第第6767回落入后回落入后4040回的这一类中回的这一类中;4 (3)(3)前前8080回广泛散布回广泛散布,并有若干规律并有若干规律;4 (4)(4)后后4040回依回目的先后可分为几类回依回目的先后可分为几类.31为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益4 4、为什么要学习多元统计分析?、为什么要学习多元统计分析?4由以上分析结果可以证实由以上分析结果可以证实:4 (1)前前80回和后回和后40回回不是出于同一个人不是出于同一个人的手笔的手笔;4 (2)前前80回回是否为曹雪芹所写是否为曹雪芹所写?通过用曹雪芹的另一著作通过用曹雪芹的另一著作,做类似的分析做类似的分析,结果证实了用词手法完全相同结果证实了用词手法完全相同,断定断定为曹为曹雪芹一人手笔雪芹一人手笔;4 (3)而后而后40回是否为高鹗写的回是否为高鹗写的?结论推翻了后结论推翻了后40回是高鹗回是高鹗一人所写。后一人所写。后40回的成书比较复杂,既有残稿也有外人回的成书比较复杂,既有残稿也有外人笔墨,笔墨,不是高鹗一人所续不是高鹗一人所续。4以上这些论证在红学界引起轰动以上这些论证在红学界引起轰动.他们用多元统计分析方他们用多元统计分析方法提出了关于红楼梦作者和成书过程的新学说。法提出了关于红楼梦作者和成书过程的新学说。32为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益4 4、为什么要学习多元统计分析?、为什么要学习多元统计分析?4当然,学者们的研究结果并不一致当然,学者们的研究结果并不一致4从有关资料中我还看到从有关资料中我还看到:1980年美国华人教授陈先生也用年美国华人教授陈先生也用类似的统计方法研究了红楼梦的作者。当时把前类似的统计方法研究了红楼梦的作者。当时把前80回和后回和后40回分开成为二部分回分开成为二部分,又另取英雄儿女(作者:又另取英雄儿女(作者:巴金)一书,考虑的用词有名词巴金)一书,考虑的用词有名词,形容词和虚词等,计算形容词和虚词等,计算这三部分的相关系数,得出前这三部分的相关系数,得出前80回和后回和后40回的相关系数回的相关系数为为0.7以上,而与英雄儿女的相关系数只有以上,而与英雄儿女的相关系数只有0.3.从而从而得出结论认为前得出结论认为前80回和后回和后40回的作者为同一人回的作者为同一人.33为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益5 5、教与学相关问题、教与学相关问题4教法: