第五章数据分析精选文档.ppt
《第五章数据分析精选文档.ppt》由会员分享,可在线阅读,更多相关《第五章数据分析精选文档.ppt(44页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第五章第五章 数据分析数据分析本讲稿第一页,共四十四页 Add your text in here多变量描述统计多变量描述统计 多变量分析发展多变量分析发展内容内容总结总结知识回顾知识回顾描述统计描述统计本讲稿第二页,共四十四页知识回顾知识回顾数据分析:从实际观测数据中发现变量的特征、变化规则以及变量之间的关联的过程。数数据据分分析析描述统计描述统计推断统计推断统计单变量描述统计单变量描述统计双变量描述统计双变量描述统计多变量描述统计多变量描述统计本讲稿第三页,共四十四页多变量分析发展多变量分析发展 多变量分析为统计方法的一种,包含了许多的方法,最基本的为单变量,再延伸出来的多变量分析 统计资
2、料中有多个变量(或称因素、指标)同时存在时的统计分析,是统计学的重要分支,是单变量统计的发展 起源于医学和心理学 1930年代它在理论上发展很快,但由于计算复杂,实际应用很少。1970年代以来由于计算机的蓬勃发展和普及,多变量统计分析已渗入到几乎所有的学科。到80年代后期,计算机软件包已很普遍,使用也方便,因此多变量分析方法也更为普及。本讲稿第四页,共四十四页为何研究为何研究充分地解释某种现象探索现象的成因本讲稿第五页,共四十四页 Add your text in here多变量描述统计多变量描述统计 偏相关分析和多元回归偏相关分析和多元回归因子分析因子分析原因事件的辨识原因事件的辨识 多变量
3、关联表多变量关联表描述统计描述统计本讲稿第六页,共四十四页多变量关联表多变量关联表多变量关联表分析(细化分析):引入第三个变量,按此变量的属性来分别考察自变量 和因变量之间的关系。细化分析的过程细化分析的过程本讲稿第七页,共四十四页细化的过程细化的过程本讲稿第八页,共四十四页四种结果四种结果无效应无效应干预效应干预效应掩盖效应掩盖效应一级细分表和零级细分表的结一级细分表和零级细分表的结果相同或相似。果相同或相似。零级表显示的并非自变量和因变量两者直零级表显示的并非自变量和因变量两者直接存在的关联强度,而是控制变量对两者接存在的关联强度,而是控制变量对两者作用的结果。作用的结果。零级表和一级表所
4、反映的自、因变量间零级表和一级表所反映的自、因变量间的关联强度保持一致。的关联强度保持一致。抑制效应抑制效应控制变量对自变量和因变量产生影响,同控制变量对自变量和因变量产生影响,同时,自变量和因变量之间也直接相关。时,自变量和因变量之间也直接相关。本讲稿第九页,共四十四页多变量关联分析法多变量关联分析法 利利VS弊弊VS利利弊弊u 适用于控制变量属性值为离散型的情况u 对于定序、定类尺度,是唯一适用的方法u 变量数增加,细分表级数增多,模型复杂u 每个控制组的样本数据减少,影响准确性本讲稿第十页,共四十四页偏相关分析和多元回归偏相关分析和多元回归偏相关分析:表示在消除第三个变量的影响后,自变量
5、和因变量的关联程度。多元回归分析:研究一个被解释变量(因变量),多个解释变量(自变量)的线性模型,即 y=1+2X2+kXk+本讲稿第十一页,共四十四页偏相关分析偏相关分析例1:欲分析个人受教育水平和工作绩效之间的关联,两者的关联又受年龄影响。(如下图)年龄年龄教育水平教育水平工作绩效工作绩效本讲稿第十二页,共四十四页 用一元回归分析年龄(自用一元回归分析年龄(自变量)和教育水平(因变量)和教育水平(因变量)之间的关系,得变量)之间的关系,得出方程和残差出方程和残差 用一元回归分析年龄(自用一元回归分析年龄(自变量)和工作绩效(因变量)和工作绩效(因变量)之间的关系,得变量)之间的关系,得出方
6、程和残差出方程和残差 用第三个回归方程来用第三个回归方程来分析第一个回归方程分析第一个回归方程和第二个回归方程残和第二个回归方程残差之间的关联,得出差之间的关联,得出相关系数即相关系数即 偏相关偏相关系数系数第一步第一步第二步第二步第三步第三步 注:残差项说明因变量不能由自变量来解释的那部分偏差注:残差项说明因变量不能由自变量来解释的那部分偏差 建立回归方程建立回归方程本讲稿第十三页,共四十四页偏相关系数偏相关系数表示控制变量的影响消除后因变量可解释偏差部分,此系数平方后便是可解释偏差在因变量总偏差中所占的比例。Z为控制变量,x,y为自变量和因变量本讲稿第十四页,共四十四页偏相关分析偏相关分析
7、l 设例1中,年龄和教育水平的相关系数为0.38,年龄和工作绩效的相关系数为0.2,教育水平和工作绩效的相关系数为0.5,则教育水平和工作绩效的偏相关系数为:r=(0.5-0.38*0.2)/(1-0.382)1/2(1-0.382)1/2=0.47本讲稿第十五页,共四十四页偏相关分析偏相关分析例2某年26个旅游景区的商店投资数据、游客增长和风景区的经济增长率,想从变量之间的相关关系,寻求与风景区经济增长密切相关的因素。使用SPSS软件得出风景区商业投资额风景区商业投资额与风景区风景区经济增长经济增长之间相关系数为0.664,t检验的p=0.0000.05。说明剔除变量游客增长率游客增长率的影
8、响后,风景区风景区商业投资额商业投资额与风景区经济增长风景区经济增长没有显著性关系,更不能说,风景区的商业投资额导致了风景区的经济增长。本讲稿第十七页,共四十四页l偏相关分析可以显示:在消除了一个或多个控制变偏相关分析可以显示:在消除了一个或多个控制变量的影响之后,自变量和因变量的相关关系发生了什量的影响之后,自变量和因变量的相关关系发生了什么变化。么变化。l偏相关系数可以表示两变量间的关联强度,但不能偏相关系数可以表示两变量间的关联强度,但不能反映两者之间变化的定量关系。反映两者之间变化的定量关系。偏相关分析偏相关分析本讲稿第十八页,共四十四页多元回归分析多元回归分析多元回归分析的内容和功能
9、与一元回归分析完全一样,只是回归方程中包含两个或多个自变量,回归系数表示方程中其他自变量受控受控的情况下一个自变量与因变量的关联。注:受控,并非将样本数据按受控的自变量注:受控,并非将样本数据按受控的自变量属性值归类,而是属性值归类,而是“调节调节”每个样本的变每个样本的变量属性值。量属性值。本讲稿第十九页,共四十四页多元回归分析多元回归分析多变量回归方程:y=1+2X2+kXk+表示y的截距为零的情况,i 表示自变量Xi 变化一单位时在其他自变量保持不变的情况下因变量y的变化量,表示随机误差。注:注:多元回归方程并不能反映出各个自变量的相对重要性,因为i与自变量的度量尺度有关,i n并不代表
10、Xi 和y的关联较Xn和y的关联更强,可能是由于Xi采用较小的尺度单位本讲稿第二十页,共四十四页多元回归分析多元回归分析为了评判各自变量的相对重要性,回归方程的系数i 可以标准化,这样就可以反映出在解释因变量y的变化中多个自变量的相对重要性。多元回归方程可以检验自变量和因变量关联的统计显著性。P0.05,则无显著性关系。本讲稿第二十一页,共四十四页多元回归分析多元回归分析例:以课题总数为被解释变量,解释变量为投入人年数(以课题总数为被解释变量,解释变量为投入人年数(X2)、受)、受投入高级职称的人年数(投入高级职称的人年数(X3)、投入科研事业费()、投入科研事业费(X4)、专著数)、专著数(
11、X6)、论文数()、论文数(X7)、获奖数()、获奖数(X8)。)。解释变量采用强制进入策略,并做多重共线性检测。解释变量采用强制进入策略,并做多重共线性检测。假设课题总数与投入人年数(X2)、受投入高级职称的人年数(X3)、投入科研事业费(X4)、专著数(X6)、论文数(X7)、获奖数(X8)是线性相关,则设此时的回归方程为:课题总数=1+2投入年数+3投入科研事业费+4专著数+5论文数+6获奖数+=1+2 X2+3 X3+4 X4+5 X5+6 X6+本讲稿第二十二页,共四十四页多元回归分析多元回归分析得到结果如下:CoefficientsaModelUnstandardized Coef
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第五章 数据分析精选文档 第五 数据 分析 精选 文档
限制150内