统计学第六章 研究变量的关系相关与回归.pdf
第六章 研究变量之间的关系:相关与回归第六章 研究变量之间的关系:相关与回归以前各章的描述统计和推断统计集中在单 变量上,这是统计的基础。两个或多个变量 之间关系的研究是大部分研究的核心,是统 计应用的重点。多变量统计分析建立在单变 量分析工具上,指导原则是相同的:作图表现数据,给出数值概括度量寻找整体模式,讨论与模式的偏差当整体模式比较规律,用一个简洁的数学 模型描述。第一节 分类数据之间关系研究:列联表 许多变量本身是分类变量,如性别、种族 和职业,其他分类变量由将数值变量的取 值分成若干个组而产生的。为了分析分类 变量的关系,需要使用落在各个类别中的 频数或频率,列联表(two-way table)是 概括分类数据关系的一种分析工具。列联表结构:行变量、列变量、行和、列 和频数第一节 分类数据之间关系研究:列联表 例 CASE7.1 音乐会影响购买行为吗?列联表的分析开始于对单个变量分布的观察,即 边际分布。Stata命令:tabulate Wine Music fweight=count第一节 分类数据之间关系研究:列联表 分类变量间的关系可由条件分布的比较来描述:CASE7.1 条件分布的比较:第一节 分类数据之间关系研究:列联表 Simpson 悖论:An association or comparison that holds for all of several groups can reverse direction when the data are combined to form a single group.This reversal is called Simpsons paradox.启发:Conclusions that seem obvious when we look only at aggregated data can become quite different when the data are examined in more detail.第一节 分类数据之间关系研究:列联表Example:第一节 分类数据之间关系研究:列联表 统计检验:The null hypothesis H0 of interest in a two-way table is there is no association between the row variable and the column variable.The alternative hypothesis Ha is that there is an association between these two variables.The alternative Ha does not specify any particular direction for the association.For r c tables in general,the alternative includes many different possibilities.Because it includes all the many kinds of association that are possible,we cannot describe Ha as either one-sided or two-sided.第一节 分类数据之间关系研究:列联表 检验方法:To test the null hypothesis in r c tables,we compare the observed cell counts with expected cell counts calculated under the assumption that the null hypothesis is true.Our test statistic is a numerical measure of the distance between the observed and expected cell counts.第一节 分类数据之间关系研究:列联表 Chi方检验:第一节 分类数据之间关系研究:列联表卡方检验:Case7.1卡方检验结果第一节 分类数据之间关系研究:列联表 用于列联表的模型:The precise statement of the null hypothesis“no relationship”in terms of population parameters is different for different designs.模型1:比较几个总体 Case 7.1(wine sales in three environments)is an example of separate and independent random samples from each of c populations.The c columns of the two-way table represent the populations.There is a single categorical response variable,wine type.The r rows of the table correspond to the values of the response variable.The r c table allows us to compare more than two populations or more than two categories of response,or both.In this setting,the null hypothesis“no relationship between column variable and row variable”becomesH0:The distribution of the response variable is the same in all c populations.第一节 分类数据之间关系研究:列联表模型2:检验独立性Model for Examining Independence in Two-Way TablesSelect an SRS of size n from a population.Measure two categorical variables for each individual.The null hypothesis is that the row and column variables are independent.The alternative hypothesis is that the row and column variables are dependent.CASE7.2第二节 数值型数据之间关系研究:相关与回归 解释变量与响应变量:数值型数据关系研 究开始于度量同一个体的两个变量,经常 我们认为一个变量解释或影响另一个变量有时两变量不存在解释-被解释的关系,如存 货与销售量,是否存在依赖于我们使用数 据目的第二节 数值型数据之间关系研究:相关与回归 散点图(scatterplots):表现两个数值变 量之间关系的最常用方法是散点图。解释散点图:通过散点图来寻找整体模式,即变量关系的形式、方向和强度 控制点(Locus of control)这一概念,最初是由美国社会学习理论家的朱利 安罗特(Julian Bernard Rotter)于1954年提出的一种个体归因倾向的理论,旨 在对个体的 归因差异进行说明和测量。罗特发现,个体对自己生活中发生的 事情及其结果的控制源有不同的解释。对某些人来说,个人生活中多数事情 的结果取决于个体在做这 些事情时的努力程度,所以这种人相信自己能够对 事情的发展与结果进行控制。此类人的控制点在个体的内部,称为内控者。对另外一些人,个体生活中多数事情的 结果是个人不能控制的各种外部力量 作用造成的,他们相信社会的安排,相信命运和机遇等因素决定了自己的状 况,认为个人的努力无济于事。这种人倾向于放弃对 自己生活的责任,他们 的控制点在个体的外部,称为外控者。由于内控者与外控者理解的控制点来源不同,因而他们对待事物的态度 与行为方式也不相同。内控者相信自己能发挥作用,面对可能的失败也不怀 疑未来可能会有所改善,面对困难情境,能付出更大努力,加大工作投入。他们的态度与行为方式是符合社会期待的。而外控者看不到个人努力与行为 结果的积极关系,面对失败与困难,往往推卸责任于外部原因,不去寻找解 决问题的办法,而是企图寻求救援或是赌博式的碰运气。他们倾向于以无 助、被动的方式面对生活。显然这种态度与行为方式是不可取的。尔后,不同的心理学家从不同的角度和各自的目标出发,对这一概念进 行了研究,提出了各自不同的看法。其中,心理学家格洛佛(Glover)在其2O 世纪7O年代出版的教育心理学一书中提出的“控制点指的是一个人感到自 己的成功与失败的位置在哪里内部的或外部的”这一观点最有代表性。个体对自己的控制点的认知是不一样的。对控制点的不同认知会影响个 体的情绪、期望、动机和行为,从而对其生活、工作、学习、健康等产生间 接的影响第二节 数值型数据之间关系研究:相关与回归 寻找整体模式:第二节 数值型数据之间关系研究:相关与回归非线性关系:第二节 数值型数据之间关系研究:相关与回归数据的变换:在商业应用中数据常常是有偏的,为 了寻找模式,经常对数据进行变换。最常用的变 量是对数变换,它能使有偏分布更趋对称,有助 于更好地发现变量之间关系。第二节 数值型数据之间关系研究:相关与回归 相关系数:数据关系模式中线性关系是最 基本也是最重要,为了说明数据之间线性 关系的强弱,需要概况性度量:相关系数第二节 数值型数据之间关系研究:相关与回归 相关系数特点:第二节 数值型数据之间关系研究:相关与回归 最小二乘回归:当散点图表现出线性关系 时,需要用回归直线来概括此关系以用一 个变量的值去预测另一个变量值。由于直线不可能通过所有的点,我们想要各 点与直线的垂直距离尽可能的小,有几种 方法使一组垂直距离尽可能的小,最常用 的是最小二乘(least squares)方法。第二节 数值型数据之间关系研究:相关与回归 最小二乘回归线:第二节 数值型数据之间关系研究:相关与回归LOC与STRESS回归:第二节 数值型数据之间关系研究:相关与回归 最小二乘回归特点:第二节 数值型数据之间关系研究:相关与回归 可决系数R-squared:表示在响应变量的总变动中能被回归方程解 释的百分比,用来描述直线关系的强度。在一元线性回归中,其值等于相关系数的 平方。第二节 数值型数据之间关系研究:相关与回归 残差(residuals):回归线是解释变量与响应变量之间线性关系整体模 式的数学模型,研究与整体模式的偏差也是很重 要的。第二节 数值型数据之间关系研究:相关与回归残差图:第二节 数值型数据之间关系研究:相关与回归 回归中的异常观测点和有影响的观测点第二节 数值型数据之间关系研究:相关与回归 小心使用相关与回归方法:第二节 数值型数据之间关系研究:相关与回归 例:第二节 数值型数据之间关系研究:相关与回归 例:第三节 简单线性回归:推断 前两节从数据分析的角度对数据之间关系 的模式进行搜寻,如果将可观察的数据作 为总体的一个样本,搜寻到的模式就是总 体变量关系的一种估计,由此需要统计推 断方法来估计与检验此种关系。推断问题开始于对总体模型的假定,本节 仅限于一个解释变量与一个响应变量线性 关系的研究,这被称为简单线性回归或一 元线性回归。第三节 简单线性回归:推断一、简单线性回归模型的假定第三节 简单线性回归:推断 总体回归函数:简单线性回归的基本假定:模型的线性性:随机误差项的假定:零条件均值:同方差性:正态性:满足以上假定的模型称经典线性回归模型01iiiyxu01()iiE y xx()0iiEux2var()iiux2(0,)iuN201(,)iiyNx图示一元线性回归模型(基本假定)x x=x x3 3时的时的E E(y y)x x=x x2 2时时y y的分布的分布x x=x x1 1时时y y的分布的分布x x=x x2 2时的时的E E(y y)x x3 3x x2 2x x1 1x x=x x1 1时的时的E E(y y)0 0 x xyx x=x x3 3时时y y的分布的分布 0 0+1 1 x x第三节 简单线性回归:推断 样本回归函数:将观察到的数据看成是总 体的一个简单随机样本(SRS):基于总体模型的基本假定,选择合适的方 法获得总体参数 的估计量 由参数的估计值形成的回归函数称为样本 回归函数:,:1,2,iixyin01,1100,bbs01iiybb x第三节 简单线性回归:推断 残差:样本回归函数可写成:二、参数的最小二乘估计二、参数的最小二乘估计 最小二乘估计方法:最小niiiniixyyy121012)()(最小niiiniixyyy121012)()(iiieyy01iiiybb xe0)(20)(212101121001100niiiiniiixyxQxyQ0)(20)(212101121001100niiiiniiixyxQxyQ第三节 简单线性回归:推断 参数的最小二乘估计量:S被称为回归的标准误(regression standard error)高斯-马尔可夫定理:在经典线性回归模型的假定下(CLRM),回归系数的最小二乘估计是最佳线性无 偏估计(BLUE)。1111012211nnniiiiyiiinnxiiiinx yxysryxsnxx1111012211nnniiiiyiiinnxiiiinx yxysryxsnxx212isen第三节 简单线性回归:推断三、参数的置信区间与显著性检验三、参数的置信区间与显著性检验 参数估计量的标准差与标准误:可以证明:估计量标准差估计量的标准误:211222002,iiiNxxxNxx 2221022 iiixsdsdxxxx 2221022 iiixsesexxxx第三节 简单线性回归:推断 斜率系数的推断:第三节 简单线性回归:推断 相关系数的推断:第三节 简单线性回归:推断四、回归的方差分析(analysis of varianceANOVA)方差分析是一种统计方法,将数据中的变化分解成 不同的几块,对应于不同的变化来源。在回归背 景下,响应变量y的观察到的变化来自两个方面:解释变量的变化引起的响应变量沿着回归直线的 变化和解释变量固定下响应变量的变化。方差分析方程:/MSS Sd f第三节 简单线性回归:推断 拟合优度的度量:反映样本回归线对样本 观察值拟合程度,采用响应变量y的总变动 中能被回归方程解释的比重来度量:可决 系数:在简单线性回归中:回归方程整体显著性检验:检验所有解释 变量构成的回归方程对响应变量y解释力的 显著性:F检验2e/RR gressionSSTotalSS22Rr第三节 简单线性回归:推断 F检验:在没有解释力的原假设下,F统计量服从自由 度为(1,n-2)的F分布。在简单线性回归中,两种检验是等 价的,但在多元回归中是不同的。2Ft第三节 简单线性回归:推断五、回归方程的预测使用回归方程预测比较简单,将解释变量的 特定值 代入回归方程就可得响应变量的 预测值:对预测值有两种不同的方法:一是将其作为特定值下子总体响应变量均值 水平的预测,被预测的对象为一是特定值下单个响应变量值的预测,被预 测的对象为*x*01 ybb x*Ey xx*01yxu第三节 简单线性回归:推断两种情形的预测值是相同的,但预测的边际 误差不同,为区分,在预测响应变量均值 时称为置信区间(confidence interval),而在预测单个响应变量时称为预测区间(prediction interval)第三节 简单线性回归:推断 置信区间与预测区间:第三节 简单线性回归:推断例