简单回归分析简介.ppt
《简单回归分析简介.ppt》由会员分享,可在线阅读,更多相关《简单回归分析简介.ppt(54页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、医学统计学 福医卫生统计系 林征 2013.11 第九章. 线性回归 Chapter X. Linear Regression,1,Francis Galton,Sir Francis Galton (1822-1911) “the size (heights) of descendants of large peas (tall ancestors ) tend to regress down towards a normal average”,一、直线回归(linear regression),直线回归,它们呈直线关系,但所有的点并非都在直线上;它们间的关系并非下列严格的函数关系 根据散点
2、图所反映出的两变量线性趋势,我们可以假定,相对x各个取值相应的y的总体均数 位于一条直线上, 与x间在数量上的依存关系就称为直线回归 (linear regression),用以下公式表示y的条件总体均数依赖于x的数值变化,直线回归,一般情况下回归方程只能从样本得到,称为样本回归方程或经验回归方程 如果以 表示 的一个样本估计值,即x确定时y的样本均数,则样本回归方程可以表达如下: 上式中的 读作“y hat”,直线回归(linear regression),y 因变量,响应变量:尿肌酐含量(mmol/24h) (dependent variable, response variable) x
3、 自变量,解释变量:体重(kg) (independent variable, explanatory variable) b 回归系数,斜率(mmol/24h*kg) (regression coefficient, slope) a 截距(mmol/24h) (intercept),直线回归假定了一条回归直线,该直线表达了自变量X与对应的因变量Y的总体均数间的数量关系 : my|x= a+b x Y的实际观察值 y并不总在该回归线上,而是与其所对应的总体均数间(my|x )存在差别 ,这部分的差别称为残差 e,表示y的随机抽样误差: y = my|x + = a+b x + ,X,Y,my
4、|x=a + x,回归直线,直线回归,0,简单线性回归,由于涉及的自变量只有一个,所以这种线性回归又称为简单线性回归模型(simple linear regression model),LINE 假定,二、回归模型的前提假设,线性(linear) :因变量均数 y|x与自变量x间呈直线关系y|x= + x 独立(independent):任意观察值之间彼此独立 正态(normal):对于任何给定的 x, y 服从正态分布,均数为 y|x,标准差为 y|x 方差齐性(equal variance):对于任何x值,随机变量y的方差 y|x2相等,N(my|x, sy|x2),三、回归参数的估计,根
5、据一个给定的包含n对X和Y观测数据的样本,可以建立样本回归直线 但是并非所有实际测量值y都在该回归线上,即实测值与直线估计值间存在误差残差 求解a、b实际上就是“合理地”找到一条能最好地代表数据点分布趋势的直线,使估计值尽可能接近观测值,使得残差尽量小 最小二乘法(least sum of squares)原则:各实测点至直线的纵向距离(残差)的平方和最小,最小二乘估计,回归参数的估计方法,依据最小二乘法的估计原则,利用微积分中求极值的方法可以求得直线的斜率(回归系数)与截距,回归参数的估计方法,散点图提示x,y间呈现直线关系 任意不同个体间两个指标均独立 根据医学常识,同龄人的尿肌酐含量满足
6、正态分布 不同年龄人群的尿肌酐含量离散程度接近?,回归参数的估计方法,代入上述公式得(计算器可直接得到a与b): 故回归方程为:,回归直线的特征,回归直线通过样本均值: 估计值的均值=实测值的均值: 残差之和为0:,四、总体回归系数b的统计推断,求得a、b建立样本直线回归方程,只是完成了统计分析中两变量关系的统计描述 研究者还须回答它所来自的总体的直线回归关系是否确实存在(b也有抽样误差),即是否对总体有b=0?,总体回归系数b的统计推断,我们所见的 Y值的变异Sy2 (不考虑x的作用),沿着回归线看去, Y的变异情况Sy.x2(扣除回归作用后还剩余的),估计误差(error of estim
7、ate)与估计误差的标准误(standard error of estimate),如上图中所表示,将各实际值y与由回归方程计算的估计值y hat之间的差值称为估计误差(即残差) 如何评价这种估计误差的大小? 类似于之前介绍的反映数据变异程度的指标标准差,将残差的标准差Sy.x (standard error of estimate)作为估计误差大小的反映 由于y hat决定于均数与回归系数,所以自由度为n-2,公式如下: 它反映了散点围绕回归直线的分散程度,体现了回归直线估计误差的大小;如果回归模型越好则估计值的标准误也越小,样本回归系数b的标准误,对于某一总体资料,可以从中作抽样研究,分别
8、计算各样本的回归系数b,则样本回归系数不一定等于总体回归系数b;而且不同的样本回归系数间也不一定相同 类似于前面的样本均数的标准误,我们将样本回归系数的标准差称为回归系数的标准误;用公式表示如下:,样本回归系数b的标准误,如果直接计算Sy.x是较为麻烦的,可以考虑使用如下公式,计算较为方便,样本回归系数b的标准误,以课文9-1数据为例,计算过程如下:,总体回归系数b的假设检验-t检验,在回归条件满足的情况下(LINE假定),使用最小二乘法计算的样本回归系数b满足正态分布,记为: 满足正态分布,就可以作u转换;但是由于通常只作一次抽样,回归系数的总体标准误未知,在样本含量n较小的情况下,只能求得
9、回归系数标准误的估计值Sb,对其作t转换如下:,总体回归系数b的假设检验,H0:总体回归系数为0(b=0) H1:总体回归系数不为0(b0) a=0.05(双侧) 将b与Sb代入上述公式得: 故在a=0.05的水准上,拒绝H0,认为总体回归系数不为0 注意tb=tr,总体回归系数b的置信区间,类似与总体均数与总体率的可信区间,总体回归系数的可信区间同样可以用t分布的曲线下面积规律导出: 上述例题中,回归系数的95%的可信区间为:,总体回归系数b的假设检验-方差分析*,SS总,SS残,SS回,V总=n-1,V回=1,V残=n-2,总体回归系数b的假设检验-方差分析*,可见不考虑回归时,Y的总变异
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 简单 回归 分析 简介
限制150内