《简单回归分析》PPT课件.ppt
《《简单回归分析》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《简单回归分析》PPT课件.ppt(71页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 英国人类学家 首次在自然遗传一书中,提出并阐明了“相关”和“相关系数”两个概念,为相关论奠定了基础。其后,他和英国统计学家 Karl Pearson对上千个家庭的身高、臂长、拃长(伸开大拇指与中指两端的最大长度)做了测量,发现发现:历史背景:儿子身高(Y,英寸)与父亲身高(X,英寸)存在线性关系:。也即高个子父代的子代在成年之后的身高平均来说不是更高,而是稍矮于其父代水平,而矮个子父代的子代的平均身高不是更矮,而是稍高于其父代水平。Galton将这种趋向于种族稳定的现象称之“回归”“回归”已成为表示变量之间某种数量依存关系的统计学术语,相关并且衍生出“回归方程”“回归系数”等统计学概念。如研
2、究糖尿病人血糖与其胰岛素水平的关系,研究儿童年龄与体重的关系等。简单回归分析Simple linear regression analysis参考书o1.徐勇勇主编.医学统计学(第二版).北京:高等教育出版社,2004o2.杨树勤主编.卫生统计学(第二版).北京:人民卫生出版社,1991o3.方积乾主编.医学统计学与电脑实验(第二版).上海:上海科学技术出版社,2001o4.孙振球主编.医学统计学(供研究生用).北京:人民卫生出版社,2004 本章内容本章内容 第一节第一节 简单线性回归简单线性回归 第二节第二节 线性回归的应用线性回归的应用 第三节第三节 残差分析残差分析 教学目标o了解回归
3、的思想来源了解回归的思想来源o掌握线性回归方程的计算,回归系数掌握线性回归方程的计算,回归系数的假设检验的思想和步骤的假设检验的思想和步骤o了解回归方程的应用了解回归方程的应用 双变量计量资料:双变量计量资料:每个个体有两个变量值每个个体有两个变量值 总体:总体:无限或有限对变量值无限或有限对变量值 样本:样本:从总体随机抽取的从总体随机抽取的n n对变量值对变量值(X1,Y1),(X2,Y2),(Xn,Yn)目的:目的:研究研究X X和和Y Y的数量关系的数量关系 方法:方法:回归与相关回归与相关 简单、基本简单、基本直线回归、直线相关直线回归、直线相关第一节第一节 简单线性回归简单线性回归
4、线性回归的概念及其统计描述线性回归的概念及其统计描述直线回归的概念 目的:目的:研究应变量研究应变量Y对自变量对自变量X的数量依的数量依 存关系。存关系。特点:特点:统计关系。统计关系。X值和值和Y的的均数均数的关系,的关系,不同于一般数学上的不同于一般数学上的X 和和Y的函数关系的函数关系 为了直观地说明直线回归的概念,以15名健康人凝血酶浓度(X)与凝血时间(Y)数据(表1)进行回归分析,得到图1所示散点图(scatter plot)No.123456789101112131415X1.11.21.00.91.21.10.90.61.00.91.10.91.11.00.7Y14131515
5、1314161714161516141517 在定量描述健康人凝血酶浓度(X)与凝血时间(Y)数据的数量上的依存关系时,将凝 血 酶 浓 度称 为 自 变 量(independent variable),用 X 表示;凝血时间称为应变量(dependent variable),用 Y 表示 相关系数反映了散点的疏密,一个变相关系数反映了散点的疏密,一个变量对另一个变量的影响需用回归分析。量对另一个变量的影响需用回归分析。对于线性回归,若只有对于线性回归,若只有1 1个自变量,个自变量,称为简单回归称为简单回归(simple regression)(simple regression);若;若有
6、有2 2个或个或2 2个以上自变量,称为多重回归个以上自变量,称为多重回归(multiple regression)(multiple regression)。当这种数量关系为曲线关系时,称当这种数量关系为曲线关系时,称为曲线回归为曲线回归/非线性回归非线性回归(curve(curve regression/nonlinear regression)regression/nonlinear regression)。样本线回归方程样本线回归方程 为各X处Y的总体均数的估计。简单线性回归模型 1a 为回归直线在为回归直线在 Y 轴上的截距轴上的截距a 0,表表示示直直线线与与纵纵轴轴的的交交点点在
7、在原点的上方原点的上方a 0,直直线线从从左左下下方方走走向向右右上上方方,Y 随随 X 增增大大而而增大;增大;b0,直直线线从从左左上上方方走走向向右右下下方方,Y 随随 X 增增大大而而减小;减小;b=0,表示直线与表示直线与 X 轴平行,轴平行,X 与与Y 无直线关系无直线关系b 的统计学意义是:的统计学意义是:X 每增加每增加(减减)一个单位,一个单位,Y 平均改变平均改变b个单位个单位 线性回归模型的假设条件线性回归模型的假设条件o1.线性线性(line)自变量和因变量之间的关系自变量和因变量之间的关系有线性趋势有线性趋势 散点图散点图o2.独立独立(independence)n个
8、个体之间相互独个个体之间相互独立立 专业知识专业知识,残差图残差图o3.正态正态(normal)各各x所对应的所对应的y服从正态服从正态(误差项服从正态分布(误差项服从正态分布)残差的直方图残差的直方图,正态概率图正态概率图o4.等方差等方差(equal variance)各各x值变动值变动时,相应的时,相应的y有相同的变异性有相同的变异性 散点图散点图,残差图残差图 残差(residual)或剩余值,即实测值Y与假定回归线上的估计值 的纵向距离 。求解a、b实际上就是“合理地”找到一条能最好地代表数据点分布趋势的直线。原则:最小二乘法(least sum of squares),即可保证各实
9、测点至直线的纵向距离的平方和最小回归参数的估计回归参数的估计最小二乘原则最小二乘原则 最小二乘法最小二乘法(least square method)XY(Xn,Yn)(X1,Y1)(X2,Y2)(Xi,Yi)回归参数的估计方法回归参数的估计方法 本例:n=15 X=14.7 X2=14.81 Y=224 XY=216.7 Y2=3368解题步骤5步3、计算有关指标的值4、计算回归系数和截距5、列出回归方程 此直线必然通过点此直线必然通过点(,)(,)且与纵坐标轴相且与纵坐标轴相交于截距交于截距a a。如果散点图没有从坐标系原。如果散点图没有从坐标系原点开始,可在自变量实测范围内远端取易点开始,
10、可在自变量实测范围内远端取易于读数的于读数的 值代入回归方程得到一个点的值代入回归方程得到一个点的坐标,连接此点与点坐标,连接此点与点(,)(,)也可绘出回归也可绘出回归直线。直线。绘制回归直线绘制回归直线总体回归系数总体回归系数的的的统计推断样本回归系数样本回归系数b的标准误的标准误 回归方程的假设检验 建立样本直线回归方程,只是完成了统计分析中两变量关系的统计描述,研究者还须回答它所来自的总体的直线回归关系是否确实存在,即是否对总体有?因变量因变量Y Y的变异分解图示的变异分解图示(一)、方差分析法(一)、方差分析法 P(X,Y)tlYY 的分解:表示为:=+t 总总=回回+剩剩 (总=n
11、-1,回=1,剩=n-2)SSSS总总SSSS回回SSSS剩剩oSSSS总总是是Y Y的离均差平方和的离均差平方和,表示表示Y Y的总变异。的总变异。oSSSS回回表表示示在在Y Y的的总总变变异异中中可可用用X X来来解解释释的的部部分分,即使得总变异即使得总变异(Y-)(Y-)2 2减少的那部分。减少的那部分。SS SS回回越大,说明回归效果越好。越大,说明回归效果越好。SS SS回回=bl=blXYXY=oSSSS剩剩表表示示在在Y Y的的总总变变异异中中无无法法用用X X解解释释的的部部分分,即即除除了了X X对对Y Y的的线线性性影影响响外外,其其它它一一切切因因素素对对Y Y变异的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 简单回归分析 简单 回归 分析 PPT 课件
限制150内