双变量回归与相关正式讲稿.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《双变量回归与相关正式讲稿.ppt》由会员分享,可在线阅读,更多相关《双变量回归与相关正式讲稿.ppt(93页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、双变量回归与相关正式第一页,讲稿共九十三页哦2 讲课内容:讲课内容:第一节第一节 直线回归直线回归(重点重点)第二节第二节 直线相关直线相关(重点重点)第三节第三节 秩相关秩相关 第六节第六节 两条回归直线的比较两条回归直线的比较 第七节第七节 曲线拟合曲线拟合第二页,讲稿共九十三页哦3 第第2、第第3、第第4章介绍了计量资料章介绍了计量资料单变量单变量的统的统 计描述与统计推断:计描述与统计推断:P.13 例例2-1:计算计算101名成年女子名成年女子血清总胆固血清总胆固 醇醇的平均指标与变异指标。的平均指标与变异指标。P.51 例例3-7:比较阿卡波糖胶囊比较阿卡波糖胶囊(试验组试验组)与
2、拜与拜 糖苹胶囊糖苹胶囊(对照组对照组)降低糖尿病人的降低糖尿病人的空腹血糖值空腹血糖值 有无差别。有无差别。P.73 例例4-2:比较安慰剂组、降血脂新药比较安慰剂组、降血脂新药2.4g 组、降血脂新药组、降血脂新药4.8g组、降血脂新药组、降血脂新药7.2g组降组降 低患者的低患者的低密度脂蛋白含量低密度脂蛋白含量有无差别。有无差别。第三页,讲稿共九十三页哦4在医学研究中常要分析在医学研究中常要分析两变量两变量间或间或多变多变 量间量间的关系:的关系:年龄与血压年龄与血压 药物剂量与动物死亡率药物剂量与动物死亡率 肺活量与身高、体重、胸围和肩宽等肺活量与身高、体重、胸围和肩宽等 第四页,讲
3、稿共九十三页哦5p事物间的相关关系事物间的相关关系l确定性关系确定性关系 两变量间的函数表达式两变量间的函数表达式 圆的周长与半径的关系:圆的周长与半径的关系:C2 R 路程与速度、时间的关系:路程与速度、时间的关系:LST 数学中数学中X与与Y的直线函数关系:的直线函数关系:Ya+bX l非确定性关系非确定性关系 两变量间存在关系,但未精两变量间存在关系,但未精 确到可以用函数表达式来描述。确到可以用函数表达式来描述。年龄与血脂的关系;年龄与血脂的关系;身高与体重的关系;身高与体重的关系;体重与体表面积的关系。体重与体表面积的关系。第五页,讲稿共九十三页哦6第一节第一节 直线回归直线回归Li
4、near Regression第六页,讲稿共九十三页哦7一、直线回归的概念一、直线回归的概念“回归回归”是一个借用已久因而相沿成习是一个借用已久因而相沿成习 的统计学术语。的统计学术语。直线回归是分析直线回归是分析成对观测数据成对观测数据中两变量中两变量 间间线性依存关系线性依存关系的方法。的方法。第七页,讲稿共九十三页哦8生物遗传学上的生物遗传学上的“回归回归”Pearson K(英英,18571936)1903年搜集了年搜集了1078个家庭人员的身高、前臂长等指标的记录,个家庭人员的身高、前臂长等指标的记录,发现儿子身高发现儿子身高(Y,英寸英寸)与父亲身高间与父亲身高间(X,英寸英寸)存
5、在线性依存关系:存在线性依存关系:=33.73+0.516 X 但不少身材高的父亲的儿子成年后身高比其但不少身材高的父亲的儿子成年后身高比其父亲矮,不少身材矮的父亲的儿子成年后身父亲矮,不少身材矮的父亲的儿子成年后身高比其父亲高。高比其父亲高。Galton F(英英,18221911)将这种现象称之将这种现象称之为子一代身高向人群平均身高的为子一代身高向人群平均身高的“回归回归”。第八页,讲稿共九十三页哦9Regression 释义释义第九页,讲稿共九十三页哦10Francis GaltonFrancis Galton 爵士爵士(英英,18221911)是达尔文是达尔文(Charles Dar
6、win)的表的表弟。他对统计学的主要弟。他对统计学的主要贡献是提出贡献是提出“相关相关”与与“回归回归”的概念,用统的概念,用统计方法对进化论中的变计方法对进化论中的变异进行研究,开创了生异进行研究,开创了生物统计学。物统计学。第十页,讲稿共九十三页哦11Karl PearsonKarl Pearson(英英,18571936)是是Francis Galton 的得意门生,的得意门生,他开创了统计方法学。他开创了统计方法学。他对统计学的主要贡他对统计学的主要贡献:变异数据的处理、献:变异数据的处理、分布曲线的选配、卡分布曲线的选配、卡方检验的提出、回归方检验的提出、回归与相关的发展。与相关的发
7、展。第十一页,讲稿共九十三页哦12天文学上的天文学上的“回归回归”地球绕太阳公转,在公转的同时本身还自转,地球绕太阳公转,在公转的同时本身还自转,在本身自转的同时地球的假设轴心还来回摆动。在本身自转的同时地球的假设轴心还来回摆动。由于地球轴心的来回摆动,太阳光垂直照射到由于地球轴心的来回摆动,太阳光垂直照射到地球上就有南、北两个极限位置地球上就有南、北两个极限位置(南、北纬南、北纬23027),分别称南、北回归线,太阳光对赤道分别称南、北回归线,太阳光对赤道“回归回归”垂直照射到南、北回归线的时间分别垂直照射到南、北回归线的时间分别为我国农历的冬至与夏至。为我国农历的冬至与夏至。第十二页,讲稿
8、共九十三页哦13日常生活中的日常生活中的“回归回归”现象现象 1岁姜二狗,岁姜二狗,7岁姜二狗同学,岁姜二狗同学,20岁小姜同志,岁小姜同志,30岁姜科长,岁姜科长,40岁姜处长,岁姜处长,50岁姜局长,岁姜局长,60岁岁姜老,姜老,70岁老姜,岁老姜,80岁姜二狗。岁姜二狗。目前目前“回归回归”已成为表示变量之间已成为表示变量之间数量依存关数量依存关系系的统计术语,并且衍生出的统计术语,并且衍生出“回归方程回归方程”、“回归系数回归系数”等统计学概念。等统计学概念。第十三页,讲稿共九十三页哦14例例 某地方病研究所调查了某地方病研究所调查了8名正常儿童的尿肌酐名正常儿童的尿肌酐含量含量(mm
9、ol/24h),试估计尿肌酐含量试估计尿肌酐含量(Y)对其年龄对其年龄(X)的回归方程。的回归方程。第十四页,讲稿共九十三页哦15年龄(岁)年龄(岁)X尿尿肌肌酐酐含含量量Y(mmol/24h)hat第十五页,讲稿共九十三页哦16各散点呈直线趋势各散点呈直线趋势但并非均在一条直线上但并非均在一条直线上根据原始数据拟合的直线方程与数理根据原始数据拟合的直线方程与数理 上二元一次函数方程在内涵上有区别,上二元一次函数方程在内涵上有区别,称为称为直线回归方程直线回归方程。第十六页,讲稿共九十三页哦17二、直线回归方程的求法二、直线回归方程的求法最小二乘法最小二乘法在所有直线中最小在所有直线中最小第十
10、七页,讲稿共九十三页哦18年龄(岁)年龄(岁)X尿尿肌肌酐酐含含量量Y(mmol/24h)(8,2.8)(12,3.3)第十八页,讲稿共九十三页哦19 b 的意义的意义斜率斜率(slope)年龄每增加年龄每增加1岁岁,尿肌酐含量平均增加尿肌酐含量平均增加0.1392(mmol/24h)b的单位为的单位为(Y的单位的单位/X的单位的单位)第十九页,讲稿共九十三页哦20a 截距截距(intercept,constant)X=0 时,时,Y的估计值的估计值a的单位与的单位与Y值相同值相同当当X可能取可能取0时,时,a才有实际意义。才有实际意义。a 的意义的意义第二十页,讲稿共九十三页哦21回归直线的
11、有关性质回归直线的有关性质直线通过均点直线通过均点 各各点点到到该该回回归归线线纵纵向向距距离离平平方方和和较较到到其其它它任何直线者为小。任何直线者为小。为来自为来自的一个样本的一个样本对于对于X各个取值,相应各个取值,相应Y的总体均数的总体均数第二十一页,讲稿共九十三页哦22XY第二十二页,讲稿共九十三页哦23三、直线回归方程中的统计推断三、直线回归方程中的统计推断(一)回归方程的假设检验(一)回归方程的假设检验1.1.方差分析方差分析(1 1)建立检验假设并确定检验水准)建立检验假设并确定检验水准 H0:=0 H1:0 =0.05的分解的分解重点重点第二十三页,讲稿共九十三页哦24因变量
12、因变量Y总变异总变异 的分解的分解X Y Y第二十四页,讲稿共九十三页哦25SS总总=SS回回+SS残残第二十五页,讲稿共九十三页哦26未引进回归时的总变异:未引进回归时的总变异:(sum of squares of deviation from mean)引进回归以后的剩余变异引进回归以后的剩余变异:(sum of squares of residuals)回归的贡献,回归平方和:回归的贡献,回归平方和:(sum of squares due to regression)Y的总变异分解的总变异分解第二十六页,讲稿共九十三页哦27(3)计算检验统计量计算检验统计量F值值SS总总=lYY=1.0
13、462 SS回回=blXY=l2XY/lXX=5.8452/42=0.8134SS残残=SS总总SS回回=1.04620.8134=0.2328v总总=v回回+v剩剩v总总=n1,v回回=1,v残残=n2第二十七页,讲稿共九十三页哦28F0.01(1,6)=13.74第二十八页,讲稿共九十三页哦292.t 检验检验回归的剩余标准差回归的剩余标准差扣除了扣除了X的影响后的影响后Y方面的变异方面的变异;引进回归方程后引进回归方程后,Y方面的变异。方面的变异。第二十九页,讲稿共九十三页哦30(2)计算检验统计量)计算检验统计量 t 值值(1)建立检验假设并确定检验水准)建立检验假设并确定检验水准(3
14、)确定)确定P值下结论值下结论 第三十页,讲稿共九十三页哦31(二)总体回归系数(二)总体回归系数 的可信区间的可信区间此区间不包括此区间不包括=0,结论为,结论为b有统计学意义。有统计学意义。第三十一页,讲稿共九十三页哦32(三)利用回归方程进行估计与预测(三)利用回归方程进行估计与预测1.总体均数总体均数 的可信区间的可信区间:给定给定X后对应后对应Y的总体均数的总体均数给定给定X后对应后对应Y的样本均数的样本均数第三十二页,讲稿共九十三页哦332.个体个体Y值的容许区间值的容许区间 给定给定X后对应个体后对应个体Y值波动范围值波动范围第三十三页,讲稿共九十三页哦34 X Y (体重体重,
15、kg)(体表面积体表面积,103cm2)11.0 5.28311.8 5.29912.0 5.35812.3 5.29213.15.60213.7 6.01414.4 5.83014.9 6.10215.2 6.07516.0 6.411例例 某地某地10名三岁儿童体重与体表面积名三岁儿童体重与体表面积第三十四页,讲稿共九十三页哦351112131415164.55.05.56.06.57.0可信区间可信区间与与容许区间容许区间示意示意(confidence band&tolerance band)X 体重体重Y 体体表表面面积积第三十五页,讲稿共九十三页哦36第二节第二节 直线相关直线相关L
16、inear Correlation第三十六页,讲稿共九十三页哦37生物遗传学上的生物遗传学上的“相关相关”在回归分析中,有理由认为父亲身高决定儿子身高,在回归分析中,有理由认为父亲身高决定儿子身高,故把父亲身高作为自变量故把父亲身高作为自变量X,儿子身高作为应变量,儿子身高作为应变量Y。Pearson K(英英,18571936)在对同一家庭中兄弟在对同一家庭中兄弟与姐妹身高间关系进行分析时,发现两者难以象与姐妹身高间关系进行分析时,发现两者难以象父亲与儿子身高间关系那样区别自变量父亲与儿子身高间关系那样区别自变量X与应变与应变量量Y,也不必计算回归方程。,也不必计算回归方程。Galton F
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 变量 回归 相关 正式 讲稿
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内