实验指导四回归分析.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《实验指导四回归分析.ppt》由会员分享,可在线阅读,更多相关《实验指导四回归分析.ppt(56页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、回归分析回归分析2.1 线性回归模型线性回归模型 在医学上人的身高与体重、体温与脉搏次数、在医学上人的身高与体重、体温与脉搏次数、年龄与血压、药物剂量与疗效等均有一定的联系。年龄与血压、药物剂量与疗效等均有一定的联系。说明客观事物或现象相互关系的密切程度并用适说明客观事物或现象相互关系的密切程度并用适当的统计指标表示出来,这是当的统计指标表示出来,这是相关分析相关分析的任务。的任务。把客观事物或现象间的关系用把客观事物或现象间的关系用函数形式函数形式表示出表示出来,则是来,则是回归分析回归分析所要解决的问题。所要解决的问题。回归分析回归分析是确定一个连续变量与另一些连续是确定一个连续变量与另一
2、些连续变量间的关系,用于变量间的关系,用于解释和预测解释和预测。2变量变量Y与其他有关变量与其他有关变量X1,X2,Xk的关系不的关系不能确切的知道,变量能确切的知道,变量Y的值由两部分所构成:的值由两部分所构成:一部分由一部分由X1,X2,Xk确定,可以表示为确定,可以表示为X1,X2,Xk的某个函数关系式:的某个函数关系式:Y=f(X1,X2,Xk);另一部分是众多未加考虑的因素所产生的影响另一部分是众多未加考虑的因素所产生的影响,被看作是被看作是随机误差,记为随机误差,记为.从而有:从而有:Y=f(X1,X2,Xk)+3回归过程:回归过程:Step1.确定变量:确定变量:Y 与那些与那些
3、 x1,x2,.,xk 有关有关;Step2.选择形式:选择形式:Y 与与 x1,x2,.,xk 以什么形以什么形式式相联系相联系,即即 f 的表示式;的表示式;Step3.确定系数确定系数:利用:利用Y 与与 x1,x2,.,xk 的观的观测数据,并在误差项的某些假设下确定关系式测数据,并在误差项的某些假设下确定关系式f(X1,X2,Xk)中的中的系数系数;Step4.合理性分析:合理性分析:利用统计推断方法对所确定利用统计推断方法对所确定的函数的合理性以及由此关系所揭示的的函数的合理性以及由此关系所揭示的Y 与与 x1,x2,.,xk 的关系作分析;的关系作分析;Step5.应用于预测、控
4、制等问题。应用于预测、控制等问题。4n n2.回归分析的内容与目的回归分析的内容与目的 建立变量建立变量Y与与X1,X2,Xk的的经验公式经验公式(回回归方程,预测公式归方程,预测公式),即从一组样本数据出发,即从一组样本数据出发,确定出变量之间近似的数学关系式;确定出变量之间近似的数学关系式;对经验公式的对经验公式的可信度可信度进行检验;进行检验;判断每个自变量判断每个自变量Xi(i=1,2,k)对)对Y的的影响是否影响是否显著显著;对经验公式进行对经验公式进行回归诊断回归诊断(诊断经验公式是否(诊断经验公式是否适合这组数据);适合这组数据);利用合适的经验公式,根据自变量的取值对因利用合适
5、的经验公式,根据自变量的取值对因变量的取值进行预测。变量的取值进行预测。5n n线性回归模型线性回归模型(Line Regression model)当当f为线性函数时,回归模型:为线性函数时,回归模型:Y=0+1X1+2X2+kXk+称为线性回归模型,其中称为线性回归模型,其中 0,1,k是未是未知的参数,称为知的参数,称为回归参数回归参数(系数系数);Y是响应变是响应变量量(因变量因变量),X1,X2,Xk是是回归变量回归变量(自变量自变量),是不可观测的随机变量,称为是不可观测的随机变量,称为随机误差项随机误差项,假,假定定E()=0。6Proc REG 过程过程是用最小二乘法原理求解线
6、性回是用最小二乘法原理求解线性回归方程的过程归方程的过程,只要把要分析的多个自变量名放只要把要分析的多个自变量名放在在MODELMODEL语句中应变量后即可。语句中应变量后即可。PROC REG DATA=PROC REG DATA=选项选项选项选项 ;MODEL MODEL 应变量名应变量名应变量名应变量名=自变量名列自变量名列自变量名列自变量名列/选项选项选项选项;VAR VAR 变量名列变量名列变量名列变量名列;FREQ FREQ 变量名变量名变量名变量名;WEIGHT WEIGHT 变量名变量名变量名变量名;BY BY 变量名列变量名列变量名列变量名列;OUTPUT OUT=OUTPU
7、T .;.;PLOT PLOT /./选选选选项项项项;7MODELMODEL语句语句语句语句,必需语句,定义回归分析模型,必需语句,定义回归分析模型,必需语句,定义回归分析模型,必需语句,定义回归分析模型 VARVAR语句语句语句语句为可选的,指定用于计算交叉积的变量为可选的,指定用于计算交叉积的变量为可选的,指定用于计算交叉积的变量为可选的,指定用于计算交叉积的变量 PLOTPLOT语句语句语句语句为可选的,用于绘制变量间的散点为可选的,用于绘制变量间的散点为可选的,用于绘制变量间的散点为可选的,用于绘制变量间的散点 图,还可添加回归线。图,还可添加回归线。图,还可添加回归线。图,还可添加
8、回归线。语法说明语法说明8【过程选项过程选项】OUTEST=数据集名数据集名 指定统计量和参数估指定统计量和参数估计输出的新数据集名。计输出的新数据集名。NOPRINT 禁止统计结果在禁止统计结果在OUTPUT视窗视窗中输出。中输出。SIMPLE 输出输出REG过程中所用的每个变量过程中所用的每个变量的基本统计量。的基本统计量。CORR 输出输出MODEL语句或语句或VAR语句中所列语句中所列变量的相关矩阵。变量的相关矩阵。ALL 等价于等价于MODEL语句加上全部选项,语句加上全部选项,即输出该语句所有选项分析结果。即输出该语句所有选项分析结果。9【MODEL语句语句】n nMODELMOD
9、EL语句定义模型中的因变量、自变量、语句定义模型中的因变量、自变量、模型选项及结果输出选项。模型选项及结果输出选项。n n语句中的变量只能是数据集中的变量,任语句中的变量只能是数据集中的变量,任何形式的变换都必须先产生一个新变量,何形式的变换都必须先产生一个新变量,然后用于分析。如然后用于分析。如X X1 1的二次项,不能在模的二次项,不能在模型中直接指定型中直接指定X X1 1*X X1 1,而要产生另一个新变,而要产生另一个新变量代表量代表X X1 1*X X1 1,方可引入模型。,方可引入模型。10【MODEL语句中常用的选项有:语句中常用的选项有:】n nNOINT 在模型中不拟合常数
10、项。在模型中不拟合常数项。n nSTB 输出标准化回归系数。输出标准化回归系数。n nCLI 输出个体预测值输出个体预测值 的的95%可信区间上下限。可信区间上下限。n nCLM 输出因变量期望值输出因变量期望值(均值均值)的的95%可信区可信区间上下限。间上下限。n nR 输出个体预测值、残差及其标准误。输出个体预测值、残差及其标准误。n nP 输出实际值输出实际值Yi、预测值、预测值 和残差等。如已选和残差等。如已选择了择了CLI、CLM和和R,则无需选择,则无需选择P。11【关键字关键字】n n关关键键字字用用来来定定义义需需要要输输出出到到新新数数据据集集中中的的统统计计量,常用的关键
11、字及其含义有:量,常用的关键字及其含义有:n nPREDICTED因变量预测值因变量预测值(简写为简写为P)n nRESIDUAL残差残差(简写为简写为R)n nL95M、U95M均数均数95%可信区间上下限可信区间上下限n nL95、U95个体预测值个体预测值95%可信区间上下限可信区间上下限n nSTDP期望值的标准误期望值的标准误n nSTDR残差的标准误残差的标准误n nSTDI预测值的标准误预测值的标准误n nSTUDENT学学生生化化残残差差(即即残残差差与与标标准准误误之之比比)12例例3.欲了解某研究所科研人员的年工资欲了解某研究所科研人员的年工资Y与他的与他的论文质量论文质量
12、X1、工作年限、工作年限X2、获得资助指标、获得资助指标X3之之间的关系间的关系.24位科研人员的调查数据位科研人员的调查数据(部分部分)如下如下:设误差设误差 ,建立回归方程建立回归方程;13解:解:先作相关性分析:先作相关性分析:data exam2_3;input y x1-x3;cards;33.2 3.5 9 6.1 40.3 5.3 20 6.4 38.7 5.1 18 7.446.8 5.8 33 6.7 41.4 4.2 31 7.5 37.5 6.0 13 5.939.0 6.8 25 6.0 40.7 5.5 30 4.0 30.1 3.1 5 5.852.9 7.2 47
13、 8.3 38.2 4.5 25 5.0 31.8 4.9 11 6.443.3 8.0 23 7.6 44.1 6.5 35 7.0 42.8 6.6 39 5.033.6 3.7 21 4.4 34.2 6.2 7 5.5 48.0 7.0 40 7.038.0 4.0 35 6.0 35.9 4.5 23 3.5 40.4 5.9 33 4.936.8 5.6 27 4.3 45.2 4.8 34 8.0 35.1 3.9 15 5.0;解:解:先作相关性分析:先作相关性分析:Proc corr data=exam2_3 cov pearson spearman;var y x1-x3;
14、run;Pearson Correlation Coefficients,N=24 Prob|r|under H0:Rho=0 y x1 x2 x3 y 1.00000 0.66710 0.85856 0.55820 0.0004 .0001 0.0046 x1 0.66710 1.00000 0.46695 0.32276 0.0004 0.0214 0.1240 x2 0.85856 0.46695 1.00000 0.25375|r|under H0:Rho=0 y x1 x2 x3 y 1.00000 0.65145 0.82724 0.54344 0.0006 .0001 0.006
15、1x1 0.65145 1.00000 0.45223 0.29399 0.0006 0.0265 0.1632x2 0.82724 0.45223 1.00000 0.24864 F变异来源变异来源 自由度自由度 离均差离均差 均方均方 F值值 P值值 平方和平方和 Model 3 627.81700 209.27233 68.12|tIntercept 1 17.84693 2.00188 8.92 .0001 x1 1 1.10313 0.32957 3.35 0.0032 x2 1 0.32152 0.03711 8.66 .0001 x3 1 1.28894 0.29848 4.32
16、 0.0003 回归方程为回归方程为 Y=17.8469+1.10313X1+0.32152X2+1.28894X32.2 统计推断与预测统计推断与预测n n2.2.1 回归方程的显著性检验回归方程的显著性检验n n2.2.2 回归系数的统计推断回归系数的统计推断n n2.2.3 预测及其统计推断预测及其统计推断n n2.2.4 与回归系数有关的假设检验的一般方法与回归系数有关的假设检验的一般方法22意义意义意义意义:R R2 2越大越大越大越大Y Y与与与与1 1,p-1p-1的线性关系越显著的线性关系越显著的线性关系越显著的线性关系越显著.以衡量线性回归模型的拟合优度,以衡量线性回归模型的
17、拟合优度,R2描述了描述了自变量的线性函数值所能反映的总变化量的比例自变量的线性函数值所能反映的总变化量的比例定义定义:R是是Y与与 的的相关系数绝对值的估计值,称相关系数绝对值的估计值,称R为复相关系数为复相关系数23在在SAS软件的软件的proc reg过程中,线性关系的显过程中,线性关系的显著性检验以如下方差分析表的形式输出,同著性检验以如下方差分析表的形式输出,同时输出拟合优度统计量时输出拟合优度统计量R2的值等的值等 242.2.2 回归系数的统计推断回归系数的统计推断 前述为前述为整体性整体性检验检验,即拒绝原假设即拒绝原假设H0,则意味着,则意味着Y相关于相关于1,p-1的线性函
18、数这个整体,但不的线性函数这个整体,但不意味着每个自变量意味着每个自变量Xi对对Y产生显著影响,即某些产生显著影响,即某些自变量对自变量对Y的影响可能不显著,更有可能其系数的影响可能不显著,更有可能其系数为为“0”。n n对给出显著水平对给出显著水平,n n若若p0 ,则拒绝则拒绝H0,即即Y与与1,p-1线性线性关系显著关系显著;n n否则不能拒绝否则不能拒绝H0,即即Y与与1,p-1线性关线性关系不显著系不显著;因而建立的线性关系因而建立的线性关系没有实际意没有实际意义义!25在在在在SASSAS软件的软件的软件的软件的proc proc regreg过程中将参数估计值、标准差估过程中将参
19、数估计值、标准差估过程中将参数估计值、标准差估过程中将参数估计值、标准差估计估计以及计估计以及计估计以及计估计以及t tk k的观测值与相应的的观测值与相应的的观测值与相应的的观测值与相应的 k k k k=0=0=0=0的的的的p p p p值输出如下:值输出如下:值输出如下:值输出如下:n n对给出显著水平对给出显著水平,n n若若p0k F变异来源变异来源 自由度自由度 离均差离均差 均方均方 F值值 P值值 平方和平方和 Model 3 627.81700 209.27233 68.12|tIntercept 1 17.84693 2.00188 8.92 .0001 x1 1 1.1
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 实验 指导 回归 分析
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内