《回归分析实验课 实验8(9页).doc》由会员分享,可在线阅读,更多相关《回归分析实验课 实验8(9页).doc(9页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、-回归分析实验课 实验8-第 9 页实验报告八 实验课程: 回归分析实验课 专业: 统计学 年级: 姓名: 学号: 指导教师: 完成时间: 得分: 教师评语:学生收获与思考:实验八含定性变量的回归模型(4学时)一、实验目的 1掌握含定性变量的回归模型的建模步骤3运用SAS计算含定性变量的各种回归模型的各参数估计及相关检验统计量二、实验理论与方法在实际问题的研究中,经常会遇到一些非数量型的变量。如品质变量;性别;战争与和平。我们把这些品质变量也称为定性变量,在建立回归模型的时候我们需要考虑到这些定性变量。定性变量的回归模型分为自变量含定性变量的回归模型和因变量是定性变量的回归模型。自变量含有定性
2、变量的时候,我们一般引进虚拟变量,将这些定性变量数量化。例如研究粮食产量问题,y为粮食产量,x为施肥量,另外考虑气候问题,分为正常年份和干旱年份两种情况,这个问题数量化方法就是引入一个0-1型变量D,令Di=1表示正常年份,Di=0表示干旱年份,粮食产量的回归模型为:yi=0+1xi+2Di+i。因变量是定性变量时,一般用logistic回归模型(分组数据的logistic回归模型,未分组数据的logistic回归模型,多类别的logistic回归模型),probit回归模型等。三. 实验内容1用DATA步建立一个永久SAS数据集,数据集名为xt103,数据见表21;对数据集xt103,建立y
3、对公司规模和公司类型的回归,并对所得到的模型进行解释。2研制一种新型玻璃,对其做耐冲实验。用一个小球从不同的高度h对玻璃做自由落体撞击,玻璃破碎记为y=1,玻璃未破碎记y=0.数据见表22.是对表中数据建立玻璃耐冲性对高度h的logistic回归,并解释回归方程的含义。“1”=工作,“2”=读研,“3”=出国留学。性别“1”=男生,“0”=女生。用多类别的Logisitic回归分析影响毕业去向的因素。四实验仪器计算机和SAS软件五. 实验步骤和结果分析1用DATA步建立一个永久SAS数据集,数据集名为xt103,数据见表21;对数据集xt103,建立y对公司规模和公司类型的回归,并对所得到的模
4、型进行解释。R检验中R方为0.8951,可以认为回归拟合效果较好。回归方程通过F检验,说明模型是显著成立的。由参数估计表,可以看出,全部变量都是显著的,回归方程为:其中,x2是虚拟变量,当公司类型为“互助”时,x2为0,为“股份”时,x2为1。由方程可知,x2为1,即股份制公司的保险革新措施速度y会更大。股份制公司采取保险革新措施的积极性比互助型公司高,股份制公司建立在共同承担风险上,更愿意革新。公司规模越大,采取保险革新措施的倾向越大:大规模公司保险制度的更新对公司的影响程度比小规模公司大。SAS程序:data xt103;input y x1 x2 ;/*引入虚拟变量,将公司类型的互助设为
5、0,股份设为1*/cards;171510269202117503031022104002770122100191200429001623802816411527211129513868131851212241201661133051301241142461run;proc reg data=xt103;model y=x1 x2;run;2 研制一种新型玻璃,对其做耐冲实验。用一个小球从不同的高度h对玻璃做自由落体撞击,玻璃破碎记为y=1,玻璃未破碎记y=0.数据见表22.是对表中数据建立玻璃耐冲性对高度h的logistic回归,并解释回归方程的含义。模型信息:模型解出的是y=0的概率。由三
6、个检验中,统计量的P值都小于0.05,可以认为模型是显著的。由Wald检验的显著性概率及其P值,可以看出,h变量对方程的影响是显著的。由极大似然估计,各个参数系数也通过检验。因此模型有效。二元logit模型为模型意义为,小球掉落高度为h,则玻璃未破碎的概率为p,而y=0表示玻璃未破碎。也就是说,该种新型的玻璃,用小球对其撞击,当小球的掉落高度为h时,玻璃未破碎的概率就是,那么,玻璃会破碎的概率就为1-p(y=0),这也可以看成是一种比例,就是大量实验中,同个高度h,玻璃会被击破的比例。SAS程序:data wjz;input h y ;/*引入虚拟变量,将公司类型的互助设为0,股份设为1*/c
7、ards;00001000010001010011010111run;proc logistic data=wjz;model y=h;run;proc logistic data=wjz;class h;model y=h/link=glogit aggregate scale=none;run;3 “1”=工作,“2”=读研,“3”=出国留学。性别“1”=男生,“0”=女生。用多类别的Logisitic回归分析影响毕业去向的因素。专业课x1英语x2性别x3月生活费x4毕业去向y两个统计量的P值均大于0.05,说明模型拟合的较好。检验全局零假设: BETA=0 无效假设检验结果(似然比,评分
8、)的结果P值均小于0.01,具有显著统计学意义。三个变量中,有两个是不显著的变量,x3,x2,剔除x3:两个统计量的P值均大于0.05,说明模型拟合的较好。检验全局零假设: BETA=0 无效假设检验结果(似然比,评分,wald)的结果P值均小于0.01,具有显著统计学意义。三个变量都是显著的。以x4=“1”,即参加工作,为参照。由模型可以看出:从参数估计表中,与参加工作的同学相比,读研的(y=2)的同学相比,读研的同学其专业课成绩更好(x1的P值=0.003),而外语成绩(x2的p值=0.356)和经济状况(x4的P值=0.184)没有显著差异;出国留学的(y=3)学生其专业课成绩和参加工作
9、的没有显著差异,外语成绩和经济状况则更好。Sas程序:data a;input x1 x2 x3 x4 y;cards;951600263085018207002600850372175018501000395012002921950263085017819001900500182175028018503830600260065037518002631700185075027309502861150039301300273085018619502760110019607502711100016318502600650167150018605501630650186075027616501821
10、9503730800182175027507501721650181085039219502run;proc print;run;proc logistic;class x3;model y(ref=3)=x1 x2 x3 x4/link=glogit aggregate scale=none ;run;proc logistic;class x3;model y(ref=3)=x1 x2 x4/link=glogit aggregate scale=none ;run;proc logistic;class x3;model y(ref=1)=x1 x2 x4/link=glogit agg
11、regate scale=none ;run;六收获与思考七. 思考题 当自变量是定性变量的时候,我们需要引进虚拟变量进行数量化,当定性变量有n个水平的时候,我们该引进多少的虚拟变量,否则会怎样?不妨试试在sas中试试会出现什么问题。答:当定性变量有n个水平时应该引进n-1个虚拟变量。否则最后一个虚拟变量无法用最小二乘估计计算出来。例:X1-X3为虚拟变量。Data a;input x1 x2 x3 x y;cards;1 0 0 1.26 75 1 0 0 1.35 77 1 0 0 1.40 78 1 0 0 1.58 820 1 0 1.71 65 0 1 0 1.76 66 0 1 0
12、 1.80 68 0 1 0 1.85 700 0 1 1.22 68 0 0 1 1.35 69 0 0 1 1.46 70 0 0 1 1.44 72proc reg data=a;model y=x1-x3 x;run;X3没有参数估计结果。因为x1 x2 x3出现完全共线性,x1 x2均为0时即代表了x3为1.表21iyx1公司类型117151互助22692互助321175互助43031互助522104互助60277互助712210互助819120互助94290互助1016238互助1128164股份1215272股份1311295股份143868股份153185股份1621224股份
13、1720166股份1813305股份1930124股份2014246股份表22序号h(m)y序号h(m)y101412015030161401705118060191702018021090221101230110241120251130261表23序号专业课x1英语x2性别x3月生活费x4毕业去向y195160022630850138207002460085035721750168501000379501200289219502963085011078190011190050011282175021380185031483060021560065031675180021763170011885075021973095022086115003219301300222730850123861950224760110012596075022671110001276318502286006501296715001308605501316306501328607502337616501348219503357308001368217502377507501387216501398108503409219502
限制150内