区间估计与假设检验讲稿.ppt
区间估计与假设检验第一页,讲稿共八十九页哦n3.1 3.1 区间估计与假设检验的基本概念区间估计与假设检验的基本概念n3.1.1 区间估计区间估计n3.1.2 假设检验假设检验第二页,讲稿共八十九页哦3.1.1 区间估计区间估计1.1.点估计和区间估计点估计和区间估计 参数的估计方法主要有两种:点估计和区间估计。参数的估计方法主要有两种:点估计和区间估计。点估计是用样本的观测值估计总体未知参数的值。由点估计是用样本的观测值估计总体未知参数的值。由于样本的随机性,不同样本观测值计算得出的参数的估于样本的随机性,不同样本观测值计算得出的参数的估计值间存在着差异,因此常用一个区间估计总体的参数,计值间存在着差异,因此常用一个区间估计总体的参数,并把具有一定可靠性和精度的估计区间称为置信区间。并把具有一定可靠性和精度的估计区间称为置信区间。利用构造的统计量及样本观测值,计算得出参数的置信利用构造的统计量及样本观测值,计算得出参数的置信区间的方法称为参数的区间估计。区间的方法称为参数的区间估计。第三页,讲稿共八十九页哦2.2.参数的置信区间参数的置信区间 在区间估计中,对于总体的未知参数在区间估计中,对于总体的未知参数,需要求出两,需要求出两个统计量个统计量1(X1,X2,.,Xn)和和2(X1,X2,.,Xn)来分来分别估计总体参数别估计总体参数的上限和下限,使得总体参数在区间的上限和下限,使得总体参数在区间(1,2)内的概率为)内的概率为P1 2=1 其中其中1 称为置信水平,而称为置信水平,而(1,2)称为称为的置信区间,的置信区间,1,2分别称为置信下限和置信上限。置信水平为分别称为置信下限和置信上限。置信水平为1 的的含义是随机区间含义是随机区间(1,2)以以1 的概率包含了参数的概率包含了参数。第四页,讲稿共八十九页哦3.3.正态总体均值和方差的置信区间正态总体均值和方差的置信区间 参数的区间估计大多是对正态总体的参数进行估计,参数的区间估计大多是对正态总体的参数进行估计,如对单总体均值、方差的估计、两总体均值差的估计和如对单总体均值、方差的估计、两总体均值差的估计和两总体方差比的估计等。两总体方差比的估计等。正态总体参数的各种置信区间见表正态总体参数的各种置信区间见表3-1。被估参数条件枢轴量及其分布参数的置信区间单正态总体2已知2未知2已知未知第五页,讲稿共八十九页哦正态总体参数的各种置信区间见表正态总体参数的各种置信区间见表3-1。其中被估参数条件枢轴量及其分布参数的置信区间两正态总体1-2两样本独立,12,22已知两样本独立,12=22=2 未知两样本独立,1,2未知第六页,讲稿共八十九页哦4.4.总体比例与比例差的置信区间总体比例与比例差的置信区间 实际应用中经常需要对总体比例进行估计,如产品的实际应用中经常需要对总体比例进行估计,如产品的合格率、大学生的就业率和手机的普及率等。记合格率、大学生的就业率和手机的普及率等。记和和P分分别表示总体比例和样本比例,则当样本容量别表示总体比例和样本比例,则当样本容量n很大时很大时(一般当(一般当nP和和n(1 P)均大于均大于5时,就可以认为样本容量时,就可以认为样本容量足够大),样本比例足够大),样本比例P的抽样分布可用正态分布近似。的抽样分布可用正态分布近似。总体比例与比例差的置信区间如表总体比例与比例差的置信区间如表3-2所示。所示。待估参数枢轴量及其分布参数的置信区间总体比例两总体比例差1-2其中P1,P2为两个样本比例 第七页,讲稿共八十九页哦3.1.2 假设检验假设检验1.1.假设检验的基本原理假设检验的基本原理 对总体参数进行假设检验时,首先要给定一个原假设对总体参数进行假设检验时,首先要给定一个原假设H0,H0是关于总体参数的表述,与此同时存在一个与是关于总体参数的表述,与此同时存在一个与H0相对立的备择假设相对立的备择假设H1,H0与与H1有且仅有一个成立;经有且仅有一个成立;经过一次抽样,若发生了小概率事件(通常把概率小于过一次抽样,若发生了小概率事件(通常把概率小于0.05的事件称为小概率事件),可以依据的事件称为小概率事件),可以依据“小概率事件小概率事件在一次实验中几乎不可能发生在一次实验中几乎不可能发生”的理由,怀疑原假设不的理由,怀疑原假设不真,作出拒绝原假设真,作出拒绝原假设H0,接受,接受H1的决定;反之,若小概的决定;反之,若小概率事件没有发生,就没有理由拒绝率事件没有发生,就没有理由拒绝H0,从而应作出拒绝,从而应作出拒绝H1的决定。的决定。第八页,讲稿共八十九页哦2.2.假设检验的步骤假设检验的步骤 1)根据问题确立原假设根据问题确立原假设H0和备选假设和备选假设H1;2)确定一个显著水平确定一个显著水平,它是衡量稀有性(小概率事,它是衡量稀有性(小概率事件)的标准,常取为件)的标准,常取为0.05;3)选定合适的检验用统计量选定合适的检验用统计量W(通常在原假设中相等(通常在原假设中相等成立时,成立时,W的分布是已知的),根据的分布是已知的),根据W的分布及的分布及 的值,的值,确定确定H0的拒绝域。的拒绝域。4)由样本观测值计算出统计量由样本观测值计算出统计量W的观测值的观测值W0,如果,如果W0落入落入H0的拒绝域,则拒绝的拒绝域,则拒绝H0;否则,不能拒绝原假设;否则,不能拒绝原假设H0。第九页,讲稿共八十九页哦 注意:在注意:在SAS系统中,是由样本观测值计算出统计量系统中,是由样本观测值计算出统计量W的观测值的观测值W0和衡量观测结果极端性的和衡量观测结果极端性的p值(值(p值就是当值就是当原假设成立时得到样本观测值和更极端结果的概率),原假设成立时得到样本观测值和更极端结果的概率),然后比较然后比较p和和 作判断:作判断:p ,拒绝原假设,拒绝原假设H0;p,不,不能拒绝原假设能拒绝原假设H0。第十页,讲稿共八十九页哦 p值通常由下面公式计算而得到。值通常由下面公式计算而得到。p=P|W|W0|=2 P W|W0|(拒绝域为两边对称的区域时)(拒绝域为两边对称的区域时)p=minPW W0,PW W0(拒绝域为两边非对称区域时)(拒绝域为两边非对称区域时)p=PW W0 (拒绝域为右边区域时)(拒绝域为右边区域时)p=PW W0 (拒绝域为左边区域时)(拒绝域为左边区域时)只需根据只需根据SAS计算出的计算出的p值,就可以在指定的显著水值,就可以在指定的显著水平下,作出拒绝或不能拒绝原假设的决定。平下,作出拒绝或不能拒绝原假设的决定。第十一页,讲稿共八十九页哦3.3.正态总体均值和方差的假设检验正态总体均值和方差的假设检验 对正态总体的参数进行假设检验是假设检验的重要内对正态总体的参数进行假设检验是假设检验的重要内容,如对单总体均值、方差的检验、两总体均值之差的容,如对单总体均值、方差的检验、两总体均值之差的检验和两总体方差比的检验等。正态总体参数的各种检检验和两总体方差比的检验等。正态总体参数的各种检验方法见下表验方法见下表3-3至表至表3-5。表表3-3 单正态总体单正态总体N(,2)均值均值的检验法的检验法检验名称条件检验类别H0H1检验统计量分布拒绝域Z检验已知双边检验=0 0N(0,1)|Z|Z/2左边检验 0 0Z Zt检验未知双边检验=0 0t(n 1)|t|t/2(n 1)左边检验 0 0t t(n 1)第十二页,讲稿共八十九页哦表表3-4 单正态总体单正态总体N(,2)方差方差 2的检验法的检验法或检验名称条件检验类别H0H1检验统计量分布拒绝域2检验已知双边检验左边检验右边检验未知双边检验左边检验右边检验第十三页,讲稿共八十九页哦表表3-5 两正态总体的均值差与方差比的检验两正态总体的均值差与方差比的检验名称条件类别H0H1检验统计量分布拒绝域Z检验两样本独立,12=22=2未知双边检验1-2=01-20t(n1+n2 2)左边检验1-201-20t检验成对匹配样本,12,22未知双边检验d=0d0左边检验d0d0F检验两样本独立,1,2未知双边检验F(n11,n21)左边检验右边检验第十四页,讲稿共八十九页哦4.4.总体比例与比例差的检验总体比例与比例差的检验 当样本容量当样本容量n很大时,可根据表很大时,可根据表3-6对总体比例与比例对总体比例与比例差进行假设检验。差进行假设检验。表表3-6 总体比例与比例差的检验总体比例与比例差的检验检验名称检验类别H0H1 检验统计量分布拒绝域比例检验双边检验=0 0N(0,1)|z|z/2左边检验 0 0|z|z两总体比例差检验双边检验1=21 2N(0,1)|z|z/2左边检验1 21 2|z|z第十五页,讲稿共八十九页哦n3.2 3.2 总体均值的区间估计与假设检验的总体均值的区间估计与假设检验的SASSAS实现实现n3.2.1 使用使用INSIGHT模块模块n3.2.2 使用使用“分析家分析家”n3.2.3 使用使用TTEST过程过程第十六页,讲稿共八十九页哦3.2.1 使用使用INSIGHT模块模块1.1.总体均值的区间估计总体均值的区间估计【例例3-1】某药材生产商要对其仓库中的某药材生产商要对其仓库中的1000箱药材的箱药材的平均重量进行估计,药材重量的总体方差未知,随机抽平均重量进行估计,药材重量的总体方差未知,随机抽取取16箱样本称重后结果如表箱样本称重后结果如表3-7所示。所示。表表3-7 16箱药材重量(单位:千克)箱药材重量(单位:千克)设药材重量数据存放于数据集设药材重量数据存放于数据集Mylib.yczl中,其中重中,其中重量变量名为量变量名为weight。求该仓库中每箱药材平均重量在。求该仓库中每箱药材平均重量在95%置信水平下的置信区间。置信水平下的置信区间。50505651495347525353495355485055第十七页,讲稿共八十九页哦步骤如下:步骤如下:1)启动启动INSIGHT模块,并打开数据集模块,并打开数据集Mylib.yczl;2)选择菜单选择菜单“Analyze”“Distribution(Y)”;3)在打开的在打开的“Distribution(Y)”对话框中进行区间对话框中进行区间估计的设置(如图)。估计的设置(如图)。第十八页,讲稿共八十九页哦 结果包括一个名为结果包括一个名为“95Confidence Intervals(95%置信区间)置信区间)”的列表,表中给出了均值、标准差、方差的列表,表中给出了均值、标准差、方差的估计值(的估计值(Parameter)、置信下限()、置信下限(LCL)和置信上)和置信上限(限(UCL),如图),如图3-2所示。结果表明,根据抽样样本,所示。结果表明,根据抽样样本,该仓库中药材的平均重量以该仓库中药材的平均重量以95%的可能性位于的可能性位于50.08千克千克至至52.92千克之间。千克之间。第十九页,讲稿共八十九页哦2.2.单样本总体均值的假设检验单样本总体均值的假设检验【例例3-2】一家食品厂以生产袋装食品为主,每天的产一家食品厂以生产袋装食品为主,每天的产量大约为量大约为8000袋,每袋重量规定为袋,每袋重量规定为100克。为了分析每克。为了分析每袋重量是否符合要求,质检部门经常进行抽检。现从某袋重量是否符合要求,质检部门经常进行抽检。现从某天生产的一批食品中随机抽取了天生产的一批食品中随机抽取了25袋,测得每袋重量如袋,测得每袋重量如表表3-8所示。所示。表表3-8 25袋食品的重量(单位:克)袋食品的重量(单位:克)试从抽检的样本数据出发,检验变量试从抽检的样本数据出发,检验变量WEIGHT的均值与的均值与100克是否有显著差异。假定表克是否有显著差异。假定表3-8数据存放在数据集数据存放在数据集Mylib.spzl中,重量变量名为中,重量变量名为WEIGHT。112.5101.0103.0102.0100.5102.6107.595.0108.8115.6100.0123.5102.0101.6102.2116.695.497.8108.6105.0136.8102.8101.598.493.3第二十页,讲稿共八十九页哦 设变量设变量WEIGHT的均值为的均值为,问题是希望通过样本数,问题是希望通过样本数据检验变量据检验变量WEIGHT均值的如下假设:均值的如下假设:H0:=100,H1:100。使用使用INSIGHT对均值进行检验的步骤如下:对均值进行检验的步骤如下:1)首先启动首先启动INSIGHT,并打开数据集,并打开数据集Mylib.spzl;2)选择菜单选择菜单“Analyze”“Distribution(Y)”;3)在打开的在打开的“Distribution(Y)”对话框中选定分析对话框中选定分析变量变量WEIGHT;4)单击单击“OK”按钮,得到变量的描述性统计量;按钮,得到变量的描述性统计量;第二十一页,讲稿共八十九页哦 5)选择菜单选择菜单“Tables(表)(表)”“Tests for Location(位置检验)(位置检验)”;在弹出的;在弹出的“Tests for Location”对话框中输入对话框中输入100,单击,单击“OK”按钮得到输出按钮得到输出结果如图所示。结果如图所示。第二十二页,讲稿共八十九页哦 结果显示,观测值不等于结果显示,观测值不等于100克的观测有克的观测有24个,其中个,其中19个观测值大于个观测值大于100。图中第一个检验为图中第一个检验为t检验检验(Students t),需要假定变量,需要假定变量服从正态分布,检验的服从正态分布,检验的p值为值为0.0105,这个检验在,这个检验在0.05水水平下是显著的,所以可认为均值与平下是显著的,所以可认为均值与100克有显著差异。克有显著差异。第二个检验第二个检验(Sign)是叫做符号检验的非参数检验,其是叫做符号检验的非参数检验,其p值值为为0.0066,在,在0.05水平下也是显著的,结论不变。第三水平下也是显著的,结论不变。第三个检验个检验(Sgned Rank)是叫做符号秩检验的非参数检验,是叫做符号秩检验的非参数检验,其其p值为值为0.0048,在,在0.05水平下是显著的,结论不变。水平下是显著的,结论不变。第二十三页,讲稿共八十九页哦3.3.两样本总体均值的比较:成对匹配样本两样本总体均值的比较:成对匹配样本 在在INSIGHT中比较成对样本均值是否显著差异,可以中比较成对样本均值是否显著差异,可以计算两变量的差值变量,再检验差值变量的均值是否显计算两变量的差值变量,再检验差值变量的均值是否显著为著为0。【例例3-3】由由10名学生组成一个随机样本,让他们分别名学生组成一个随机样本,让他们分别采用采用A和和B两套试卷进行测试,结果如表两套试卷进行测试,结果如表3-9所示。所示。表表3-9 10名学生两套试卷的成绩名学生两套试卷的成绩试从样本数据出发,分析两套试卷是否有显著差异。试从样本数据出发,分析两套试卷是否有显著差异。试卷A78637289914968768555试卷B71446184745155607739差值71911517-21316816第二十四页,讲稿共八十九页哦 步骤如下:步骤如下:1)首先生成差值变量:首先生成差值变量:启动启动INSIGHT,并打开数据集,并打开数据集Mylib.sjcj。选择菜单。选择菜单“Edit”“Variables”“Other”,打开,打开“Edit Variables”对话框,选择对话框,选择A为为Y变量,变量,B为为X变量,然后变量,然后选择变换(选择变换(Transformation):):Y X,如图,生成新的,如图,生成新的差值变量差值变量d;第二十五页,讲稿共八十九页哦 2)然后对变量然后对变量d的均值做如下假设:的均值做如下假设:H0:d=0,H1:d 0。3)选择菜单选择菜单“Analyze”“Distribution(Y)”;在;在打开的打开的“Distribution(Y)”对话框中选定分析变量:对话框中选定分析变量:选择变量差值选择变量差值d,单击,单击“Y”按钮,将变量按钮,将变量d移到右上方移到右上方的列表框中;的列表框中;4)单击单击“Output”按钮,在打开的对话框中选中按钮,在打开的对话框中选中“Tests for Location(位置检验)(位置检验)”复选框;复选框;5)两次单击两次单击“OK”按钮,得到变量的描述性统计量;按钮,得到变量的描述性统计量;第二十六页,讲稿共八十九页哦 6)选择菜单选择菜单“Tables(表)(表)”“Tests for Location(位置检验)(位置检验)”;在弹出的;在弹出的“Tests for Location”对话框中输入对话框中输入0,单击,单击“OK”按钮得到输出结按钮得到输出结果如图所示。果如图所示。结果显示三个检验的结论都是结果显示三个检验的结论都是p值小于值小于0.05,所以应拒,所以应拒绝原假设,即总体的均值与绝原假设,即总体的均值与0有显著差异。所以两套试有显著差异。所以两套试卷有显著差异。卷有显著差异。虽然虽然SAS给出三个检验结果,其实作结论时只需其中给出三个检验结果,其实作结论时只需其中一个。如果可以认为分析变量服从正态分布只要看一个。如果可以认为分析变量服从正态分布只要看t检验检验结果;否则只须看符号秩检验结果。只有在数据为两两结果;否则只须看符号秩检验结果。只有在数据为两两比较的大小结果而没有具体数值时符号检验才有用。比较的大小结果而没有具体数值时符号检验才有用。第二十七页,讲稿共八十九页哦3.2.2 使用使用“分析家分析家”1.1.总体均值的置信区间总体均值的置信区间【例例3-4】在在“分析家分析家”中求例中求例3-1中每箱药材平均重量中每箱药材平均重量在在95%置信水平下的置信区间。置信水平下的置信区间。步骤如下:步骤如下:1)在在“分析家分析家”模块中打开数据集模块中打开数据集Mylib.yczl;2)选择菜单选择菜单“Statistics(统计)(统计)”“Hypothesis Tests(假设检验)(假设检验)”“One Sample t test for a Mean(单样本均值(单样本均值t-检验)检验)”;3)在打开的在打开的“One Sample t test for a Mean”对话框对话框中设置均值的置信区间(如图中设置均值的置信区间(如图3-6)。)。第二十八页,讲稿共八十九页哦 3)在打开的在打开的“One Sample t test for a Mean”对话框中对话框中设置均值的置信区间(如图设置均值的置信区间(如图3-6)。)。结果表明(下图),根据抽样样本,该仓库中药材的结果表明(下图),根据抽样样本,该仓库中药材的平均重量以平均重量以95%的可能性位于的可能性位于50.08千克至千克至52.92千克之千克之间。间。第二十九页,讲稿共八十九页哦2.2.单样本总体均值的假设检验单样本总体均值的假设检验【例例3-5】使用使用“分析家分析家”检验例检验例3-2中食品重量是否符中食品重量是否符合要求。希望通过样本数据检验变量合要求。希望通过样本数据检验变量WEIGHT均值的如均值的如下假设:下假设:H0:=100,H1:100。由于此时的方差未知,所以使用由于此时的方差未知,所以使用t检验法。步骤如下:检验法。步骤如下:1)在在“分析家分析家”中打开数据集中打开数据集Mylib.spzl;2)选择菜单选择菜单“Statistics(统计)(统计)”“Hypothesis Tests(假设检验)(假设检验)”“One Sample t test for a Mean(单样本均值(单样本均值t-检验)检验)”,打开,打开“One Sample t test for a Mean”对话框;对话框;第三十页,讲稿共八十九页哦 4)按图按图3-8所示设置均值检验,单击所示设置均值检验,单击“OK”按钮,得到按钮,得到结果如图左所示。;结果如图左所示。;显示结果(图右)表明显示结果(图右)表明t统计量的统计量的p值为值为0.01050.05,所以拒绝原假设,即认为总体的均值不等于所以拒绝原假设,即认为总体的均值不等于100。第三十一页,讲稿共八十九页哦3.3.两样本总体均值的比较:成对匹配样本两样本总体均值的比较:成对匹配样本【例【例3-6】使用】使用“分析家分析家”对例对例3-3中两套试卷检验有无中两套试卷检验有无显著差异。显著差异。这是一个(成对匹配)双样本均值检验问题,若这是一个(成对匹配)双样本均值检验问题,若1和和2分别表示两套试卷的平均成绩,则检验的是:分别表示两套试卷的平均成绩,则检验的是:H0:1 2=0,H1:1 2 0;分析步骤如下:分析步骤如下:1)在在“分析家分析家”中打开数据集中打开数据集Mylib.sjdf;2)选择菜单选择菜单“Statistics(统计)(统计)”“Hypothesis Tests(假设检验)(假设检验)”“Two Sample Paired t-Test for a Mean(均值的成对双样本(均值的成对双样本t-检验)检验)”;第三十二页,讲稿共八十九页哦 3)在打开的在打开的“Two Sample Paired t-Test for a Mean”对话框中,按图左所示设置双样本均值检验,单击对话框中,按图左所示设置双样本均值检验,单击“OK”按钮,得到结果如图右所示按钮,得到结果如图右所示 结果显示,无论两总体的方差是否相等,结果显示,无论两总体的方差是否相等,t统计量的统计量的p值值=0.0005 0.05,所以在,所以在95%的置信水平下,拒绝原的置信水平下,拒绝原假设,两总体的均值有显著差异。假设,两总体的均值有显著差异。结果表明可以结果表明可以95%的把握认为两套试卷有显著差异。的把握认为两套试卷有显著差异。第三十三页,讲稿共八十九页哦4.4.两样本总体均值的比较:独立样本两样本总体均值的比较:独立样本【例【例3-7】为估计两种方法组装产品所需时间的差异,】为估计两种方法组装产品所需时间的差异,分别对两种不同的组装方法各随机安排一些个工人进行分别对两种不同的组装方法各随机安排一些个工人进行操作试验,每个工人组装一件产品所需的时间如表操作试验,每个工人组装一件产品所需的时间如表3-10所示。试以所示。试以95%的置信水平推断两种方法组装产品所需的置信水平推断两种方法组装产品所需平均时间有无差异。平均时间有无差异。表表3-10 两种方法组装产品所需的时间(单位:分钟)两种方法组装产品所需的时间(单位:分钟)这是一个(独立)两样本均值检验问题,若这是一个(独立)两样本均值检验问题,若1和和2分分别表示两种方法组装一件产品所需的平均时间,则检验别表示两种方法组装一件产品所需的平均时间,则检验的是:的是:H0:1 2=0,H1:1 2 0;方法128.330.129.037.632.128.836.037.238.534.428.030.0方法227.622.231.033.820.030.231.726.032.031.2第三十四页,讲稿共八十九页哦 假定表假定表3-10数据存放在数据集数据存放在数据集Mylib.zzcpsj中,将两个中,将两个样本中被比较均值的变量的观测值记在同一分析变量样本中被比较均值的变量的观测值记在同一分析变量F下,不同的样本用一个分类变量下,不同的样本用一个分类变量g的不同值加以区分,的不同值加以区分,而且分类变量而且分类变量g只能取两个值,否则无法进行。只能取两个值,否则无法进行。分析步骤如下:分析步骤如下:1)在在“分析家分析家”中打开数据集中打开数据集Mylib.zzcpsj;2)选择菜单选择菜单“Statistics(统计)(统计)”“Hypothesis Tests(假设检验)(假设检验)”“Two Sample t-Test for Mean(两样本均值的(两样本均值的t-检验)检验)”;第三十五页,讲稿共八十九页哦 3)在打开的在打开的“Two Sample t-Test for a Mean”对话框对话框中,按图中,按图3-12所示设置双样本均值检验,单击所示设置双样本均值检验,单击“OK”按按钮,得到结果如图钮,得到结果如图3-13所示所示 结果显示,由于结果显示,由于t统计量的统计量的p值值=0.0433,所以在,所以在95%的的置信水平下,应该拒绝原假设,即两种方法所需时间有置信水平下,应该拒绝原假设,即两种方法所需时间有差异。表明有差异。表明有95%的把握认为两种方法所需时间有差异。的把握认为两种方法所需时间有差异。第三十六页,讲稿共八十九页哦3.2.3 使用使用TTEST过程过程TTEST过程可以执行单样本均值的过程可以执行单样本均值的t检验、配对数据的检验、配对数据的t检验以及双样本均值比较的检验以及双样本均值比较的t检验。检验。1.1.语法格式语法格式PROC TTEST;CLASS;VAR;PAIED;BY;RUN;其中,其中,PROC TTEST和和RUN语句是必须的,其余语语句是必须的,其余语句都是可选的,而且可调换顺序。句都是可选的,而且可调换顺序。第三十七页,讲稿共八十九页哦 CLASS语句所指定的分组变量是用来进行组间比较的;语句所指定的分组变量是用来进行组间比较的;而而BY语句所指定的分组变量是用来将数据分为若干个语句所指定的分组变量是用来将数据分为若干个更小的样本,以便更小的样本,以便SAS分别在各小样本内进行各自独立分别在各小样本内进行各自独立的处理。的处理。VAR语句引导要检验的所有变量列表,语句引导要检验的所有变量列表,SAS将对将对VAR语句所引导的所有变量分别进行组间均值比较的语句所引导的所有变量分别进行组间均值比较的t检验。检验。第三十八页,讲稿共八十九页哦 PAIED语句用来指定配对语句用来指定配对t检验中要进行比较的变量检验中要进行比较的变量对,其后所带的变量名列表一般形式及其产生的效果见对,其后所带的变量名列表一般形式及其产生的效果见表表3-11。表表3-11 选项及其含义选项及其含义变量名列表形式产生的效果a*ba ba*b c*da b,c d(a b)*(c d)a c,a d,b c,b d(a b)*(c b)a c,a b,b c第三十九页,讲稿共八十九页哦 PROC TTEST语句后可跟的选项及其表示的含义如表语句后可跟的选项及其表示的含义如表3-12所示。所示。表表3-12 选项及其含义选项及其含义选项代表的含义data=等号后为SAS数据集名,指定ttest过程所要处理的数据集,默认值为最近处理的数据集alpha=等号后为01之间的任何值,指定置信水平,默认为0.05ci=等号后为“equal,umpu,none”中的一个,表示标准差的置信区间的显示形式,默认为ci=equalcochran有此选项时,ttest过程对方差不齐时的近似t检验增加cochran近似法h0=等号后为任意实数,表示检验假设中对两均值差值的设定,默认值为0第四十页,讲稿共八十九页哦2.2.总体均值的置信区间总体均值的置信区间【例例3-8】仍然考虑例仍然考虑例3-3中的样本数据。假定其中数据中的样本数据。假定其中数据使用如下数据步存放在数据集使用如下数据步存放在数据集sjcj中,两套试卷得分的中,两套试卷得分的变量名分别为变量名分别为A和和B。data sjcj;input A B;cards;78 71 63 44 72 61 89 84 91 7449 51 68 55 76 60 85 77 55 39;run;第四十一页,讲稿共八十九页哦【例例3-8】仍然考虑例仍然考虑例3-3中的样本数据。假定其中数据中的样本数据。假定其中数据使用如下数据步存放在数据集使用如下数据步存放在数据集sjcj中,两套试卷得分的中,两套试卷得分的变量名分别为变量名分别为A和和B。使用最简代码求均值、标准差的置信区间:使用最简代码求均值、标准差的置信区间:proc ttest data=sjcj;run;代码运行结果给出两个变量在代码运行结果给出两个变量在95%置信水平下的均值、置信水平下的均值、标准差的置信区间,以及对原假设标准差的置信区间,以及对原假设0=0所作的所作的t检验的检验的p值,如图所示。值,如图所示。第四十二页,讲稿共八十九页哦3.3.单样本总体均值的假设检验单样本总体均值的假设检验 在例在例3-8中增加原假设选项以及置信水平,代码如下:中增加原假设选项以及置信水平,代码如下:proc ttest h0=70 alpha=0.01 data=sjcj;var A;run;代码运行结果除了给出变量代码运行结果除了给出变量A在在99%置信水平下的均置信水平下的均值、标准差的置信区间外,还给出对假设值、标准差的置信区间外,还给出对假设0=70,所作,所作的的t-检验的检验的p值,如图值,如图3-15所示。所示。结果显示结果显示t统计量的统计量的p值值=0.5734,不能拒绝(,不能拒绝(57.34%的的把握)原假设:均值把握)原假设:均值=70。第四十三页,讲稿共八十九页哦4.4.配对两样本均值的假设检验配对两样本均值的假设检验 在例在例3-8中检验两套试卷有无显著差异,代码如下:中检验两套试卷有无显著差异,代码如下:proc ttest data=sjcj;paired A*B;run;代码运行结果给出了对原假设代码运行结果给出了对原假设1 2=0所作的所作的t检验检验的的p值,如图值,如图3-16所示。所示。结果显示结果显示t统计量的统计量的p值值=0.0005 0.05,因此拒绝原假,因此拒绝原假设。说明两套试卷有显著差异。设。说明两套试卷有显著差异。第四十四页,讲稿共八十九页哦5.5.独立两样本均值的假设检验独立两样本均值的假设检验 过程过程TTEST还可以用于进行独立双样本均值比较的还可以用于进行独立双样本均值比较的t检验法。它的用法为检验法。它的用法为PROC TTEST DATA=;CLASS;VAR;RUN;使用这一格式要求将两个样本中被比较均值的变量的使用这一格式要求将两个样本中被比较均值的变量的观测值记在同一分析变量下,不同的样本用另一个分类观测值记在同一分析变量下,不同的样本用另一个分类变量的不同值加以区分,而且分类变量只能取两个值,变量的不同值加以区分,而且分类变量只能取两个值,否则将报错。否则将报错。第四十五页,讲稿共八十九页哦【例例3-9】仍然考虑例仍然考虑例3-7中的样本数据。假定其中数据中的样本数据。假定其中数据使用如下数据步存放在数据集使用如下数据步存放在数据集zzcpsj中:中:data zzcpsj;input f g$;cards;28.3 1 27.6 2 30.1 1 22.2 2 29 1 31 237.6 1 33.8 2 32.1 1 20 2 28.8 1 30.2 236 1 31.7 2 37.2 1 26 2 38.5 1 32 234.4 1 31.2 2 28 1 30 1;run;第四十六页,讲稿共八十九页哦 将两批工人的测量结果看作两个样本,但其数据都放将两批工人的测量结果看作两个样本,但其数据都放在一个数据集之中,所需的时间值是记录在同一分析变在一个数据集之中,所需的时间值是记录在同一分析变量量f之下,而两种方法的差别是由变量之下,而两种方法的差别是由变量g的值加以区分的,的值加以区分的,所以所以g可作为分类变量。检验代码如下:可作为分类变量。检验代码如下:proc ttest data=zzcpsj;class g;var f;run;检验结果如图所示。检验结果如图所示。第四十七页,讲稿共八十九页哦在检验中,先看其最后关于方差等式的检验结果,检验在检验中,先看其最后关于方差等式的检验结果,检验方差相等是用的方差相等是用的F 统计量,其数值为统计量,其数值为1.29,相应的,相应的p值值为为0.67790.05=,所以不能拒绝方差相等的假设。,所以不能拒绝方差相等的假设。在方差相等的前提下,检验均值差异使用在方差相等的前提下,检验均值差异使用Pooled方法,方法,对应统计量的对应统计量的t值为值为2.16,相应的,相应的p值为值为0.04330.05=,所以两种方法所需的时间是有显著差异的。,所以两种方法所需的时间是有显著差异的。在异方差的情况下,使用在异方差的情况下,使用Satterthwaite法检验均值的法检验均值的差异。差异。第四十八页,讲稿共八十九页哦n3.3 3.3 总体比例的区间估计与假设检验的总体比例的区间估计与假设检验的SASSAS实现实现n3.3.1 总体比例的置信区间总体比例的置信区间n3.3.2 单样本总体比例的假设检验单样本总体比例的假设检验n3.3.3 两总体比例的比较两总体比例的比较第四十九页,讲稿共八十九页哦3.3.1 总体比例的置信区间总体比例的置信区间【例例3-10】2004年底北京市私家车拥有量已达到年底北京市私家车拥有量已达到129.8万万辆,位居全国之首,据业内人士分析其中国产中低档汽辆,位居全国之首,据业内人士分析其中国产中低档汽车的比例较大,为了估计目前北京市场个人购车的平均车的比例较大,为了估计目前北京市场个人购车的平均价格,调查人员于某日在北京最大的车市随机抽取价格,调查人员于某日在北京最大的车市随机抽取36位位私人消费购车者,得到他们所购汽车的价格,见下表。私人消费购车者,得到他们所购汽车的价格,见下表。表表3-13 年底购车价格年底购车价格(单位:万元单位:万元)根据以上调查数据,试以根据以上调查数据,试以95的置信水平推断该地区购的置信水平推断该地区购买私家车在买私家车在15万元以上的消费者占有的比例。万元以上的消费者占有的比例。6.8811.2819.9813.610.614.86.8811.7820.9824.412.314.86.8813.6813.630.314.614.88.2814.9814.79.614.617.49.615.6815.89.612.95.3810.1815.6820.510.614.87.38第五十页,讲稿共八十九页哦 设购车价格数据存放在数据集设购车价格数据存放在数据集Mylib.gcjg中,价格变中,价格变量名为量名为price。这是一个单样本比例的区间估计问题。由。这是一个单样本比例的区间估计问题。由于在于在SAS中只能对两水平的分类变量作比例的区间估计中只能对两水平的分类变量作比例的区间估计与检验,所以首先要按变量与检验,所以首先要按变量price生成一个新的分类变量。生成一个新的分类变量。步骤如下:步骤如下:1)在在“分析家分析家”中打开数据集中打开数据集Mylib.gcjg;2)选择主菜单选择主菜单“Edit(编辑)(编辑)”“Mode(模式)(模式)”“Edit(编辑)(编辑)”,使数据集可以被编辑(修改);,使数据集可以被编辑(修改);第五十一页,讲稿共八十九页哦 3)选择主菜单选择主菜单“Data(数据)(数据)”“Transform(变(变换)换)”“Recode Ranges(重编码范围)(重编码范围)”,打开,打开“Recode Ranges Information”对话框并按图对话框并按图3-18(左)(左)设置有关内容;设置有关内容;4)单击单击“OK”按钮,打开按钮,打开“Recode Ranges”对话框,对话框,按图按图3-18右所示生成新变量右所示生成新变量price_f;第五十二页,讲稿共八十九页哦 6)选择菜单选择菜单“Statistics(统计)(统计)”“Hypothesis Tests(假设检验)(假设检验)”“One Sample Test for a Proportion(单样本比例检验)(单样本比例检验)”;7)在打开的在打开的“One Sample Test for a Proportion”对话对话框中,按图框中,按图3-19设置比例的置信区间。设置比例的置信区间。第五十三页,讲稿共八十九页哦分析结果中包括变量的置信区间:按分析