第八章-假设检验知识讲解.ppt
第八章-假设检验一、假设检验(hypothesis testing)n样本均数与总体均数不等或两样本均数不等,有两种可能:由抽样误差所致 两者来自不同的总体n假设检验假设检验是用来判断样本与样本,样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。2总总 体体随机抽样随机抽样抽样误差抽样误差样本样本?总总 体体0?3总总 体体样本样本2随机抽样随机抽样统计推断统计推断抽样误差抽样误差样本样本1=?4假设检验基本思想:假设检验基本思想:n小概率反证法思想。n小概率思想是指小概率事件(P0.01或P1.64的概率。n其中n对于H0:=70,则UN(0,1),P(1.64)=0.05,可以认为是一个小概率事件,对于一次随机抽样一般不会发生的。14检验统计量的分布特征(续)nH0和和1的不同分布图以及的不同分布图以及1.64的概率的概率15检验统计量的分布特征(续)n对于H1:=75,则n即:16检验统计量的分布特征(续)n对于对于=75而言,而言,n概率概率由此可以看出:同样是求概率由此可以看出:同样是求概率P(U1.64)n对于对于H0:=70而言是一个小概率事件而言是一个小概率事件n对于对于H:=75而言,其发生的概率而言,其发生的概率 n说明:检验统计量说明:检验统计量U1.64的概率与样本所的概率与样本所在总体有关在总体有关(与与H0是真还是是真还是H是真有关是真有关)17样本均数与总体均数比较n例8.3:根据大量调查,已知健康成年男性的脉搏均数为72次/分,标准差为6.0次/分,某医生在一山区随即抽查了25名健康男性,求得其脉搏均数为74.2次/分,问是否能据此认为该山区成年男性的脉搏均数高于一般成年男性?1819步骤:n上述两个均数不等既可能是抽样误差所致,也有可能真是环境差异的影响,做假设检验n因为已知,可用u检验的单侧检验,检验过程如下:n1.建立假设H0:=0=72次/分,H1:0,检验水准为单侧0.05。20n2.计算统计量n进行样本均数与总体均数比较的u检验,计算u值21n.确定临界值,判断是否应该拒绝。n当H0:=0=72次/分为真时,在大多数情况下,应该在72附近,因此应该在0附近随机摆动。n当H1:0=72为真,在大多数情况下,应该远离72,应该比较大。22n可以证明:当0为真时,检验统计量服从N(0,1),查标准正态分布表,临界值U0.05=1.64,检验统计量u=1.8331.64是小概率事件,对于一次随机抽样而言,一般是不会发生的,因此拒绝0,并且可以认为该山区成年男性的脉搏均数高于一般成年男性。2324定义值和应用n值=P(检验统计量检验统计量样本值0)n即:在0为真的情况下,检验统计量大于样本计算的统计量数值的概率。也就是值值=样本统计量数值开始的尾部面积样本统计量数值开始的尾部面积(示意见图示意见图)。n意义:如果检验统计量样本值u=U0.05,则P=U0.05尾部的面积,故=0.05。25定义值和应用n如果检验统计量样本值uU0.05(u值比U0.05更右侧),则P=u尾部的面积U0.05尾部的面积,则P0.05n如果检验统计量样本值uU0.05尾部的面积,则P0.05n综合上述,P检验统计量值临界值,不拒绝H0。nP临界值,拒绝H0。26值示意图在实际研究中,只需计算值并判断是否在实际研究中,只需计算值并判断是否P 决定是否拒绝决定是否拒绝0。27n3.确定概率,作出判断n以自由度v(n-1)查u界值表,0.025P0,检验水准为单侧0.05。30n自由度v=25-1=24t0.05(24)=1.711nt0.05,n按的检验水准不拒绝H0,即不能认为该山区的成年男子的脉搏高于一般31两类错误:32检验效能:检验效能:nH H1 1是是真真的的,实实际际拒拒绝绝H H0 0的的概概率率=1-=1-称称为为PowerPower又称为检验效能又称为检验效能33进行假设检验应注意的问题n(1)做假设检验之前,应注意资料本身是否有可比性。n(2)当差别有统计学意义时应注意这样的差别在实际应用中有无意义。n(3)根据资料类型和特点选用正确的假设检验方法。n(4)根据专业及经验确定是选用单侧检验还是双侧检验。34n(5)当检验结果为拒绝无效假设时,应注意有发生I类错误的可能性,即错误地拒绝了本身成立的H0,发生这种错误的可能性预先是知道的,即检验水准那么大;当检验结果为不拒绝无效假设时,应注意有发生II类错误的可能性,即仍有可能错误地接受了本身就不成立的H0,发生这种错误的可能性预先是不知道的,但与样本含量和I类错误的大小有关系。35n(6)判断结论时不能绝对化,应注意无论接受或拒绝检验假设,都有判断错误的可能性。n(7)报告结论时是应注意说明所用的统计量,检验的单双侧及P值的确切范围。36nt检验和u检验就是统计量为t,u的假设检验,两者均是常见的假设检验方法。n当样本含量n较大时,样本均数符合正态分布,故可用u检验进行分析。n当样本含量n小时,若观察值x符合正态分布,则用t检验(因此时样本均数符合t分布)n当x为未知分布时应采用秩和检验。37可信区间与假设检验的关系n不同:可信区间量的问题n假设检验质的问题n1.可信区间亦可用于回答假设检验的问题n2.可信区间比假设检验提供更多的信息可以回答有无统计学意义,还可回答有无实际意义3839STATA命令正态分布总体均数的95可信区间命令为:cii样本量样本均数样本标准差n例4.1cii120.8960.05490可信区间n例4.2cii110121.724.74,level(90)Leve括号中的数字表示可信度40此课件下载可自行编辑修改,仅供参考!此课件下载可自行编辑修改,仅供参考!感谢您的支持,我们努力做得更好!谢谢感谢您的支持,我们努力做得更好!谢谢