数值变量的统计推断.pptx
24 24 三月三月 2023 20231回顾上一章内容:集中趋势指标:算术均数、中位数、几何均数离散趋势指标:全距、四分位数间距、方差、标准差、变异系数正态分布:概念、特征、面积规律、应用医学参考值估计:步骤、估计方法计量资料的统计描述:计量资料的统计描述:第1页/共86页24 24 三月三月 2023 20232均数的抽样误差与标准误总体均数的估计假设检验的基本原理与步骤t检验与u检验方差分析两类错误假设及假设检验的注意事项本次讲授内容本次讲授内容第2页/共86页24 24 三月三月 2023 20233统计推断(Statisticalinference):用样本信息推论总体特征的过程。即采用样本统计量 对相应总体参数 所做的非确定性的推估。主要包括:参数估计 假设检验第一节第一节 均数的抽样误差与标准误均数的抽样误差与标准误第3页/共86页24 24 三月三月 2023 20234第一节第一节 均数的抽样误差与标准误均数的抽样误差与标准误参数估计:运用统计学原理,用从样本计算出来的统计指标量,对总体统计指标量进行估计。假设检验:又称显著性检验,是指由样本间存在的差别对样本所代表的总体间是否存在着差别做出判断。方法:均数的参数估计、均数u检验、均数t检验第4页/共86页总体参数:总体参数:=155.4=155.4,=5.3=5.3 X XN N(155.4(155.4,(5.3(5.3)2 2)12100n=30 x1=156.7n=30 x2=158.1n=30 x100=156.613岁女学生身高第一节第一节 均数的抽样误差与标准误均数的抽样误差与标准误第5页/共86页第6页/共86页从正态总体从正态总体N N(155.4155.4,5.35.32 2)抽样得到)抽样得到100100个样本均数的频数分布个样本均数的频数分布组段(组段(cmcm)频数频数频率()频率()152.6152.61 11.01.0153.2153.24 44.04.0153.8153.84 44.04.0154.4154.4222222.022.0155.0155.0252525.025.0155.6155.6212121.021.0156.2156.2171717.017.0156.8156.83 33.03.0157.4157.42 22.02.0158.0158.0159.6159.61 11.01.0合计合计100100100.0100.0100个样本平均数的频数分布图(直方图)第7页/共86页 理论上可以证明:若从正态总体 中,反复多次随机抽取样本含量固定为n 的样本,那么这些样本均数 也服从正态分布,即 的总体均数仍为,样本均数的标准差为 。抽样分布 抽样分布示意图第8页/共86页 一.抽样误差:由于抽样而引起的样本均数与总体均数之间、样本均数与样本均数之间的差异称为抽样误差。特点:不可避免!可以计算或估计其大小。第9页/共86页24 24 三月三月 2023 202310通过增加样本含通过增加样本含量量n n来降低抽样来降低抽样误差。误差。某一个样本某一个样本的标准差的标准差该样本的该样本的个体例数个体例数二二.标准误标准误(standard error,SE)(standard error,SE)及其计算及其计算即样本均数的标准差,可用于衡量抽样误差的大小。即样本均数的标准差,可用于衡量抽样误差的大小。因通常因通常未知,用未知,用S来估计。来估计。计算标准误采用下式:计算标准误采用下式:第一节第一节 均数的抽样误差与标准误均数的抽样误差与标准误第10页/共86页24 24 三月三月 2023 20234 4个抽样实验结果比较个抽样实验结果比较第11页/共86页24 24 三月三月 2023 202312标准误的特点:当样本例数当样本例数n一定时,标准误与标准差呈正比;一定时,标准误与标准差呈正比;当标准差一定时,标准误与样本含量当标准差一定时,标准误与样本含量n的平方根呈反比。的平方根呈反比。意义:反映样本均数间离散程度。反映抽样误差的大小。标准误越小,抽样误差越小,用样本均数估计总体均数的可靠性越大。第一节第一节 均数的抽样误差与标准误均数的抽样误差与标准误第12页/共86页24 24 三月三月 2023 202313例15-1:某地150名3岁女孩平均身高为92.8CM,标准差为4.6CM,求其标准误。未知未知S S 代替代替第一节第一节 均数的抽样误差与标准误均数的抽样误差与标准误第13页/共86页24 24 三月三月 2023 202314三.标准误的应用反映样本均数的可靠性,衡量抽样误差大小估计总体均数的可信区间用于假设检验第一节第一节 均数的抽样误差与标准误均数的抽样误差与标准误第14页/共86页24 24 三月三月 2023 202315区别:区别:标准误标准误 标准差标准差定义反映抽样误差定义反映抽样误差 反映个体变异反映个体变异公式公式用途总体均数可信区间用途总体均数可信区间 医学参考值范围医学参考值范围进行统计学检验进行统计学检验 计算标准误、计算标准误、CVCV联系:联系:当当n n一定时标准差大,标准误也大一定时标准差大,标准误也大 补充内容:补充内容:标准误与标准差的区别与联系标准误与标准差的区别与联系第一节第一节 均数的抽样误差与标准误均数的抽样误差与标准误第15页/共86页24 24 三月三月 2023 202316第二节第二节 总体均数的估计总体均数的估计随机变量随机变量x xN(N(,2 2)标准正态分布标准正态分布 N N(0 0,1 12 2)抽抽 样样 样本均数样本均数 N(N(,2 2/n/n)标准正态分布标准正态分布 N N(0 0,1 12 2)未知未知 S S 代替代替u变换Student Student t t分布自分布自由度:由度:n n-1-1t 变换第16页/共86页24 24 三月三月 2023 202317m个样本的均数标准误t t值l总体为总体为N N的的m m个样本(样本大小为个样本(样本大小为n n)的)的 t t 值值t t 分布分布第17页/共86页图15-1 自由度分别为1、5、的t分布标准正态分布第18页/共86页24 24 三月三月 2023 202319t 分布的图形与特征以0为中心,左右对称的单峰分布;t分布曲线是一簇曲线,其形态变化与自由度的大小有关。n自由度越小,则自由度越小,则t 值越分散,值越分散,t分布分布曲线曲线的峰部越矮而的峰部越矮而尾部翘得越高;说明尾部面积(概率尾部翘得越高;说明尾部面积(概率P)就越大;与)就越大;与u分布曲线相比,分布曲线相比,t 分布分布低平;低平;n自由度逐渐增大时,自由度逐渐增大时,t 分布逐渐逼近分布逐渐逼近u 分布分布(标准正态标准正态分布分布);当趋于;当趋于时,时,逼近逼近 ,t 分布即为分布即为u分布。分布。t t 分布分布第19页/共86页24 24 三月三月 2023 202320附表附表 t 界值表界值表 (228页)第20页/共86页自由度自由度概率概率P P单侧单侧0.250.250.200.200.100.100.050.050.0250.0250.010.01双侧双侧0.500.500.400.400.200.200.100.100.050.050.020.021 11.001.001.3761.3763.0783.0786.3146.31412.70612.70631.8231.822 20.8160.8161.0611.0611.8861.8862.9202.9204.3034.3036.9656.96510100.700.700.8790.8791.3721.3721.8121.8122.2282.2282.7642.76450500.6790.6790.8490.8491.2991.2991.6761.6762.0092.0092.4032.4031001000.6770.6770.8450.8451.291.291.6601.6601.9841.9842.3642.364 0.6750.6750.8420.8421.2821.2821.6451.6451.9601.9602.3262.326第21页/共86页24 24 三月三月 2023 202322如左图所示,图中的阴影部分表示 以外尾部面积占总面积的百分数,即概率。如查表单侧 ,表示从正态总体作样本例数n为11的随机抽样,其t值服从=n-1=11-1=10的t分布。1.812理论上:理论上:v=10,v=10,单单=0.05=0.05,则有则有 :一般表示:一般表示:t t 分布分布第22页/共86页24 24 三月三月 2023 202323如图所示:相同自由度下,双侧P值为单侧P值得两倍。t界值表中,2.228-2.228 t t 分布分布第23页/共86页24 24 三月三月 2023 202324参数估计:用样本均数估计总体均数。参数的估计参数的估计点值估计:点值估计:由样本统计量由样本统计量 直接估计总体参数直接估计总体参数区间估计:区间估计:获得一个获得一个可信区间可信区间(confidence interval,CI)(confidence interval,CI)由样由样本数据估计得到的、本数据估计得到的、100100(1(1 )可能可能包含未知总体参数的一个范围值。包含未知总体参数的一个范围值。第二节第二节 总体均数的估计总体均数的估计第24页/共86页24 24 三月三月 2023 2023251、点(值)估计:用相应样本统计量直接作为总体参数的估计值。即用估计其方法虽简单,但未考虑抽样误差的大小一、可信区间的概念一、可信区间的概念第25页/共86页24 24 三月三月 2023 2023262、区间估计概念:按照预先给定的概率(可信度)估计的未知总体参数的范围。可信区间(confidence interval,CI)是根据一定的可信度估计得到的区间。一、可信区间的概念一、可信区间的概念第26页/共86页24 24 三月三月 2023 202327总体均数的可信区间(1)已知,已知,按按 u 分布,分布,95%和和99%可信区间:可信区间:(2)未知,且未知,且n 较小,较小,按按t分布分布(3)未知但未知但n足够大,足够大,按按 u 分布分布二、总体均数可信区的计算二、总体均数可信区的计算第27页/共86页24 24 三月三月 2023 202328二、总体均数可信区的计算二、总体均数可信区的计算例15-2 随机抽取某地10名男孩出生体重,测得其平均体重为3.21kg,标准差S为0.47kg,试估计该地男孩出生体重的总体均数的95%置信区间。第28页/共86页24 24 三月三月 2023 202329第29页/共86页24 24 三月三月 2023 20233095%的可信区间表示:如果从同一总体中重复抽取100个独立样本,将可能有95个可信区间包括总体均数,有5个可信区间不包括总体均数。对于一次估计的可信区间,可能有95%的正确率,但仍有5%的可信区间估计错误。三、可信区间的涵义三、可信区间的涵义第30页/共86页模拟抽样成年男子红细胞数100100次的95%95%可信区间示意图 *第31页/共86页24 24 三月三月 2023 202332四、总体均数可信区间与参考值范围的区别四、总体均数可信区间与参考值范围的区别第32页/共86页第三节第三节 假设检验的基本原理与步骤假设检验的基本原理与步骤一、假设检验(Hypothesis Testing)的基本原理例例15.4:15.4:根根据据大大量量调调查查,已已知知一一般般健健康康成成年年男男子子的的脉脉博博均均数数为为7272次次/min,/min,某某医医生生在在某某山山区区随随机机调调查查100100名名健健康康男男子子,得得其其脉脉搏搏均均数数为为76.276.2次次/min/min,标标准准差差为为4.04.0次次/min/min。能能否否认认为为该该山山区区的的健健康康成成年年男男子子脉脉搏搏均数高于一般成年男子脉搏均数?均数高于一般成年男子脉搏均数?第33页/共86页24 24 三月三月 2023 202334n=100n=100已知总体已知总体一般成年男性脉搏一般成年男性脉搏未知总体未知总体山区成年男子脉搏山区成年男子脉搏第34页/共86页24 24 三月三月 2023 202335差异的原因:差异的原因:(1)由于抽样误差造成的由于抽样误差造成的.(实际上实际上 =0 0 ,但由于,但由于抽样误差抽样误差 不能很好代表不能很好代表 0 0 )(2)可能由于地区等环境因素的影响,样本所代表的可能由于地区等环境因素的影响,样本所代表的总体与已知总体确实不同:总体与已知总体确实不同:0 0第35页/共86页下面我们用一例说明这个原则:两个盒子,各装有100个球.小概率事件在一次试验中不会发生.一个盒子中的白球和红球数99个白球一个红球99个另一盒中的白球和红球数99个红球一个白球99个第36页/共86页将盒子密封,现从两盒中随机取出一个盒子,问这个盒子里是白球99个还是红球99个?第37页/共86页我们不妨先假设:这个盒子里有99个白球.现在我们从中随机摸出一个球,发现是此时你如何判断这个假设是否成立呢?第38页/共86页假设其中真有99个白球,摸出红球的概率只有1/100,这是小概率事件.小概率事件在一次试验中竟然发生了,不能不使人怀疑所作的假设.小概率反证法.小概率事件在一次试验中不会发生.第39页/共86页24 24 三月三月 2023 202340假设检验的基本步骤假设检验的基本步骤1.1.建立假设,确定检验水准建立假设,确定检验水准2.2.选定检验统计方法,计算检验统计量选定检验统计方法,计算检验统计量3.3.确定确定P P值,作出推断结论值,作出推断结论第40页/共86页无效假设(null hypothesis),记为H0,又称原假设,表示目前的差异是由于抽样误差引起的。备择假设(alternative hypothesis),记为H1,又称对立假设,表示目前的差异是主要由于本质上的差别引起。两个假设既有联系又互相独立,应该包括两种(也是所有)可能的判断。要做出抉择。1、建立检验假设,确定检验水准1、建立检验假设,确定检验水准第41页/共86页24 24 三月三月 2023 202342(1)根据专业知识 事先不知道会出现什么结果 双侧 事先知道只能出现某种结果 单侧 如:难产儿的出生体重与一般婴儿出生体重大-单侧 一般预实验有探索性质,对结果的考虑思路应宽些,多双侧(2)问题的提法 如:可否据此认为该山区成年男子的脉搏数高于一般成年男子的脉搏均数?*通常用双侧(除非有充足的理由选用单侧之外,一般选用保守的双侧较稳妥)单、双侧检验的选择:单、双侧检验的选择:第42页/共86页24 24 三月三月 2023 202343检验水准(sizeofatest)亦称显著性水准(significancelevel),用表示,在实际工作中常取0.05。意义:假设检验时,根据研究的目的或要求预先规定的概率值,是判定小概率事件发生的标准(H0)或阈值;亦是允许结果出现第一类错误的概率。取值并非一成不变,可根据研究目的给予不同设置。1.1.建立假设,确定检验水准建立假设,确定检验水准第43页/共86页24 24 三月三月 2023 202344注意:H0,H1和的确定,以及单双侧检验的选择,都应结合研究设计,在未获得样本结果之前决定,而不要受样本结果的影响。假设检验是针对总体而不是针对样本。1.1.建立假设,确定检验水准建立假设,确定检验水准第44页/共86页24 24 三月三月 2023 202345要根据研究设计的类型和统计推断的目的选用不同的检验方法,如:两样本均数的要根据研究设计的类型和统计推断的目的选用不同的检验方法,如:两样本均数的比较用比较用t检验,检验,两样本率的比较用卡方检验两样本率的比较用卡方检验所有检验统计量都是在所有检验统计量都是在H0成立的前提条件下计算的。成立的前提条件下计算的。2 2、选定检验方法,计算检验统计量、选定检验方法,计算检验统计量第45页/共86页24 24 三月三月 2023 202346P值是指在值是指在H0所规定的总体作随机抽样,获得等于及大于(或等于及小于)现有所规定的总体作随机抽样,获得等于及大于(或等于及小于)现有样本获得的检验统计量值的概率。样本获得的检验统计量值的概率。例如 求得t=10.5,v=99,=0.05,P是在=0的前 提条件下随机抽样,得到 t-10.5和t10.5的概率-10.5 10.5 P P3 3、确定、确定P P值,作出推断结论值,作出推断结论第46页/共86页24 24 三月三月 2023 2023470-t0.05/2,t0.05/2,95%2.5%2.5%拒绝域拒绝域拒绝域拒绝域假假 设设 检检 验验第47页/共86页24 24 三月三月 2023 202348如何下结论?P0.05,按=0.05检验水准,不拒绝H0,差异无统计学意义(差异无显著性),尚不能认为不同或不等。P0.05,按=0.05检验水准,拒绝H0,接受H1,差异有统计学意义(差异有显著性),可以认为不同或不等。推断结论=统计结论+专业结论。统计结论只说明有无统计学意义(statistical significance),而不能说明专业上的差异大小。它必须同专业结论有机结合,才能得出恰如其分、符合客观实际的最终结论。3 3、确定、确定P P值,作出推断结论值,作出推断结论第48页/共86页24 24 三月三月 2023 202349注意:不拒绝H0不等于接受H0,因为此时证据不足。可暂时“接受”它,或“阴性待诊”。推断结论时,对H0只能说:拒绝或不拒绝;对H1只能说:接受H1。正确理解结论的概率性(都隐含着犯错误的可能性)。3 3、确定、确定P P值,作出推断结论值,作出推断结论第49页/共86页24 24 三月三月 2023 202350第四节第四节 t t 检验与检验与u u检验检验样本均数与总体均数比较(单样本u检验、t 检验)配对设计的差值均数与总体均数0的比较 (配对样本t 检验)完全随机设计的两个样本均数的比较(两样本u检验、t 检验)第50页/共86页24 24 三月三月 2023 202351第四节第四节 t t 检验与检验与u u检验检验t 检验应用条件:总体标准差总体标准差未知且未知且n较小时(较小时(n100)第51页/共86页24 24 三月三月 2023 202352v 即样本均数代表的未知总体均数即样本均数代表的未知总体均数和已知总体均和已知总体均数数0的比较的比较 已知的总体均数:一般为理论值、标准值或经过大已知的总体均数:一般为理论值、标准值或经过大量观察所得的稳定值量观察所得的稳定值一、一、样本均数与总体均数的比较第52页/共86页24 24 三月三月 2023 202353计算检验统计量计算检验统计量u u值或值或t t值值一、样本均数与总体均数的比较第53页/共86页24 24 三月三月 2023 202354例例15-5:15-5:某某市市某某年年抽抽查查了了150150名名2 2岁岁男男孩孩的的体体重重,得得平平均均体体重重为为11.18kg11.18kg,标标准准差差为为1.23kg.1.23kg.而而同同期期全全国国九九城城市市大大量量调调查查得得同同龄龄男男孩孩的的平平均均体体重重为为11kg.11kg.问问该该市市2 2岁男孩的平均体重与全国的同期水平有无差别?岁男孩的平均体重与全国的同期水平有无差别?一、样本均数与总体均数的比较解题思路:解题思路:0 0 11kg11kg一个已知总体,一个大样本一个已知总体,一个大样本 单样本单样本u u检验检验根据题目问题和专业知识根据题目问题和专业知识双侧检验双侧检验第54页/共86页24 24 三月三月 2023 202355(1)(1)建立假设、确定检验水准建立假设、确定检验水准H H0 0:=0 0H H1 1:0 0=0.05一、样本均数与总体均数的比较一、样本均数与总体均数的比较第55页/共86页24 24 三月三月 2023 202356(2 2)选定检验方法,计算检验统计量)选定检验方法,计算检验统计量 已知已知一、样本均数与总体均数的比较一、样本均数与总体均数的比较第56页/共86页(3)确定P值和做出推断结论 本例u=1.792,查u界值表,u0.05/2=1.96.u=1.7920.05 故在=0.05的水准,不拒绝H0,差别没有统计学意义。专业的结论:尚不能认为该市2岁男孩的平均体重与全国的同期水平不同。第57页/共86页例15.6 15例长期服用某种避孕药的妇女,其血清胆固醇含量的均数为6.5mmol/L,标准差为0.7mmol/L,一般健康妇女血清胆固醇含量的均数为4.4mmol/L,问长期服用该种避孕药的妇女其血清胆固醇含量的均数与一般健康妇女有无差别?第58页/共86页24 24 三月三月 2023 202359(1)(1)建立假设、确定检验水准建立假设、确定检验水准H H0 0:=0 0H H1 1:0 0=0.05一、样本均数与总体均数的比较一、样本均数与总体均数的比较第59页/共86页24 24 三月三月 2023 202360(2 2)选定检验方法,计算检验统计量)选定检验方法,计算检验统计量 已知已知一、样本均数与总体均数的比较一、样本均数与总体均数的比较第60页/共86页24 24 三月三月 2023 202361(3)(3)确定确定P P值,作出推断结论值,作出推断结论查查t t界值表界值表 t0.05/2,14=2.145 Pt0.052.145P11.667 P0.05,P0.05,按按=0.05检验水准,拒绝检验水准,拒绝H H0 0 ,接受,接受H H1 1;可认为可认为长期长期服用该种避孕药的妇女其血清胆固醇含量的均数与一般健康服用该种避孕药的妇女其血清胆固醇含量的均数与一般健康妇女的差别有统计学意义,妇女的差别有统计学意义,服用该种避孕药的妇女其血清胆服用该种避孕药的妇女其血清胆固醇含量的均数高于一般健康妇女固醇含量的均数高于一般健康妇女.一、样本均数与总体均数的比较一、样本均数与总体均数的比较第61页/共86页24 24 三月三月 2023 202362 假阴性假阴性假阳性假阳性 第六节第六节 I I类错误和类错误和IIII类错误类错误第62页/共86页24 24 三月三月 2023 202363 类错误与错误与类错误的关系错误的关系(以单侧检验为例)(以单侧检验为例)不拒绝不拒绝H H0 0,假设检验的结果,假设检验的结果 拒绝拒绝H H0 0第63页/共86页24 24 三月三月 2023 202364I类错误和II类错误 类错误-拒绝了成立的无效假设H0所犯的错误称为类错误(“弃真”)。其概率大小用表示。常称之为检验水准 类错误-接受了不成立的无效假设H0所犯的错误称为类错误(“存伪”),其概率大小用表示。第64页/共86页24 24 三月三月 2023 202365 是预先规定允许犯I型错误概率的最大值,由研究者确定,可取单尾亦可取双尾。II类错误的概率大小用 表示,值需要估算。1 称检验效能(power of a test),过去称把握度。意义是当两总体确有差别,按检验水准所能检出其差异的能力。通常要求达到0.8以上。样本含量固定前提下,愈小,愈大;愈大,愈小。若要同时减小和,唯一方法是增加样本含量n。I I类错误和类错误和II类错误类错误第65页/共86页24 24 三月三月 2023 202366若重点减少(如一般假设检验),一般取=0.05;若重点减少(如方差齐性检验,正态性检验等),一般取=0.10或0.20甚至更高。拒绝H0,只可能犯I类错误,不可能犯II类错误;“接受”H0,只可能犯II类错误,不可能犯I类错误。I I类错误和类错误和IIII类错误类错误第66页/共86页24 24 三月三月 2023 202367二、配对设计的差值均数与总体均数二、配对设计的差值均数与总体均数0 0的比较的比较常见的配对设计主要有以下情形:常见的配对设计主要有以下情形:异体配对:异体配对:将条件近似的观察对象两两配成对子,对子中将条件近似的观察对象两两配成对子,对子中的两个个体分别给予不同的处理。的两个个体分别给予不同的处理。(目的是比较不同方法之间的差异目的是比较不同方法之间的差异)自身配对自身配对:同一受试对象处理前后或不同部位测定值的比同一受试对象处理前后或不同部位测定值的比较。较。(目的是判断此处理有无作用目的是判断此处理有无作用)自身配对:自身配对:同一受试对象同一受试对象(或样品或样品)分别接受两种不同方法分别接受两种不同方法的处理。的处理。(目的是比较不同方法之间的差异目的是比较不同方法之间的差异)第67页/共86页对子号对子号A A药药B B药药d dd d2 21 110106 64 416162 213139 94 416163 36 63 33 39 94 4111110101 11 15 5101010100 00 06 67 74 43 39 97 78 82 26 636368 88 85 53 39 9d=d=2424dd2 2=9696例15.7 按性别相同、年龄相近、病情相近把16例某病患者配成8对,每对分别给予A药和B药治疗,现测得治疗后的血沉(mm/h)结果如下,问:不同药物治疗后病人血沉水平是否有差异?表15-3 不同药物治疗后某病患者的血沉值(mm/h)二、配对设计的差值均数与总体均数二、配对设计的差值均数与总体均数0 0的比较的比较第68页/共86页24 24 三月三月 2023 202369自身配对举例:自身配对举例:表表1 1 克矽平治疗前后血清粘蛋白克矽平治疗前后血清粘蛋白(mg/Lmg/L)第69页/共86页24 24 三月三月 2023 202370表表2 A2 A、B B两法乳腺癌检出率比较两法乳腺癌检出率比较自身配对举例第70页/共86页24 24 三月三月 2023 202371配对配对t t检验的基本原理:检验的基本原理:假设两种处理的效应相同,即假设两种处理的效应相同,即1 1=2 2 ,则,则1 1-2 2=0=0,即可看成是差值的样本均数所代表的未知即可看成是差值的样本均数所代表的未知总体均数总体均数d d 与已知总体均数与已知总体均数0 0=0=0的比较,此时,我的比较,此时,我们可套用前述们可套用前述t t检验的公式。检验的公式。二、配对设计的差值均数与总体均数二、配对设计的差值均数与总体均数0 0的比较的比较第71页/共86页24 24 三月三月 2023 202372 H0:d d=0 0 H1:d d 0 0 =0.05=0.05(1)(1)建立假设、确定检验水准建立假设、确定检验水准(2 2)选定检验方法,计算检验统计量)选定检验方法,计算检验统计量二、配对样本二、配对样本t t检验检验第72页/共86页24 24 三月三月 2023 202373确定确定P P值,做出推断结论值,做出推断结论 自由度自由度n-1n-18-18-17 7,查表,查表2 2,t t界值表,界值表,t t0.05/2,70.05/2,72.3652.365,t0.01/2,73.499。今今t=4.582t=4.582t0.01/2,7,故故P P0.010.01,故按,故按0.050.05水准,拒绝水准,拒绝H H0 0,接受,接受H H1 1,差异有,差异有统计学意义;统计学意义;可以认为不同药物治疗后病人血沉水平可以认为不同药物治疗后病人血沉水平不同。不同。二、配对样本二、配对样本t t检验检验第73页/共86页24 24 三月三月 2023 202374三、完全随机设计的两个样本均数的比较三、完全随机设计的两个样本均数的比较v或将受试对象随机分到两个处理组;比较两种或将受试对象随机分到两个处理组;比较两种处理是否有差别;处理是否有差别;v从从2 2个总体中随机抽取两个样本;比较某一指标个总体中随机抽取两个样本;比较某一指标在不同特征人群中是否相等;在不同特征人群中是否相等;v目的是推断目的是推断2 2个总体均数是否相等;个总体均数是否相等;v比较的两个样本含量相等时抽样误差最小比较的两个样本含量相等时抽样误差最小适用条件适用条件:1 1、正态性、正态性 2 2、方差齐性、方差齐性第74页/共86页(一)(一)U U检验检验当两样本含量均较大,如均大于100第75页/共86页例15-8 某医师为研究血清胆固醇水平与职业的关系,得调查资料如表15-4,问两种职业的血清胆固醇水平是否不同?表15-4 两种职业的血清胆固醇水平职业类型职业类型人数人数均值均值标准差标准差教师教师5375374.84.80.720.72工人工人6436434.64.60.810.81第76页/共86页24 24 三月三月 2023 202377 建立假设,确定检验水准建立假设,确定检验水准 H H0 0:1 12 2,H H1 1:1 12 2,0.050.05第77页/共86页(一)(一)U U检验检验 选择检验方法,计算检验统计量第78页/共86页24 24 三月三月 2023 202379 确定确定P P值,判断结果值,判断结果 查查U U界值表,界值表,u u0.01/20.01/22.582.58,今,今2.582.58 4.4484.448 ,故故P0.01P0.01,故按,故按0.050.05水准,拒绝水准,拒绝H H0 0,接受,接受H H1 1,可认可认为为教师的血清胆固醇水平高于工人。教师的血清胆固醇水平高于工人。第79页/共86页24 24 三月三月 2023 202380三、两样本三、两样本t t检验检验第80页/共86页例15.9 某医师分别抽取原发性高血压病人25例和脑卒中病人27例,测定其尿酸的含量,结果见表15-5.问原发性高血压病人和脑卒中病人的尿酸含量有无差别?表15-5 原发性高血压病人与脑卒中病人的尿酸含量(mmol/L)组别组别人数人数 均值均值标准差标准差原发性高血压原发性高血压2525221.7221.786.186.1脑卒中脑卒中2727 246.5 246.596.996.9第81页/共86页24 24 三月三月 2023 202382 建立假设,确定检验水准建立假设,确定检验水准 H H0 0:1 12 2,H H1 1:1 12 2,0.050.05 选择检验方法,计算检验统计量选择检验方法,计算检验统计量t t值值三、两样本三、两样本t t检验检验第82页/共86页24 24 三月三月 2023 202383三、两样本三、两样本t t检验检验第83页/共86页24 24 三月三月 2023 202384确定确定P P值,做出推断结论值,做出推断结论 v=(n=(n1 1-1)+(n-1)+(n2 2-1)=50,-1)=50,查查t t界值表,界值表,t t0.05/2,500.05/2,502.0092.009,今,今t=0.973 t0.05/2,50,故,故P P0.050.05,故按,故按0.050.05水准,不拒绝水准,不拒绝H H0 0,尚不能认为,尚不能认为原发性高血压原发性高血压病人和脑卒中病人的尿酸含量不同。病人和脑卒中病人的尿酸含量不同。三、两样本三、两样本t t检验检验第84页/共86页SPSSSPSS软件软件第85页/共86页