《总体均数的估计与假设检验的基本原理.ppt》由会员分享,可在线阅读,更多相关《总体均数的估计与假设检验的基本原理.ppt(56页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、总体均数的估计与总体均数的估计与假设检验的基本原理假设检验的基本原理主要内容抽样误差和标准误t变换和t分布均数的可信区间假设检验的基本原理统计分析统计描述统计推断参数估计假设检验总体(population)总总体体:根据研究目的所确定的性质相同的所有观察单位的某种变量值的集合。如:调查某地1999年正常成年男子的红细胞数,则观察对象是该地1999年正常成年男子,总体就是该地1999年正常成年男子的血红细胞数。总体分为:有限总体(finite population):有确定的时间、空间和观察单位数。无限总体(infinite population):没有确定的时间和空间限制,观察单位数为无限。样
2、本(sample)样本样本:从总体中随机抽取的部分观察单位的某个变量值所组成的集合。抽样的目的:用样本信息来推断总体特征,要保证样本的可靠性和代表性,使样本能够充分地反映总体的真实情况。这就要求严格遵循随机化的原则,并保证足够的样本含量。均数抽样误差由于抽样而造成的样本统计量和总体参数之差称为抽样误差(抽样误差(sampling error)。由于抽样而造成的样本均数和总体均数之差称为均数抽样误差均数抽样误差,抽样误差是抽样研究固有的特点,是不可避免的。抽样误差的分布有一定的规律性,并且可以通过一定的方法来估计。N(,2)(,2)nn中心极限定理(Central Limit Theorem)从
3、正态总体N(,2)中,随机抽取例数为n的样本,样本均数 也服从正态分布,即使是从偏态总体中抽样,当n足够大时,样本均数的分布仍然服从正态分布,样本均数的均数 ,标准差为 。N(,2)样本2n样本1n 样本kn n 标准误(standard error)是样本均数的标准差称为均数标标准准误误(简称标准误),它反映了样本均数与总体均数之间的接近程度,常用以说明均数抽样误差的大小。标准误的计算:均数标准误在实际工作中,总体标准差常是未知的而是用样本标准差s来代替,的估计值记作 。例:某地成年男子红细胞数的抽样调查,n=144人,=5.381012/L,s=0.441012/L,求其标准误。标准误的用
4、途 标准误是反映样本均数变异程度的指标,常用来表示抽样误差的大小。标准误大反映样本均数抽样误差大,其对总体均数的代表性差;标准误小,样本均数抽样误差就小,其对总体均数的代表性就好。标准误可用于计算总体均数的可信区间,也是进行假设检验的基础。标准差和标准误的区别标准差、标准误与样本含量的关系 标准差随着样本量的增多,逐渐趋于稳定。标准误随着样本量的增多而减小,如均数的标准误,当标准差不变时,与样本量的平方根呈反比。当样本含量趋近于总体例数时,则样本标准差趋于稳定,近似等于总体标准差;标准误则趋近于0,抽样误差几乎消失。标准差、标准误与样本含量的关系例:某年龄段正常成年女性的体重服从 N(51,5
5、2)(单位为kg),从该总体中随机抽取例数n为50的样本。从总体中随机抽取例数n为300的样本。t分布在总体均数为,标准差为的正态总体中,独立随机的抽取样本含量为n的样本,则样本均数服从正态分布 :将样本均数标准化,则:其中的分母称为均数的标准误,如果变量是正态的或近似正态的,则标准化的变量服从或近似服从N(0,1)分布,即u分布。t分布若上式中的是未知的,可用样本标准差s代替总体标准差,此时采用的不是u变换而是t变换了,即:其结果就不再服从标准正态分布了,而是服从自由度为n-1的t分布分布。t-分布曲线t分布的特征t 分布与u分布相比有以下特征:都是单峰分布,以0为中心,左右两侧对称。t分布
6、的峰部较矮而尾部翘得较高,说明远侧t 值的个数相对较多,即尾部面积较大。自由度越小这种情况越明显。t分布不是一条曲线,而是由一簇随自由度改变而变化的曲线所组成。自由度是t分布的参数。当逐渐增大时,t分布逐渐逼近u分布;当=时,t分布就完全成为u分布了。t界值已将各种自由度对应的t分布曲线下的尾尾部部面积面积(概率)的百分界值编制成t界值表。由于t分布是以0为中心的对称分布,故表中只列出正值,所以查表时,不管t 值正负只用绝对值。表右上角插图中阴影部分,表示t,以外尾部面积占总面积的百分数,即概率P。t界值随着自由度的增大,t界值逐渐减小,当自由 度 无 穷 大 时,双 侧 t0.05=1.96
7、,单 侧t0.05,=1.645,即为u分布的界值。故常用自由度无穷大时的t界值作为u界值来用。如由表查出单侧t0.05,10=1.812,表示从正态总体作样本例数为11的随机抽样,其t值服从=n-1=11-1=10的t分布,理论上 P(t-1.812)=0.05,或P(t1.812)=0.05t界值用更一般的表示法为单侧:P(t-t,)=,或P(tt,)=双侧:P(t-t/2,)+P(tt/2,)=反之 P(-t/2,tt/2,)=1-参数估计 参数估计是通过样本指标(统计量)来估计总体指标(参数)。它包括两种方法:点(值)估计(point estimation):即把样本统计量直接作为总体
8、参数的估计值,如用样本均数来估计总体均数。这种方法虽然很简单,但是未涉及随机误差,而随机误差在抽样研究中是不可忽视的。区间估计(interval estimation)即按一定的概率估计总体均数在哪个范围,它把抽样误差引入估计量,确定具有特定概率意义的区间(可信区间)。可信区间可信区间从总体中作随机抽样,每个样本可以算出一个可信区间,如95%可信区间,意味着100次抽样,算得100个可信区间,平均有95个可信区间包括总体均数(估计正确),只有5个可信区间不包括总体均数(估计错误)。5%是小概率事件,实际发生的可能性小,在实际应用中就认为总体均数在算得的可信区间内,这种估计方法会冒5%犯错误的风
9、险。可信区间和可信限可信区间和可信限可信限(Confidence Limit,CL)分别指两个点值。可信区间(Confidence Interval,CI)是以上、下可信限为界的一个范围。如可信区间(5.31,5.45)1012/L的下限是5.311012/L,上限是5.451012/L。总体均数的可信区间 设有一正态总体N(,2),现从中随机抽取一个样本,该样本的均数和标准差分别用 和s表示,样本均数的标准t离差服从t分布,则可信度为(1-)的t值满足:P(-t/2,t 100)总体均数的可信区间例:对某人群随机抽取20人,用某批号的结核菌素作皮试,平均浸润直径为10.9mm,标准差为3.8
10、6mm。问这批结核菌素在该人群中使用时,求平均浸润直径的95%可信区间?t0.05/2,19=2.093所以该人群皮试的平均浸润直径的95%可信区间为9.112.7mm。总体均数的可信区间由某地成年男子中抽得144人的样本,求得红细胞数的均数为5.381012/L,标准差为0.441012/L,试估计该地成年男子红细胞均数的95%可信区间。该地成年男子红细胞均数的95%可信区间为(5.31,5.45)1012/L。总体均数差的可信区间从两个正态总体N(1,2)和N(2,2)中随机抽样,样本含量分别为n1,n2,样本均数和标准差分别为 和S1,和S2,根据定理,t(n1+n2-2)总体均数差的可
11、信区间则两总体均数之差的1-可信区间为:总体均数差的可信区间大样本时两总体均数之差的95%可信区间为:总体均数差的可信区间某地抽查了部分健康成年人的红细胞数结果如下表,试估计该地健康成年男女红细胞数的95%可信区间,男、女红细胞数差值的95%可信区间。性别例数meanS男3604.660.57女2554.180.29总体均数差的可信区间男性红细胞数95%的可信区间为:女性红细胞数95%的可信区间为:男、女性红细胞数差值95%的可信区间为:可信区间的两个要素 准确度,反映在可信度1-的大小,即区间包含总体均数的概率的大小,当然愈接近1愈好;精度,反映在区间的长度,当然长度愈小愈好。在样本例数确定
12、的情况下,二者是矛盾的。一般情况下,在可信度确定的情况下,增加样本例数,可减少区间长度,提高精度。假设检验假设检验假设检验也叫显著性检验,是以小概率反证法的逻辑推理,判断假设是否成立的统计方法,它首先假设样本对应的总体参数(或分布)与某个已知总体参数(或分布)相同,然后根据统计量的分布规律来分析样本数据,利用样本信息判断是否支持这种假设,并对检验假设做出取舍抉择。做出的结论是概率性的,不是绝对的肯定或否定。假设检验假设检验假设检验可分为两种:参数假设检验参数假设检验:对总体分布的某个参数提出某种假设,利用来自总体的样本检验该假设是否成立,这类假设检验称为参数假设检验。如:t检验、方差分析等。非
13、参数假设检验非参数假设检验:对总体分布的性质提出某种假设,用来自总体的样本检验该假设是否成立,这类假设检验称为参数假设检验。如秩和检验、正态性检验等。假设检验的基本原理和步骤假设检验的基本原理和步骤例:大量检测已知正常人血浆载脂蛋白E(apo E)总体平均水平为4.15mmol/L。某医师经抽样测得41例陈旧性心机梗死患者的血浆载脂蛋白E平均浓度为5.22mmol/L,标准差为1.61mmol/L。据此能否认为陈旧性心肌梗死患者的血浆载脂蛋白E平均浓度与正常人的平均浓度不一致?假设检验的基本原理和步骤假设检验的基本原理和步骤 这两个均数不等有两个可能:由于抽样误差所致;由于疾病本身的影响。首先
14、根据上述两种可能性,建立两种对立的假设,再以抽样分布理论为基础,用小概率原理做判断准则,对两种假设做出抉择,从而确定陈旧性心肌梗死患者的血浆载脂蛋白E平均浓度与正常人的平均浓度不一致。假设检验的步骤假设检验的步骤 建立检验假设和确定检验水准 选定检验方法和计算检验统计量 确定P值和做出推断结论 建立检验假设和确定检验水准建立检验假设和确定检验水准 在均数的比较中,检验假设是针对总体特征而言,包括相互对立的两个方面,即两种假设:一种是无效假设或称原假设、零假设,符号为H0,它是要否定的假设;另一种是备择假设,记为H1,它是H0的对立面。二者是从反证法的思想提出的,H1和H0是相互联系、又相互对立
15、的假设。建立检验假设和确定检验水准建立检验假设和确定检验水准本例是均数的比较,是将陈旧性心肌梗死患者的血浆载脂蛋白E样本均数5.22mmol/L(它代表的总体有一总体均数)与正常人的总体均数4.15mmol/L做比较。建立检验假设和确定检验水准建立检验假设和确定检验水准研究者可能有两种目的:推断两个总体均数有无差别。不管是病人高于正常人,还是低于正常人,两种可能性都存在,研究者同等关心,应当用双侧检验。根据专业知识,已知病人不会低于正常人,或是研究者只关心病人是否高于正常人,不关心病人是否低于正常人,应当用单侧检验。双侧检验和单侧检验双侧检验和单侧检验在进行t检验时,如果其目的在于检验两个总体
16、均数是否相等,即为双双侧侧检检验验。例如检验某种新降压药与常用降压药效力是否相同?就是说,新药效力可能比旧药好,也可能比旧药差,或者力相同,都有可能。如果我们已知新药效力不可能低于旧药效力,例如磺胺药+磺胺增效剂从理论上推知其效果不可能低于单用磺胺药,这时,无效假设为H0,备择假设为H1:12,统计上称为单侧检验单侧检验。双侧检验和单侧检验双侧检验和单侧检验 对同一资料进行检验,单侧检验比双侧检验更易得出差别有统计学意义的结论,但采用单侧还是双侧检验,必须事先根据业务知识予以确定,不能等到计算t值后再主观选定。一般认为双侧检验较为稳妥,故较常用。如比较两种药物的疗效时,研究者可能有一定理由认为
17、新药不会比旧药差,但不能排除相反的可能性,这时研究者就不宜只关心新药是否优于旧药而采用单侧检验。样本均数(其总体均数为样本均数(其总体均数为)与已知的总体均数与已知的总体均数 0作比较作比较 目的 H0 H1双侧检验 是否0 =00单侧检验 是否0 =00 或是否0 =02 1=212 或是否12 1=21,即样本信息支持H0,就没有理由拒绝它,此时只好接受它。确定确定P值和做出推断结论值和做出推断结论假设检验的结论是具有概率性的。不管是否拒绝H0,都有可能发生错误。拒绝H0,不能认为H0肯定不成立,因为在H0成立的条件下,出现现有检验统计量值及更极端情况的概率虽小,但仍可能出现,只是可能性很小而已;同理,不拒绝H0,也不能认为H0肯定成立。因为检验假设时,必须对被检验的假设做出明确判断,只能从“拒绝”或“不拒绝”中选择一个较为合理的决定。小结小结抽样误差和标准误t变换和t分布均数的可信区间假设检验的基本原理建立检验假设和确定检验水准 选定检验方法和计算检验统计量 确定P值和做出推断结论
限制150内