统计学总体均数的估计与假设检验.pptx
《统计学总体均数的估计与假设检验.pptx》由会员分享,可在线阅读,更多相关《统计学总体均数的估计与假设检验.pptx(100页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、会计学 1统计学总体均数的估计与假设检验2统计推断的目的:n n用样本的信息去推论总体。用样本的信息去推论总体。医学研究中大多数是无限总体,医学研究中大多数是无限总体,即使是有限总体,但也经常受各种 即使是有限总体,但也经常受各种条件的限制,不可能直接获得总体 条件的限制,不可能直接获得总体的信息。的信息。第1页/共100页3 抽样误差(sampling error):因各样本包含的个体不同,所得的各个样本统计量(如均数)往往不相等,这种由于个体差异和抽样造成的样本统计量与总体参数的差异,称为抽样误差。产生抽样误差的原因:个体差异 在抽样研究中,抽样误差是无法避免的;抽样误差的分布有一定的规律
2、性。第一节 均数的抽样误差与标准误第2页/共100页4例:例:n n 某地14岁健康女生身高的总体均数为155.4cm,标准差为5.30。若从该地14岁健康女生中随机抽取样本含量n均为10人的样本共100次,计算出每次样本的均数为153.8cm,155.5cm,总体 第3页/共100页5身高组段(cm)频数151 1152 6153 10154 18155 29156 20157 8158 6159 2样本均数的抽样分 样本均数的抽样分布特点:布特点:各样本均数未必等 各样本均数未必等于总体均数 于总体均数 各样本均数之间存 各样本均数之间存在差异 在差异 样本均数的分布有 样本均数的分布有一
3、定规律性 一定规律性可计算 可计算100 100个样本均数,个样本均数,得频数分布如下:得频数分布如下:第4页/共100页6计算出这 计算出这100 100个样本均数的 个样本均数的均数为 均数为155.52cm 155.52cm,样,样本均数的标准 本均数的标准差为 差为1.64cm 1.64cm身高组段(cm)频数151 1152 6153 10154 18155 29156 20157 8158 6159 2第5页/共100页7标准误(标准误(standard errorstandard error)样本均数的标准差,也称样本均数的标准差,也称均数的均数的标准误,标准误,是反映均数抽样误
4、差大是反映均数抽样误差大小的指标。小的指标。均数标准误越小,说均数标准误越小,说明样本均数与总体均数的差异程明样本均数与总体均数的差异程度越小,用该样本均数估计总体度越小,用该样本均数估计总体均数越可靠。均数越可靠。第6页/共100页8标准误的计算当标准差一定时,标准误与样本含量 当标准差一定时,标准误与样本含量n n的平方根呈反比,因此,可以通过适当 的平方根呈反比,因此,可以通过适当增加样本含量来减少标准误,从而降低 增加样本含量来减少标准误,从而降低抽样误差。抽样误差。第7页/共100页9标准误的计算标准误的计算n n 例 某地随机抽查14岁健康女生10人,得身高均数154.8cm,标准
5、差5.40cm,计算标准误。总体标准差已知总体标准差未知:第8页/共100页10标准误的用途:标准误的用途:衡量样本均数的可靠性 估计总体均数的置信区间 用于均数的假设检验第9页/共100页11数理统计推理和中心极限定理数理统计推理和中心极限定理?从正态总体中,随机抽取例数为n的样本,样本均数服从正态分布;?从偏态总体随机抽样,当n足够大时,样本均数服也近似服从正态分布分布;?从均数为,标准差为的正态或偏态总体,抽取例数为n的样本,样本均数的总体均数=,标准差。第10页/共100页12第二节 t 分布n nt t 分分 布的概念布的概念n ntt分布的图形、性质、分布的图形、性质、n nt t
6、 界界 值值 表表n n查查 表表第11页/共100页13一、t分布的概念第12页/共100页14t t 分分 布布 的的 概概 念念 续续n n 当总体标准差未知时,可作正态变量 当总体标准差未知时,可作正态变量的 的t t转换 转换:n n t t分布与标准正态分布的联系 分布与标准正态分布的联系:t t分布只有 分布只有1 1个 个参数:参数:自由度(自由度(=n-1=n-1)。)。逐渐增大时,逐渐增大时,t t分布逐渐逼近标准正态分布。当 分布逐渐逼近标准正态分布。当=时,时,t t分 分布就完全成为标准正态分布了。布就完全成为标准正态分布了。第13页/共100页15二二 tt分布的图
7、形和特征分布的图形和特征n n t t分布是一簇曲线,自由度 分布是一簇曲线,自由度 决定曲线的形状。决定曲线的形状。当 当,t t分布 分布 正态分布 正态分布n n 以 以0 0为中心,左右对称的单峰曲线 为中心,左右对称的单峰曲线第14页/共100页16tt值表的使用(值表的使用(P804P804)横标目:横标目:自由度 自由度(1 1,2 2,3 3,)纵标目:纵标目:概率 概率P P(双侧:(双侧:0.05 0.05,0.01 0.01,0.001 0.001)(单侧:(单侧:0.025 0.025,0.005 0.005,0.0005 0.0005)t t界值:界值:一侧尾部面积为
8、单侧概率,两侧尾部面积之和 一侧尾部面积为单侧概率,两侧尾部面积之和称为双侧概率。称为双侧概率。第15页/共100页17tt值表的使用值表的使用续续 t分布曲线两端尾部面积表示在随机抽样中,获得的t值大于等于某t界值的概率,即P值。例如:当 例如:当=9=9时,双侧概率 时,双侧概率=0.05=0.05时,查 时,查t t界值 界值表得 表得 t(0.05,9)=2.262。含义为:第16页/共100页18tt值表中:值表中:相同时,t值越大,P值越小;P值相同时,自由度 值越大,t值越小;t值相同时,双侧概率P为单侧概率P的两倍。tt分布的应用:分布的应用:总体均数的区间估计总体均数的区间估
9、计 tt检验检验第17页/共100页19第三节 总体均数的置信区间估计confidence intervaln n 可信区间的概念n n 总体均数可信区间的计算n n 均数可信区间与参考值范围的区别第18页/共100页20一、可信区间的概念n n统计推断:参数估计与假设检验。n n参数估计:parametric estimation,用样本统计量估计总体参数的方法。n n 点(值)估计 点(值)估计:point estimation point estimation,直接用样,直接用样本统计量作为总体参数的估计值。方法 本统计量作为总体参数的估计值。方法简单但未考虑抽样误差大小。简单但未考虑抽
10、样误差大小。n n 区间估计 区间估计:interval estimation interval estimation,按预先给定,按预先给定的概率 的概率95%95%,或,或(1-(1-),确定的包含未知 确定的包含未知总体参数的 总体参数的可能 可能范围 范围。考虑了抽样误差。考虑了抽样误差。第19页/共100页21可信区间的含义confidence interval,CIn n 有1-(如95%)的可能认为计算出的可信区间包含了总体参数。例 例4.3 4.3 某市随机抽查 某市随机抽查12 12岁男孩 岁男孩100 100人,得身高均数 人,得身高均数139.6cm 139.6cm,标准
11、差,标准差6.85cm 6.85cm。该地。该地12 12岁男孩身高 岁男孩身高均数的 均数的95%95%可信区间为:可信区间为:138.3(cm)141.0(cm)138.3(cm)141.0(cm)。可信区间不含 可信区间不含可信限。可信限。n n Confidence limit Confidence limit,CL CL。n n 下限,下限,lower limit lower limit,L/L L/L1 1。n n 上限,上限,upper limit upper limit,U/L U/L2 2。第20页/共100页22总体均数的可信区间原理总体均数的可信区间原理n n 按t分布的
12、原理得出第21页/共100页23二、总体均数可信区间的计算n n11、已知时已知时:总体均数的:总体均数的95%95%置信置信区间为:区间为:第22页/共100页2422、未知、且样本例数较少时,未知、且样本例数较少时,按按tt分布原理分布原理n n总体均数的总体均数的95%95%置信区间为:置信区间为:第23页/共100页25例 例9.10 9.10 随机抽取某地健康男子 随机抽取某地健康男子20 20人,测 人,测得样本的收缩压均值为 得样本的收缩压均值为118.4 mmHg 118.4 mmHg,标准,标准差为 差为10.8 10.8mmHg mmHg,试估计该地男子,试估计该地男子收缩
13、压 收缩压总体均数的 总体均数的95%95%的置信区间。的置信区间。=20-1=19 t=20-1=19 t 0.05,139 0.05,139=2.093=2.093第24页/共100页2633、未知、但样本例数足够大时未知、但样本例数足够大时(n60或100时),按正态分布,按正态分布原理。原理。n n总体均数的总体均数的95%95%置信区间为:置信区间为:第25页/共100页27大样本时总体均数的可信区间估计大样本时总体均数的可信区间估计n n 例:测得某地200名正常人血清胆固醇的均数为3.64mmol/L,标准差为1.20mmol/L。试求该地正常人血清胆固醇均数95%的可信区间。该
14、地正常人血清胆固醇均数95%的可信区间为3.473.81(mmol/L)第26页/共100页2844、两总体均数差的可信区间、两总体均数差的可信区间n n 从标准差相等、均数不等的两个正态总体中随机抽样,样本含量分别为n1,n2,样本均数和标准差分别为、S1和、S2,则两总体均数之差(1-2)的1-可信区间为第27页/共100页29两总体均数差的可信区间两总体均数差的可信区间n n 某医院心内科在冠心病普查工作中,测得 某医院心内科在冠心病普查工作中,测得4050 4050岁年 岁年龄组男性 龄组男性193 193人的 人的 脂蛋白均数为 脂蛋白均数为379.59 379.59(mg%mg%)
15、,标),标准差为 准差为104.30 104.30(mg%mg%););女性 女性128 128人的 人的 脂蛋白均数为 脂蛋白均数为357.89 357.89(mg%mg%),标准差为),标准差为89.67 89.67(mg%mg%)。问男性)。问男性与女性的 与女性的 脂蛋白总体均数有多大差别?脂蛋白总体均数有多大差别?结论:4050岁年龄组男性与女性的脂蛋白总体均数不同,男性平均比女性高出18.3061.10(mg%)第28页/共100页30三、可信区间的解释confidence interval,CIn n 该地健康男子收缩压总体均数的95%置信区间为(113.3,123.5)mmHg
16、。n n 从理论上说,做100次抽样,可计算得100个置信区间,平均有95个置信区间包括总体均数,只有5个置信区间不包括总体均数。这种估计方法会冒5%犯错误的风险。第29页/共100页31可信区间的确切含义是指可信区间的确切含义是指n n有有1-1-(如(如95%95%)的可能认为计算的可能认为计算出的可信区间包含了总体参数。出的可信区间包含了总体参数。n n在可信度确定的前提下,增加样本在可信度确定的前提下,增加样本例数,可减少区间宽度例数,可减少区间宽度第30页/共100页32四、可信区间与参考值范围的区别n n 随机抽取某地200名正常成人,测得血清胆固醇均数为3.64 mmol/L,标
17、准差为1.20 mmol/L。求得该地正常人血清胆固醇n n均数的均数的95%95%可信区间为可信区间为3.47 3.47 3.813.81(mmol/Lmmol/L)n n95%95%参考值范围为参考值范围为1.29 1.29 5.995.99(mmol/Lmmol/L)第31页/共100页33均数的可信区间与均数的可信区间与参考值范围的区别参考值范围的区别n n 含义:n n 用途:n n 计算公式:第32页/共100页34标准误(标准误(standard error standard error)和标准差()和标准差(standard standard deviation deviati
18、on)的区别与联系)的区别与联系 第33页/共100页35SPSSSPSS命令命令求总体均数的置信区间求总体均数的置信区间Analyze-Descriptive Statistics-Explore第34页/共100页36第四节 t检验和u检验例 例 某医生测量了 某医生测量了36 36名铅作业男性工人的血红蛋白 名铅作业男性工人的血红蛋白含量,算得其均数为 含量,算得其均数为130.83g/L 130.83g/L,标准差为,标准差为25.74g/L 25.74g/L。已知正常成年男性的血红蛋白为平。已知正常成年男性的血红蛋白为平均为 均为140.0g/L 140.0g/L。试问能否认为从事铅
19、作业工人。试问能否认为从事铅作业工人的血红蛋白不同于正常成年男性的血红蛋白?的血红蛋白不同于正常成年男性的血红蛋白?0 0=140.0=140.0g/L g/L 已知总体 已知总体 未知总体 未知总体X=130.83g/L X=130.83g/LS=25.74g/L S=25.74g/Ln=35 n=35第35页/共100页37出现差别的两种可能:n n总体均数不同,故样本均数有差别n n总体均数相同,差别仅仅是由于抽样误差造成的 怎样判断属于哪一种可能?先计算一个统计量,如t值,然后根据相应的概率做判断。第36页/共100页38一、假设检验的基本原理样本均数与已知总体均数不等,原因?样本均数
20、与已知总体均数不等,原因?(1 1)0 0,两总体均数不等,两总体均数不等(2 2)0 0,抽样误差所致,抽样误差所致这种不等,有多大的可能性由抽样误差造成?如果抽样误差 这种不等,有多大的可能性由抽样误差造成?如果抽样误差造成的可能性很小,则认为 造成的可能性很小,则认为 0 0 先假设 先假设 0 0,看由于抽样误差造成的可能性(,看由于抽样误差造成的可能性(P P值 值)有多大?怎样计算)有多大?怎样计算P P值 值的大小呢?的大小呢?已知总体 已知总体 未知总体 未知总体 0 0=140.0=140.0g/L g/L X=130.83g/L X=130.83g/LS=25.74g/L
21、S=25.74g/Ln=35 n=35第37页/共100页39怎样计算怎样计算PP值值的大小呢?的大小呢?n n 若假设 若假设 0 0,则可用公式,则可用公式计算 计算t t值,由 值,由t t值求得 值求得P P值。如果样本均数与 值。如果样本均数与 0 0相 相差较远,差较远,t t值就大,值就大,P P值就小。当 值就小。当P P小于或等于 小于或等于预先规定的概率值 预先规定的概率值(如(如0.05 0.05),则为小概率),则为小概率事件,即在一次抽样中发生的可能性很小,事件,即在一次抽样中发生的可能性很小,如果它发生了,则有理由怀疑原假设 如果它发生了,则有理由怀疑原假设 0 0
22、可能不成立,认为其对立面 可能不成立,认为其对立面 0 0成立,该 成立,该结论的正确性冒着犯 结论的正确性冒着犯5%5%错误的风险。错误的风险。t t0.05,24 0.05,24=2.032=2.032t t0.01,34 0.01,34=2.728=2.728 第38页/共100页40二、假设检验的基本步骤n n建立检验假设,确定检验水准建立检验假设,确定检验水准n n选定检验方法,计算统计量选定检验方法,计算统计量n n确定确定PP值,作出推断结论值,作出推断结论第39页/共100页4111、建立检验假设,确定检验水准、建立检验假设,确定检验水准n n 检验假设 检验假设,hypoth
23、esis under test hypothesis under test,亦称无效假设、,亦称无效假设、用 用H H0 0表示 表示n n H H0 0:假设未知总体参数等于已知总体参数,假设未知总体参数等于已知总体参数,=0 0。或假设两个总体参数相等,或假设两个总体参数相等,1 1=2 2,n n 备择假设 备择假设,alternative hypothesis alternative hypothesis:若:若H H0 0被否决则 被否决则该假设成立。用 该假设成立。用H H1 1表示。表示。n n H H1 1 的内容反映出检验的单双侧,分三种情况:的内容反映出检验的单双侧,分三种
24、情况:0 0(单侧)(单侧),0 0(单侧)(单侧),0 0(双侧)(双侧)n n 假设是对总体而言,不是针对样本。假设是对总体而言,不是针对样本。n n H H0 0与 与H H1 1是相互联系、对立的假设。是相互联系、对立的假设。第40页/共100页42单、双侧的确定单、双侧的确定n n研究者所关心的只是差异是否有本质上的区别,则采用双侧检验(two-side test)。n n一般认为双侧检验较保守和稳妥,一般认为双侧检验较保守和稳妥,尤其是多样本。尤其是多样本。n n研究者想知道是否有一方较高,则采用单侧检验(one-side test)。n n从专业知识判断知:一结果不可从专业知识判
25、断知:一结果不可能低于另一结果,拟用单侧检验。能低于另一结果,拟用单侧检验。n n一般认为双侧检验稳妥,故常用。第41页/共100页43确定检验水准确定检验水准,size of a test,size of a test,n n过去称显著性水平(过去称显著性水平(significance significance levellevel)n n确定确定HH00成立但被拒绝的概率的界值,成立但被拒绝的概率的界值,是是II型错误的概率大小。型错误的概率大小。n n它确定了小概率事件的大小,常取它确定了小概率事件的大小,常取=0.05=0.05第42页/共100页4422、选定检验方法,计算检验统计量
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 总体 估计 假设检验
限制150内