数值变量资料的统计推断.ppt
《数值变量资料的统计推断.ppt》由会员分享,可在线阅读,更多相关《数值变量资料的统计推断.ppt(94页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数值变量资料的统计推断数值变量资料的统计推断 第三章第三章教学要求教学要求o掌握标准误计算公式及意义o熟悉t分布的特征o掌握总体均数的估计方法o掌握均数的假设检验方法统计推断的过程统计推断的过程总总体体样样本本抽抽样样总体均值、比总体均值、比例、方差例、方差统统计计推推断断样本均数、样本均数、率、标准差率、标准差统计量统计量参数参数假如我们想了解假如我们想了解我国正常成年男我国正常成年男子的红细胞计数子的红细胞计数?普查:对我国普查:对我国全部正常成年全部正常成年男子进行抽血,男子进行抽血,测定红细胞计测定红细胞计数。数。抽样:随机抽样测抽样:随机抽样测定我国定我国300名正常名正常成年男子红
2、细胞计成年男子红细胞计数,通过分析该部数,通过分析该部分男子的红细胞计分男子的红细胞计数推断全国情况。数推断全国情况。思考:变量?总体?样本?思考:变量?总体?样本?现实生活中的抽样现象现实生活中的抽样现象o炒菜时尝尝咸淡炒菜时尝尝咸淡o评价河水污染情况评价河水污染情况o就医时做血常规检验就医时做血常规检验 假设正常成年男子红细胞假设正常成年男子红细胞N(5.00,0.502)的正态分布总体,从该总体中重复进行的正态分布总体,从该总体中重复进行1000次抽次抽样,样本量分别为样,样本量分别为5,10,30。计算其均数和标。计算其均数和标准差。准差。10001000份样本抽样计算结果份样本抽样计
3、算结果总体总体均数均数总体总体标准差标准差 均数的均数的均数均数均数的标准差均数的标准差n=55.000.504.9870.23000.2236n=105.000.505.0110.15860.1581n=305.000.505.0000.09200.09131.各样本均数未必等于总体均数;各样本均数未必等于总体均数;2.样本均数之间存在差异;样本均数之间存在差异;3.样本均数的变异较之原变量的变异大大缩小;样本均数的变异较之原变量的变异大大缩小;4.样本均数分布很有规律,样本均数分布很有规律,围绕着总体均数,中间多,围绕着总体均数,中间多,两边少,左右基本对称,两边少,左右基本对称,服从正态
4、分布。服从正态分布。第一节第一节 均数的抽样误差均数的抽样误差o由于抽样造成的样本均数与总体均数之间、样由于抽样造成的样本均数与总体均数之间、样本均数与样本均数之间的差异。本均数与样本均数之间的差异。o这种差异可用样本均数这种差异可用样本均数 的变异,的变异,即样本均数的标准差来表示,又称标准误。即样本均数的标准差来表示,又称标准误。o标准误反映样本均数之间的离散程度,也反映标准误反映样本均数之间的离散程度,也反映样本均数抽样误差的大小。样本均数抽样误差的大小。o公式:公式:o当当S S一定时,一定时,n n越大,即样本量越大,标准误越大,即样本量越大,标准误越小;故:我们可以通过增加样本量来
5、减小越小;故:我们可以通过增加样本量来减小抽样误差。抽样误差。例例 20032003年某地年某地2020岁应征男青年中随机抽取岁应征男青年中随机抽取8585人,平均身高为人,平均身高为171.2cm171.2cm,标准差为,标准差为5.3cm5.3cm,计算当地计算当地2020岁应征男青年身高的标准误。岁应征男青年身高的标准误。o来自同一正态总体的样本:来自同一正态总体的样本:o来自同一非正态总体的样本:来自同一非正态总体的样本:小样本小样本 非正态分布非正态分布 大样本(大样本(n30)服从正态分布服从正态分布 中心极限定理:以数值中心极限定理:以数值变量为例,若从正态总变量为例,若从正态总
6、体中以固定体中以固定n反复多次反复多次抽样,所得样本均数的抽样,所得样本均数的分布是正态分布;即使分布是正态分布;即使从偏态总体中抽样,只从偏态总体中抽样,只要要n足够大,样本均数足够大,样本均数的分布也近似正态分布的分布也近似正态分布 标准差标准差 VS VS 标准误标准误第二节第二节t 分布分布o以以0为中心,左右对称,类为中心,左右对称,类似于标准正态分布似于标准正态分布o与标准正态分布相比,曲与标准正态分布相比,曲线峰值较矮,两尾部翘得线峰值较矮,两尾部翘得高;自由度越小,高;自由度越小,t值越分值越分散,曲线峰值越小。散,曲线峰值越小。o随着自由度逐渐增大,随着自由度逐渐增大,t分分
7、布逐渐逼近标准正态分布;布逐渐逼近标准正态分布;当自由度趋于无穷,当自由度趋于无穷,t分布分布即为标准正态分布。即为标准正态分布。P 101t t分布曲线下面积分布曲线下面积规律:规律:1.1.同一同一 下,下,P P值越小,值越小,t t值越大值越大 2.2.同一同一P P值下,值下,越大,越大,t t值越小值越小0第三节第三节 总体均数的估计总体均数的估计区间估计区间估计置信上限置信上限置信上限置信上限可信可信可信可信/置信区间置信区间置信区间置信区间(区间估计区间估计区间估计区间估计)置信下限置信下限置信下限置信下限样本统计量样本统计量 (点估计点估计)1-1-a a称为置信水平或置信度
8、,常用的有称为置信水平或置信度,常用的有90%90%、95%95%、99%99%;相应的区间可表示为;相应的区间可表示为90%CI90%CI、95%CI95%CI、99%CI99%CI。1-/2/21.1.已知,或已知,或 未知但未知但n n足够大足够大:u:u分布法分布法 1-/2/21.1 已知已知1.2 未知但未知但n n足够大足够大 样本量足够大,样本量足够大,t t分布趋向于分布趋向于u u分布分布2.2.未知未知:20032003年某地年某地2020岁应征男青年中随机抽取岁应征男青年中随机抽取8585人,平均身人,平均身高为高为171.2cm171.2cm,标准差为,标准差为5.3
9、cm5.3cm,估计,估计20032003年当地年当地2020岁岁应征男青年身高总体均数的应征男青年身高总体均数的9595的可信区间。的可信区间。解:解:,求总体均数的,求总体均数的95可信区间。可信区间。影响区间宽度的因素影响区间宽度的因素1.数据的离散程度,数据的离散程度,用用 S或或 来测度来测度2.样本容量,样本容量,3.置信水平置信水平(1-),影响,影响 或或 的大小的大小 可信区间可信区间参考值范围参考值范围含含义义 当当=0.05时,时,CI以以95%的可能性包含总体均数。的可能性包含总体均数。“正常人正常人”的解剖、生理、生化的解剖、生理、生化某项指标个体值的波动范围。某项指
10、标个体值的波动范围。计计算算公公式式 未知未知:正态分布:正态分布:已知或已知或 未知但为大样本未知但为大样本:偏态分布:偏态分布:PXP100 X 用用途途 总体均数的区间估计总体均数的区间估计 绝大多数绝大多数(如如95%)95%)观察对象某项指观察对象某项指标的分布范围标的分布范围 某某某某医医医医生生生生测测测测量量量量了了了了36363636名名名名从从从从事事事事铅铅铅铅作作作作业业业业男男男男性性性性工工工工人人人人的的的的血血血血红红红红蛋蛋蛋蛋白白白白含含含含量量量量,算算算算得得得得其其其其均均均均数数数数为为为为130.83g/L130.83g/L130.83g/L130
11、.83g/L,标标标标准准准准差差差差为为为为25.74g/L25.74g/L25.74g/L25.74g/L。问问问问从从从从事事事事铅铅铅铅作作作作业业业业男男男男性性性性工工工工人人人人的的的的血血血血红红红红蛋蛋蛋蛋白白白白是是是是否否否否不不不不同同同同于于于于正正正正常常常常成成成成年年年年男男男男性性性性平平平平均均均均值值值值140g/L140g/L140g/L140g/L?n=36已知总体已知总体已知总体已知总体未知总体未知总体未知总体未知总体第四节第四节 假设检验的基本步骤假设检验的基本步骤?造成样本均数造成样本均数造成样本均数造成样本均数 与已知总体与已知总体与已知总体与
12、已知总体 不等的原因:不等的原因:不等的原因:不等的原因:非同一总体非同一总体非同一总体非同一总体,即,即,即,即 是同一总体是同一总体是同一总体是同一总体,即,即,即,即 ,差异是由于,差异是由于,差异是由于,差异是由于抽样误差抽样误差抽样误差抽样误差造成的;造成的;造成的;造成的;如如果果 与与 很很接接近近,其其差差别别可可用用抽抽样样误误差解释差解释,可认为,可认为 来自来自 总体;总体;如如果果 与与 相相差差甚甚远远,不不宜宜用用抽抽样样误误差差来解释来解释,则怀疑,则怀疑 不是来自不是来自 总体。总体。如果如果 与与 相差较远,相差较远,t t 值就大,值就大,P P值就小。值就
13、小。假设假设 成立,成立,当当P P小于或等于预先规定的概率小于或等于预先规定的概率(如(如0.050.05),则),则有理由怀疑原假设有理由怀疑原假设 不成立,认为其对立不成立,认为其对立面面 成立。该结论犯错误的风险仅为成立。该结论犯错误的风险仅为 。一、假设检验的概念及基本原理一、假设检验的概念及基本原理o概念:概念:事先对总体参数或分布类型作出某种假设,判断事先对总体参数或分布类型作出某种假设,判断这种假设是否成立的方法。这种假设是否成立的方法。o特点:特点:反证法;小概率原理。反证法;小概率原理。o原理:原理:先假定提出的关于总体的假设成立,样本是通过先假定提出的关于总体的假设成立,
14、样本是通过合理设计获得的总体的代表,那么样本应体现总体的特合理设计获得的总体的代表,那么样本应体现总体的特点,如样本均数的值应在总体均数值附近,如果偏离太点,如样本均数的值应在总体均数值附近,如果偏离太远,则根据反证法和小概率原理拒绝原假设。远,则根据反证法和小概率原理拒绝原假设。链接:链接:反证法反证法即两种说即两种说法非法非A即即B,要证明,要证明A或或B真,只需证明对立方真,只需证明对立方伪。伪。小概率原理小概率原理:当某事件发生:当某事件发生的概率的概率P0.05时,称为小概时,称为小概率事件,表示某事件发生的率事件,表示某事件发生的可能性很小,是几乎不可能可能性很小,是几乎不可能发生
15、的事件。发生的事件。二、假设检验的基本步骤二、假设检验的基本步骤1.建立检验假设建立检验假设o无效假设:又称零假设,用无效假设:又称零假设,用H0表示。一般是假设总体表示。一般是假设总体参数相等参数相等 或服从某种分布。或服从某种分布。o备择假设:用备择假设:用H1表示。一般是假设总体参数不等或不表示。一般是假设总体参数不等或不服从某种分布。服从某种分布。检验假设是针对总体而言,而不是针对样本;如检验假设是针对总体而言,而不是针对样本;如 或或 。对于检验假设需要注意的几个问题:对于检验假设需要注意的几个问题:H H1 1的内容直接反映了检验单双侧。的内容直接反映了检验单双侧。假设假设双侧检验
16、双侧检验单侧检验单侧检验H0H1假设检验单双侧之分,需根据研究目的和专业知识而定。假设检验单双侧之分,需根据研究目的和专业知识而定。目的是推断两总体均目的是推断两总体均数是否不等数是否不等双侧检验双侧检验H H0 0:0 0,H H1 1:0 0;若从专业知识已知不若从专业知识已知不会出现会出现0 0的情况的情况(或已知不会出现或已知不会出现0 0的情况的情况)单侧检验单侧检验H H0 0:=0 0,H H1 1:0 0(或或0 0)双侧检验的例子双侧检验的例子单侧检验的例子单侧检验的例子2.2.确定显著性水平确定显著性水平 又又称称检检验验水水准准,是是预预先先规规定定的的概概率率值值,它它
17、确确定定了了小小概概率率事事件件的的标标准准。当当某某事事件件发发生生的的概概率率P P 时时,则则认认为为该该事事件件为为小小概概率率事事件件。在在实实际际工工作作中中常常取取=0.05=0.05或或0.010.01。可根据不同研究目的给予不同设置。可根据不同研究目的给予不同设置。3.3.计算统计量计算统计量 不同的检验方法采用不同的检验统计量不同的检验方法采用不同的检验统计量 例如:例如:4.4.确定概率值确定概率值P P查查表表得得到到检检验验水水平平 所所对对应应的的界界值值,将将计计算算得得到到的统计量与之比较,得到的统计量与之比较,得到P P 值大小。值大小。5.5.做出推断结论做
18、出推断结论 根据获得的事后概率根据获得的事后概率P P与事先规定的检验水与事先规定的检验水准准 进行比较,看其是否为小概率事件而得出进行比较,看其是否为小概率事件而得出结论。结论。一般来说,推断结论应该包含统计结论和一般来说,推断结论应该包含统计结论和专业结论两部分。统计结论只说明差别有无统专业结论两部分。统计结论只说明差别有无统计学意义,而不能说明专业上的差异大小。要计学意义,而不能说明专业上的差异大小。要与专业结论有机地结合,才能得出恰当的推断与专业结论有机地结合,才能得出恰当的推断结论。结论。若若 ,按所取检验水准,按所取检验水准 ,拒绝,拒绝 ,接受,接受 ,样本统计量样本统计量差别有
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数值 变量 资料 统计 推断
限制150内