数值变量资料的统计推断.pptx
《数值变量资料的统计推断.pptx》由会员分享,可在线阅读,更多相关《数值变量资料的统计推断.pptx(87页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1样样样样本本本本总体总体总体总体样本统计量样本统计量样本统计量样本统计量样本统计量样本统计量例如:样本均例如:样本均例如:样本均例如:样本均例如:样本均例如:样本均值、比例、方值、比例、方值、比例、方值、比例、方值、比例、方值、比例、方差差差差差差总体均值、比总体均值、比总体均值、比总体均值、比例、方差等例、方差等例、方差等例、方差等现实中的研究过程现实中的研究过程 第1页/共87页2统计推断统计推断 采用抽样研究的方法,由某总体中随机抽取采用抽样研究的方法,由某总体中随机抽取一个有代表性的样本,并根据样本提供的信息一个有代表性的样本,并根据样本提供的信息(统计量)推断总体特征、性质(参数)
2、的过程(统计量)推断总体特征、性质(参数)的过程称为统计推断称为统计推断 statistical inference 第2页/共87页3统计推断统计推断 统计推断包括两个重要的方面:统计推断包括两个重要的方面:一是利用样本统计量的信息对相应总体参数值做出推断,如用样本均数估计总体均数,用样本标准差估计总一是利用样本统计量的信息对相应总体参数值做出推断,如用样本均数估计总体均数,用样本标准差估计总体标准差等,称之为参数估计体标准差等,称之为参数估计另一个是利用样本统计量来推断我们是否接受一个事先关于总体的假设,称之为假设检验另一个是利用样本统计量来推断我们是否接受一个事先关于总体的假设,称之为假
3、设检验第3页/共87页4使用样本统计量过程中的问题使用样本统计量过程中的问题不同的研究者对相同的总体作类似的抽样研究可能会得到不同的样本统计量不同的研究者对相同的总体作类似的抽样研究可能会得到不同的样本统计量各自用样本统计量估计总体的参数,样本统计量与总体参数间是否完全相等?各自用样本统计量估计总体的参数,样本统计量与总体参数间是否完全相等?如何评价他们的准确性?如何评价他们的准确性?第4页/共87页5 已知某地高中三年级男生的身高满足正态分布,已知某地高中三年级男生的身高满足正态分布,其平均身高为其平均身高为168.15厘米,这里,将该地高中厘米,这里,将该地高中三年级男生的身高视为一个总体
4、。现从该总体三年级男生的身高视为一个总体。现从该总体中随机抽样中随机抽样5次,每次抽取一个样本含量次,每次抽取一个样本含量n=10的样本,得到的的样本,得到的5个样本的数据及各样本均数个样本的数据及各样本均数如下:如下:一、均数抽样误差和标准误第5页/共87页6样本号样本号样本含量样本含量(n=10)m=168.15m=168.15cm样本样本均数均数1161.1173.7173.7167.3162.2162.2166.6166.6157.4157.4164.822166.8159.1159.1166.1173.3173.3169.1169.1165.2165.2166.633157.4174
5、.0172.3175.8166.6182.1163.1159.4159.4177.3168.744174.5182.1168.5171.3174.1165.6173.7171.9167.5164.1171.335164.1166.6169.6169.6173.8173.2164.3166.6182.1165.4169.53第6页/共87页7各个样本均数之间都不相同各个样本均数之间都不相同抽样误差表现形式抽样误差表现形式之一之一各个样本均数都不等于总体均数,有的比总体均数各个样本均数都不等于总体均数,有的比总体均数大,有的比它小大,有的比它小抽样误差表现形式之二抽样误差表现形式之二相对于各样本的
6、个体值,样本均数间的变异程度较相对于各样本的个体值,样本均数间的变异程度较小小样本均数的特点样本均数的特点第7页/共87页8样本均数的抽样分布样本均数的抽样分布 仍以某地高三男生的身高为例,设身高变量为仍以某地高三男生的身高为例,设身高变量为x,假定,假定x服从正态分布,记为服从正态分布,记为xN(168.15,62)从总体从总体X中反复随机抽样,样本含量分别为中反复随机抽样,样本含量分别为n=4,n=16和和n=36,分别随机抽,分别随机抽10000个样本并计算样本均数,把同一样本含量的个样本并计算样本均数,把同一样本含量的10000个样本均数视为一个新个样本均数视为一个新的样本资料作频数图
7、的样本资料作频数图第8页/共87页9 从正态分布总体从正态分布总体N(168.15,62)中随机抽样中随机抽样10000次的结果次的结果曲线是正态总体曲线是正态总体N(168.15,62)的概率密度曲线的概率密度曲线直方图为正态分布总体直方图为正态分布总体N(168.15,62)的样本均数的频率密度图的样本均数的频率密度图样本含量样本含量n=36样本含量样本含量n=16样本含量样本含量n=4第9页/共87页10大多数的样本均数相互之间存在差异,绝大多数的样本大多数的样本均数相互之间存在差异,绝大多数的样本均数不等于均数不等于x的总体均数的总体均数样本均数的集中趋势位置与个体资料样本均数的集中趋
8、势位置与个体资料x的集中趋势位置的集中趋势位置较为接近,样本均数的频数图均呈现出中间多、两边少较为接近,样本均数的频数图均呈现出中间多、两边少且基本对称的正态分布特征。且基本对称的正态分布特征。样本均数的分布范围较个体值小;随着样本含量的增大,样本均数的分布范围较个体值小;随着样本含量的增大,样本均数的频数分布范围越来越窄样本均数的频数分布范围越来越窄每种样本量的每种样本量的10000个样本均数值所计算出的样本均数个样本均数值所计算出的样本均数的标准差都非常接近的标准差都非常接近 (为个体资料为个体资料x的总体标准差,的总体标准差,n为个体数为个体数)样本均数的分布规律样本均数的分布规律第10
9、页/共87页11 理论上可以证明:从正态分布的总体理论上可以证明:从正态分布的总体 中随机中随机抽取样本含量为抽取样本含量为n的一批样本,样本均数的一批样本,样本均数 有如下性质有如下性质:样本均数样本均数 服从正态分布服从正态分布 样本均数样本均数 的总体均数为的总体均数为 样本均数的分布规律样本均数的分布规律第11页/共87页12样本均数的标准误样本均数的标准误为了与个体的标准差相互区别,样本均数的标准差又称为了与个体的标准差相互区别,样本均数的标准差又称为样本均数的标准误为样本均数的标准误standard error,SE,或理论标准,或理论标准误误反映了样本均数间的离散程度,如果反映了
10、样本均数间的离散程度,如果SE很大则不同的样很大则不同的样本均数间参差不齐,同时样本均数的分布范围较大,也本均数间参差不齐,同时样本均数的分布范围较大,也反映了样本均数与总体均数间的差异可能较大,因而标反映了样本均数与总体均数间的差异可能较大,因而标准误反映均数抽样误差的大小;它与总体标准差成正比,准误反映均数抽样误差的大小;它与总体标准差成正比,与总体中的个体数的平方根成反比与总体中的个体数的平方根成反比 代表样本均数的标准误,其表达式为代表样本均数的标准误,其表达式为第12页/共87页13均数的标准误的影响因素均数的标准误的影响因素从标准误的计算公式中看出它与原先个体观察值的总体标准从标准
11、误的计算公式中看出它与原先个体观察值的总体标准差差 有关,同时也和样本含量有关,同时也和样本含量n有关有关在固定样本含量的情况下,总体标准差越大,则样本均数间在固定样本含量的情况下,总体标准差越大,则样本均数间越参差不齐,抽样误差越大;但是总体标准差是参数,在抽越参差不齐,抽样误差越大;但是总体标准差是参数,在抽样之前就已经存在,无法改变它的大小样之前就已经存在,无法改变它的大小故可行的方法是通过扩大样本含量减少标准误;从而减少抽故可行的方法是通过扩大样本含量减少标准误;从而减少抽样误差样误差第13页/共87页14均数标准误的估计值均数标准误的估计值 由于在实际研究中,我们往往只抽一次样,由于
12、在实际研究中,我们往往只抽一次样,得到一个样本均数,而且大多数情况下得到一个样本均数,而且大多数情况下 未知未知,此此时常用样本标准差时常用样本标准差S S估计总体标准差估计总体标准差,这样我们,这样我们就得到样本均数标准误的估计值就得到样本均数标准误的估计值 抽样误差越小,表示样本均数与总体均数越接近,抽样误差越小,表示样本均数与总体均数越接近,用样本均数估计总体均数的可靠性越高;反之则用样本均数估计总体均数的可靠性越高;反之则越低越低 第14页/共87页15例:例:2000年某研究者随机调查某地健康成年女性年某研究者随机调查某地健康成年女性248人,得到血红细胞的人,得到血红细胞的均数为均
13、数为4.181012/L,标准差为,标准差为0.281012/L,试估计该样本的抽样误,试估计该样本的抽样误差?差?第15页/共87页16二、t分布 对于某个资料,其个体变量对于某个资料,其个体变量 服从正态分布,服从正态分布,记作:记作:总体总体总体总体个体值正态分布第16页/共87页17u值标准正态分布值标准正态分布 对服从正态分布的个体变量值对服从正态分布的个体变量值 作下列转换:作下列转换:变量值变量值u也服从正态分布,记作也服从正态分布,记作 个体变量值个体变量值个体变量值个体变量值经过经过经过经过Z Z Z Z转换后的变量转换后的变量转换后的变量转换后的变量值值值值u u u u1
14、 1 1 1、u u u u2 2 2 2、u u u u3 3 3 3第17页/共87页18样本均数正态分布样本均数正态分布 总体总体总体总体样样样样本本本本样样样样本本本本样样样样本本本本样样样样本本本本第18页/共87页19样本均数样本均数u转换标准正态分布转换标准正态分布 样样样样本本本本样样样样本本本本样样样样本本本本u1u2u3第19页/共87页20既往资料表明某市区新生女婴的平均出生体既往资料表明某市区新生女婴的平均出生体重为重为3.10kg,标准差为,标准差为0.59kg。某研究者从。某研究者从该市区中随机抽取一个由该市区中随机抽取一个由100个女婴组成的样个女婴组成的样本,请
15、问出现样本均数超过本,请问出现样本均数超过2.87kg算不算是算不算是小概率事件?小概率事件?第20页/共87页21样本均数标准正态性转换中的实际问题样本均数标准正态性转换中的实际问题要对样本均数进行要对样本均数进行u转换,必须要知道总体的标准转换,必须要知道总体的标准差差;但是在实际的情况下,并没有对总体中所有;但是在实际的情况下,并没有对总体中所有的个体进行观察,所以无法得知的个体进行观察,所以无法得知 ;而且通常我们;而且通常我们也只作一次抽样研究,只能得到也只作一次抽样研究,只能得到s,只能用样本标,只能用样本标准误的估计值准误的估计值 估计估计 那么那么 是否仍然满足标准正态分布?是
16、否仍然满足标准正态分布?假定假定 ,我们比较一下,我们比较一下u与与u之间是否之间是否存在不同存在不同第21页/共87页22在正态总体在正态总体N(168.18,62)中随机抽样,样本量分别取中随机抽样,样本量分别取n=5,n=100,均抽,均抽10000个样本,分别计算个样本,分别计算u值和值和u值,其值,其结果如下:结果如下:样本量样本量统计量统计量平均值平均值P2.5P97.5n=5u0.0149031-1.9500671.969157u0.0319309-2.6542142.838163n=100u0.0033231-1.9508861.971245u0.0347047-1.98118
17、32.000407u vs.u第22页/共87页23样本含量样本含量n=5样本含量样本含量n=100(a)(b)u统计量的频数分布图统计量的频数分布图(10000个样本个样本),轮廓曲线为标准正态分布轮廓曲线为标准正态分布u曲线曲线第23页/共87页24上述上述10000个样本所计算出的个样本所计算出的u值和值和u值的平均值都非常接近标值的平均值都非常接近标准正态分布的集中位置准正态分布的集中位置0对于对于u值而言,无论值而言,无论n=5和和n=100,u值的值的P2.5和和P97.5都十分接近都十分接近标准正态分布标准正态分布95的双侧分位点的双侧分位点1.96;但对于;但对于u值而言,样值
18、而言,样本量本量n=5时,其时,其P2.5和和P97.5明显远离明显远离1.96,而样本量,而样本量n=100时,时,u值的值的P2.5和和P97.5相对比较靠近相对比较靠近 当样本量较大时,同样可以发现统计量当样本量较大时,同样可以发现统计量u的频数图与标准正态的频数图与标准正态分布曲线非常接近,而当样本含量较小时,统计量分布曲线非常接近,而当样本含量较小时,统计量u的分布与的分布与标准正态分布则有所区别标准正态分布则有所区别峰较矮,尾部较高,数据相对峰较矮,尾部较高,数据相对u值分散值分散 u vs.u第24页/共87页25u的分布的分布 并不满足标准正态分布并不满足标准正态分布!在样本含
19、量较大时它与标准正态分布接近,但是当样本含量较小时,它与标准在样本含量较大时它与标准正态分布接近,但是当样本含量较小时,它与标准正态分布相差较远正态分布相差较远第25页/共87页26William Sealey Gosset(1876-1937)Gosset invented the t-test to handle small samples for quality control in brewing(Guinness).He wrote under the name Student.第26页/共87页27t分布分布第27页/共87页28n nt t分布曲线是单峰的,且关于分布曲线是单峰的
20、,且关于分布曲线是单峰的,且关于分布曲线是单峰的,且关于t=0t=0对称,这一特征对称,这一特征对称,这一特征对称,这一特征与标准正态分布很相似与标准正态分布很相似与标准正态分布很相似与标准正态分布很相似标准正态分布和标准正态分布和t分布的图形分布的图形=时的时的t分布即标准正态分布分布即标准正态分布012345-1-2-3-4-50.00.10.20.30.4n=3n=3n=1n=1n=n=(标标准准正正态态分分布布)第28页/共87页29n n当自由度当自由度当自由度当自由度v v改变时(实际上是样本含量改变时(实际上是样本含量改变时(实际上是样本含量改变时(实际上是样本含量n n改变时)
21、,改变时),改变时),改变时),t t分布曲分布曲分布曲分布曲线的形态也不一样,因此线的形态也不一样,因此线的形态也不一样,因此线的形态也不一样,因此t t分布是分布是分布是分布是一簇分布一簇分布一簇分布一簇分布;而标准正态分;而标准正态分;而标准正态分;而标准正态分布是唯一的布是唯一的布是唯一的布是唯一的标准正态分布和标准正态分布和t分布的图形分布的图形=时的时的t分布即标准正态分布分布即标准正态分布012345-1-2-3-4-50.00.10.20.30.4n=3n=3n=1n=1n=n=(标标准准正正态态分分布布)第29页/共87页30n nv v越小(越小(越小(越小(n n越小)则
22、标准误越大,样本均数经过越小)则标准误越大,样本均数经过越小)则标准误越大,样本均数经过越小)则标准误越大,样本均数经过t t转换后的转换后的转换后的转换后的t t值越分散,值越分散,值越分散,值越分散,t t分布的峰越低矮,而且尾部翘得也越高;当自分布的峰越低矮,而且尾部翘得也越高;当自分布的峰越低矮,而且尾部翘得也越高;当自分布的峰越低矮,而且尾部翘得也越高;当自由度逼近由度逼近由度逼近由度逼近,因,因,因,因s s逼近逼近逼近逼近 ,t t分布也逼近分布也逼近分布也逼近分布也逼近u u分布,所以标准正分布,所以标准正分布,所以标准正分布,所以标准正态分布是态分布是态分布是态分布是t t
23、分布的特例分布的特例分布的特例分布的特例标准正态分布和标准正态分布和t分布的图形分布的图形=时的时的t分布即标准正态分布分布即标准正态分布012345-1-2-3-4-50.00.10.20.30.4n=3n=3n=1n=1n=n=(标标准准正正态态分分布布)第30页/共87页31t分布曲线的特征分布曲线的特征 t分布是一簇分布分布是一簇分布t分布的形态随自由度分布的形态随自由度v改变而改变改变而改变t分布是单峰分布,关于分布是单峰分布,关于t0对称对称v越小,越小,t分布曲线也越矮胖,当分布曲线也越矮胖,当v趋向无穷大时,趋向无穷大时,t分分布无限逼近标准正态分布(布无限逼近标准正态分布(u
24、分布)分布)第31页/共87页32t分布曲线下面积分布曲线下面积 与标准正态分布曲线下面积的算法一样,都是采用微积分的方法与标准正态分布曲线下面积的算法一样,都是采用微积分的方法其含义也与标准正态分布曲线下面积接近,表示某个样本含量(自其含义也与标准正态分布曲线下面积接近,表示某个样本含量(自由度)的样本均数经由度)的样本均数经t转换后转换后t值落在某个区间的概率有多大值落在某个区间的概率有多大与标准正态分布不同,与标准正态分布不同,t分布曲线下面积为分布曲线下面积为95%或或99%的界值不是一的界值不是一个常量个常量,因为对于不同的自由度取值,就有不同的,因为对于不同的自由度取值,就有不同的
25、t分布曲线分布曲线 第32页/共87页33t分布曲线下面积分布曲线下面积统计学家为了计算方便编制了统计学家为了计算方便编制了t分布曲线下面积表分布曲线下面积表在在t值表中,横标目为自由度值表中,横标目为自由度 v,纵标目为概率(,纵标目为概率(P或或)。一)。一侧尾部面积称为单尾概率(侧尾部面积称为单尾概率(one-tailed probability),两侧),两侧尾部面积之和称为双尾概率(尾部面积之和称为双尾概率(two-tailed probability)1-1-a a a aa a a a/2/2a a a a/2/21-1-a a a aa a a a第33页/共87页34t分布曲
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数值 变量 资料 统计 推断
限制150内