总体均数的估计和两均数的假设检验.ppt
《总体均数的估计和两均数的假设检验.ppt》由会员分享,可在线阅读,更多相关《总体均数的估计和两均数的假设检验.ppt(137页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数值变量统计分析数值变量统计分析 集中趋势和离散趋势的集中趋势和离散趋势的描述描述 统计统计推断推断 均数的抽样误差及均数的抽样误差及t t分分布的特点布的特点 总体均数的估计总体均数的估计 假设检验假设检验 第十六章第十六章 总体均数的估计和两均数总体均数的估计和两均数的假设检验的假设检验复习几个概念:复习几个概念:计量资料:计量资料:测定每个观察单位某项指标量的大小得到的数 据(资料)。总体:总体:研究对象(某项变量值)的全体。样本:样本:总体中随机抽取的一部分研究对象的某项变量值。统计量:统计量:从样本计算出来的统计指标。参数:参数:总体的统计指标叫总体参数。统计推断:统计推断:用样本信
2、息推论总体特征的过程。用样本信息推论总体特征的过程。包括:包括:参数估计参数估计:运用统计学原理,用从样本计算出来的统计指标量,运用统计学原理,用从样本计算出来的统计指标量,对总体统计指标量进行估计。对总体统计指标量进行估计。假设检验:假设检验:又称显著性检验,是指由样本间存在的差别对样本又称显著性检验,是指由样本间存在的差别对样本所代表的总体间是否存在着差别做出判断。所代表的总体间是否存在着差别做出判断。总体总体样本样本抽取部分观察单位抽取部分观察单位 统计量统计量统计量统计量 参参参参 数数数数 统计推断统计推断统计推断统计推断 statistical inferencestatistic
3、al inference如:总体均数如:总体均数 总体标准差总体标准差 总体率总体率如:样本均数如:样本均数 样本标准差样本标准差S 样本率样本率 P内容:内容:1.参数估计参数估计(estimation of parameters)2.包括:点估包括:点估计与区间估计计与区间估计3.2.假设检验假设检验(test of hypothesis)主要内容第一节第一节均数的抽样误差与标准误均数的抽样误差与标准误第二节第二节t 值与值与t分布分布第三节第三节总体均数的估计总体均数的估计第四节第四节假设检验的一般步骤假设检验的一般步骤第五节第五节样本均数与总体均数的比较样本均数与总体均数的比较样本样本
4、抽取部分观察单位抽取部分观察单位 统计量统计量统计量统计量 统计推断统计推断第一节第一节样本均数的标准误样本均数的标准误如:如:样本均数样本均数 样本标准差样本标准差S 样本率样本率 P总体总体参参参参 数数数数 如:如:总体均数总体均数 总体标准差总体标准差 总体率总体率 正态(分布)总体:正态(分布)总体:推断推断!部分部分=总体总体?抽样误差抽样误差 (sampling sampling error)error):由:由于个体差异导于个体差异导致的致的样本样本统计统计量与量与总体总体参数参数间的差别。间的差别。第一节第一节 标准误标准误一、概念一、概念抽样误差:抽样误差:由于抽样引起的样
5、本统计量与总体参数之间的由于抽样引起的样本统计量与总体参数之间的差异(举例,抽样误差的产生及含义)。差异(举例,抽样误差的产生及含义)。标准误标准误:符号,表示抽样误差大小的指标;符号,表示抽样误差大小的指标;样本均数的标准差;样本均数的标准差;一、抽样研究与抽样误差一、抽样研究与抽样误差 抽样研究的目的是要用样本信息推断总体特征,称统计推断统计推断。1 1、抽样研究抽样研究:从总体中随机抽取一定数量的观察单位组或样本,对其进行研究,以此来推断总体的情况。如从某地8岁的男孩中,随机抽取200人,分别测量其身高,计算样本均数,用来估计该地8岁男孩身高的总体均数就属于抽样研究。2、均数的抽样误差均
6、数的抽样误差(sampling error):是指由抽样造成的样本均数与总体均数之差 。如如要要了了解解某某地地成成年年男男子子红红细细胞胞数数的的总总体体均均数数,抽抽得得144个个样样本本,求求出出样样本本均均数数 =5.381012/L,估估计计该该地地成成年年男男子子红红细细胞胞数数的的总总体体均均数数,由由于于抽抽样样误误差差,-称均数的抽样误差。称均数的抽样误差。二、标准误概念:均数的标准误,简称标标准准误误(standarderror,SE):说明均数抽样误差大小的指标。即由样本均数估计总体均数可靠性大小的指标。X 1S1X 2 S2 X ISiX nSnx标准误示意图标准误示意
7、图表表示示样样本本统统计计量量抽抽样样误误差差大大小小的的统统计计指标。指标。均均数数标标准准误误:说说明明均均数数抽抽样样误误差差的的大小,总体计算公式大小,总体计算公式(3-1)2、标准误标准误(standard error,SE)实质:样本均数的标准差实质:样本均数的标准差若用样本标准差若用样本标准差S 来估计来估计,(3-2)降低抽样误差的途径有降低抽样误差的途径有:通过增加样本含量通过增加样本含量n;通过设计减少通过设计减少S标准误标准误标准误标准误 标准误 标准误 标准误 4.标准误与标准差的比较三、三、(均数)标准误(均数)标准误意义:意义:反映抽样误差的大小。标准误越小,抽样反
8、映抽样误差的大小。标准误越小,抽样误差越小,用样本均数估计总体均数的可靠性越误差越小,用样本均数估计总体均数的可靠性越大。大。与样本量的关系:与样本量的关系:S 一定,一定,n,标准误,标准误二、(均数)标准误的计算二、(均数)标准误的计算第二节 t 分布l复习两个概念:正态分布 标准正态分布(u 分布)大样本、小样本概念:大样本、小样本概念:30、50、100。量变引起质变:当样本容量较大时,其统计量的抽量变引起质变:当样本容量较大时,其统计量的抽样分布近似为正态分布。随着样分布近似为正态分布。随着N的增大,越来越接近的增大,越来越接近于正态分布(样本均数的分布)。于正态分布(样本均数的分布
9、)。但当样本量小于但当样本量小于100时,抽样分布不能再用正态分布时,抽样分布不能再用正态分布来近似,随着来近似,随着N的减小,与正态分布的差别越来越大,的减小,与正态分布的差别越来越大,需要用小样本理论来解释(样本均数的分布)需要用小样本理论来解释(样本均数的分布)。一、一、t t分布分布随机变量随机变量X XN N(m m,s s2 2)标准正态分布标准正态分布N N(0 0,1 12 2)u变换标准正态分布标准正态分布N N(0 0,1 12 2)Student Student t t分布分布自由度:自由度:n n-1-1均数均数正态分布正态分布t 分布(与分布(与u分布比较的特点)分布
10、比较的特点)t 值表值表(附表(附表2P367)横坐标:自由度,横坐标:自由度,纵坐标:概率,纵坐标:概率,P,即曲线下阴影部分的面积即曲线下阴影部分的面积;表中的数字:相应的表中的数字:相应的|t|界值。界值。t 值表规律:值表规律:(1)自由度(自由度()一定时,)一定时,P与与t 成反比成反比;(2)概率(概率(P)一定时,一定时,与与t 成反比成反比;第二节 t 值与 t 分布 l一、t值 t值为样本均数与总体均数相差多少个标准误二、t分布从同一总体中抽取许多大小相同的样本,可得到许多 及s,代入(163),就可以得到许多的t值,将这些t值绘成直方图,当样本无限多时,就绘成一条光滑的曲
11、线,这就是 t 分布曲线。这种t值的分布就叫 t 分布 二、t分布l特征l:lt界值表将不同自由度将不同自由度,不同概率,不同概率P(从正态总体作随机抽样得样本(从正态总体作随机抽样得样本t值值落在该区间的概率)(即检验水准落在该区间的概率)(即检验水准)的)的t值列成表格称值列成表格称t界值表界值表t 分布 lt分布左右两端尾部面积之和=0.05(即每侧尾部面积为0.025)相应的t值称为5%界,符号为t0.05,,这里是自由度。l把左右两端尾部面积之和为0.01相应的t值称为1%界,符号为t0.01,。lt的5%界与1%界可查附表5 t值表。l例如当自由度为10-1=9时,t0.05,9=
12、2.262,t0.01,9=3.250。t t分布曲线下面积(附表分布曲线下面积(附表2 2)双侧双侧t t0.05/20.05/2,9 92.2622.262 单侧单侧t t0.0250.025,9 9单侧单侧t t0.050.05,9 91.8331.833双侧双侧t t0.01/20.01/2,9 93.2503.250 单侧单侧t t0.0050.005,9 9单侧单侧t t0.010.01,9 92.8212.821双侧双侧t t0.05/20.05/2,1.961.96 单侧单侧t t0.0250.025,单侧单侧t t0.050.05,1.641.64ut双侧双侧t t0.05/
13、20.05/2,9 92.2622.262 单侧单侧t t0.0250.025,9 9单侧单侧t t0.050.05,9 91.8331.833双侧双侧t t0.01/20.01/2,9 93.2503.250 单侧单侧t t0.0050.005,9 9单侧单侧t t0.010.01,9 92.8212.821双侧双侧t t0.05/20.05/2,1.961.96 单侧单侧t t0.0250.025,单侧单侧t t0.050.05,1.641.64ut0-11-1.961.96-2.582.5868.27%95.00%99.00%ut 分布-tt0举例举例:小结l标准正态分布l当0,1,使原
14、来的正态分布变换为标准正态分布,亦称u分布区间的面积分别区间的面积分别占总面积的占总面积的68.271.96 为为952.58为为 99。|u|1.96的面积为0.05正态曲线下面积的分布规律正态曲线下面积的分布规律正态曲线下面积的分布规律正态曲线下面积的分布规律小结l t 分布:t分布把t分布左右两端尾部面积之和=0.05(即每侧尾部面积为0.025)相应的t值称为5%界,符号为t0.05,把左右两端尾部面积之和为0.01相应的t值称为1%界,符号为t0.01,三总体均数的参数估计三总体均数的参数估计统计推断统计推断假设检验假设检验 参数估计参数估计 参数估计就是用样本指标(即统计量)来估计
15、总体指标(即参数)点值估计点值估计 区间估计区间估计 总体均数的估计总体均数的估计统计推断的任务就是用样本信息推论总统计推断的任务就是用样本信息推论总体特征。体特征。参数估计,参数估计,用样本均数估计总体均数。用样本均数估计总体均数。1、点(值)估计(近似值)点(值)估计(近似值)2、区间估计(近似范围)区间估计(近似范围)1、点点(值值)估计:估计:用样本均数直接作为总体均数的估计值,用样本均数直接作为总体均数的估计值,未考虑抽样未考虑抽样误差。误差。总体均数的点值估计总体均数的点值估计点值估计点值估计 就是以某一样本均数来作总体均数的估计 如随机抽查140例成年男子,测得红细胞的均值为4.
16、791012/L,以此值作为某地成年男子的总体均数的估计值,叫“点值估计”。点值估计比较方便、简单。但由于存在抽样误差,不同的样本可能得到不同的估计值,所以其准确度较低。2、区间估计、区间估计概念概念:根据样本均数,按一定的根据样本均数,按一定的可信度可信度计算计算出总体均数很可能在的一个出总体均数很可能在的一个数值范围数值范围,这个,这个范围称为总体均数的可信区间。范围称为总体均数的可信区间。方法:方法:(1)u分布分布法法(2)t分布法分布法(1)u分布分布法法公式公式应用条件应用条件:例题例题意义:与正常值范围进行比较意义:与正常值范围进行比较(xus x,xu s x)即(xus x)
17、样本量较大,已知或可计算出 x 及 Sx换句话说,做出该市成人脉搏均数为换句话说,做出该市成人脉搏均数为73.9次次/分分75.1次次/分的结论,说对的概率是分的结论,说对的概率是95%,说错的,说错的概率是概率是5%;做出该市成人脉搏均数为;做出该市成人脉搏均数为73.7次次/分分75.3次次/分的结论,说对的概率是分的结论,说对的概率是99%,说错的概率,说错的概率是是1%。意义:意义:虽然不能知道某市全体成人脉搏均数的确切数虽然不能知道某市全体成人脉搏均数的确切数值,但有值,但有95%的把握说该市全体成人脉搏均数在的把握说该市全体成人脉搏均数在73.9次次/分分75.1次次/分之间,有分
18、之间,有99%的把握说该市全体成的把握说该市全体成人脉搏均数在人脉搏均数在73.7次次/分分75.3次次/分之间。分之间。换句话说,做出校全体女大学生身高均数为换句话说,做出校全体女大学生身高均数为163.0164.5cm的结论,说对的概率是的结论,说对的概率是95%,说错,说错的概率是的概率是5%;做出校全体女大学生身高均数为;做出校全体女大学生身高均数为162.7164.7cm的结论,说对的概率是的结论,说对的概率是99%,说错的概率,说错的概率是是1%。意义:意义:虽然不能知道某校全体女大学生身高均数的确虽然不能知道某校全体女大学生身高均数的确切数值,但有切数值,但有95%的把握说校全体
19、女大学生身高均数的把握说校全体女大学生身高均数在在163.0164.5cm之间,有之间,有99%的把握说校全体女的把握说校全体女大学生身高均数在大学生身高均数在162.7164.7cm之间。之间。(2)t分布分布法法公式公式应用条件应用条件例题例题意义意义(x ts x,xt s x)即(xts x)样本量 较小,已知或可计算出 X 及s x二、总体均数的区间估计二、总体均数的区间估计区区间间估估计计(intervalestimation)是是按按一一定定的的概概率率来来估计总体均数在哪个范围。估计总体均数在哪个范围。预先给定的概率称为可可信信度度,符号为1,常取95%或99%;按此确定的可信
20、区间分别称为95%或99%可信区间。意思是说,从被估计的总体中随机抽取若干个含量为 n 的样本,由每个样本计算出一个95%可信区间,理论上,其中有95%的可信区间将包含被估计的总体均数。以样本对95%可信区间作估计时,被估计的总体均数不在该区间的概率是很小的,仅5%。(一一)总体均数可信区间的计算总体均数可信区间的计算(一一)总体均数可信区间的计算总体均数可信区间的计算t0.05,9=2.262,t0.01,9=3.250,(一一)总体均数可信区间的计算总体均数可信区间的计算(一一)总体均数可信区间的计算总体均数可信区间的计算(一一)总体均数可信区间的计算总体均数可信区间的计算(2)已知已知(
21、3)未知,但未知,但n足够大足够大n100 例例3-3某地抽取正常成年人某地抽取正常成年人200名,测得名,测得其血清胆固醇的均数为其血清胆固醇的均数为3.64mmol/L,标准差,标准差为为1.20mmol/L,估计该地正常成年人血清胆,估计该地正常成年人血清胆固醇均数的固醇均数的95%可信区间。可信区间。故故该该地地正正常常成成年年人人血血清清胆胆固固醇醇均均数数的的双双侧侧95%可信区间为可信区间为(3.47,3.81)mmol L。100可信区间的解释可信区间的解释 9595可信区间可信区间:从总体中作随机抽样,作:从总体中作随机抽样,作100100次抽样,每个样本可算得一个可信区间,
22、次抽样,每个样本可算得一个可信区间,得得100100个可信区间,平均有个可信区间,平均有9595个可信区间包个可信区间包括括(估计正确估计正确),只有,只有5 5个可信区间不包括个可信区间不包括(估计错误估计错误)。9595可信区间可信区间 99 99可信区间可信区间 公式公式 区间范围区间范围 窄窄 宽宽 估计错误的概率估计错误的概率 大(大(0.050.05)小(小(0.010.01)区间估计的准确度:区间估计的准确度:说对的可能性大小,说对的可能性大小,用用(1-)来衡量。来衡量。99%的可信区间好于的可信区间好于95%的可信区间的可信区间(n,S一定时)一定时)。区间估计的精确度:区间
23、估计的精确度:指区间范围的宽窄,范围越指区间范围的宽窄,范围越宽精确度越差。宽精确度越差。99%的可信区间的可信区间差于差于95%的可信区间的可信区间(n,S一定时)一定时)。准确度与精确度的关系:准确度与精确度的关系:(例如预测孩子的身高)(例如预测孩子的身高)(三)可信区间与可信限的关系(三)可信区间与可信限的关系 正常值范围正常值范围概念:概念:绝大多数正常人的某指绝大多数正常人的某指标范围。(标范围。(95%,99%,指绝大指绝大多数正常人)多数正常人)计算公式:计算公式:用途:判断观察对象的某用途:判断观察对象的某项指标是否正常项指标是否正常.可信区间可信区间概念:概念:总体均数所在
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 总体 估计 两均数 假设检验
限制150内