《第二章误差理论PPT讲稿.ppt》由会员分享,可在线阅读,更多相关《第二章误差理论PPT讲稿.ppt(34页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第二章误差理论第1页,共34页,编辑于2022年,星期二第二章要点提示第二章要点提示 误差理论既是本课程的基础,又是本课程的难点,学习时误差理论既是本课程的基础,又是本课程的难点,学习时要注要注意正态分布(理论分布)的特点及其与上一章二项分布的联系;意正态分布(理论分布)的特点及其与上一章二项分布的联系;要注要注意样本统计量如意样本统计量如 、y、的概率分布类型(抽样分布)及的概率分布类型(抽样分布)及其参数与母总体概型及其参数的联系和区别(中心极限定理);其参数与母总体概型及其参数的联系和区别(中心极限定理);重点重点掌握误差和抽样误差在某些取值区间如左尾、右尾或两尾、中间概率的掌握误差和抽
2、样误差在某些取值区间如左尾、右尾或两尾、中间概率的计算方法。计算方法。涉及教材内容:第三章,第四章第三、四节。涉及教材内容:第三章,第四章第三、四节。作业布置:作业布置:教材教材第四章第四章P72 P72 P73 P73 T3、T4、T5、T6、T7、T8、T9、T10。第2页,共34页,编辑于2022年,星期二第一节第一节 误差及其特征数误差及其特征数一、误差的概念一、误差的概念 总体指研究对象全体,即具有相同总体指研究对象全体,即具有相同性质和特征的个体(可供抽样观察的基性质和特征的个体(可供抽样观察的基本单位)所组成的集团。本单位)所组成的集团。总体拥有的个体数目叫总体容量总体拥有的个体
3、数目叫总体容量(N),统计学中的个体与生物个体不是,统计学中的个体与生物个体不是一个概念。一个概念。有时候总体有时候总体“由一切可能的观测结果由一切可能的观测结果组成组成”,此时的总体与个体只存在于特定,此时的总体与个体只存在于特定的时空,可以想象,但既的时空,可以想象,但既“看不见,又摸看不见,又摸不着不着”,如多次称量同一物体的质量。,如多次称量同一物体的质量。样本:随机从总体中抽出来用于研究样本:随机从总体中抽出来用于研究总体的那一部分个体(抽样单位)。总体的那一部分个体(抽样单位)。样本拥有的个体数叫样本容量样本拥有的个体数叫样本容量(n)。误差的本义是指随机变量的任意误差的本义是指随
4、机变量的任意一个观察值与其真值的差异,即一个观察值与其真值的差异,即Yi-。但统计学不是把误差当作常量来但统计学不是把误差当作常量来研究(因为实际工作中真值往往是未研究(因为实际工作中真值往往是未知数或无法计算其具体数值),而是知数或无法计算其具体数值),而是把它放在一定条件下作为随机变量来把它放在一定条件下作为随机变量来对待,即利用概率分布理论来描述误对待,即利用概率分布理论来描述误差在任一范围取值的可能性大小,所差在任一范围取值的可能性大小,所以误差实际被表述为以误差实际被表述为“y”。由于误差的取值已不再局限于间由于误差的取值已不再局限于间断性数据,其概率分布研究必须从连断性数据,其概率
5、分布研究必须从连续性变量的实例作为出发点。续性变量的实例作为出发点。第3页,共34页,编辑于2022年,星期二第一节第一节 误差及其特征数误差及其特征数 例例2.1 研究一研究一10年生早熟无核蜜年生早熟无核蜜柑优良单株(芽变新株系)的果实大柑优良单株(芽变新株系)的果实大小,将所结小,将所结N=509个果实一个个地称个果实一个个地称重,再将得到的数据进行分组归类并重,再将得到的数据进行分组归类并统计各组次数如右图所示。统计各组次数如右图所示。利用次数分布表计算出反映果实利用次数分布表计算出反映果实平均大小和彼此悬殊程度(变异度)平均大小和彼此悬殊程度(变异度)的指标,即总体平均数的指标,即总
6、体平均数=147g和总和总体标准差体标准差=17g,它们也是,它们也是“单果重单果重”这一连续性变量的两个最重要的参这一连续性变量的两个最重要的参数,实际决定其概率分布的特征。数,实际决定其概率分布的特征。第4页,共34页,编辑于2022年,星期二第一节第一节 误差及其特征数误差及其特征数讨论:讨论:如果说用公式(如果说用公式(=Yi/N)计算总体真)计算总体真值值 来反映果实大小的平均水平很自然的话,来反映果实大小的平均水平很自然的话,用用2=(y )2/N计算计算就显得非常特就显得非常特别,因为反映类似单果悬殊程度(简称变异别,因为反映类似单果悬殊程度(简称变异度,反过来讲就是整齐度)时也
7、有人用所谓度,反过来讲就是整齐度)时也有人用所谓的的“平均误差平均误差”来表示过,其算式(来表示过,其算式(|y|/N)虽然比计算标准差的公式还简单,但实)虽然比计算标准差的公式还简单,但实际研究中已不再有人用它,原因是总体标准际研究中已不再有人用它,原因是总体标准差不仅能从数值上显示差不仅能从数值上显示“变异度变异度”的大小,更的大小,更重要的它还是用作描述误差概率分布的尺度。重要的它还是用作描述误差概率分布的尺度。-51 -34 -17 0 17 34 51例例2.1:=147g=17g第5页,共34页,编辑于2022年,星期二第一节第一节 误差及其特征数误差及其特征数二、关于二、关于“概
8、率尺概率尺”该名词是误差理论应用于实际研究工该名词是误差理论应用于实际研究工作的需要而产生的,在我院教改课题正作的需要而产生的,在我院教改课题正交表在试验统计中的新功用的完成过程交表在试验统计中的新功用的完成过程中提升为一个新的专业术语。中提升为一个新的专业术语。可这样定义:可这样定义:将误差或抽样误差转化为标准化随机将误差或抽样误差转化为标准化随机变量变量 u、t或或q、SSR 的尺度(分母)。的尺度(分母)。它是概率统计和试验研究的结合点,它是概率统计和试验研究的结合点,是随机变量最关键的变异特征数,可以是是随机变量最关键的变异特征数,可以是标准差或标准误,也可以是与之相近的统标准差或标准
9、误,也可以是与之相近的统计量。试验统计中的核心问题就在于找到计量。试验统计中的核心问题就在于找到概率尺的准确数值。概率尺的准确数值。(千分数)(千分数)-51 -34 -17 0 17 34 51例例2.1:=147g=17g0.74680.09430.1689第6页,共34页,编辑于2022年,星期二第二节第二节 数据整理数据整理*对样本(或总体)的全部观察值进行分组(归类)并统计各类次数的对样本(或总体)的全部观察值进行分组(归类)并统计各类次数的过程叫做数据整理,其结果通常都以次数分布表(或图)的形式体现出来。过程叫做数据整理,其结果通常都以次数分布表(或图)的形式体现出来。当样本(或总
10、体)的观察值较多时,进行数据整理一方面可以更直观当样本(或总体)的观察值较多时,进行数据整理一方面可以更直观地描述变量取值的分布规律,另一方面便于用加权法计算数据的特征数。地描述变量取值的分布规律,另一方面便于用加权法计算数据的特征数。数据的特征数包括(总体或样本)平均数和(总体或样本)标准差,数据的特征数包括(总体或样本)平均数和(总体或样本)标准差,还可以是标准误,标准差和标准误(平均数的标准差)都是反映数据变异还可以是标准误,标准差和标准误(平均数的标准差)都是反映数据变异性的数量指标,各自蕴藏着误差和抽样误差(如样本平均数和真值的差异)性的数量指标,各自蕴藏着误差和抽样误差(如样本平均
11、数和真值的差异)变异幅度的信息,但它们决非(抽样)误差本身。变异幅度的信息,但它们决非(抽样)误差本身。间断性数据(含质量性状的指标)大多可依据其性状自然归组。间断性数据(含质量性状的指标)大多可依据其性状自然归组。连续性数据则需要人为地进行分组,方法是先根据观察值(也称原始连续性数据则需要人为地进行分组,方法是先根据观察值(也称原始数据)的个数确定大致的组数,然后按数据的极差范围计算组距、调整组数据)的个数确定大致的组数,然后按数据的极差范围计算组距、调整组数,最后依最大的观察值和最小的观察值确定组限。数,最后依最大的观察值和最小的观察值确定组限。第7页,共34页,编辑于2022年,星期二第
12、第二二节节 数数据据整整理理 继继续续按按贝贝努努利利概概型型分分析析五五粒粒以以上上种种子子发发芽芽的的统统计计概概率率分分布布,绘绘成成条条形形图图。可可以以看看出出,服服从从二二项项分分布布的的间间断断性性变变量量不不论论 p 是是否否等等于于 q,只只要要 n 足足够够大大,则则所所得得到到的的概概率率分分布布条条形形图图显显示示的的概概率率函函数数值值总总是是以以其其中中间间的的某某一一、两两项项为为最最大大,而而后后往往两两边边依依次次递递减减,当当 n 越越来来越越大大时时,概概率率分分布布图图也也是是愈愈趋趋对对称称,和和上上一一节节连连续续性性变变量量表表现现出出来来的的频频
13、率率(或或次次数数)分分布布规规律律殊殊途途同同归归,呈呈现现出出两两头头低低、中中间间高高的的变变化化模模式式。这这正正说说明明间间断断性性变变量量和和连连续续性性变变量量存存在在着着某某种种必必然然的的联联系系,正正态态分分布布本本身身及及其其发发现现和和重重新新发发现现的的过过程程就就是是这这种种联联系系的的最最好好证证明明。第8页,共34页,编辑于2022年,星期二第二节第二节 数据整理数据整理第9页,共34页,编辑于2022年,星期二第二节第二节 数据整理数据整理 例例2.2是由一个样本整理出的次数分布结是由一个样本整理出的次数分布结果,为反映果,为反映“行长行长4尺的水稻产量尺的水
14、稻产量”这种和例这种和例2.1“单果重单果重”一样的连续性变量取值的分布一样的连续性变量取值的分布特征,将它绘制成频率分布(面积)图如右。特征,将它绘制成频率分布(面积)图如右。可以看出,该图虽然是用面积表示频率,可以看出,该图虽然是用面积表示频率,但其特征显然是概率分布的反映。由于类似但其特征显然是概率分布的反映。由于类似这种通过样本间接描述变量概率分布特征的这种通过样本间接描述变量概率分布特征的大量事实都证明大量事实都证明“两头低,中间高两头低,中间高”的概率分的概率分布规律普遍存在,寻找这一分布的理论函数布规律普遍存在,寻找这一分布的理论函数也就成了正态分布作为第一个发现的理论分也就成了
15、正态分布作为第一个发现的理论分布的契机。布的契机。(千分数)(千分数)例例2.2n=140 =158g S=36g第10页,共34页,编辑于2022年,星期二第三节第三节 正态分布正态分布fN(y)N(,2)-3 -2 -+2 +3-3 -2 -1 0 1 2 3y y-第11页,共34页,编辑于2022年,星期二第三节第三节 正态分布正态分布一、正态分布的概率函数一、正态分布的概率函数二、正态分布概率函数曲线的特性二、正态分布概率函数曲线的特性 对称性:绝对值相等的正负误差出对称性:绝对值相等的正负误差出现的机会(概率)均等。现的机会(概率)均等。讨论:讨论:这里提到误差取某个这里提到误差取
16、某个“值值”的概的概率问题,也就是连续性变量取某个观察值率问题,也就是连续性变量取某个观察值的概率究竟有没有意义?的概率究竟有没有意义?高等数学论及连续性变量取某一个实高等数学论及连续性变量取某一个实数的概率时,都认定是在概率函数图中用数的概率时,都认定是在概率函数图中用某个点上的垂线求面积,无疑应该等于某个点上的垂线求面积,无疑应该等于“0”。但应用中获得的观察值不能简单地理但应用中获得的观察值不能简单地理解为解为“一个一个”实数,而应当视为在精度有限实数,而应当视为在精度有限的条件下,由最后一位有效数字按四舍五的条件下,由最后一位有效数字按四舍五入规则决定的虽然小却确实存在的区间。入规则决
17、定的虽然小却确实存在的区间。N(0,2)fN(y-)-3-2 0 2 3 y-第12页,共34页,编辑于2022年,星期二第三节第三节 正态分布正态分布 钟形:简称钟形:简称“两头低,中间高两头低,中间高”,即,即 fN(y)从)从+和和-两个远端朝接近两个远端朝接近的方的方向递增(并在向递增(并在“拐点拐点”处曲线由处曲线由“凹凹”转转“凸凸”),),表明绝对值小的误差出现的表明绝对值小的误差出现的 概率大,绝对概率大,绝对值大的误差出现的值大的误差出现的 概率小。概率小。非负性:非负性:fN(y)0,即曲线总在,即曲线总在横坐标轴上方,两尾以横轴为渐进线,和横坐标轴上方,两尾以横轴为渐进线
18、,和横轴围成的总面积就是横轴围成的总面积就是P()=1。特异性:随机变量的两个参数特异性:随机变量的两个参数和和分别决定分别决定fN(y)曲线的位置和形状,表)曲线的位置和形状,表明正态分布是一组曲线系统。明正态分布是一组曲线系统。N(,2)fN(y-)-3-2 0 2 3 y-第13页,共34页,编辑于2022年,星期二第三节第三节 正态分布正态分布0.50000.1586 -2 -+2 y -2 -0 2 y-(u)fN(y-)fN(y)-2 -1 0 1 2 u第14页,共34页,编辑于2022年,星期二第三节第三节 正态分布正态分布0.68270.13590.02270.1586 fN
19、(y)(=0 =1)N(0,1)(u)u第15页,共34页,编辑于2022年,星期二第三节第三节 正态分布正态分布=0=1=2 标准差(标准差(=1)相同而平均数各不相相同而平均数各不相同的三种情形同的三种情形fN(y)y第16页,共34页,编辑于2022年,星期二第三节第三节 正态分布正态分布=1=1.5=2 平均数(平均数(=0)相同而标准差各不相相同而标准差各不相同的三种情形同的三种情形fN(y)y第17页,共34页,编辑于2022年,星期二第三节第三节 正态分布正态分布三、标准分布的累积函数三、标准分布的累积函数 例例2.3 假定假定 y N(,2),),=30,=5,试计算:,试计算
20、:P(y26)、)、P(y40)、)、P(26y40)和)和 P(y40)。)。解:根据附表解:根据附表2查得的查得的(u)即标准分布曲线的左尾面积(概率)即标准分布曲线的左尾面积(概率)P(y26)=FN(26)=(2630)5=(-0.8)=0.2119P(y40)=FN(40)=(4030)5=(2.0)=0.9773 P(26y40)=FN(40)FN(26)=0.7654 P(y40)=1 FN(40)=1 0.9773=0.0227 由此例可得到正确使用附表由此例可得到正确使用附表2的口诀:小于某数直接查,大于的口诀:小于某数直接查,大于某数某数 1 减它;区间概率大减小,两边临界
21、一反查。减它;区间概率大减小,两边临界一反查。例例2.4 给定中间概率为给定中间概率为0.90或或0.95时,时,u 值应等于多少?值应等于多少?第18页,共34页,编辑于2022年,星期二第三节第三节 正态分布正态分布26400.21190.76540.0227yfN(y)第19页,共34页,编辑于2022年,星期二第三节第三节 正态分布正态分布0.900.0250.0250.05 fN(y)(=0 =1)N(0,1)(u)u第20页,共34页,编辑于2022年,星期二第三节第三节 正态分布正态分布 到此为止,本章内容的讲授已顺着变量到此为止,本章内容的讲授已顺着变量连续性变量连续性变量误差
22、的路径完成误差的路径完成了知识结构由概率论(正概率)了知识结构由概率论(正概率)统计学(逆概率)的转变,其内容也统计学(逆概率)的转变,其内容也由由“描述变量的概率分布描述变量的概率分布”“推断误差变量(任一区间)取值的概率推断误差变量(任一区间)取值的概率”。在学习下一节内容之前,请一定先记牢三个要点:在学习下一节内容之前,请一定先记牢三个要点:将第一章树立的研究随机变量的思想深化到研究连续性变量的层次,且不论用将第一章树立的研究随机变量的思想深化到研究连续性变量的层次,且不论用 y(教教材材)还是用还是用 x(电算器电算器)表示单个变量,都不可看成未知常数;表示单个变量,都不可看成未知常数
23、;描述连续性变量的概率分布的侧重点与间断性变量的方式不一样,后者描述连续性变量的概率分布的侧重点与间断性变量的方式不一样,后者 可用贝努利概型按牛顿二项展开式的第可用贝努利概型按牛顿二项展开式的第 y+1 项计算其任一取值的概率,项计算其任一取值的概率,而前者实际需要了解的是其取值在某些连续的实数区间的概率;而前者实际需要了解的是其取值在某些连续的实数区间的概率;参数参数和和已分别用作总体平均数和总体标准差的通用符号,也可以称之为变量的平已分别用作总体平均数和总体标准差的通用符号,也可以称之为变量的平均数和变量的标准差,还可称之为分布的平均数和分布的标准差。用正态分布描述均数和变量的标准差,还
24、可称之为分布的平均数和分布的标准差。用正态分布描述误差的概率分布时可以不知道误差的概率分布时可以不知道的数值,但必的数值,但必 须知道须知道的准确值,因为的准确值,因为 S 本身不能用作描述误差概率分布的尺度。本身不能用作描述误差概率分布的尺度。第21页,共34页,编辑于2022年,星期二第四节第四节 抽样分布抽样分布 例例2.5 给定一有限总体给定一有限总体2,4,6,即即N=3,=4,2=8/3;现从中以;现从中以n=2进行进行复置抽样,则所有可能的样本数为复置抽样,则所有可能的样本数为 Nn=9个,计算各样本的统计量并整理成右表个,计算各样本的统计量并整理成右表。解解 视视为变量的衍生总
25、体参数:为变量的衍生总体参数:=/Nn=369=4 2=156 36 2 9/9=4/3 视视y为变量的衍生总体参数:为变量的衍生总体参数:y=(y)/Nn=729=8 2y=624 72 2 9/9=16/3 以上两个衍生总体均由以上两个衍生总体均由“一切可能的抽一切可能的抽样观察结果组成样观察结果组成”,可以想象得到,但,可以想象得到,但“看看不见,也摸不着不见,也摸不着”,并且实际应用中遇到,并且实际应用中遇到的多为无限总体。的多为无限总体。观察值 y 2(y)2 2 2 2 4 4 16 2 4 3 6 9 36 2 6 4 8 16 64 4 2 3 6 9 36 4 4 4 8 1
26、6 64 4 6 5 10 25 100 6 2 4 8 16 64 6 4 5 10 25 100 6 6 6 12 36 14436 72156 624第22页,共34页,编辑于2022年,星期二第四节第四节 抽样分布抽样分布复置抽样时总体和随机样本的关系复置抽样时总体和随机样本的关系n=1n=2第23页,共34页,编辑于2022年,星期二第四节第四节 抽样分布抽样分布 前例可归纳出抽样研究的部分结论:前例可归纳出抽样研究的部分结论:由由Nn个个构成的衍生总体;构成的衍生总体;N(,2)且有:)且有:=,2=2/n 并有:并有:u=()由由Nn个个y构成的衍生总体;构成的衍生总体;y N(
27、y ,2y )且有:)且有:y=n,2y=n2 又有:又有:u=(y y)y 和和表明抽样分布的类型实质上表明抽样分布的类型实质上 还是正态分布,只是其变量特殊罢了。还是正态分布,只是其变量特殊罢了。只有以自由度只有以自由度 n 1算得的样本方差算得的样本方差S2 才是才是2 的无偏估计值。的无偏估计值。(但(但 S 不是不是的无偏估计值)的无偏估计值)观察值观察值 y S2 2 (y)2 2 2 2 4 0 4 16 2 4 3 6 2 9 36 2 6 4 8 8 16 64 4 2 3 6 2 9 36 4 4 4 8 0 16 64 4 6 5 10 2 25 100 6 2 4 8
28、8 16 64 6 4 5 10 2 25 100 6 6 6 12 0 36 14436 72 24 156 624 (S2/Nn=24 9=8/3=2)第24页,共34页,编辑于2022年,星期二第四节第四节 抽样分布抽样分布 例例2.6 调查调查336个平方米的小地老虎个平方米的小地老虎虫危害结果,虫危害结果,=4.73头头,=2.63头。头。求抽样求抽样 n=30时时 4.37头的概率。头的概率。解解 由上述结论由上述结论知,须先求标准误:知,须先求标准误:=/n=2.6330=0.48头头 u=()/n=-0.75 =(4.374.73)0.48 P(4.37)=(-0.75)=0.
29、2266 查附表查附表2表明本例所求结果实际为表明本例所求结果实际为获得获得|-0.36|这种抽样误差的两尾概率这种抽样误差的两尾概率(之和)为(之和)为20.2266=0.4532。fN()n=1n=4n=9第25页,共34页,编辑于2022年,星期二第四节第四节 抽样分布抽样分布 回眸例回眸例2.1求获得抽样误差的概率:求获得抽样误差的概率:=147g,=17g,N=509;=148.84 g,S=14.23g,n=25解解 按惯例所求两尾概率即抽样误差按惯例所求两尾概率即抽样误差的绝对值达到的绝对值达到1.84的概率,因此有:的概率,因此有:=/n=1725=3.4g u=1.84/n=
30、0.54 反查附表反查附表3或顺查附表或顺查附表2可得:可得:P(|1.84)=P(|u|0.54)=2 P(u -0.54)=2(-0.54)=2 0.2946=0.5892 0.59 以上两例已由总体标准差以上两例已由总体标准差深化到总深化到总体标准误体标准误,使连续性变量的概率分布研使连续性变量的概率分布研究从误差究从误差y 升华到抽样误差升华到抽样误差,即即。但这还不够,历史上也没有因此避免但这还不够,历史上也没有因此避免正态分布在应用上的危机,因为要获得正态分布在应用上的危机,因为要获得的准确数值,其难度比的准确数值,其难度比大得多。到大得多。到1908年年W.S.Gosset公开发
31、表一篇论文才使抽样公开发表一篇论文才使抽样误差的研究走出应用上的困境。误差的研究走出应用上的困境。如例如例2.1中定义样本标准误中定义样本标准误S=S/n,则可将抽样误差转换成另一个标准化变量则可将抽样误差转换成另一个标准化变量t=()S/n=1.84 2.85=0.65 查附表查附表4可知获得可知获得1.84的两尾概率的两尾概率当在当在0.5以上(以上(n1=24)。)。第26页,共34页,编辑于2022年,星期二第四节第四节 抽样分布抽样分布 例例2.7 假定第一总体假定第一总体2,4,6,N1=3,1=4,12=8/3;第二总体;第二总体3,6,N2=2,2=4.5,22=9/4。现从中
32、分别以。现从中分别以n1=2和和n2=3进行复置抽样进行复置抽样,试研究试研究1-2抽样分布。抽样分布。解解 来自两个母总体的来自两个母总体的之差数之差数1-2构成的构成的衍生总体容量衍生总体容量N1 n1 N2 n2=9 8=72,其全,其全部可能的取值及次数分布列表如右部可能的取值及次数分布列表如右,按数据整按数据整理时用过的加权法计算其参数如下理时用过的加权法计算其参数如下:1-2=f(1-2)f =-36/72 =1-2=1-2=-0.5 2 1-2=f(1-2 +0.5)2/f=150/72 =2 1+2 2=12 /n1+22/n2 =8/32 +9/43=25/121-2 ff(
33、1-2)e2f e2 -4 1 -412.2512.25 -3 5 -15 6.2531.25 -212 -24 2.2527.00 -118 -18 0.25 4.5 018 0 0.25 4.5 1 12 12 2.2527.00 2 5 10 6.2531.25 3 1 312.2512.25 72 -36150e=(1-2)1-2=(1-2)(1-2)第27页,共34页,编辑于2022年,星期二第四节第四节 抽样分布抽样分布复置抽样时总体和随机样本的关系复置抽样时总体和随机样本的关系n=1n=2n=3第28页,共34页,编辑于2022年,星期二第四节第四节 抽样分布抽样分布复置抽样后差
34、数复置抽样后差数1-2构造衍生总体示意图构造衍生总体示意图第29页,共34页,编辑于2022年,星期二第四节第四节 抽样分布抽样分布 由例由例2.7针对针对“平均数的差数平均数的差数”1-2进行的抽样进行的抽样研究结果,实际上也是中心极限定理内容之一:研究结果,实际上也是中心极限定理内容之一:1-2 N(1-2,2 1-2),于是又有:),于是又有:u=(1-2)1-2 1-2 =(1-2)(1-2)/(12/n1+22/n2)可见,来自两个母总体的差数可见,来自两个母总体的差数1-2与其真值与其真值1-2的抽样误差的抽样误差e取值的概率分布也可以用正态取值的概率分布也可以用正态分布来描述,当
35、两个母总体的参数已知时,同样分布来描述,当两个母总体的参数已知时,同样可以转化为用标准分布求算概率。可以转化为用标准分布求算概率。只是因为实际应用中遇到的多为两个母总体只是因为实际应用中遇到的多为两个母总体参数未知的情况,所以差数的抽样误差无法转化参数未知的情况,所以差数的抽样误差无法转化成正态离差成正态离差 u 而只能转化成另一个标准化离差而只能转化成另一个标准化离差 t,即:即:t=(1-2)1-2 S1-2,其中,其中S1-2叫差数的样本标准误,由叫差数的样本标准误,由S1 2、S2 2算出,算出,并且计算公式和差数的总体标准误相类似。并且计算公式和差数的总体标准误相类似。关于关于“差数
36、的抽样差数的抽样”还有不同于两个独还有不同于两个独立样本的抽样研究,也就是从一个参数立样本的抽样研究,也就是从一个参数2既定的母总体中随机抽取容量相同既定的母总体中随机抽取容量相同的两个样本,若将两者的观察值随机配的两个样本,若将两者的观察值随机配对,则配对观察值差数对,则配对观察值差数 d 将服从正态分将服从正态分布,即布,即 d N(d,2d),且且d=0,2d=22;继续研究;继续研究“差数的平均数差数的平均数”,即即d/n=,根据例,根据例2.5所述中心极限所述中心极限定理结论定理结论有:有:N(,2),且且=d=0,2 =2d/n=22/n。u=()/=/(22/n)于是,当参数于是
37、,当参数2 未知时,同理应有:未知时,同理应有:t=()/S=/Sd/n第30页,共34页,编辑于2022年,星期二第五节第五节 二项总体抽样二项总体抽样一、二项总体参数一、二项总体参数 本节是针对一类特殊的母总体进行抽本节是针对一类特殊的母总体进行抽样研究,这类总体内的个体不管有多少个,样研究,这类总体内的个体不管有多少个,都可按某种性状出现与否分为两组,故称都可按某种性状出现与否分为两组,故称二项总体。将其中出现某种性状的个体的二项总体。将其中出现某种性状的个体的观察值定为观察值定为“1”,否则定为,否则定为“0”。若已知二项总体的个体有若已知二项总体的个体有N个,出现个,出现某种性状的概
38、率为某种性状的概率为p,则其参数计算如下:,则其参数计算如下:=fy/N=Np/N=p 2=f(y)2/N=Np(1-p)/N=pq 可见二项总体的两个参数可见二项总体的两个参数,2都由平均都由平均数数p(即个体出现某种性状的概率即个体出现某种性状的概率)唯一确定。唯一确定。二、衍生总体参数二、衍生总体参数 从二项总体中以样本容量从二项总体中以样本容量 n 进行复置抽样,进行复置抽样,根据前述中心极限定理的有关结论,同样有:根据前述中心极限定理的有关结论,同样有:或或p N(,2)且:且:=p,2=2p=2/n=pq/n y或或np N(y ,2y )且:且:y=n=np,2y=2np=n2=
39、npq于是于是 u=()/=(p p)/pq/nu=(y y)/y=(np np)/npqy f f yy-f(y)2 1 Np Np1-pNp(1-p)2 0N(1-p)0-pN(1-p)p2 N Np Np(1-p)第31页,共34页,编辑于2022年,星期二第五节第五节 二项总体抽样二项总体抽样 例例2.8 假定调查某地全部棉株受盲椿危假定调查某地全部棉株受盲椿危害的情况,发现害的情况,发现704株受害,且株受害,且 N=2000,得得=0.352,=0.4776;现从中以;现从中以n=200抽取一个样本,知受害株数抽取一个样本,知受害株数np=74,受害,受害率率p=0.37,试计算获
40、此抽样误差的概率。,试计算获此抽样误差的概率。解解 依题意应求依题意应求P(|p p|0.018)p=/n=0.4776200=0.034原式原式=P(|u|-0.53)=2 P(u -0.53)=2(-0.54)=20.2981=0.5962 依题意也可求依题意也可求P(|np np|3.6)np=n =npq=6.754 u=(np np)/npq =(74 70.4)/6.754=-0.53 习题习题 给定一个二项总体给定一个二项总体 0,1,0,0,1,1,0,1,1,0现从中以现从中以 n=4进行复置抽样进行复置抽样,则分析如下则分析如下:y或np 0 1 2 3 4或p 00.25
41、 0.50.75 1.0f(y)1/164/166/164/161/16 f ff()2 0 625 0-0.5 156.250.252500 625-0.25 156.250.537501875 0 00.7525001875 0.25 156.25 1 625 625 0.5 156.25 10 45000 0 625第32页,共34页,编辑于2022年,星期二第二章内容小结第二章内容小结一组数据就相当与研究某一随机变量时从总体中抽得的部分个体组成的一组数据就相当与研究某一随机变量时从总体中抽得的部分个体组成的 样本观察值,叫试验数据,也叫原始数据;样本观察值,叫试验数据,也叫原始数据;连
42、续性数据的整理结果反映了连续性变量取值的概率分布特征,即连续性数据的整理结果反映了连续性变量取值的概率分布特征,即“两头两头 低,中间高低,中间高”,进一步的研究发现,这是一个带有普遍性的规律,叫正态,进一步的研究发现,这是一个带有普遍性的规律,叫正态 分布,其中的参数分布,其中的参数和和完整地描述了这类变量的数字特征;完整地描述了这类变量的数字特征;用标准正态分布计算误差任意区间取值的概率还不是最终目的,研究抽用标准正态分布计算误差任意区间取值的概率还不是最终目的,研究抽 样误差的概率分布才符合实际需要,计算获得某个抽样误差(绝对值)样误差的概率分布才符合实际需要,计算获得某个抽样误差(绝对
43、值)的两尾概率能表明所获样本平均数的两尾概率能表明所获样本平均数 的可靠程度;的可靠程度;抽样分布也就是样本统计量的概率分布,如果母总体参数抽样分布也就是样本统计量的概率分布,如果母总体参数和和已知,已知,或者加上抽样容量或者加上抽样容量 n 足够大,就仍然用正态分布来描述;否则,就只有足够大,就仍然用正态分布来描述;否则,就只有 利用样本标准误利用样本标准误 S/n 将抽样误差将抽样误差()转换成另一个标准化随机变转换成另一个标准化随机变 量来描述,这就是下一章将要介绍的服从量来描述,这就是下一章将要介绍的服从 t 分布的标准化离差。分布的标准化离差。第33页,共34页,编辑于2022年,星期二随机变量类型多样化及其内容深化的过程随机变量类型多样化及其内容深化的过程变量符号正态分布描述正态离差转换公式y(或x)y N(,2)(y )N(,2)()/nyy N(y ,2y )(y n)n 1-21-2 N(1-2,2 1-2)(1-2)(1-2)(12/n1+22/n2)pp N(,2)(p p)/(pq/n)第34页,共34页,编辑于2022年,星期二
限制150内