《标准差的意义.doc》由会员分享,可在线阅读,更多相关《标准差的意义.doc(5页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、【精品文档】如有侵权,请联系网站删除,仅供学习与交流标准差的意义.精品文档.标准差的意义用平均数作为样本的代表,其代表性的强弱受样本资料中各观测值变异程度的影响。如果各观测值变异小,则平均数对样本的代表性强;如果各观测值变异大,则平均数代表性弱。因而仅用平均数对一个资料的特征作统计描述是不全面的,还需引入一个表示资料中观测值变异程度大小的统计量。全距(极差)是表示资料中各观测值变异程度大小最简便的统计量。全距大,则资料中各观测值变异程度大,全距小,则资料中各观测值变异程度小。但是全距只利用了资料中的最大值和最小值,并不能准确表达资料中各观测值的变异程度,比较粗略。当资料很多而又要迅速对资料的变
2、异程度作出判断时,可以利用全距这个统计量。为了准确地表示样本内各个观测值的变异程度,人们首先会考虑到以平均数为标准,求出各个观测值与平均数的离差,即(),称为离均差。虽然离均差能表达一个观测值偏离平均数的性质和程度,但因为离均差有正、有负,离均差之和为零,即()=0,因而不能用离均差之和()来表示资料中所有观测值的总偏离程度。为了解决离均差有正、有负,离均差之和为零的问题,可先求离均差的绝对值并将各离均差绝对值之和除以观测值n求得平均绝对离差,即|/n。虽然平均绝对离差可以表示资料中各观测值的变异程度,但由于平均绝对离差包含绝对值符号,使用很不方便,在统计学中未被采用。我们还可以采用将离均差平
3、方的办法来解决离均差有正、有负,离均差之和为零的问题。先将各个离均差平方,即 ()2,再求离均差平方和,即,简称平方和,记为SS;由于离差平方和常随样本大小而改变,为了消除样本大小的影响,用平方和除以样本大小,即,求出离均差平方和的平均数;为了使所得的统计量是相应总体参数的无偏估计量,统计学证明,在求离均差平方和的平均数时,分母不用样本含量n,而用自由度n-1,于是,我们采用统计量表示资料的变异程度。统计量称为均方(mean square缩写为MS),又称样本方差,记为S2,即S2= (39)相应的总体参数叫总体方差,记为2。对于有限总体而言,2的计算公式为: 2)2/N (310)由于样本方
4、差带有原观测单位的平方单位,在仅表示一个资料中各观测值的变异程度而不作其它分析时,常需要与平均数配合使用,这时应将平方单位还原,即应求出样本方差的平方根。统计学上把样本方差S2的平方根叫做样本标准差,记为S,即: (3-11)由于所以(3-11)式可改写为: (3-12)相应的总体参数叫总体标准差,记为。对于有限总体而言,的计算公式为:= (3-13)在统计学中,常用样本标准差S估计总体标准差。简单来说,标准差是一组数据平均值分散程度的一种度量。一个较大的标准差,代表大部分数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值。如是总体,标准差公式根号内除以n;如是样本,标准差
5、公式根号内除以(n-1)因为我们大量接触的是样本,所以普遍使用根号内除以(n-1)二、标准差的计算方法(一)直接法 对于未分组或小样本资料,可直接利用(311)或(3-12)式来计算标准差。 【例3.9】 计算10只辽宁绒山羊产绒量:450,450,500,500,500,550,550,550,600,600,650(g)的标准差。此例n=10,经计算得:x=5400,x2=2955000,代入(312)式得:(g)即10只辽宁绒山羊产绒量的标准差为65.828g。(二)加权法 对于已制成次数分布表的大样本资料,可利用次数分布表,采用加权法计算标准差。计算公式为: (314)式中,f为各组次
6、数;x为各组的组中值;f = n为总次数。【例3.10】 利用某纯系蛋鸡200枚蛋重资料的次数分布表(见表3-4)计算标准差。将表3-4中的f、fx、fx2代入(314)式得:(g)即某纯系蛋鸡200枚蛋重的标准差为3.5524g。表34 某纯系蛋鸡200枚蛋重资料次数分布及标准差计算表组别组中值(x)次数(f)fxfx244.1545.03135.06075.045.8546.76280.213085.3447.5548.416774.437480.9649.2550.1221102.255220.2250.9551.8301554.080497.2052.6553.5442354.0125
7、939.0054.3555.2281545.085317.1256.0556.9301707.097128.3057.7558.612703.241207.5259.4560.35301.518180.4561.1562.04248.015376.00合计 f=200 fx=10705.1 fx2=575507.11三、标准差的特性 (一)标准差的大小,受资料中每个观测值的影响,如观测值间变异大,求得的标准差也大,反之则小。(二)在计算标准差时,在各观测值加上或减去一个常数,其数值不变。(三)当每个观测值乘以或除以一个常数a,则所得的标准差是原来标准差的a倍或1/a倍。(四)在资料服从正态分布
8、的条件下,资料中约有68.26%的观测值在平均数左右一倍标准差(S)范围内;约有95.43%的观测值在平均数左右两倍标准差(2S)范围内;约有99.73%的观测值在平均数左右三倍标准差(3S)范围内。也就是说全距近似地等于6倍标准差,可用()来粗略估计标准差。第三节 变异系数变异系数是衡量资料中各观测值变异程度的另一个统计量。当进行两个或多个资料变异程度的比较时,如果度量单位与平均数相同,可以直接利用标准差来比较。如果单位和(或)平均数不同时,比较其变异程度就不能采用标准差,而需采用标准差与平均数的比值(相对值)来比较。标准差与平均数的比值称为变异系数,记为CV。变异系数可以消除单位和(或)平
9、均数不同对两个或多个资料变异程度比较的影响。变异系数的计算公式为: (315)【例3.11】 已知某良种猪场长白成年母猪平均体重为190kg,标准差为10.5kg,而大约克成年母猪平均体重为196kg,标准差为8.5kg,试问两个品种的成年母猪,那一个体重变异程度大。此例观测值虽然都是体重,单位相同,但它们的平均数不相同,只能用变异系数来比较其变异程度的大小。由于,长白成年母猪体重的变异系数:大约克成年母猪体重的变异系数:所以,长白成年母猪体重的变异程度大于大约克成年母猪。注意,变异系数的大小,同时受平均数和标准差两个统计量的影响,因而在利用变异系数表示资料的变异程度时,最好将平均数和标准差也
10、列出。自由度(degree of freedom, df): 统计学上的自由度是指当以样本的统计量来估计总体的参数时, 样本中独立或能自由变化的资料的个数。首先,在估计总体的平均数时,由于样本中的 n 个数都是相互独立的,从其中抽出任何一个数都不影响其他数据,所以其自由度为n。在估计总体的方差时,使用的是离差平方和。只要n-1个数的离差平方和确定了,方差也就确定了;因为在均值确定后,如果知道了其中n-1个数的值,第n个数的值也就确定了。这里,均值就相当于一个限制条件,由于加了这个限制条件,估计总体方差的自由度为n-1。【估计量的数学期望等于被估计参数,则称此为无偏估计(无偏估计就是系统误差为零
11、的估计)】*中位数(Median)统计学名词,是指将统计总体当中的各个变量值按大小顺序排列起来,形成一个数列,处于变量数列中间位置的变量值就称为中位数,用Me表示。当变量值的项数N为奇数时,处于中间位置的变量值即为中位数;当N为偶数时,中位数则为处于中间位置的2个变量值的平均数。(注意:中位数和众数不同,中位数不一定在这组数据中,而众数必定在该组数据)1、意义:反映了一组数的一般情况。从中位数的定义可知,所研究的数据中有一半小于中位数,一半大于中位数。 2、中位数的优缺点:中位数是样本数据所占频率的等分线,它不受少数几个极端值的影响,有时用它代表全体数据的一般水平更合适。 3、在频率分布直方图中,中位数左边和右边的直方图的面积应该相等,由此可以估计中位数的值。4、中位数也可表述为第50百分位数,二者等价。 5、直观印象描述:一半比“我”小,一半比“我”大。众数(Mode):再一组数据中出现次数最多的数叫做这组数据的众数。(众数可以不存在或多于一个)。
限制150内