2022年第章描述统计 .pdf
1 补充材料:累计求和运算规则求和算子定义:对于T 个观测值, x1, x2, , xT,求和可以简化地表示为x1 + x2 + + xT = Tttx1其中)(称作求和算子。求和算子的运算规则如下: 变量观测值倍数的和等于变量观测值和的倍数。Tttkx1= kTttx1 两个变量观测值和的总和等于它们分别求总和后再求和。Ttttyx1)(= Tttx1+Ttty1 T 个常数求和等于该常数的T 倍。Ttk1= kT其中 k 是常数。定义双重求和为TjijTix11= Ti 1(xi1 + xi 2 + + xiT) = (x11 + x12 + + x1T) + (x21 + x22 + + x2T) + + (xT1 + xT2 + + xTT) 两个变量和的双重求和等于它们各自双重求和的和。TjijijTiyx11)(= TjijTix11+TjijTiy11 两个不同单下标变量积的双重求和等于它们各自求和的乘积。TjjiTiyx11= (Tiix1) (Tjjy1) 证:TjjiTiyx11= TiTiyyyx121).(= (Tiix1) (Tjjy1) 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 13 页 - - - - - - - - - 2 第 3 章统计资料的综合( Data Summarization )用频数分布表与统计图可以展示数据分布的大概特征。为更准确的描述数据的特征,有必要用一些数值描述一组数据的特征,称这些数值为特征数 。特征数分三类:(1)表示集中位置; (2)表示分散程度; (3)表示偏斜程度; (4)相关程度。3.1 表示集中位置的特征数:(1)平均数;(算术平均数,几何平均数,调和平均数)(2)中位数;(3)众数;(4)百分位数;3.1.1 平均数(1)算术平均数 (Arithmetic mean )对于不分组数据算术平均数 定义:一组数据, (x1, x2, , xn) ,容量为n,则算术平均数x 表示为x = nxxxn.21=n1niix1(1) 例 1:5 个学生的英语考试分数是80, 70, 85, 90, 82 。则平均考试分数x =59085828070= 81.4 算术平均数的性质:观测值的和等于其平均数与观测值个数的乘积。对(1)式两侧同乘n 得,ix= n x说明 x 有代表性。若不考虑xi的差异。用x代替 xi,并乘 n,则总和相等。所以人们常用x描述数据。如平均年龄,平均工资等。一组观测值与其平均数的离差和等于零。)(1xxnii= 0 证:)(1xxnii=xxi= ix- n x= 0(利用性质)此性质以后常常用到。xi与某一定值A 的离差平方和niix1(- A)2 以 A =x时为最小。证:niix1(- A)2 =)(1xxnii+ ( x- A) 2 =)(1xxnii2 + 2 ( x- A) )(1xxnii+ 21)(Axni名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 13 页 - - - - - - - - - 3 =2)(xxi+ 2)(Axn可见只有当x= A 时,方程左端2)(Axi的值才最小。当数据为分组形式时,xikiixfn11=n1(f1x1 + f2 x2+ + fk xk ) (2) 其中: k为分组数; x i为第 i 组的组中值; fi 为观测值落入第i 组的频数; n 为观测值总个数, n = f1 + f2 + + fk。分组数据形式下求得的平均数,只是用原始数据计算的x的近似值。 只有当各组中值与相应组内观测值的平均值全相等时,(1) 、 (2)式的计算结果才相等。因此,只要条件允许,应该用原始数据直接计算。当n很大时,由(2)式计算的x 的误差会减小。例 2:见 30 页例 2。例 2:见第 2 章例 2,婴儿体重分组数据分布表如下:体重(克)频数组中值24002700 以下2 2550 27003000 以下3 2850 30003300 以下8 3150 33003600 以下5 3450 36003900 以下2 3750 x =2037502.2850325502= 3180 若用原始数据直接计算(见第2章例 2,北京妇产科医院新生儿体重分布)x =203860.26202440= 3149 (2)几何平均数 (Geometric mean)当数据是以环比形式给出时,应该用几何平均数求该数据的平均递增率。定义:一组环比数据r1, r2, , rn(容量为n) ,则几何平均数G = nnrrr,.,21(3) 例 3:有天津市“六五”期间工农业总产值环比指数如下年份环比指数1980 1.000 1981 1.059 1982 1.069 1983 1.082 1984 1.116 1985 1.157 G = 5157.1116.1082.1069.1059. 1= 1.096 即 19801985 期间年平均年增长率为9.6%。注意 :开方数 n 不要用错。几何平均数的性质:名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 13 页 - - - - - - - - - 4 1 r1r2 rn= G G G(共 n 个)对于环比数据,几何平均数G 有代表性。若r0期观测值为x0,则x0r1r2rn= x0G nn 个 G 与 x0相乘与 r1r2rn与 x0相乘的值相等。(3)调和平均数 (Harmonic mean )当一组数据表示不同比率时,若求平均变化率应该用调和平均数。它是各观测值倒数的算术平均数的倒数。调和平均数 定义:设有一组n 个观测值x1, x2, , xn,则调和平均值H 定义如下:H = nxxxn)1(.)1()1(121=)1(.)1()1(21nxxxn(4) 注意 :这里各数据所赋的权相等。例 4:市场上某种蔬菜早晨价格为X1 = 0.25 元/斤,中午X2 = 0.2 元/斤,晚上X3 = 0.1元/斤。若早、中、晚各买1 元钱的该种蔬菜,求这批蔬菜平均价格。解:要求平均价格应先知共花了多少钱,共买了多少菜。显然共花了3 元钱,共买了19 斤菜(早晨买1/0.25 = 4 斤,中午买1/0.2 = 5 斤,晚上买1/0.1=10 斤) 。H = 1.012. 0125.013= 193= 0.158 元/斤2中位数 (Median)算术平均数虽然有代表性,但当数据分布不均匀时,这种代表性显得很差。如观察班上 5 名学生的考试成绩如下:93,90,85,82,0,显然x= 5082859093= 70 没有代表性。因为这五个数据中,有四个值都大于70,说明受0 这个极端值影响太大。若没有 0 这个值,平均数应该是87.5。为避免这种影响,引出中位数的概念。中位数 定义( 1) :一组 n 个观测值,按数值大小排列如下。x1, x2, , xn,处于中央位置的数值称为 中位数 。用 Md 表示( Median)x(n+1)/2n 为奇数Md = (5) xn / 2 + x(n / 2)+1 / 2 n 为偶数例 5:对 5 名学生的考试分数(n 为奇数),则中位数Md = 85 , (比 70 更有代表性)。93,90,85,82,0 (因有 5 个数值, 5 为奇数。)例 6:设有一组数据如下(n 为偶数)x1,x2, x3, x4, x5, x6, (n = 6) 10 12 14 17 41 66 则Md =21( x 6 / 2 + x (6 / 2) + 1) =21( x3 + x4) =21714= 15.5 例 7:一组数据是3,9,6,1,5。哪个是中位数?名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 4 页,共 13 页 - - - - - - - - - 5 按上述要求排序,x1,x2, x3, x4, x5,n = 5 为奇数1 3 5 6 9 则Md = x(5+1) / 2 = x3 = 5,即中位数是5。中位数 定义( 2) :对于分组数据,Md 的计算公式如下:Md = L + hnn21(6) 其中: L 为中位数所在组的下限值n1为中位数所在组内,达到中位数所需频数。n 2为中位数所在组内,观测值总个(频)数。h 为该中位数所在组组距。例 8:把第 2 章例 2 中 20 个新生儿体重数据按从小到大顺序排列如下:2440,2620,2700,2880, 2900,3000,3020,3040,3080,3100,3180,3200,3200,3300,3420, 3440,3500,3500,3600,3860,求:Md (中位数),解: 1. 当数据不分组时,因为20 是偶数,Md = ( X20 / 2 + X(20 / 2) + 1)/2 = (X10 + X11) /2 = (3100+ 3180) / 2 = 3140 2. 作频数分布表图,把数据分成5 组分组频数 fi X i 24002700 以下2 2550 27003000 以下3 2850 30003300 以下8 3150 33003600 以下5 3450 36003900 以下2 3750 合计20 20 / 2 = 10, 中位数在第3 组,组频数 = 8。Md = L+hnn21= 3000+30085= 3187 例 9:1987 年 1%抽样调查全国人口,数据与分布图如下。年龄(岁)人数(万人)累计人数0100200020406080100120POPULATIONAGE0-10 以下195.2781 195.2781 10-20 以下248.1611 443.4329 20-30 以下195.8780 639.3172 30-40 以下161.0804 40-50 以下99.61830 50-60 以下85.61920 60-70 以下56.18770 70-80 以下27.38030 80-90 以下6.558400 90-100 以下0.359300 100-110 以下0.009900 合计1067.9307 数据的特点是分布不均。年轻人人数多,年老人人数少。平均年龄是28.8 岁。显然这个特征数偏高,不能十分满意地反映数据的特征。计算中位数如下。Md 落在第 3 组。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 5 页,共 13 页 - - - - - - - - - 6 Md = 20 +8780.1954392.4432/9307.106710 = 20 +8780.1955262.9010 = 24.6(岁)= 第 3 组下限 +(未足数 /第 3 组频数)第 3 组距。比平均数28.8 岁更有代表性。中位数性质 :(1) 当观测值出现重复的现象不很多时,中位数意味着比它小的观测值个数有一半,比它大的有一半。若有2 万农户的年家庭收入数值的中位数为2000 元,则知有一万户收入低于 2000 元,有一万户收入高于2000 元。(2) xi与某一定值A 的绝对离差和ni 1| xi - A| 以 A = Md 时取值最小,即ni 1| xi - Md | 取最小值。(3) 中位数不受极端值影响。(4) 中位数可看作是调整平均数的一种特殊形式。计算平均数时,排除了中间位置1 或2 个观测值以外的所有值。注意 :(1) 中位数指的是数据值(在横轴上),而不是观测值的频数,也不是秩数。(2) 求中位数之前,应先将观测值按大小排列。3众数 (Mode)众数 定义:在一组数据中,对应频数最大的那个观测值叫众数 ,用 Mo 表示。若为分组时,则只能说出众数所在组。例 9:某班 40 名学生的年龄统计如下:人数年龄(岁)人数19 3 20 24 21 8 22 5 合计40 年龄因为变量值20 所对应的频数最大,Mo = 20 。对于分组数据,MO = L +h211(7) 其中L 是众数所在组下限值;1是众数所在组频数与前一组频数差;2是众数所在组频数与后一组频数差;h 是组距。以例8“20 个新生儿体重数据”为例,可见“众数”在第3组。有MO = 3000 +355300 = 3187.5 注意 : (1)众数指变量值,而不是频数。( 2)若频数分布只有一个峰值,则分布是单峰的,若有两个,则分布是双峰的。有时对峰值的分析很有意义(见34 页图 3.2) 。4百分位数 (Percentile) :百分位数概念是中位数概念的推广。百分位数 定义:一组n 个观测值按数值的大小顺序排列(由小到大)如下,x1, x2, , xn名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 6 页,共 13 页 - - - - - - - - - 7 处于第 p%位置的观测值为第 p 百分位数 。所以中位数是第50 百分位数。第p 百分位数的秩数是第n p %位数(如不是整数,取大于它的最小整数)。例 10:求一组数据10,12,14,17, 41,66 的第 20 百分位数。先求百分位数的序数。这6 个数值中的第20 百分位数,即第6 20% = 1.2 位的数值。因 1.2 不是整数,取2。所以第二位数,即12 是第 20 百分位数。实际意义:设第p 百分位数为xk则说明有p %的观测值大于xk。注意 : (1)25 倍数的百分位数称为四分位数。(2)可用类似于求中位数的方法求分组数据的百分位数。3.2 表示分散程度的特征数。表示分散程度的特征数有极差(全距),平均差,方差,标准差,变异系数等。对于一组数据, 只用表示集中位置的特征数描述是不够的,先通过一个例子来说明。设有如下二组数据(9,9.5,10, 10.5,11)(8, 9, 10 , 11,12)显然二组数据的算术平均数相等,但二组数据的分布却有很大差异,显然只用表示集中位置的特征数来描述数据是不够的,还应引入一些表示分散程度的特征数。(1) 极差 (Range) (全距 ) :极差 定义:设一组数据为(x1, , xn) ,则全距(用R 表示)R = x max - x min(8)其中x max, x min分别表示该数据中的极大和极小值。极差表示取值范围。以上列二数据为例:R1 = 11- 9 = 2,R2 = 12 - 8 = 4 。优点 :极差计算简便。缺点 :没有考虑到中间各值的分布情况。例:股市收市时所报的最高值和最低值。实际给出了极差值。(2) 平均差 (Mean absolute deviation ) :用 MD 表示。定义:MD = nIn11| xi - x| (不分组数据 )(9) MD = Kiifn11| xi - x | (分组数据 )(10)其中 fi组频数, xi组中值。MD的意义:表示数据的平均离散程度。为什么要取离差的绝对值呢?因为离差和)(xxi= 0。优点 :考虑到每个数据得分布情况。缺点 :取绝对值不便于运算。(3)方差 (Variance)名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 7 页,共 13 页 - - - - - - - - - 8 方差用S 2表示,对于不分组数据定义:S 2 = niixxn12)(11(11) 方差的意义是 数据对平均数的平均离差平方和。实际计算公式是:S 2 = 2)(11xxni= )2(1122xxxxnii=)2(11222xnxnxni= )(1122xnxni(12) 例 11:有下列一组数据,4, 4.2, 4.8, 5, 7, 求x和 S2,(或见 38 页例)x= 5758 .42 .44=525= 5 S2 = 2)(11xxni=41 (4-5) 2 + (4.2-5) 2 + (4.8-5) 2 + (5-5) 2 + (7-5) 2 = 1.42 对于分组数据 定义:S 2 =kiiixxfN12)(11(13) 其中: fi组频数, xi组中值。与公式(12)的推导相似,实际计算公式是S 2 = )(11212xnxfnkiii(14) 例 12:有分组数据如下。求x, S2 (或见 39 页例)观测值频数 fi组中值 xi 02 1 1 24 4 3 46 3 5 68 3 7 合计n = 11x= )(1iiXfn= 111(1 1+3 4+5 3+7 3)= 4.45 S2 = 2)(11xxfnii= 1011 (1-4.45)2 + 4 (3 - 4.45)2 + 3 (5 - 4.45) 2 + 3 (7 - 4.45)2 = 107.40= 4.07 S2 = 2211xnxfnii= 45.411)73533411 (10122222= (101259-217.8)= 4.1 例 13:数据见例8,求方差。解: 1. 数据不分组时名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 8 页,共 13 页 - - - - - - - - - 9 S2 = 19)31493860(.)31492440(22= 3492 2. 对于分组数据S2 =2)(11XXfnii= 19)31803750(2.)31802550(222= 3362 (2 =2)(1XXfnii=20)31803750(2.)31802550(222= 3272)对于不分组总体数据定义方差为观测值平方的均值减去其均值的平方。Var(xt) = T1Tttxx12)(= T1Tttxx122证明 :T1Tttxx12)(= T1Tttx12(-2 xxt +x2) = T1Tttx12-2 xT1Tttx1+T1Ttx12= T1Tttx12-2 x2 + x2 = T1Tttxx122为什么总体方差和样本方差的计算公式不一样?请见“点估计”一章。检查 对方差概念的理解:对于生产产品来说,希望产品参数方差大,还是方差小?仪仗队人员身高值,和某班学生的身高值,那个方差大?(4)标准差 (Standard Deviation ) :标准差定义: = 2(15)为什么还要定义标准差?因为标准差的量纲与原数据一样,而方差为原量纲的平方。而原量纲的平方让人们听起来很不习惯。计算器可以计算平均数、方差、标准差。(5)变异系数 (Coefficient of Variation )变异系数 定义: C =xS 100,(16) 其中: S,标准差;x,平均数。这是一个无量纲的量,特别适用于具有不同平均水平的数据间的比较。例 14:有两个工厂,工人的劳动生产率资料如下。工厂平均劳动生产率(x)标准差( S)C =xS100 甲厂16,000 600 3.75 乙厂8,000 400 5.00 初看起来甲厂工人劳动生产率数据的标准差大于乙厂。则x甲的代表性比x乙差。但是x甲,x乙悬殊相差。 所以不能只依靠标准差下结论。这里用变异系数比较合理。因 C甲= 3.75,C乙= 5.00。因为 C甲 C乙。甲厂的x比乙厂的x更有代表性,(C乙大) 。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 9 页,共 13 页 - - - - - - - - - 10 3.3表示偏斜程度和陡峭程度的特征数(只适用于单峰情形)给出两个描述偏倚程度的统计量。(1)Pearson偏斜系数( Pearsons coefficient of skewness )PS = )(3MdX(17) PS = 0 时,分布为对称型;PS 0 时,分布为右偏倚。(2)三阶矩 偏度(skewness)和峰度(kurtosis,峭度 )的定义。 对于时间序列 (y1, y2, , yT) ,偏度 S定义为,f (yt)右偏倚S0 313)(1TttyyTS(18) 众数 中位数平均数yt其中 y 表示 yt的平均数,表示 yt的标准差。这是yt的一个三阶矩。偏度表示观测值(数据)分布的不对称程度。由公式知,若分布是以y 对称的,则偏度为零。所以若yt服从正态分布,则偏度为零;若分布是右偏倚的,则偏度S 0;若分布是左偏倚的,则偏度S 0。给出描述陡峭程度的统计量。f (yt)峰度 K 定义为正态分布, K =3K 3 414)(1TttyyTK(19) yt其中 y 表示 yt的平均数,表示 yt的标准差。这是yt的一个四阶矩。描述分布曲线的陡峭程度。正态分布的峭度为3。如果一个分布的两侧尾部比正态分布的两侧尾部“胖”,则该分布的峭度K 3,反之则K 3。注意 :对于样本数据,上述三个公式中的应换成样本标准差S。研究观测值频数分布偏斜性的一个方法是比较众数、中位数、算术平均数的相对位置。绘出三种频数分布类型如下:(单峰情形)a b c x Md Mox= Md = MoMO Md x(a)分布为左偏态,有x Md Mo(b)分布为对称态,有x = Md = Mo (c)分 布为右偏态,有MO Md x注意 :为什么( b)分布是左偏, (c)分布是右偏呢?因为偏斜不是对频数曲线形状来说,而是对观测值分布来说的。以(b)分布为例,观测值落在MO以右很远情景不多,但落在 Mo 左边很远的情形很多,所以叫左偏态。同理(c)为右偏态。你能举出一些对称态,左偏态,右偏态分布的实例吗?(1) 一些物理的测量值的分布常为对称态。如:生产线与产品的重量,长度等指标。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 10 页,共 13 页 - - - - - - - - - 11 (2) 单位里,高级职称人员的年龄分布。学生考试分数得分布(特别当考题偏易时)。人口寿命值分布等情况均为左偏态。(3) 单位里初级职称人员的年龄分布。职工月工资,居民年收入的分布。我国现人口分布等情况均为右偏态。( 4)双峰分布。如春节、五一节期间中国日客流量人数分布。3.4 表示变量相关程度的特征数3.4.1 协方差两个随机变量的协方差等于它们乘积的均值减去它们均值的乘积。Cov(xt, yt) = T1Tttxx1)(yty) = T1Ttttyx1-x y3.4.2 相关系数相关系数 r =TttTttTtttyyTxxTyyxxT12121)(1-1)(1-1)(1-1=TttTttTtttyyxxyyxx12121)()()(例 15:见例 8,求 Pearson 偏斜系数。解: 1. 数据不分组时PS = )( 3MdX= 349)31403149(3= 0.08 2. 对于分组数据,已知x = 3180, Md = 3187 ,S = 336,PS =336)31873180(3= -0.06 例 16:天津市建委系统1988 年中级、初级职称人才年龄分布如下:分 组中 级 人才数 (fi) Xi Xi-XFi (XI-X)2fi助 级 人才数 (fi) Xi-XFi (XI-X)2fi2025 8 22.5 25.6 5243 8 489 15.4 115971 489 2530 78 27.5 20.6 33100 86 2975 10.4 321776 3464 3035 301 32.5 15.6 73251 387 4381 5.4 127750 7845 3540 843 37.5 10.6 94719 1230 5241 0.4 839 13086 4045 1374 42.5 5.6 43089 2604 3452 4.6 73044 16538 4550 1896 47.5 0.6 683 4500 1673 9.6 154184 5055 2148 52.5 4.4 41585 6648 1067 14.6 227441 5560 1153 57.1 9.4 101879 7801 711 19.6 273138 6065 297 62.5 14.4 61586 8098 115 24.6 69593 20104 合计8098 455135 20104 1363736 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 11 页,共 13 页 - - - - - - - - - 12 05001000150020002500203040506070MIDDLEAGE0200040006000203040506070PRIMARYAGE图 1 中级职称人员年龄分布图 2 初级职称人员年龄分布中级职称:X = 80985.62297.5.228= 48.1 2 = 912)(80981iiiXXf= 8098455135= 5602, = 7.5, S2 = 8097455135= 56.2,S = 7.5 Md = 45 +189626044049 5 = 第 6 组下限值 +( (中位数序数 - 组外累积频数)/所在组频数)组限= 48.8 PS = )(3MeX= 5.7)8 .481.48(3= - 0.28 初级职称:X =201045.62115.5.22489= 37.9 2 = 912201041363736)9.37(201041iiiXf= 67.8, = 8.2, Md =35+55241784510052= 第 4 组下限值 +( (中位数序数 - 组外累积频数)/所在组频数)组限= 37.1 PS = )(3MeX2.8) 1.379.37(30.29 例 17:某班组4 月份发奖金的分组数据如下:序号奖金分组获奖人数1 80120元以下7 2 120160 元以下8 3 160200 元以下3 4 200240 元以下0 5 240280 元以下1 合计19 因中位数序数= 19/2 = 9.5 , 而 9.5 落在第二组内。故 L = 120。n1 = 9.5 - 7 = 2.5 , n2 = 8,h = 160 120 = 40。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 12 页,共 13 页 - - - - - - - - - 13 Md = 120 +85. 240 = 132.5 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 13 页,共 13 页 - - - - - - - - -