2022年第章描述统计 .pdf
《2022年第章描述统计 .pdf》由会员分享,可在线阅读,更多相关《2022年第章描述统计 .pdf(13页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1 补充材料:累计求和运算规则求和算子定义:对于T 个观测值, x1, x2, , xT,求和可以简化地表示为x1 + x2 + + xT = Tttx1其中)(称作求和算子。求和算子的运算规则如下: 变量观测值倍数的和等于变量观测值和的倍数。Tttkx1= kTttx1 两个变量观测值和的总和等于它们分别求总和后再求和。Ttttyx1)(= Tttx1+Ttty1 T 个常数求和等于该常数的T 倍。Ttk1= kT其中 k 是常数。定义双重求和为TjijTix11= Ti 1(xi1 + xi 2 + + xiT) = (x11 + x12 + + x1T) + (x21 + x22 + +
2、 x2T) + + (xT1 + xT2 + + xTT) 两个变量和的双重求和等于它们各自双重求和的和。TjijijTiyx11)(= TjijTix11+TjijTiy11 两个不同单下标变量积的双重求和等于它们各自求和的乘积。TjjiTiyx11= (Tiix1) (Tjjy1) 证:TjjiTiyx11= TiTiyyyx121).(= (Tiix1) (Tjjy1) 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 13 页 - - - - - - - - - 2
3、 第 3 章统计资料的综合( Data Summarization )用频数分布表与统计图可以展示数据分布的大概特征。为更准确的描述数据的特征,有必要用一些数值描述一组数据的特征,称这些数值为特征数 。特征数分三类:(1)表示集中位置; (2)表示分散程度; (3)表示偏斜程度; (4)相关程度。3.1 表示集中位置的特征数:(1)平均数;(算术平均数,几何平均数,调和平均数)(2)中位数;(3)众数;(4)百分位数;3.1.1 平均数(1)算术平均数 (Arithmetic mean )对于不分组数据算术平均数 定义:一组数据, (x1, x2, , xn) ,容量为n,则算术平均数x 表示
4、为x = nxxxn.21=n1niix1(1) 例 1:5 个学生的英语考试分数是80, 70, 85, 90, 82 。则平均考试分数x =59085828070= 81.4 算术平均数的性质:观测值的和等于其平均数与观测值个数的乘积。对(1)式两侧同乘n 得,ix= n x说明 x 有代表性。若不考虑xi的差异。用x代替 xi,并乘 n,则总和相等。所以人们常用x描述数据。如平均年龄,平均工资等。一组观测值与其平均数的离差和等于零。)(1xxnii= 0 证:)(1xxnii=xxi= ix- n x= 0(利用性质)此性质以后常常用到。xi与某一定值A 的离差平方和niix1(- A)
5、2 以 A =x时为最小。证:niix1(- A)2 =)(1xxnii+ ( x- A) 2 =)(1xxnii2 + 2 ( x- A) )(1xxnii+ 21)(Axni名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 13 页 - - - - - - - - - 3 =2)(xxi+ 2)(Axn可见只有当x= A 时,方程左端2)(Axi的值才最小。当数据为分组形式时,xikiixfn11=n1(f1x1 + f2 x2+ + fk xk ) (2) 其中: k
6、为分组数; x i为第 i 组的组中值; fi 为观测值落入第i 组的频数; n 为观测值总个数, n = f1 + f2 + + fk。分组数据形式下求得的平均数,只是用原始数据计算的x的近似值。 只有当各组中值与相应组内观测值的平均值全相等时,(1) 、 (2)式的计算结果才相等。因此,只要条件允许,应该用原始数据直接计算。当n很大时,由(2)式计算的x 的误差会减小。例 2:见 30 页例 2。例 2:见第 2 章例 2,婴儿体重分组数据分布表如下:体重(克)频数组中值24002700 以下2 2550 27003000 以下3 2850 30003300 以下8 3150 330036
7、00 以下5 3450 36003900 以下2 3750 x =2037502.2850325502= 3180 若用原始数据直接计算(见第2章例 2,北京妇产科医院新生儿体重分布)x =203860.26202440= 3149 (2)几何平均数 (Geometric mean)当数据是以环比形式给出时,应该用几何平均数求该数据的平均递增率。定义:一组环比数据r1, r2, , rn(容量为n) ,则几何平均数G = nnrrr,.,21(3) 例 3:有天津市“六五”期间工农业总产值环比指数如下年份环比指数1980 1.000 1981 1.059 1982 1.069 1983 1.0
8、82 1984 1.116 1985 1.157 G = 5157.1116.1082.1069.1059. 1= 1.096 即 19801985 期间年平均年增长率为9.6%。注意 :开方数 n 不要用错。几何平均数的性质:名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 13 页 - - - - - - - - - 4 1 r1r2 rn= G G G(共 n 个)对于环比数据,几何平均数G 有代表性。若r0期观测值为x0,则x0r1r2rn= x0G nn 个 G
9、与 x0相乘与 r1r2rn与 x0相乘的值相等。(3)调和平均数 (Harmonic mean )当一组数据表示不同比率时,若求平均变化率应该用调和平均数。它是各观测值倒数的算术平均数的倒数。调和平均数 定义:设有一组n 个观测值x1, x2, , xn,则调和平均值H 定义如下:H = nxxxn)1(.)1()1(121=)1(.)1()1(21nxxxn(4) 注意 :这里各数据所赋的权相等。例 4:市场上某种蔬菜早晨价格为X1 = 0.25 元/斤,中午X2 = 0.2 元/斤,晚上X3 = 0.1元/斤。若早、中、晚各买1 元钱的该种蔬菜,求这批蔬菜平均价格。解:要求平均价格应先知
10、共花了多少钱,共买了多少菜。显然共花了3 元钱,共买了19 斤菜(早晨买1/0.25 = 4 斤,中午买1/0.2 = 5 斤,晚上买1/0.1=10 斤) 。H = 1.012. 0125.013= 193= 0.158 元/斤2中位数 (Median)算术平均数虽然有代表性,但当数据分布不均匀时,这种代表性显得很差。如观察班上 5 名学生的考试成绩如下:93,90,85,82,0,显然x= 5082859093= 70 没有代表性。因为这五个数据中,有四个值都大于70,说明受0 这个极端值影响太大。若没有 0 这个值,平均数应该是87.5。为避免这种影响,引出中位数的概念。中位数 定义(
11、1) :一组 n 个观测值,按数值大小排列如下。x1, x2, , xn,处于中央位置的数值称为 中位数 。用 Md 表示( Median)x(n+1)/2n 为奇数Md = (5) xn / 2 + x(n / 2)+1 / 2 n 为偶数例 5:对 5 名学生的考试分数(n 为奇数),则中位数Md = 85 , (比 70 更有代表性)。93,90,85,82,0 (因有 5 个数值, 5 为奇数。)例 6:设有一组数据如下(n 为偶数)x1,x2, x3, x4, x5, x6, (n = 6) 10 12 14 17 41 66 则Md =21( x 6 / 2 + x (6 / 2)
12、 + 1) =21( x3 + x4) =21714= 15.5 例 7:一组数据是3,9,6,1,5。哪个是中位数?名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 4 页,共 13 页 - - - - - - - - - 5 按上述要求排序,x1,x2, x3, x4, x5,n = 5 为奇数1 3 5 6 9 则Md = x(5+1) / 2 = x3 = 5,即中位数是5。中位数 定义( 2) :对于分组数据,Md 的计算公式如下:Md = L + hnn21(6) 其中:
13、L 为中位数所在组的下限值n1为中位数所在组内,达到中位数所需频数。n 2为中位数所在组内,观测值总个(频)数。h 为该中位数所在组组距。例 8:把第 2 章例 2 中 20 个新生儿体重数据按从小到大顺序排列如下:2440,2620,2700,2880, 2900,3000,3020,3040,3080,3100,3180,3200,3200,3300,3420, 3440,3500,3500,3600,3860,求:Md (中位数),解: 1. 当数据不分组时,因为20 是偶数,Md = ( X20 / 2 + X(20 / 2) + 1)/2 = (X10 + X11) /2 = (31
14、00+ 3180) / 2 = 3140 2. 作频数分布表图,把数据分成5 组分组频数 fi X i 24002700 以下2 2550 27003000 以下3 2850 30003300 以下8 3150 33003600 以下5 3450 36003900 以下2 3750 合计20 20 / 2 = 10, 中位数在第3 组,组频数 = 8。Md = L+hnn21= 3000+30085= 3187 例 9:1987 年 1%抽样调查全国人口,数据与分布图如下。年龄(岁)人数(万人)累计人数0100200020406080100120POPULATIONAGE0-10 以下195.
15、2781 195.2781 10-20 以下248.1611 443.4329 20-30 以下195.8780 639.3172 30-40 以下161.0804 40-50 以下99.61830 50-60 以下85.61920 60-70 以下56.18770 70-80 以下27.38030 80-90 以下6.558400 90-100 以下0.359300 100-110 以下0.009900 合计1067.9307 数据的特点是分布不均。年轻人人数多,年老人人数少。平均年龄是28.8 岁。显然这个特征数偏高,不能十分满意地反映数据的特征。计算中位数如下。Md 落在第 3 组。名师
16、资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 5 页,共 13 页 - - - - - - - - - 6 Md = 20 +8780.1954392.4432/9307.106710 = 20 +8780.1955262.9010 = 24.6(岁)= 第 3 组下限 +(未足数 /第 3 组频数)第 3 组距。比平均数28.8 岁更有代表性。中位数性质 :(1) 当观测值出现重复的现象不很多时,中位数意味着比它小的观测值个数有一半,比它大的有一半。若有2 万农户的年家庭收入数值的中
17、位数为2000 元,则知有一万户收入低于 2000 元,有一万户收入高于2000 元。(2) xi与某一定值A 的绝对离差和ni 1| xi - A| 以 A = Md 时取值最小,即ni 1| xi - Md | 取最小值。(3) 中位数不受极端值影响。(4) 中位数可看作是调整平均数的一种特殊形式。计算平均数时,排除了中间位置1 或2 个观测值以外的所有值。注意 :(1) 中位数指的是数据值(在横轴上),而不是观测值的频数,也不是秩数。(2) 求中位数之前,应先将观测值按大小排列。3众数 (Mode)众数 定义:在一组数据中,对应频数最大的那个观测值叫众数 ,用 Mo 表示。若为分组时,则
18、只能说出众数所在组。例 9:某班 40 名学生的年龄统计如下:人数年龄(岁)人数19 3 20 24 21 8 22 5 合计40 年龄因为变量值20 所对应的频数最大,Mo = 20 。对于分组数据,MO = L +h211(7) 其中L 是众数所在组下限值;1是众数所在组频数与前一组频数差;2是众数所在组频数与后一组频数差;h 是组距。以例8“20 个新生儿体重数据”为例,可见“众数”在第3组。有MO = 3000 +355300 = 3187.5 注意 : (1)众数指变量值,而不是频数。( 2)若频数分布只有一个峰值,则分布是单峰的,若有两个,则分布是双峰的。有时对峰值的分析很有意义(
19、见34 页图 3.2) 。4百分位数 (Percentile) :百分位数概念是中位数概念的推广。百分位数 定义:一组n 个观测值按数值的大小顺序排列(由小到大)如下,x1, x2, , xn名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 6 页,共 13 页 - - - - - - - - - 7 处于第 p%位置的观测值为第 p 百分位数 。所以中位数是第50 百分位数。第p 百分位数的秩数是第n p %位数(如不是整数,取大于它的最小整数)。例 10:求一组数据10,12,14
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年第章描述统计 2022 年第章 描述 统计
限制150内