资料统计分析——单变量描述统计ppt课件.ppt
项目八:调查资料的统计与分析项目八:调查资料的统计与分析 任务一任务一 单变量描述统计单变量描述统计任务二任务二 单变量推论统计单变量推论统计任务三任务三 双变量相关关系分析双变量相关关系分析众 值中 位 数均 值集集 中中 趋趋 势势异 众 比 率四 分 位 差方 差 与 标 准 差离离 散散 程程 度度数数 据据 的的 简简 化化任务一任务一 单变量描述统计单变量描述统计(一)频数分布(一)频数分布n所谓频数分布(所谓频数分布(frequency distributionfrequency distribution),就是指),就是指一组数据中取不同值的个案的次数分布情况,它一般一组数据中取不同值的个案的次数分布情况,它一般以频数分布表的形式表达。以频数分布表的形式表达。n频数分布表的作用有两方面,一是简化资料,即将调频数分布表的作用有两方面,一是简化资料,即将调查所得到的一长串原始数据,以一个十分简洁的统计查所得到的一长串原始数据,以一个十分简洁的统计表反映出来。二是从频数分布表中,可以更清楚的了表反映出来。二是从频数分布表中,可以更清楚的了解调查数据的众多信息。解调查数据的众多信息。一、频数分布与频率分布一、频数分布与频率分布(二)频率分布(二)频率分布n所谓频率分布所谓频率分布(percentages distributionpercentages distribution),就是),就是指一组数据中不同取值的频数相对于总数的比率分布指一组数据中不同取值的频数相对于总数的比率分布情况,这种比率在社会调查中经常是以百分比的形式情况,这种比率在社会调查中经常是以百分比的形式来表达。来表达。n频率分布表除了频数分布表的优点之外,还有一个重频率分布表除了频数分布表的优点之外,还有一个重要的优点就是十分方便地用于不同总体或不同类别之要的优点就是十分方便地用于不同总体或不同类别之间的比较。间的比较。频数分布表和频率分布表实例频数分布表和频率分布表实例n注意的是注意的是,对于一项有一定规模的调查样,对于一项有一定规模的调查样本来说,一般不宜对如年龄、收入、时间本来说,一般不宜对如年龄、收入、时间等等定比定比变量做频数分布表或频率分布表。变量做频数分布表或频率分布表。因为,此时类别很多,而每一类别中个案因为,此时类别很多,而每一类别中个案数不多,所得结果繁杂不适用。数不多,所得结果繁杂不适用。二、集中趋势分析二、集中趋势分析n集中趋势测量:集中趋势测量:用某一个典型的变量值或特用某一个典型的变量值或特征值来代表全体变量的问题,这个典型的变征值来代表全体变量的问题,这个典型的变量值或特征值就称作集中值或集中趋势。量值或特征值就称作集中值或集中趋势。 众值(众值(Mode)Mode)定类层次定类层次 中位值(中位值(Median)Median)定序层次定序层次 均值(均值(Mean)Mean)定距层次定距层次(一)众数(一)众数(modemode)1 1、出现频次最多的变量值;、出现频次最多的变量值;2 2、众数的不唯一性;、众数的不唯一性;n原始数据:原始数据:4 4、5 5、7 7、8 8、1919(无众值)(无众值)n原始数据:原始数据:4 4、5 5、7 7、5 5、5 5、1616(一个众值)(一个众值)n原始数据:原始数据:4 4、4 4、5 5、7 7、7 7、9 9(两个众值)(两个众值)3 3、主要应用于定类变量,当然也可以应用于定序、主要应用于定类变量,当然也可以应用于定序和定距变量和定距变量1.1.单值分组资料(非连续取值)求众数单值分组资料(非连续取值)求众数2.2.组距分组(连续取值)资料求众数组距分组(连续取值)资料求众数n先找出众数组,代入公式先找出众数组,代入公式n组距分组资料众数求值公式:组距分组资料众数求值公式:解:解: 找出众数组为找出众数组为222.5227.5222.5227.5 代入组距分组资料众数求值公式:代入组距分组资料众数求值公式:练习:求下表众数练习:求下表众数收入收入( (元元) )f fc cf f c cf f 500-699500-69910101010550550700-899700-89965657575540540900-1099900-10991261262112114754751100-12991100-12991581583693693393391300-14991300-14991411415105101811811500-16991500-169940405505504040总数总数 550550表表X-X X-X 某人群月收入频数分布表某人群月收入频数分布表n从分布来看,众数是具有明显集中趋势点的数从分布来看,众数是具有明显集中趋势点的数值,一组数据分布的最高峰点所对应的数值及值,一组数据分布的最高峰点所对应的数值及为众数。为众数。(二)中位数(二)中位数(MedianMedian)n把一组数据把一组数据按顺序排列按顺序排列,处于,处于中间位置中间位置的那个数的那个数值就是中位值。值就是中位值。n主要应用于定序变量,也可用于定距变量,但不主要应用于定序变量,也可用于定距变量,但不可用于定类变量。可用于定类变量。Mdn将各个个案将各个个案由低至高排列由低至高排列起来,居序列中央位置起来,居序列中央位置的个案值就是中位的个案值就是中位数数。 MdMd位置位置= = n中位数中位数= =中间位置的值中间位置的值注意:先找位置,再找中位数注意:先找位置,再找中位数12n1.1.原始资料求中位数原始资料求中位数个案数为奇数个案数为奇数【例【例3 3】:甲地的】:甲地的5 5户人家的人数为:户人家的人数为:2 2,4 4,3 3,6 6,8 8,求中位值。求中位值。 解:Md的位置 321n215排序排序2,3,4,6,8Md=4个案数为偶数个案数为偶数【例例4 4】:乙地的:乙地的6 6户人家的人数为:户人家的人数为:2 2,4 4,3 3,6 6,8 8,5 5求中位值。求中位值。 解:Md的位置 3.521n216排序排序2 2,3 3,4 4, 5, 65, 6,8 8Md= =4.5254【例5】根据下表求中位值。解:Md位置 250.5 中位值Md乙21n21500先计算累计频数,然后求中间位置,中间位置最先先计算累计频数,然后求中间位置,中间位置最先落入的累计频数所对于的标志值即为中位数。落入的累计频数所对于的标志值即为中位数。2.2.单值分组资料(非连续取值)求中位数单值分组资料(非连续取值)求中位数练习练习1 1:计算表:计算表9-79-7的中位数的中位数先找出中位数所在组,利用公式先找出中位数所在组,利用公式374.253 3、组距分组(连续取值)资料求中位数、组距分组(连续取值)资料求中位数练习:计算下表中位数练习:计算下表中位数练习:计算下表中位数练习:计算下表中位数(三)平均数(三)平均数(meanmean) 1 1、原始资料求均值、原始资料求均值xXn【例6】某班10名学生年龄分别为20、21、19、19、20、20、21、22、18、20岁,求他们的平均年龄。解:根据平均数的计算公式有:岁2010200NXX29n某个变项值重复出现多次,可以先统计每个值(某个变项值重复出现多次,可以先统计每个值(x x)的次数(的次数(f f),再求次数与相应变量值的乘积),再求次数与相应变量值的乘积(fxfx),利用各乘积之和求出均值),利用各乘积之和求出均值。(。(f f也称为权也称为权数数, ,f/nf/n称为权重)称为权重) 公式:fxXn2 2、单值分组资料求平均数、单值分组资料求平均数 【例例7】调查某年调查某年120名学名学生的年龄,结果如下表,求生的年龄,结果如下表,求平均年龄。平均年龄。解:根据公式得18.9岁nxfnXX120202120173 3、组距分组资料求均值、组距分组资料求均值n先求出组中值先求出组中值组中值组中值=(上限(上限+下限)下限)/2n计算组中值的和计算组中值的和n计算分组数据的均值计算分组数据的均值1599.417mfxXn组中值组中值例8众数、中位数和平均数的比较众数、中位数和平均数的比较1 1数数据据类类型型和和所所适适用用的的集集中中趋趋势势测测量量值值 数数据据类类型型 定定类类 定定序序 定定距距 众众值值 众众值值 众众值值 中中位位值值 中中位位值值 测测度度值值 均均值值 注:注: 表示该数据类型最适合用的测度值表示该数据类型最适合用的测度值众数、中位数和平均数的比较众数、中位数和平均数的比较2 2n平均数比中位数利用了更多的数据信息,对总平均数比中位数利用了更多的数据信息,对总体的描述更全面和准确。体的描述更全面和准确。n平均数很容易受到极端值变化的影响,而中位平均数很容易受到极端值变化的影响,而中位值不会受到这种影响。值不会受到这种影响。n对于抽样调查来说,平均数是一种比中位数更对于抽样调查来说,平均数是一种比中位数更为稳定的量度,它随样本的变化比较小。为稳定的量度,它随样本的变化比较小。众数、中位数和均值的关系众数、中位数和均值的关系练习: 求下表求下表(单项数列单项数列)所示数据的算术平均数所示数据的算术平均数。人口数(人口数(X)户数户数(f)频率频率(P)23456785816106410.100.160.320.200.120.080.02合计合计501.00表表X-X X-X 某样本家庭人口数分布表某样本家庭人口数分布表 求下表所示数据的的平均数求下表所示数据的的平均数 间距间距频数(频数(f f) 组中值(组中值(X Xmidmid) )148152148152152156152156156160156160160164160164164168164168168172168172172176172176176180176180180184180184184188184188188192188192192196192196 1 1 2 2 5 510101919252517171212 5 5 3 3 0 0 1 1 150150154154158158162162166166170170174174178178182182186186190190194194合计合计 100100 4.4 某年级学生身高如下,求中位数某年级学生身高如下,求中位数组距组距f fcfcf1501561501563 33 31561621561629 912121621681621682525373716817416817434347171174180174180202091911801861801867 798981861921861921 199991921981921981 1100100合计合计100100人口数(人口数(X)户数户数(f)频率频率(P)23456785816106410.100.160.320.200.120.080.02合计合计501.00求下表中的众数求下表中的众数170.29求下表的众数求下表的众数组距组距fcf150156331561629121621682537168174347117418020911801867981861921991921981100合计合计100表表X-X X-X 某人群身高范围频数分布表某人群身高范围频数分布表三、离散趋势分析三、离散趋势分析n离散趋势分析离散趋势分析(dispersion tendency analysisdispersion tendency analysis),),指的是用一个特别的数值来反映一组数据相指的是用一个特别的数值来反映一组数据相互之间的离散程度。常见的离散量数统计量互之间的离散程度。常见的离散量数统计量有全距、标准差、异众比率、四分位差等。有全距、标准差、异众比率、四分位差等。标准差、异众比率、四分位差分别与平均数、标准差、异众比率、四分位差分别与平均数、众数、中位数相对应,判定和说明平均数、众数、中位数相对应,判定和说明平均数、众数、中位数代表性的大小。众数、中位数代表性的大小。例9如果仅从集中趋势测量(平均分数)来看,这三个系的成绩如果仅从集中趋势测量(平均分数)来看,这三个系的成绩都一致,不存在什么差别。都一致,不存在什么差别。但从直观上可看出,三个系选手之间的差距程度(离散程度)但从直观上可看出,三个系选手之间的差距程度(离散程度)很不一样很不一样?(一)全距(一)全距(Range)n又叫极差,它是一组数据中最大值与最小值之差。又叫极差,它是一组数据中最大值与最小值之差。n其意义在于一组数据的全距越大,在一定程度上说明这组数其意义在于一组数据的全距越大,在一定程度上说明这组数据的离散量数越大,而集中量数统计量的代表性越低。反之,据的离散量数越大,而集中量数统计量的代表性越低。反之,一组数据的全距越小,则说明这组数据的离散量数越小,而一组数据的全距越小,则说明这组数据的离散量数越小,而集中量数统计量的代表性越高。集中量数统计量的代表性越高。例9R=4R=65R=30(二)标准差(二)标准差(standard deviationstandard deviation)n一组数据对其平均数的偏差平方的算术平均数一组数据对其平均数的偏差平方的算术平均数的平方根。用的平方根。用S S表示。表示。1 1、原始资料求标准差:、原始资料求标准差:【例例1010】:求标准差,并进行简单比较。:求标准差,并进行简单比较。中文系:中文系:7878,7979,8080,8181,8282 ( 8080)数学系:数学系:6565,7272,8080,8888,95 95 ( 8080)英语系:英语系:3535,7878,8989,9898,100 100 ( 8080)XXX解:根据公式解:根据公式 S S中文系中文系1.4141.414分分 S S数学系数学系10.810.8分分 S S英语系英语系23.823.8分分结论:中文系差结论:中文系差别最小,英语系别最小,英语系差别最大差别最大.2 2、单值分组数据资料,计算标准差的公式为、单值分组数据资料,计算标准差的公式为3 3、组距分组资料标准差计算、组距分组资料标准差计算212()1773(9.4)3.9917Nmif XXNS组中值组中值标准差的实际应用标准差的实际应用1.1.甲、乙、丙命中的总环数分别为甲、乙、丙命中的总环数分别为9393、9393、9191,所以丙理应先被淘汰。,所以丙理应先被淘汰。2.2.甲、乙命中环数的平均数均为甲、乙命中环数的平均数均为9.39.3,计算标准差。,计算标准差。S S甲甲= = ,S S乙乙= =3.3.在总成绩相同的情况下,理应派发挥较稳定的甲参加比赛。在总成绩相同的情况下,理应派发挥较稳定的甲参加比赛。21. 081. 0三、四分位差三、四分位差(InterquartileInterquartile range) range)n将数据由低至高排列将数据由低至高排列,然后分为四等分(即每个等分,然后分为四等分(即每个等分包括包括2525的数据),的数据),第一个四分位置的值(第一个四分位置的值( Q Q1 1 )与)与第三个四分位置的值(第三个四分位置的值(Q Q3 3)的差异)的差异,就是四分位差,就是四分位差(简写为(简写为Q Q)。)。Q1Q2Q3Q425%25%25%25%解:解: Q Q1 1 的位置的位置 =75.25=75.25 Q Q3 3的位置的位置 225.75225.75那么那么 Q Q1 1不满意;不满意; Q Q3 3一般一般Q QQ Q3 3Q Q1 1一般不满意一般不满意结论,有一半的家庭对住房评价在不满结论,有一半的家庭对住房评价在不满意到一般之间。意到一般之间。表 甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市户数户数 (户户)累计频数累计频数 非常不满意 不满意 一般 满意 非常满意2410894443024132226270300合计300【例例1111】求下表的四分位差求下表的四分位差41n4) 13 n(例122 2、根据分组资料求四分位差、根据分组资料求四分位差有四步:有四步:n计算向上累加次数计算向上累加次数n求出求出Q Q1 1 和和Q Q3 3的位置的位置 Q Q1 1= Q= Q3 3= =n参考累加次数分布,决定参考累加次数分布,决定Q Q1 1和和Q Q3 3属于哪一组属于哪一组n从所属组中,计算从所属组中,计算Q1Q1位置和位置和Q3Q3位置的数值。位置的数值。4n34nn指的是一组数据中非众数的次数相对于总体全指的是一组数据中非众数的次数相对于总体全部单位的比率。用部单位的比率。用VRVR表示。表示。n其意义是指众数所不能代表的其他数值在总体其意义是指众数所不能代表的其他数值在总体中的比重。异众比率越大,则众数代表性越小;中的比重。异众比率越大,则众数代表性越小;异众比率越小,则众数代表性越大。异众比率越小,则众数代表性越大。四、异众比率(四、异众比率(variation ratiovariation ratio)5 5、离散系数、离散系数(coefficient of variationcoefficient of variation)n变差系数,它是一种相对的离散量数统计量,它变差系数,它是一种相对的离散量数统计量,它使我们能够对使我们能够对同一总体中的两种不同的离散量数同一总体中的两种不同的离散量数统计量进行比较,或对统计量进行比较,或对两个不同总体中的同一离两个不同总体中的同一离散量数统计量散量数统计量进行比较。定义为:标准差与平均进行比较。定义为:标准差与平均数的比值,记为数的比值,记为CVCV。n同一总体中的两种不同的离散量数统计量的比较同一总体中的两种不同的离散量数统计量的比较例13n不同总体中的同一离散量数统计量的比较不同总体中的同一离散量数统计量的比较例14练习:练习:n试求两组产量的平均数、标准差。求下表数据的标准差求下表数据的标准差组距组距fXm15015631531561629159162168251651681743417117418020177180186718318619211891921981195合计合计100表表X-X X-X 某人群身高范围频数分布表某人群身高范围频数分布表小结小结1 1、集中趋势测量和离散趋势测量具有互补性,、集中趋势测量和离散趋势测量具有互补性,集中趋势反映的是资料的代表性,离散趋势反集中趋势反映的是资料的代表性,离散趋势反映的是资料的差异情况;映的是资料的差异情况;2 2、选何种方法,要注意变量的测量层次,彼此、选何种方法,要注意变量的测量层次,彼此的关系综合如下:的关系综合如下: