四、单变量的描述统计离散趋势分析和集中趋势分析-PPT.ppt
《四、单变量的描述统计离散趋势分析和集中趋势分析-PPT.ppt》由会员分享,可在线阅读,更多相关《四、单变量的描述统计离散趋势分析和集中趋势分析-PPT.ppt(67页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、四、单变量的描述统计离散趋势分析和集中趋势分析知识点:知识点:两个维度两个维度七个统计量数七个统计量数2学习要求学习要求1、集中趋势各测量法的计算方法;、集中趋势各测量法的计算方法;2、集中趋势各测量法的特点和应用;、集中趋势各测量法的特点和应用;3、离散程度各测量法的计算方法;、离散程度各测量法的计算方法;4、离散程度各测量法的特点与应用;、离散程度各测量法的特点与应用;3单变量描述统计单变量描述统计n在统计分析中,是否可以找出一个有代表性的数值来说在统计分析中,是否可以找出一个有代表性的数值来说明变量的分布,反映资料的集中或差异情况?明变量的分布,反映资料的集中或差异情况?n集中趋势测量,
2、就是以一个数值来代表变量的资料分布,集中趋势测量,就是以一个数值来代表变量的资料分布,反映的是变量值向中心值聚集的程度,也就是说以这一反映的是变量值向中心值聚集的程度,也就是说以这一个数值(或称典型值)来估计或预测每一个研究对象的个数值(或称典型值)来估计或预测每一个研究对象的数值时发生的错误总数在理论上是最小的。数值时发生的错误总数在理论上是最小的。n离散趋势测量(离散趋势测量(Measures of dispersion)就是用一个)就是用一个值表示数据之间的差异情况。值表示数据之间的差异情况。n离散趋势测量法和集中趋势测量法具有互补作用。在进离散趋势测量法和集中趋势测量法具有互补作用。在
3、进行统计分析时,既要测量变量的集中趋势,也要测量离行统计分析时,既要测量变量的集中趋势,也要测量离散趋势。散趋势。4集中趋势测量集中趋势测量/分析分析集中趋势测量:用某一个典型的变量值或特征值集中趋势测量:用某一个典型的变量值或特征值来代表全体变量的问题,这个典型的变量值或来代表全体变量的问题,这个典型的变量值或特征值就称作集中值或集中趋势。特征值就称作集中值或集中趋势。众值(众值(Mode)定类层次定类层次 中位值(中位值(Median)定序层次定序层次 均值(均值(Mean)定距层次定距层次5一、众数(一、众数(mode)1、出现频次最多的变量值;、出现频次最多的变量值;2、众数的不唯一性
4、;、众数的不唯一性;3、主要应用于定类变量,当然也可以、主要应用于定类变量,当然也可以应用于定序和定距变量应用于定序和定距变量6众数的特点:不唯一性众数的特点:不唯一性n原始数据:原始数据:4、5、7、8、19(无众值)(无众值)n原始数据:原始数据:4、5、7、5、5、16(一个众值)(一个众值)n原始数据:原始数据:4、4、5、7、7、9(两个众值)(两个众值)7例例1:非连续取值:非连续取值8大家应该也有点累了,稍作休息大家有疑问的,可以询问和交流大家有疑问的,可以询问和交流大家有疑问的,可以询问和交流大家有疑问的,可以询问和交流9例例2 分组数据分组数据10n从分布来看,众数是具有明显
5、集中趋势点的从分布来看,众数是具有明显集中趋势点的数值,一组数据分布的最高峰点所对应的数数值,一组数据分布的最高峰点所对应的数值及为众数值及为众数。11二、中位值(二、中位值(Median)1、把一组数据按顺序排列,处于中间位置、把一组数据按顺序排列,处于中间位置的那个数值就是中位值。的那个数值就是中位值。2、主要应用于定序变量,也可用于定距变、主要应用于定序变量,也可用于定距变量,但不可用于定类变量。量,但不可用于定类变量。50%50%Md12(1)未分组数据求中位数:)未分组数据求中位数:Md位置位置=(2)中位数)中位数=中间位置的值中间位置的值注意:先找位置,再找中位数注意:先找位置,
6、再找中位数将各个个将各个个案由低至高排列案由低至高排列起来,居序列中央位起来,居序列中央位置的个案值就是中位值。置的个案值就是中位值。13(1)、个案数为奇数)、个案数为奇数【例【例1】:甲地的】:甲地的5户人家的人数为:户人家的人数为:2,4,3,6,8,求中位值。,求中位值。解:Md的位置 3排序排序2,3,4,6,8中位值Md=414(2)个案数为偶数)个案数为偶数【例【例2】:乙地的】:乙地的6户人家的人数为:户人家的人数为:2,4,3,6,8,5求中位值。求中位值。解:Md的位置 3.5排序排序2,3,4,5,6,8Md=4.515(3)频数分布表)频数分布表【例3】根据下表求中位值
7、。解:Md位置 250.5 中位值Md乙162、分组数据、分组数据n根据统计表中的累积百分比,找出含有根据统计表中的累积百分比,找出含有50%的区间的区间n找出含有找出含有50%区间的上界值区间的上界值U,下界值,下界值L,上界累计百分数,上界累计百分数U%,下界累计百分,下界累计百分数数L%以及组距等信息以及组距等信息n根据线段对应成比例的原理,计算出累根据线段对应成比例的原理,计算出累计百分比为计百分比为50%的变量值的变量值17nL:中位数组的下限:中位数组的下限nf:中位数组的频数:中位数组的频数nw:中位数组的组距:中位数组的组距(U-L)ncf:低于中位数组下:低于中位数组下限的累
8、加次数限的累加次数nn:全部个案数:全部个案数nMd位置位置=n/2(上(上下各下各50%的位置)的位置)18例:分组数据:例:分组数据:n首先将各组的次数累加起来首先将各组的次数累加起来n求中位数的位置:求中位数的位置:nMd位置位置=n/2=212/2=106n第第106个位置在个位置在 25-35之间之间19n分组变量看作是一组连续的数值分组变量看作是一组连续的数值259435124?10610301220【例【例4】:】:根据下表数据求中位值。根据下表数据求中位值。解:解:Md位置位置50;从累积频数从累积频数cf栏找到中位数位栏找到中位数位置所在组为置所在组为“300400”引入公式
9、:引入公式:=35021三、均值三、均值1、均值的定义:总体各单位取值之和除以、均值的定义:总体各单位取值之和除以总体单位数目。总体单位数目。2、仅适用于定距变量,不适用于定类和定、仅适用于定距变量,不适用于定类和定序;序;221、未分组数据、未分组数据(1)简单原始资料求均值)简单原始资料求均值23均值的计算未分组数据【例5】某班10名学生年龄分别为20、21、19、19、20、20、21、22、18、20岁,求他们的平均年龄。解:根据平均数的计算公式有:24(2)、加权平均数)、加权平均数某个变项值重复出现多次,可以先统计每某个变项值重复出现多次,可以先统计每个值(个值(x)的次数()的次
10、数(f),再求次数与相),再求次数与相应变量值的乘积(应变量值的乘积(fx),利用各乘积之),利用各乘积之和求出均值。(和求出均值。(f也称为权数也称为权数,f/n称为权称为权重)重)公式:25未分组数据加权平均数未分组数据加权平均数【例【例6】调查某年】调查某年120名学名学生的年龄,结果如下表,生的年龄,结果如下表,求平均年龄。求平均年龄。解:根据公式得18.9岁262、分组资料求均值:根据组中值求均值、分组资料求均值:根据组中值求均值n先求出组中值先求出组中值组中值组中值=(上限(上限+下限)下限)/2n计算组中值的和计算组中值的和n计算分组数据的均值计算分组数据的均值组中值组中值27众
11、值、中位数和均值的比较众值、中位数和均值的比较1注:注:表示该数据类型最适合用的测度值表示该数据类型最适合用的测度值28众数、中位数和平均值的比较众数、中位数和平均值的比较n众数是一组数据中出现次数最多的数值。众数是一组数据中出现次数最多的数值。但在社会调查中众数的代表性较小但在社会调查中众数的代表性较小29中位数和平均数的比较中位数和平均数的比较n计算平均数时用到数据中所有的数值,而求中位数时只用到计算平均数时用到数据中所有的数值,而求中位数时只用到数值的相对位置,平均数比中位数利用了更多的有关数据的数值的相对位置,平均数比中位数利用了更多的有关数据的信息信息n平均数容易受到极端值的影响,而
12、中位数则不会受这种影响。平均数容易受到极端值的影响,而中位数则不会受这种影响。当样本中数据值的分布是高度倾斜的,中位数一般比平均数当样本中数据值的分布是高度倾斜的,中位数一般比平均数更适合一些更适合一些如如100,200,400,500,600,均值为均值为360,中位数为,中位数为400100,200,400,500,1000,均值为均值为440,中位数为,中位数为40030n对随机抽样调查来说,平均数比中位数更稳对随机抽样调查来说,平均数比中位数更稳定,它随样本的变化比较小定,它随样本的变化比较小n平均数比中位数更容易进行算术运算。平均数比中位数更容易进行算术运算。31众数、中位数、均值比
13、较众数、中位数、均值比较2但两种情况不宜用均值但两种情况不宜用均值:n(1)(1)分组数据的极端组没有组限分组数据的极端组没有组限。n(2)(2)个别数值非常特殊个别数值非常特殊。3233练习:求下表求下表(单项数列单项数列)所示数据的算术平均数所示数据的算术平均数。34 求下表所示数据的的算术平均数求下表所示数据的的算术平均数 35n 求54,65,78,66,43这些数字的中位数。n求54,65,78,66,43,38 这些数字的中位数。36 某年级学生身高如下,求中位数某年级学生身高如下,求中位数37求下表中的众数求下表中的众数38求下表中的众数求下表中的众数39 城镇自杀率的分组次数分
14、布城镇自杀率的分组次数分布40单变量的描述统计(单变量的描述统计(第五讲第五讲2)离散趋势测量离散趋势测量 41离散趋势测量离散趋势测量(Measures of dispersion)n反映的是各变量值偏离其中心值的程度,反映的是各变量值偏离其中心值的程度,是个案与个案之间的差异情况。是个案与个案之间的差异情况。n这种测量法,与前面所讲的集中趋势测这种测量法,与前面所讲的集中趋势测量法具有相互补充的作用。量法具有相互补充的作用。n集中趋势求出的是一个最能代表变量所集中趋势求出的是一个最能代表变量所有资料的值,但是集中趋势值代表性的有资料的值,但是集中趋势值代表性的高低还要看各个个案之间的差异情
15、况。高低还要看各个个案之间的差异情况。42举例:某校举例:某校3个系各选个系各选5名同学参加智力竞赛,名同学参加智力竞赛,他们的成绩如下:他们的成绩如下:中文系:中文系:78,79,80,81,82 (80)数学系:数学系:65,72,80,88,95(80)英语系:英语系:35,78,89,98,100(80)如果仅从集中趋势测量(平均分数)来看,这如果仅从集中趋势测量(平均分数)来看,这三个系的成绩都一致,不存在什么差别。三个系的成绩都一致,不存在什么差别。但从直观上可看出,三个系选手之间的差距程但从直观上可看出,三个系选手之间的差距程度(离散程度)很不一样度(离散程度)很不一样?43 n
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 变量 描述 统计 离散 趋势 分析 集中 PPT
限制150内