欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    单变量的描述统计离散趋势分析和集中趋势分析.ppt

    • 资源ID:3775748       资源大小:744.52KB        全文页数:67页
    • 资源格式: PPT        下载积分:12金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要12金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    单变量的描述统计离散趋势分析和集中趋势分析.ppt

    1,第五讲:单变量描述统计,集中趋势测量 离散趋势测量,2,知识点:两个维度七个统计量数,3,学习要求,1、集中趋势各测量法的计算方法; 2、集中趋势各测量法的特点和应用; 3、离散程度各测量法的计算方法; 4、离散程度各测量法的特点与应用;,4,单变量描述统计,在统计分析中,是否可以找出一个有代表性的数值来说明变量的分布,反映资料的集中或差异情况? 集中趋势测量,就是以一个数值来代表变量的资料分布,反映的是变量值向中心值聚集的程度,也就是说以这一个数值(或称典型值)来估计或预测每一个研究对象的数值时发生的错误总数在理论上是最小的。 离散趋势测量(Measures of dispersion)就是用一个值表示数据之间的差异情况。 离散趋势测量法和集中趋势测量法具有互补作用。在进行统计分析时,既要测量变量的集中趋势,也要测量离散趋势。,5,集中趋势测量/分析,集中趋势测量:用某一个典型的变量值或特征值来代表全体变量的问题,这个典型的变量值或特征值就称作集中值或集中趋势。 众值(Mode) 定类层次 中位值(Median)定序层次 均值(Mean) 定距层次,6,一、众数(mode),1、出现频次最多的变量值; 2、众数的不唯一性; 3、主要应用于定类变量,当然也可以应用于定序和定距变量,7,众数的特点:不唯一性,原始数据:4、5、7、8、19(无众值) 原始数据:4、5、7、5、5、16(一个众值) 原始数据:4、4、5、7、7、9(两个众值),8,例1:非连续取值,9,例2 分组数据,10,从分布来看,众数是具有明显集中趋势点的数值,一组数据分布的最高峰点所对应的数值及为众数。,11,二、中位值(Median),1、把一组数据按顺序排列,处于中间位置的那个数值就是中位值。 2、主要应用于定序变量,也可用于定距变量,但不可用于定类变量。,Md,12,(1)未分组数据求中位数: Md位置= (2)中位数=中间位置的值 注意:先找位置,再找中位数 将各个个案由低至高排列起来,居序列中央位置的个案值就是中位值。,13,(1)、个案数为奇数,【例1】:甲地的5户人家的人数为:2,4,3,6,8,求中位值。 解:Md的位置 3,排序2,3,4,6,8,中位值Md=4,14,(2)个案数为偶数,【例2】:乙地的6户人家的人数为:2,4,3,6,8,5求中位值。 解:Md的位置 3.5,排序2,3,4, 5, 6,8,Md= =4.5,15,(3)频数分布表,【例3】根据下表求中位值。,解:Md位置 250.5 中位值Md乙,16,2、分组数据,根据统计表中的累积百分比,找出含有50%的区间 找出含有50%区间的上界值U,下界值L,上界累计百分数U%,下界累计百分数L%以及组距等信息 根据线段对应成比例的原理,计算出累计百分比为50%的变量值,17,L:中位数组的下限 f:中位数组的频数 w:中位数组的组距(U-L) cf:低于中位数组下限的累加次数 n:全部个案数 Md位置=n/2 (上下各50%的位置),18,例:分组数据:,首先将各组的次数累加起来 求中位数的位置: Md位置=n/2 =212/2=106 第106个位置在 25-35之间,19,分组变量看作是一组连续的数值,25,94,35,124,?,106,10,30,12,20,【例4】: 根据下表数据求中位值。,解:Md位置50; 从累积频数cf栏找到中位数位置所在组为“300400” 引入公式:,=350,21,三、均值,1、均值的定义:总体各单位取值之和除以总体单位数目。 2、仅适用于定距变量,不适用于定类和定序;,22,1、未分组数据,(1)简单原始资料求均值,23,均值的计算未分组数据,【例5】某班10名学生年龄分别为20、21、19、19、20、20、21、22、18、20岁,求他们的平均年龄。,解:根据平均数的计算公式有:,24,(2)、加权平均数,某个变项值重复出现多次,可以先统计每个值(x)的次数(f),再求次数与相应变量值的乘积(fx),利用各乘积之和求出均值。(f也称为权数,f/n称为权重) 公式:,25,未分组数据加权平均数,【例6】调查某年120名学生的年龄,结果如下表,求平均年龄。,解:根据公式得 18.9岁,26,2、分组资料求均值:根据组中值求均值,先求出组中值 组中值=(上限+下限)/2 计算组中值的和 计算分组数据的均值,组中值,27,众值、中位数和均值的比较1,注: 表示该数据类型最适合用的测度值,28,众数、中位数和平均值的比较,众数是一组数据中出现次数最多的数值。但在社会调查中众数的代表性较小,29,中位数和平均数的比较,计算平均数时用到数据中所有的数值,而求中位数时只用到数值的相对位置,平均数比中位数利用了更多的有关数据的信息 平均数容易受到极端值的影响,而中位数则不会受这种影响。当样本中数据值的分布是高度倾斜的,中位数一般比平均数更适合一些 如100,200,400,500,600, 均值为360,中位数为400 100,200,400,500,1000, 均值为440,中位数为400,30,对随机抽样调查来说,平均数比中位数更稳定,它随样本的变化比较小 平均数比中位数更容易进行算术运算。,31,众数、中位数、均值比较2,但两种情况不宜用均值: (1)分组数据的极端组没有组限。 (2)个别数值非常特殊。,32,33,练习:,求下表(单项数列)所示数据的算术平均数 。,34,求下表所示数据的的算术平均数,35,求54,65,78,66,43这些数字的中位数。 求54,65,78,66,43,38 这些数字的中位数。,36,某年级学生身高如下,求中位数,37,求下表中的众数,38,求下表中的众数,39,城镇自杀率的分组次数分布,40,第五讲 单变量的描述统计(2) 离散趋势测量,41,离散趋势测量(Measures of dispersion),反映的是各变量值偏离其中心值的程度,是个案与个案之间的差异情况。 这种测量法,与前面所讲的集中趋势测量法具有相互补充的作用。 集中趋势求出的是一个最能代表变量所有资料的值,但是集中趋势值代表性的高低还要看各个个案之间的差异情况。,42,举例:某校3个系各选5名同学参加智力竞赛,他们的成绩如下: 中文系:78,79,80,81,82 ( 80) 数学系:65,72,80,88,95 ( 80) 英语系:35,78,89,98,100 ( 80) 如果仅从集中趋势测量(平均分数)来看,这三个系的成绩都一致,不存在什么差别。 但从直观上可看出,三个系选手之间的差距程度(离散程度)很不一样?,43,异众比率/离异比率(Variation ratio) 定类层次 四分位差(Interquartile range)定序层次 方差 (Variance) 标准差 (Standard deviation)定距层次,44,一、异众比率(Variation ratio),1、异众比率(简写Vr) :指非众值在总数中所占的比率。 表示以众数来预测一组数据时,所犯错误的大小.即Vr值越大,则众值的代表性就越小. Vr值越小,则众值的代表性就越大. 2、计算公式:,:众值的频次,45,异众比率(先找出众值.找到众值的频次分布),【例1】:根据表1中的数据,计算众值和异众比率。,解: 众值Mo “核心家庭” 异众比率,46,例2:众数和异众比率的比较,表2 甲乙两校学生的父亲职业,甲乙两校学生的父亲职业的众数都为“农民” 甲校 乙校 众数的代表性中甲校小于乙校,甲校中有47.6%非农民,乙校只有38.5%.,47,异众比率&众值,异众比率是众值的补充。取值范围是0,1。 不属于众数的个案所占的比例愈大,就表示众数的代表性愈小,以之作估计或预测时所犯的错误也就愈大。 当 Vr 0,说明变量只有一个值,那就是众值; 当 Vr 0,说明资料比较集中,众值的代表性比较高; 当 Vr 1,说明资料比较分散,众值的代表性低。,48,二、四分位差(Interquartile range),将数据由低至高排列,然后分为四等分(即每个等分包括25的数据),第一个四分位置的值( Q1 )与第三个四分位置的值(Q3)的差异,就是四分位差(简写为Q)。,Q1,Q2,Q3,Q4,25%,25%,25%,25%,49,1.离散程度的测度值之一 2.也称为内距或四分间距 3.上四分位数与下四分位数之差 4.反映了中间50%数据的离散程度 5.不受极端值的影响 6.用于衡量中位数的代表性,50,基本公式,求位置,找出4分位对应的数值 Q1= Q3= 四分位差Q Q3 Q1。,51,1、根据原始未分组资料求四分位差,解: Q1 的位置 =75.25 Q3的位置 225.75 那么 Q1 不满意; Q3 一般 Q Q3 Q1 一般不满意 结论,有一半的家庭对住房评价在不满意到一般之间。,【例3】求下表的四分位差,52,例4:调查甲乙两村的家庭人数,其中甲村有11户人家,每户人数为 2,2,3,4,6,9,10,10,11,13,15 乙村有8户人家,每户人口数为 2,3,4,7,9,10,12,12 则甲村中:Q1 位置=(n+1)/4=(11+1)/4=3, Q1 =3 Q3位置=3(n+1)/4=9, Q3=11 Q=Q3-Q1=11-3=8 则乙村中: Q1 位置=(n+1)/4=2.25, Q1 =3+0.25(4-3)=3.25 Q3位置=3(n+1)/4=6.75, Q3=10+0.75(12-10)=11.5 Q=Q3-Q1=11.5-3.25=8.25 甲的离散程度低于乙村,以中位置估计甲乙两村的人口数时,在甲村犯的错误小于乙村,53,2、根据分组资料求四分位差,有四步: 计算向上累加次数 求出Q1 和Q3的位置 Q1= Q3= 参考累加次数分布,决定Q1和Q3属于哪一组 从所属组中,计算Q1位置和Q3位置的数值。,54,公式如下:,L1=Q1属组之真实下限 L3=Q3属组之真实下限 f1=Q1属组之次数 f3=Q3属组之次数 cf1=低于Q1属组之累计次数 cf3=低于Q3属组之累计次数 w1=Q1属组之组距 w3=Q3属组之组距 n=全部个案数目,55,四分位差&中位数,四分位差反映的是中位数的代表性 差距越大,中位数的代表性越小,用中位数估计变量时所犯的错误越大;反之,中位数的代表性越大,用中位数作估计犯的错误越小。,56,三、方差和标准差,1.离散程度的测度值之一 2.最常用的测度值 3.反映了数据的分布 4.反映了各变量值与均值的平均差异 5.根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差,57,三、方差与标准差,所谓方差(Variance) ,观察值与其均值之差的平方和除以全部观察总数N。 方差的平方根就是标准差(Standard deviation),用 或S,58,表示以均值作代表值时引起的偏差或错误,也就是说用均值来估计或预测各个个案的数值,所犯的错误( )平均是 标准差是用得最多,也是最重要的离散量数的统计量; 方差是统计学上的一个重要概念,在以后的统计方法学习过程中会进一步了解; 只适用于定距层次的变量;,59,总体方差和标准差,未分组数据:,未分组数据:,分组数据:,方差的计算公式,标准差的计算公式,60,样本方差和标准差,分组数据:,未分组数据:,分组数据:,方差的计算公式,标准差的计算公式,未分组数据,61,样本方差的自由度(degree of freedom),一组数据中可以自由取值的数据的个数 当样本数据的个数为 n 时,若样本均值x 确定后,只有n-1个数据可以自由取值,其中必有一个数据则不能自由取值 例如,样本有3个数值,即x1=2,x2=4,x3=9,则 x = 5。当 x = 5 确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值 样本方差用自由度去除,其原因可从多方面来解释,从实际应用角度看,在抽样估计中,当用样本方差去估计总体方差2时,它是2的无偏估计量,62,注意:有些书中,也提到抽样的样本较大时,在样本方差和标准差的计算中,n-1和n计算出来的数值相差不大,因此有些计算中直接将样本中的个案数目用n表示,而不用n-1,如李沛良的书。,63,1、未分组资料标准差计算,【例5】:求标准差,并进行简单比较。 中文系:78,79,80,81,82 ( 80) 数学系:65,72,80,88,95 ( 80) 英语系:35,78,89,98,100 ( 80),解:根据公式 (中文系)1.414分 (数学系)10.8分 (英语系)23.8分,结论:中文系差别最小,英语系差别最大。,64,2、分组资料标准差的计算,公式 其中Xm是每组的组中值,f是该组的次数,65,例6 青年人阅读小说的数目,66,四、极差/全距(Range),1. 一组数据的最大值与最小值之差 2. 离散程度的最简单测度值 3. 易受极端值影响 4. 未考虑数据的分布,未分组数据 R = max(Xi) - min(Xi),5. 计算公式为,67,小结,1、集中趋势测量和离散趋势测量具有互补性,集中趋势反映的是资料的代表性,离散趋势反映的是资料的差异情况; 2、选何种方法,要注意变量的测量层次,彼此的关系综合如下:,

    注意事项

    本文(单变量的描述统计离散趋势分析和集中趋势分析.ppt)为本站会员(小**)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开