欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    第四章数据分布特征的测度精选文档.ppt

    • 资源ID:84115837       资源大小:2.91MB        全文页数:66页
    • 资源格式: PPT        下载积分:18金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要18金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    第四章数据分布特征的测度精选文档.ppt

    第四章数据分布特征的测度本讲稿第一页,共六十六页 教教学学重重点点与与难难点点:重点为各种平均指标和变异指标的概念、特点、应用条件、应用范围和计算方法。难点是不同条件下平均指标和变异指标的计算。本讲稿第二页,共六十六页 统计数据经过整理和显示后,对数据分布的形状和特征就可以有一个大致的了解。为进一步掌握数据分布的特征和规律,进行更深入的分析,还需要找到反映数据分布特征的各个代表值。本讲稿第三页,共六十六页 对一组数据分布的特征,可以从三个方面进行测度和描述:一是分布的集中趋势,反映各数据向其中心值靠拢和聚集的程度;二是分布的离散程度,反映各数据远离中心值的趋势;三是分布偏态和峰态,反映数据分布的形状。这三个方面分别反映了数据分布特征的不同侧面。本讲稿第四页,共六十六页第一节第一节 集中趋势的测度集中趋势的测度 集中趋势是指一组数据向某一中心值靠拢的倾向,它反映了一组数据中心点的位置所在。测度集中趋势也就是寻找数据一般水平的代表值或中心值。低层次数据的集中趋势测度值适用于高层次的测量数据,反过来,高层次数据的集中趋势测度值并不适用于低层次的测量数据。因此,选用哪一个测度值来反映数据的集中趋势,要根据所掌握的数据的类型和特点来确定。本讲稿第五页,共六十六页 一、分类数据:众数(一、分类数据:众数(Mo)众数众数是指一组数据中出现次数最多的变量值。出现次数最多的变量值 不受极端值的影响 一组数据可能没有众数或有几个众数 主要用于分类数据,也可用于顺序数据和数值型数据 本讲稿第六页,共六十六页无众数无众数无众数无众数原始数据原始数据:10 5 9 12 6 8:10 5 9 12 6 8一个众数一个众数一个众数一个众数原始数据原始数据:6 :6 5 5 9 8 9 8 5 55 5多多多多于于于于一一一一个个个个众众众众数数数数原始数据原始数据:25 :25 28 28 28 28 36 36 42 4242 42 从分布的角度看,众数是具有明显集中趋势点的数值,一组数据分布的最高峰点所对应的数值即为众数。当然,如果数据的分布没有明显的集中趋势或最高峰点,众数也可能不存在;如果有两个最高峰点,也可以有两个众数,见P78图4-1。本讲稿第七页,共六十六页 二、顺序数据:中位数(二、顺序数据:中位数(Me)和分位数)和分位数 (一)中位数(一)中位数 中位数是一组数据排序排序后,处于中间位置上的变量值。中位数是一个位置代表值,它主要用于测度顺序数据的集中趋势,当然也适用于作为数值型数据的集中趋势,但不适用于分类数据。本讲稿第八页,共六十六页 根据未分组数据计算中位数时,要先对数据进行排序,然后确定中位数的位置,其公式为:中位数位置本讲稿第九页,共六十六页 对于分类型数据分类型数据,中位数的位置为:中位数位置若项数为奇数,则居于中间位置的那个标志值即为中位数。若项数为偶数,则居于中间位置的两项数值的平均数即为中位数。本讲稿第十页,共六十六页【例】:【例】:【例】:【例】:9 9个家庭的人均月收入数据个家庭的人均月收入数据原始数据原始数据原始数据原始数据:1500 750 780 1080 850 960 2000 1250 16301500 750 780 1080 850 960 2000 1250 1630排排排排 序序序序:750 780 850 960 750 780 850 960 1080 1080 1250 1500 1630 2000 1250 1500 1630 2000位位位位 置置置置:1 2 3 4 1 2 3 4 5 5 6 7 8 9 6 7 8 9 位置位置=(n+1)=(n+1)2=(9+1)2=(9+1)2=5 2=5 中位数中位数=1080=1080【例】【例】【例】【例】:1010个家庭的人均月收入数据个家庭的人均月收入数据排排排排 序序序序:660660 750 780 850 750 780 850 960 1080960 1080 1250 1500 1630 2000 1250 1500 1630 2000位位位位 置置置置:1 2 3 4 1 2 3 4 5 6 5 6 7 8 9 10 7 8 9 10 位置位置=(n+1)=(n+1)2=(10+1)2=(10+1)2=5.5 2=5.5 中位数中位数=(960+1080960+1080)2=10202=1020对于数值型数据数值型数据,也可以计算中位数:本讲稿第十一页,共六十六页(二)分位数(二)分位数 四分位数、十分位数和百分位数分别是用3个点、9个点和99个点将数据4等分、10等分和100等分后各分位点上的值。四分位数,“四分位点”,是通过三个点将全部数据等分为四部分,其中每部分包含25的数据,处在分位点上的数值就是四分位数。25%25%25%25%25%25%25%25%QQMMQQU UQQL L下四分位数中位数上四分位数本讲稿第十二页,共六十六页对于分类数据,各四分位数的位置分别为:当四分位数的位置不在某一个数值上时,可根据四分位数的位置,按比例分摊四分位数位置两侧数值的差值。本讲稿第十三页,共六十六页【例】:【例】:【例】:【例】:9 9个家庭的人均月收入数据个家庭的人均月收入数据原始数据原始数据原始数据原始数据:1500 750 780 1080 850 960 2000 1250 16301500 750 780 1080 850 960 2000 1250 1630排排排排 序序序序:750 780 850 960 1080 1250 1500 1630 2000750 780 850 960 1080 1250 1500 1630 2000位位位位 置置置置:1 1 2 32 3 4 5 6 4 5 6 7 87 8 9 9QQL LQQL LQQL LQQL LQQU UQQU UQQU UQQU U【例】:【例】:【例】:【例】:1010个家庭的人均月收入数据个家庭的人均月收入数据排排排排 序序序序:660660 750 780 850 960 1080 1250 1500 1630 2000750 780 850 960 1080 1250 1500 1630 2000位位位位 置置置置:1 1 2 32 3 4 4 5 6 7 5 6 7 8 98 9 10 10 本讲稿第十四页,共六十六页 三、数值型数据:均值三、数值型数据:均值均值均值也称为算术平均数,是全部数据的算术平均。均值在统计学中具有重要的地位,是集中趋势的最主要测度值,它主要适用于数值型数据,而不适用于分类和顺序数据。根据所掌握数据的不同,均值有不同的计算形式和计算公式。本讲稿第十五页,共六十六页 (一)算术平均数的基本形式(一)算术平均数的基本形式算术平均数本讲稿第十六页,共六十六页 (二)简单算术平均数(二)简单算术平均数当掌握的资料是未分组未分组的总体各单位的标志值时,则将各单位的标志值简单相加得出标志总量,然后各单位的标志值简单相加得出标志总量,然后在除以总体单位数之和,这种计算平均数的方法称为简单算术平均数。本讲稿第十七页,共六十六页其公式为:本讲稿第十八页,共六十六页 (三)加权算术平均数(三)加权算术平均数当掌握的资料已经分组,且各组出现的次数不同时,则采用加权算术平均数。各组的组中值为:M1,M2,Mk本讲稿第十九页,共六十六页例:某企业某车间工人每天生产产品资料如表4-1:表表4-1按每人生产件数分组工人数(人)产品数(件)xfxf18192021221013382415180247760504330合计1002021根据上表资料,计算平均每人生产产品件数:本讲稿第二十页,共六十六页简单算术平均数的数值大小只与变量值的大小有关。加权算术平均数的数值大小不仅受各组组中值大小的影响,而且受各组变量值出现的频数及权数大小的影响。如果某一组的权数较大,说明该组的数据较多,那么该组数据的大小对均值的影响就越大,反之则越小。本讲稿第二十一页,共六十六页 加权算术平均数应注意几个问题:加权算术平均数应注意几个问题:1、加权算术平均数的权数可以是绝对数,亦可以是比重;上例的权数为绝对数。现举例说明比重权数,例如下表资料:本讲稿第二十二页,共六十六页表4-2按每人生产件数分组x工人比重()181920212210133824151.802.477.605.043.30合计10020.21平均每人生产产品件数=本讲稿第二十三页,共六十六页2、根据组距数列计算加权算术平均数例某企业某车间工人生产产品资料如表4-3:表4-3按每人生产产品数量分组(公斤)工人数f组中值xxf20-3030-4040-5050以上2070803025354555500245036001650合计2008200本讲稿第二十四页,共六十六页 用组中值计算出来的平均数,只能是平均数的近似值,而不是平均数的真值。本讲稿第二十五页,共六十六页3、若各组单位数相等,即f1=f2=fn,则加权算术平均数计算公式与简单算术平均数存在下面关系:可见,简单算术平均数是加权算术平均数的一个特例。本讲稿第二十六页,共六十六页 (四)算术平均数的数学性质(四)算术平均数的数学性质均值在统计学中具有重要的地位,它是进行统计分析和统计推断的基础。首先,从统计思想上看,均值是一组数据的重心所在,是数据误差相互抵消后的必然性结果。比如对同一事物进行多次测量,若所得结果不一致,可能是由于测量误差所致,也可能是其他因素的偶然影响,利用均值作为其代表值,则可以使误差相互抵消,反映出事物必然性的数量特征。其次,均值具有下面一些重要的数学性质,这些数学性质在实际中有着广泛的应用,体现了均值的统计思想。本讲稿第二十七页,共六十六页算术平均数最重要的两个数学性质是:1.各变量值与平均数的离差之和等于零,即:简单算术平均数:加权算术平均数:本讲稿第二十八页,共六十六页 2.各变量值与平均数的离差的平方和为最小值,即:简单算术平均数:加权算术平均数:证明见P84。本讲稿第二十九页,共六十六页(五)均值的另一种表现形式:调和平均数(五)均值的另一种表现形式:调和平均数调和平均数是算术平均数的另一种表现形式,用表示。在实际工作中,由于所获得的数据的不同,有时不能直接采用均值的计算公式来计算平均数,这就需要使用调和平均数的形式进行计算,二者实质上是相同的,而仅有形式上的区别。本讲稿第三十页,共六十六页其计算公式为:需要注意的是,当数据中出现“0”时不宜计算调和平均数。本讲稿第三十一页,共六十六页例如,某企业工人月奖金额如表4-4:表4-4按月奖金等级分组奖金额(元/人)(x)奖金总额(元)(m)工人数(人)(m/x)一等二等三等220180100220007560028000100420280合计125600800本讲稿第三十二页,共六十六页 (六)一种特殊的均值:几何平均数(六)一种特殊的均值:几何平均数统计几何平均数指标,是指社会经济现象的同质总体在时间上变动速度的平均数。是具有经济意义同质总体的n个环比发展速度连乘积的n次方根。统计几何平均数属于动态平均数。本讲稿第三十三页,共六十六页 几何平均数是适用于特殊数据的一种平均数,它主要用于计算比率的平均。当所掌握的变量值本身是比率的形式,这时就应采用几何平均法计算平均比率。在实际应用中,几何平均数主要用于计算社会经济现象的年平均增长率。本讲稿第三十四页,共六十六页设开始的数值为,逐年增长率为,则第n年的数值为:从到用n年,每年的增长率都相同,则增长率G就是平均增长率,有本讲稿第三十五页,共六十六页【例例例例某某水水泥泥生生产产企企业业19991999年年的的水水泥泥产产量量为为100100万万吨吨,20002000年年与与19991999年年相相比比增增长长率率为为9%9%,20012001年年与与20002000年年相相比比增增长长率率为为16%16%,20022002年年与与20012001年年相相比增长率为比增长率为20%20%。求各年的年平均增长率。求各年的年平均增长率。年平均增长率年平均增长率114.91%-1=14.91%114.91%-1=14.91%几何平均数的对数是各变量值对数的算术平均。需要注意的是,当数据中出现零值和负值是不宜计算几何平均数。本讲稿第三十六页,共六十六页四、众数、中位数和均值的比较四、众数、中位数和均值的比较 众数、中位数和均值是集中趋势的三个主要测度值,它们具有不同的特点和应用场合。(一)众数、中位数和均值的关系(一)众数、中位数和均值的关系 从分布的角度看,众数始终是一组数据分布的最高峰值,中位数是处于一组数据中间位置上的值,而均值则是全部数据的算术平均。本讲稿第三十七页,共六十六页 因此,对于具有单峰分布的大多数数据而言,众数、中位数和均值之间有以下关系:(1)当总体内部次数分配呈正态状时,三者合而为一,即三者相等:(2)当总体内部次数分配呈非正态状且右偏时,则(3)当总体内部次数分配呈非正态状且左偏时,则本讲稿第三十八页,共六十六页(二)众数、中位数和均值的特点和(二)众数、中位数和均值的特点和应用场合应用场合 1.众数 n不受极端值影响 n具有不唯一性 n数据分布偏斜程度较大时应用本讲稿第三十九页,共六十六页2.中位数n不受极端值影响n数据分布偏斜程度较大时应用3.均值n易受极端值影响n数学性质优良n数据对称分布或接近对称分布时应用本讲稿第四十页,共六十六页 第二节 离散程度的测度集中趋势只是数据分布的一个特征,它所反映的是各变量值向其中心值聚集的程度。数据的分散程度是数据分布的另一个重要特征,它所反映的是各变量值远离其中心值的程度。集中趋势的各测度值是对数据一般水平的一个概括性度量,它对一组数据的代表程度取决于该组数据的离散水平。数据的离散程度越大,集中趋势的测度值对该组数据的代表性越差,离散程度越小,其代表性就越好。本讲稿第四十一页,共六十六页一、分类数据:异众比率一、分类数据:异众比率异众比率,“离异比率或变差比”,是指非众数组的频数占总频数的比率,计算公式为:式中,为异众比率;为变量值的总频数;为众数组的频数。本讲稿第四十二页,共六十六页异众比率的作用是衡量众数对一组数据的代表程度。异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性就越差;异众比率越小,说明非众数组的频数占总频数的比重越小,众数的代表性越好。主要用于测度分类数据的离散程度,当然,顺序数据以及数值型数据也可以计算异众比率。例题见P90例4.11。本讲稿第四十三页,共六十六页二、顺序数据:四分位差二、顺序数据:四分位差“内距或四分间距”,计算公式为:QD=QU QL四分位差反映了中间50数据的离散程度,其数值越小,说明中间的数据越集中;数值越大,说明中间的数据越分散。四分位差不受极值的影响,此外,由于中位数处于数据的中间位置,因此四分位差的大小在一定程度上也说明了中位数对一组数据的代表程度。四分位差主要用于测度顺序数据的离散程度,当然对于数值型数据也可以计算四分位差,但不适合于分类数据。例题见P90例4.12。本讲稿第四十四页,共六十六页 三、数值型数据:方差及标准差三、数值型数据:方差及标准差测度数值型数据离散程度的方法主要有极差、平均差、方差和标准差,其中最常用的方法是方差和标准差。本讲稿第四十五页,共六十六页(一)极差(一)极差“全距”,它是总体中各单位标志的最大标志值与最小标志值之差。全距(R)最大标志值最小标志值极极差差是描述数据离散程度的最简单测度值,计算简单,易于理解,但它容易受极端值的影响。由于极差只是利用了一组数据两端的信息,不能反映出中间数据的分散状况,因而不能准确描述出数据的分散程度。本讲稿第四十六页,共六十六页(二)平均差(二)平均差“平均离差”,是各个标志值对算术平均数的离差的平均数。1对于未分组数据:2对于分组数据:例题见P91例4.13。本讲稿第四十七页,共六十六页平均差以均值为中心,反映了每个数据与均值的平均差异程度,它能全面准确地反映一组数据的离散状况。平均差越大说明数据的离散程度越大,反之则说明数据的离散程度越小。为了避免离差之和等于零而无法计算平均差这一问题,平均差在计算时对离差取绝对值,以离差的绝对值来表示总离差,这就给计算带来不便。同时平均差在数学性质上也不是最优的,因此实际中应用较少。本讲稿第四十八页,共六十六页(三)方差和标准差(三)方差和标准差方差是各变量值与其均值离差平方的平均数,是测度数值型数据离散程度的最主要方法。1.样本方差未分组数据:分组数据:本讲稿第四十九页,共六十六页2.标准差:方差的平方根即为标准差。未分组数据:组距分组数据:本讲稿第五十页,共六十六页与方差不同的是,标准差是具有量纲的,它与变量值的计量单位相同,其实际意义要比方差清楚。因此在对实际问题进行分析时,更多使用标准差。例题见P 93例4.14。本讲稿第五十一页,共六十六页方差或标准差也是根据全部数据计算的,它反映了每个数据与其均值相比平均相差的数值,因此它能准确反映出数据的离散程度。与平均差相比,方差在数学处理上是通过平方消去离差的正负号,更便于数学上的处理。因此,方差和标准差是实际中应用最广泛的离散程度测度值。本讲稿第五十二页,共六十六页 四、相对位置的测量:标准分数四、相对位置的测量:标准分数有了均值和标准差之后,可以计算一组数据中各个数值的标准分数,并可以用它来判断一组数据中某个数据的相对位置。本讲稿第五十三页,共六十六页(一)标准分数(一)标准分数“标准化值或z分数”,它是变量值与其平均数的离差除以标准差后的值,是对每个数据在该组数据中相对位置的测量。是常用的统计标准化公式,在对多个具有不同量纲的变量进行处理时,需要对各变量数值进行标准化处理。见P94例4.15。本讲稿第五十四页,共六十六页标准分数具有均值为0、标准差为1的特性:标准分数只是对原始数据进行了线性变化,它没有改变一个数据在该组数据中的位置,也没有改变该组数据分布的形状,而只是将该组数据变为均值为0,标准差为1。本讲稿第五十五页,共六十六页 (二)经验法则(二)经验法则 经验法则表明:当一组数据对称分布时 约有68%的数据在平均数加减1个标准差 的范围之内 约有95%的数据在平均数加减2个标准差 的范围之内 约有99%的数据在平均数加减3个标准差 的范围之内 本讲稿第五十六页,共六十六页 利用标准分数可以判断一组数据中是否存在离群点或离群数据。如果一组数据中某个观察值与其余观察值相比大得反常或小得反常,这个观察值就成为离群点离群点或离群数据离群数据。本讲稿第五十七页,共六十六页离群点的产生可能是由于下述原因:该观测值被错误测量、记录或输入计算机 该观测值可能来自另一个总体 该观测值是正确的,不过它代表一个偶然事件。本讲稿第五十八页,共六十六页(三)切比雪夫不等式(三)切比雪夫不等式 如果一组数据不是对称分布,经验法则就不再使用,这时可使用切比雪夫不等式,它对任何分布形状的数据都适用,提供的是“下界”,也就是“所占比例至少是多少”,对于任意分布形态的数据,根据切比雪夫不等式,至少有的数据落在k个标准差之内。其中k是大于1的任意值,但不一定是整数。本讲稿第五十九页,共六十六页对于k=2,3,4,该不等式的含义是1.至少有75%的数据落在平均数加减2个标准差的范围之内2.至少有89%的数据落在平均数加减3个标准差的范围之内至少有94%的数据落在平均数加减4个标准差的范围之内本讲稿第六十页,共六十六页五、相对离散程度:离散系数五、相对离散程度:离散系数 上面介绍的极差、平均差、方差和标准差等都是反映数据分散程度的绝对值,其数值的大小一方面取决于原变量值本身水平高低的影响,即与变量的均值大小有关,变量值绝对水平高的,离散程度的测度值自然也就大,绝对水平小的离散程度的测度值自然也就小;另一方面,他们与原变量值的计量单位相同,采用不同计量单位计量的变量值,其离散程度的测度值也就不同。因此,对于平均水平不同或计量单位不同的不同组别的变量值,为消除变量值水平高低和计量单位不同对离散程度测度值的影响,需要计算离散系数。本讲稿第六十一页,共六十六页 离散系数,“变异系数”,是一组数据的标准差与其相应的均值之比,是测度数据离散程度的相对指标。离散系数通常是就标准差来计算的,因此也成为标准差系数,的计算公式:本讲稿第六十二页,共六十六页离散系数的作用主要是用于比较不同总体或样本数据的离散程度。离散系数大的说明数据的离散程度也有就大,离散系数小的说明数据的离散程度也就小。例题见P97例4.16。数据的类型与所适用的离散程度测度值见P98表4-9。本讲稿第六十三页,共六十六页扁平分布扁平分布扁平分布扁平分布尖峰分布尖峰分布尖峰分布尖峰分布偏态偏态偏态偏态峰态峰态峰态峰态左偏分布左偏分布左偏分布左偏分布右偏分布右偏分布右偏分布右偏分布与标准正态分布与标准正态分布与标准正态分布与标准正态分布比较!比较!比较!比较!第三节第三节 偏态与峰度的测度偏态与峰度的测度 集中趋势和离中趋势是数据分布的两个重要特征,但要全面了解数据分布的特点,还需要知道数据分布的形状是否对称、偏斜的程度以及分布的扁平程度等。偏态和峰度是对分布形状的测度。本讲稿第六十四页,共六十六页一、偏态及其测度一、偏态及其测度1.统计学家Pearson于1895年首次提出,是对数据分布对称性的测度2.数据分布偏斜程度的测度3.偏态系数=0=0为对称分布4.偏态系数00为右偏分布5.偏态系数00为左偏分布计算公式为:根据原始数据计算 根据分组数据计算 例题见P99例4.17。本讲稿第六十五页,共六十六页二、峰度及其测度二、峰度及其测度1.统计学家Pearson于1905年首次提出2.数据分布扁平程度的测度3.峰态系数=0=0扁平峰度适中4.峰态系数000为尖峰分布计算公式:根据原始数据计算 根据分组数据计算 例题见P101例4.18。本讲稿第六十六页,共六十六页

    注意事项

    本文(第四章数据分布特征的测度精选文档.ppt)为本站会员(石***)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开