欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    (专科)第4章 数据特征的概括性度量教学ppt课件.ppt

    • 资源ID:17156177       资源大小:769.50KB        全文页数:73页
    • 资源格式: PPT        下载积分:30金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要30金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    (专科)第4章 数据特征的概括性度量教学ppt课件.ppt

    (专科)第4章 数据特征的概括性度量教学ppt课件郭国庆主编第第 4 章章 数据的概括性度量数据的概括性度量4.1 集中趋势的度量 4.2 离散程度的度量 4.3 偏态与峰态的度量 学习目标1. 集中趋势各测度值的计算方法集中趋势各测度值的计算方法2. 集中趋势各测度值的特点及应用场合集中趋势各测度值的特点及应用场合3. 离散程度各测度值的计算方法离散程度各测度值的计算方法4. 离散程度各测度值的特点及应用场合离散程度各测度值的特点及应用场合偏态与峰态的测度方法偏态与峰态的测度方法5.用用Excel计算描述统计量并进行分析计算描述统计量并进行分析郭国庆主编4.1 集中趋势的度量(central tendency)4.1.1 众数(mode)集中趋势的测度值之一集中趋势的测度值之一一组数据中出现次数最多的一组数据中出现次数最多的变量值:变量值:M M0 0不受极端值的影响不受极端值的影响可能没有众数或有几个众数可能没有众数或有几个众数主要用于分类数据,也可用于顺序数据和数主要用于分类数据,也可用于顺序数据和数值型数据值型数据众数 (不唯一性)o无众数无众数原始数据: 10 5 9 12 6 8分类数据的众数(例题分析)高校吸烟原因频数分布高校吸烟原因频数分布 吸烟原因吸烟原因频数频数受朋友同学影响受朋友同学影响模仿偶像模仿偶像好奇、感觉时尚好奇、感觉时尚受了挫折受了挫折25257 718182222合计合计7272 顺序数据的众数 (例题分析)考试成绩分布考试成绩分布 考试成绩考试成绩频数频数优优良良中中及格及格不及格不及格4 411118 86 61 1合计合计3030分组数据众数o计算公式为:o式中: L众数所在组下限; U众数所在组上限; 1众数所在组频数与其下限的邻组频数之差; 2众数所在组频数与其上限的邻组频数之差; d众数所在组组距。dLMo211dUMo212工人日加工零件件数工人日加工零件件数 按零件数分组按零件数分组 频数频数105110110115115120120125125130130135135140 358141064 合计合计5050例例4.4 根据表4.3的数据,计算50名工人日加工零件数的众数。解:从表4.3中的数据可以看出,最大的频数值是14,即众数组为120125这一组,根据公式(4.1)得50名工人日加工零件的众数为:)(1235)1014()814(8141200件M)(1235)1014()814(10141250件M4.1.2 中位数和分位数(一)中位数(median)一组数据排序后处于中间位置上的变量值中位数 (位置的确定)21n中位数位置未分组数据的中位数(计算公式)为偶数时当为奇数时当nxxnxMnnne1222121考试成绩的分布考试成绩的分布 考试成绩考试成绩频数频数累积频数累积频数优优良良中中及格及格不及格不及格411861415232930合计合计3030 例例 根据表4.4的数据计算考试成绩的中位数。解:这里是一组顺序数据,顺序变量为“考试成绩”,变量的取值为5个等级成绩,由于变量本身已经排序,所以中位数位置为,从表4.3的累积频数中可以看到,中位数在“中”这一类中,因此中位数等于“中”,即 =中。5 .15213021n中位数位置eM数值型未分组数据的中位数 ( (奇数个数据的算例奇数个数据的算例) )例:例:9个家庭的人均月收入数据o原始数据原始数据: 1500 750 780 1080 850 960 2000 1250 1630o排排 序序: 750 780 850 960 1080 1250 1500 1630 2000o位位 置置: 1 2 3 4 5 6 7 8 9521921n位置数值型未分组数据的中位数数值型未分组数据的中位数( (偶数个数据的算例偶数个数据的算例) )o例例 在某城市随机抽取12人(数据的个数为偶数),调查得到每个人的人均月收入数据如下(单位:元)。计算人均月收入的中位数。o解:首先将上面数据排序,结果如下:2000 2200 2500 2700 2600 1800 2600 2500 1800 3300 2800 34001800 1800 2000 2200 2500 2500 2600 2600 2700 2800 3300 3400所以中位数为:5 . 6211221n中位数位置2550260022500eM组距式分组中位数组距式分组中位数o计算公式:dfSfUMdfSfLMmmemme11)2/()2/(:上限公式下限公式例例 根据表根据表4.5的资料数据,计算的资料数据,计算50名工人日加工零件数的名工人日加工零件数的中位数。中位数。o解解: 由表4.5可知,中位数的位置 = 50/2 = 25,即中位数在120125这一组,L= 120,Sm-1= 16,U=125,Sm+1=20, fm= 14,d= 5,根据中位数公式得: )(21.12351416250120件eM)(21.12351420250125件eM或(二) 四分位数 1. 排序后处于25%和75%位置上的值四分位数(位置的确定)4) 1(341nQnQUL位置位置数值型未分组数据的四分位数o例例4.8 在某城市随机抽取11人,调查得到每个人的人均月收入数据如下(单位:元)。计算人均月收入的四分位数。2000 2200 2500 2700 2600 1800 2600 2500 1800 3300 2800解:先将上面数据排序,结果如下:1800 1800 2000 2200 2500 2500 2600 2600 2700 2800 330094) 111( 334111位置位置ULQQ27002000ULQQ数值型未分组数据的四分位数 (10个数据的算例)例:例:10个家庭的人均月收入数据o原始数据原始数据: 1500 750 780 660 1080 850 960 2000 1250 1630o排排 序序: 660 750 780 850 960 1080 1250 1500 1630 2000o位位 置置: 1 2 3 4 5 6 7 8 9 10 25. 84) 110( 375. 24110位置位置ULQQ5 .1532)15001630(25. 015005 .772)750780(75. 0750ULQQ平均数平均数 (mean)一组数据相加后除以数据个数而得到的结果一组数据的均衡点所在体现了数据的必然性特征易受极端值的影响用于数值型数据,不能用于分类数据和顺序数据1、简单算数平均数nxnxxxxniin1212、加权算术平均数nfMffffMfMfMxkiiikkk1212211nfxffffxfxfxxkiiikkk1212211某机械厂工人日产零件资料某机械厂工人日产零件资料 日产量日产量xi 工人人数(工人人数(fi)xi fi 20212223242510203060503020042066013801200750合计合计200461005.23200461011212211kiikiiikkkffxffffxfxfxx郭国庆主编已改至此!某企业50名工人加工零件分组数据 按零件数分组组中值(Mi)频数(fi)Mi fi 105110110115115120120125125130130135135140 107.5112.5117.5122.5127.5132.5137.5 358141064 322.5562.5940.01715.01275.0795.0550.0 2 .1235061601nfMxkiii3 调和平均数调和平均数o调和平均数是平均数的一种。从数学形式上看,调和平均数具有独立的形式,它是变量值的倒数的算术平均数的倒数,也称为倒数平均数。 o(1)简单调和平均数 o计算公式为: kiikkxkxxxkxmxmxmkmH121211111.o例例4.13 市场上某种蔬菜的价格是早市每公斤1.25 元,午市每公斤1.20 元,晚市每公斤1.10 元。若早、中、晚各买10元钱的蔬菜,问所购买蔬菜的平均价格是多少?解: 购买蔬菜的平均价格为: 18. 110. 11020. 11025. 11030.21kxmxmxmkmH18. 110. 1120. 1125. 11311kiixkH或者o(2)加权调和平均数计算公式为: kiiikiikkkxmmxmxmxmmmmH11221121可简记为: iiixmmHo例例4.14 市场上某种蔬菜的价格是早市每公斤1.25元,午市每公斤1.20元,晚市每公斤1.10元。现若早、中、晚分别购买15元、12元和10元钱的蔬菜,问所购买蔬菜的平均价格是多少?解: 19. 110. 11020. 11225. 115101215iiixmmH4. 几何平均数(geometric mean)1. 1. n n 个变量值乘积的个变量值乘积的 n n 次方根次方根2. 2. 适用于对比率数据的平均适用于对比率数据的平均3. 3. 主要用于计算平均增长率主要用于计算平均增长率4. 4. 计算公式为计算公式为nniinnmxxxxG121nxxxxnGniinm121lg)lglg(lg1lg几何平均数(例题分析)o例例 某流水生产线有前后衔接的五道工序。某日各工序产品的合格率分别为95、92、90、85、80,要求计算整个流水生产线产品的平均合格率。解:整个流水生产线产品的平均合格率为:550.95 0.92 0.90 0.85 0.800.534988.24%G几何平均数 (例题分析)例例 一位投资者持有一种股票,20082011年的收益率分别为5%,6%,7%,9%。要求计算该投资者这4年的平均收益率。%75. 61%109%107%106%1051141321nniinnxxxxxG解: 几何平均数解释o设开始的数值为y0,年增长率分别为G1,G2,.Gn,第年的数值为:推出)1()1(1niinGG1)1(1nniiGG niinnGyGGGyy10210)1 ()1 ()1)(1 (郭国庆主编4.1.4 众数、中位数和均值的比较oeMMx1、众数、中位数和均值的关系oeMMxxMMeo左偏分布左偏分布对称分布对称分布右偏分布右偏分布2、众数、中位数和均值的特点和应用众数n不受极端值影响n具有不唯一性,作为分类数据集中趋势的测度值n数据分布偏斜程度较大时应用中位数n不受极端值影响,作为顺序数据集中趋势的测度值n数据分布偏斜程度较大时应用平均数n易受极端值影响n数学性质优良,作为数值型数据集中趋势的测度值n数据对称分布或接近对称分布时应用郭国庆主编4.2 离散程度的度量4.2.1 异众比率 (variation ratio)1.非众数组的频数占总频数的比率2. 计算公式为imimirfffffV1异众比率(例题分析)%6565.072251722572rV高校吸烟原因频数分布高校吸烟原因频数分布 吸烟原因吸烟原因频数频数受朋友同学影响受朋友同学影响模仿偶像模仿偶像好奇、感觉时尚好奇、感觉时尚受了挫折受了挫折25257 718182222合计合计72724.2.2 四分位差 (quartile deviation)1. 也称为内距或四分间距2. 上四分位数与下四分位数之差 Q QD D = = Q QU U - - Q QL L3. 反映了中间50%数据的离散程度4. 不受极端值的影响用于衡量中位数的代表性四分位差(顺序数据的算例) 4.2.3 全距(range)1. 一组数据的最大值与最小值之差2. 离散程度的最简单测度值3. 易受极端值影响未考虑数据的分布计算公式为 R = max(xi) - min(xi)4.2.4 平均差(mean deviation)1. 各变量值与其均值离差绝对值的平均数2. 能全面反映一组数据的离散程度3. 数学性质较差,实际中应用较少nxxMniid1nfxMMkiiid1平均差 (例题分析)平均差计算表平均差计算表 职工工资职工工资组中值组中值(Mi)频数频数(fi)250-270270-290290-310310-330330-350 260280300320340 1525356540 -50-30-101030 7507503506501200 合计合计1803700iifxM 例例 某厂按月收入水平分组的组距数列如表4.9中前两列,计算平均差。xMi)(31018055800元iiiffxx370020.6180iidixx fMf(元)解: 4.2.5 方差和标准差(variance and standard deviation)1. 方差指各变量值与其均值离差平方的平均数;方差的平方根即为标准差2. 反映了数据的分布3. 反映了各变量值与均值的平均差异根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差1 总体方差和标准差 (simple variance and standard deviation)未分组数据:Nxxnii122)(NfxMkiii122)(Nxxnii12)(NfxMkiii12)(2 样本方差和标准差 (simple variance and standard deviation)未分组数据:1)(122nxxsnii1)(122nfxMskiii1)(12nxxsnii1)(12nfxMskiiio例例4.22 考察一台机器的生产能力,利用抽样程序来检验生产出来的产品质量,假设搜集的数据如表4.10所示。根据该行业通用法则:如果一个样本中的14个数据项的方差大于0.005,则该机器必须关闭待修。问此时的机器是否必须关闭?解:根据已知数据,计算 459. 3nxxi005. 0002. 01)(22nxxsi因此,该机器工作正常。4.2.6. 相对位置的度量1、标准分数 ( (standard scorestandard score) )o 也称标准化值o对某一个值在一组数据中相对位置的度量o变量值与其平均数的离差除以标准差后的值o可用于判断一组数据是否有离群点o用于对变量的标准化处理o计算公式为sxxzii标准分数(性质)均值等于02. 方差等于1001)(1snsxxnnzzii1)(1111) 0(1)(22222222sssxxnnznznzzsiiiz标准化值(例题分析) 个人花费及其对应的标准分数个人花费及其对应的标准分数 编号编号花费(元)花费(元) 标准化值标准化值 z z 1 12 23 34 45 56 67 78 89 9100090085088012001500180020008001600-0.576-0.804-0.918-0.850-0.1210.5631.2461.702-1.0320.790576. 04391253100043912531zsxxzsxii2 经验法则o经验法则表明:当一组数据对称分布时o约有68%的数据在平均数加减1个标准差的范围之内o约有95%的数据在平均数加减2个标准差的范围之内o约有99%的数据在平均数加减3个标准差的范围之内 o*离群点:在平均数加减3个标准差之外的数。对称数据分布(三)切比雪夫不等式(Chebyshevs inequality )如果一组数据不是对称分布,经验法则就不再使用,这时可使用切比雪夫不等式,它对任何分布形状的数据都适用对于任意分布形态的数据,根据切比雪夫不等式,至少有(1-1/k2)的数据落在均值加减k个标准差之内。其中k是大于1的任意值,但不一定是整数切比雪夫不等式(Chebyshevs inequality )o对于k=2,3,4,该不等式的含义是至少有75%的数据落在平均数加减2个标准差的范围之内至少有89%的数据落在平均数加减3个标准差的范围之内至少有94%的数据落在平均数加减4个标准差的范围之内非对称数据(切比雪夫公式)4.2.7 相对离散程度:离散系数1. 标准差与其相应的均值之比对数据相对离散程度的测度消除了数据水平高低和计量单位的影响4. 用于对不同组别数据离散程度的比较5. 计算公式为xsvvs 或离散系数(例题分析)某管理局所属某管理局所属8 8家企业的产品销售数据家企业的产品销售数据企业编号企业编号产品销售额(万元)产品销售额(万元)x x1 1销售利润(万元)销售利润(万元)x x2 21234567817022039043048065095010008.112.518.022.026.540.064.069.0)(19.309)(25.53611万元万元sx)(09.23)(5215.3222万元万元sx郭国庆主编4.3 偏态与峰态的测度偏态与峰态的测度4.3.1. 偏态及其测度4.3.2. 峰态及其测度偏态与峰态分布的形状4.3.1 偏态及其侧度统计学家Pearson于1895年首次提出 数据分布的不对称性数据分布偏斜程度的测度数据分布分为对称、左偏、右偏 测度偏斜的程度可计算偏态系数偏态系数 (skewness coefficient)根据原始数据计算根据分组数据计算333)()2)(1()2)(1(sxxnnnsnnxxnSKii313)(nsfxMSKkiii偏态系数性质1. 偏态系数=0为对称分布2. 偏态系数 0为右偏分布偏态系数 0为左偏分布若1偏态系数或偏态系数 -1,则为高度则为高度偏态分布偏态分布若0.5偏态系数1或-1偏态系数 -0.5之间则为中等偏态分布之间则为中等偏态分布某企业职工月收入情况表某企业职工月收入情况表 职工月收入(元职工月收入(元 ) 职工人数职工人数900 以下以下900100010001100110012001200130013001400140015001500 以上以上2448601052721123合计合计300例例4.26 某企业职工月收入情况如表4.14 所示,求职工月收入分布的偏态系数。解:根据表4.14 数据,根据动差法计算偏度系数,计算过程如下,1113300333900iiiffMx34.152130069393001)(2iiiffxMs1348194300404458200)(33iiiffxMm38. 0)34.152(1348194333smSK结果表明,该企业职工月收入的分布为右偏分布,但偏斜程度不大。 4.3.2 峰态及其测度统计学家Pearson于1905年首次提出数据分布的平峰或尖峰的程度数据分布扁平程度的测度对峰态的测量需计算峰态系数峰态系数=0扁平峰度适中峰态系数0为尖峰分布标准正态分布尖峰分布平峰分布 变量分布不同峰度示意图 峰态系数(kurtosis coefficient)根据原始数据计算根据分组数据计算4224) 3)(2)(1() 1()(3)() 1(snnnnxxxxnnKii3)(414nsfxMKkiii峰态系数(例题分析)例例4.27 根据例4.26的表4.14 数据计算职工月收入的峰态系数。解:根据表4.14的相关数据,计算得1632660517)(44iiiffxMm5385870254s03.344smK结果表明,该企业职工月收入数据的分布为轻微的尖峰。用Excel计算描述统计量将120的销售量的数据输入到Excel工作表中,然后按下列步骤操作:第第1步:步:选择“工具工具”下拉菜单第第2步:步:选择“数据分析数据分析”选项第第3步:步:在分析工具中选择“描述统计描述统计”,然后选择“确定确定”第第4步:步:当对话框出现时 在“输入区域输入区域”方框内键入数据区域 在“输出选项输出选项”中选择输出区域 选择“汇总统计汇总统计” 选择“确定确定”实例计算实例计算本章小节1. 数据集中趋势的概括性度量数据集中趋势的概括性度量2. 数据离散程度的概括性度量数据离散程度的概括性度量数据分布形状的测度数据分布形状的测度3.用用Excel计算描述统计量计算描述统计量

    注意事项

    本文((专科)第4章 数据特征的概括性度量教学ppt课件.ppt)为本站会员(春哥&#****71;)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开