《统计数据的描述》PPT课件.ppt
《《统计数据的描述》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《统计数据的描述》PPT课件.ppt(91页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第四章 统计数据的描述n第一节第一节 统计分布的集中趋势统计分布的集中趋势n第二节第二节 统计分布的离散趋势统计分布的离散趋势n第三节第三节 统计分布的形态统计分布的形态1n1.集中趋势各测度值的计算方法集中趋势各测度值的计算方法n2.集中趋势各测度值的特点及应用场合集中趋势各测度值的特点及应用场合n3.离散程度各测度值的计算方法离散程度各测度值的计算方法n4.离散程度各测度值的特点及应用场合离散程度各测度值的特点及应用场合n5.偏态与峰态的测度方法偏态与峰态的测度方法n6.用用Excel计算描述统计量并进行分析计算描述统计量并进行分析2第一节 统计分布的集中趋势n集中趋势集中趋势是指一组数据
2、向某一中心值靠是指一组数据向某一中心值靠拢的倾向,测度集中趋势也就是寻找数拢的倾向,测度集中趋势也就是寻找数据一般水平的代表值或中心值。据一般水平的代表值或中心值。n理解集中趋势的理解集中趋势的三个特点三个特点:n 同质性同质性n 代表性代表性n 抽象性抽象性34一、算术平均数一、算术平均数n基本公式:n计算方法:简单算术平均和加权算术平均5平均数(mean)1.集中趋势的最常用测度值集中趋势的最常用测度值2.一组数据的均衡点所在一组数据的均衡点所在3.体现了数据的必然性特征体现了数据的必然性特征4.易受极端值的影响易受极端值的影响5.用于数值型数据,不能用于分类数据和用于数值型数据,不能用于
3、分类数据和顺序数据顺序数据61.简单算术平均(Simple mean)72.加权算术平均(Weighted mean)n根据单项变量数列计根据单项变量数列计算算n根据组距变量数列计根据组距变量数列计算,首先计算组中值算,首先计算组中值以代表该组的平均水以代表该组的平均水平。平。n在计算组距资料的平在计算组距资料的平均数时,均数时,x用组中值用组中值代替。代替。8权数的作用:n可见,加权算术平均数不但受各组标志值可见,加权算术平均数不但受各组标志值x的的影响,而且也受各组次数影响,而且也受各组次数f的影响。次数越多的影响。次数越多对标志总量的影响越大,次数越少对标志总对标志总量的影响越大,次数越
4、少对标志总量的影响越小。各组标志次数的多少在平均量的影响越小。各组标志次数的多少在平均数的计算中具有权衡轻重的作用,因此,在数的计算中具有权衡轻重的作用,因此,在统计上又称为权数。统计上又称为权数。9比重权数是权数的实质n权数有两种形式:一种是以绝对数表示,权数有两种形式:一种是以绝对数表示,称次数或频数;另一种是以比重表示,称次数或频数;另一种是以比重表示,称频率。同一总体资料,用这两种权数称频率。同一总体资料,用这两种权数所计算的加权算术平均数完全相同。所计算的加权算术平均数完全相同。n当各个标志值的权数都完全相等时,权当各个标志值的权数都完全相等时,权数就失去了权衡轻重的作用,这时候,数
5、就失去了权衡轻重的作用,这时候,加权算术平均数就成为简单算术平均数。加权算术平均数就成为简单算术平均数。10用比重权数计算算术平均数11算术平均数的计算案例算术平均数的计算案例P6365n算术平均数的算术平均数的数学性质数学性质n1.各单位标志值与算术平均数离差之和等于零各单位标志值与算术平均数离差之和等于零。n2.各单位标志值与算术平均数离差平方之和为最各单位标志值与算术平均数离差平方之和为最小。小。12二、交替标志平均数二、交替标志平均数n交替标志的概念交替标志的概念:交替标志又称是非标志,针:交替标志又称是非标志,针对品质标志来说,一种现象具有两种属性,总对品质标志来说,一种现象具有两种
6、属性,总体中某些单位具有某种属性,另外一些单位不体中某些单位具有某种属性,另外一些单位不具有某种属性,这种将总体单位划分为具有某种属性,这种将总体单位划分为“是是”或或“否否”、“有有”或或“无无”两类的标志叫交替两类的标志叫交替标志。标志。n用用1 表示具有某种属性的单位标志值,其单位表示具有某种属性的单位标志值,其单位数用数用N1表示;表示;n用用0 表示不具有某种属性的单位标志值,其单表示不具有某种属性的单位标志值,其单位数用位数用N0;全部总体单位数为;全部总体单位数为N13n则:n具有某种属性的单位数所具有某种属性的单位数所占比重(成数)占比重(成数)n不具有某种属性的单位数不具有某
7、种属性的单位数所占比重所占比重 14交替标志平均数公式:1PP(1-P)2Q2P0Q0(0-P)2P2Q合计合计1P_PQ(Q+P)15公式粘贴板16三、调和平均数三、调和平均数n概念概念:指各个变量值:指各个变量值倒数的算术平均数的倒数的算术平均数的倒数。用倒数。用H表示表示n计算方法:计算方法:n1.简单调和平均数简单调和平均数n2.加权调和平均数加权调和平均数17在例1中,用简单算术平均数n例1:某种蔬菜价格早上为0.5元/斤、中午为0.4元/斤、晚上为0.25元/斤。现早、中、晚各买1斤,求平均价格。18例2是用简单调和平均数的公式。n例2:某种蔬菜价格早上为0.5元/斤、中午为0.4
8、元/斤、晚上为0.25元/斤。现早、中、晚各买1元,求平均价格。19例3用加权调和平均数公式 n例3:某种蔬菜价格早上为0.5元/斤、中午为0.4元/斤、晚上为0.25元/斤。现早、中、晚各买2元、3元、4元,求平均价格。20注意问题n调和平均数是各个算术平均调和平均数是各个算术平均数倒数的算术平均数的倒数,数倒数的算术平均数的倒数,是在资料受到限制的条件下是在资料受到限制的条件下算术平均数的一种变形。算术平均数的一种变形。n那么,如何判断在什么情况那么,如何判断在什么情况下可以采用算术平均数或调下可以采用算术平均数或调和平均数呢?关键在于以算和平均数呢?关键在于以算术平均数的基本公式为依据术
9、平均数的基本公式为依据nn如果缺分子资料,可如果缺分子资料,可用简单或加权算术平用简单或加权算术平均数形式计算,如缺均数形式计算,如缺分母资料,可用简单分母资料,可用简单或加权调和平均数计或加权调和平均数计算。总之,根据所掌算。总之,根据所掌握产资料条件来决定。握产资料条件来决定。21四、几何平均数(geometric mean)n概念:几何平均数是n项变量值连乘积的n次方根。适用于变量值之间存在环比连乘关系的事物。用G表示n计算方法n1.简单几何平均数222.加权几何平均数23几何平均数案例n例例1:1994-1998年我国工业品的产量年我国工业品的产量分别是上年的分别是上年的107.6%、
10、102.5%、100.6%、102.7%、102.2%,计算,计算这这5年的平均发展速度。(即年的平均发展速度。(即103.1%)n例例2:某投资银行:某投资银行25年的年利率分别是:年的年利率分别是:1年年3%,4年年5%,8年年8%,10年年10%,2年年15%,求平均年利率。,求平均年利率。(即(即1.0861,8.6)24五、众数(mode)1.一组数据中出现次数最多的变量值一组数据中出现次数最多的变量值2.适合于数据量较多时使用适合于数据量较多时使用3.不受极端值的影响不受极端值的影响4.一组数据可能没有众数或有几个众数一组数据可能没有众数或有几个众数5.主要用于分类数据,也可用于顺
11、序数据主要用于分类数据,也可用于顺序数据和数值型数据和数值型数据25众数(不惟一性)n无众数无众数n原始数据原始数据:10 5 9 12 6 8一个众数一个众数一个众数一个众数原始数据原始数据原始数据原始数据:6 6 5 5 9 8 9 8 5 55 5多于一个众数多于一个众数多于一个众数多于一个众数原始数据原始数据原始数据原始数据:25 25 28 2828 28 36 36 42 4242 4226n由众数的定义可看出众数存在的由众数的定义可看出众数存在的条件条件:就是:就是总总体的单位数较多体的单位数较多,各标志值的次数分配又有明,各标志值的次数分配又有明显的显的集中趋势集中趋势时才存在
12、众数;如果总体单位数时才存在众数;如果总体单位数很少,尽管次数分配较集中,那么计算出来的很少,尽管次数分配较集中,那么计算出来的众数意义就不大;如果总体单位数较多,但次众数意义就不大;如果总体单位数较多,但次数分配不集中,即各单位的标志值在总体分布数分配不集中,即各单位的标志值在总体分布中出现的比重较均匀,那么也无所谓众数。中出现的比重较均匀,那么也无所谓众数。n众数是由标志值出现次数多少决定的,不受资众数是由标志值出现次数多少决定的,不受资料中极端数值的影响,这样增强了众数对总体料中极端数值的影响,这样增强了众数对总体一般水平的代表性。一般水平的代表性。27根据变量数列的不同种类,确根据变量
13、数列的不同种类,确定众数可采用不同的方法。定众数可采用不同的方法。n单项数列单项数列确定众数确定众数观察次数,出现次观察次数,出现次数最多的标志值就是众数。这种方法比数最多的标志值就是众数。这种方法比较简单。较简单。n组距数列组距数列确定众数确定众数观察次数,首先由观察次数,首先由最多次数来确定众数所在组,然后再用最多次数来确定众数所在组,然后再用比例插值法推算众数的近似值。其计算比例插值法推算众数的近似值。其计算公式为:公式为:2829某班学生统计学考试成绩情况表某班学生统计学考试成绩情况表众数众数74.706学生成绩x学生人数f学生人数比重(%)50以下506060707080809090
14、以上 241446104 2.55.017.557.512.55.0 合计 8010030 31分类数据的众数(例题分析)不同品牌饮料的频数分布不同品牌饮料的频数分布 饮料品牌饮料品牌频数频数比例比例百分比百分比(%)可口可乐可口可乐 旭日升冰茶旭日升冰茶 百事可乐百事可乐 汇源果汁汇源果汁 露露露露1511 9 6 90.300.220.180.120.183022181218合计合计50110032n n解:解:这里的变量为这里的变量为“饮料品牌饮料品牌”,这是,这是个分类变量,不同类型的饮料就是变量个分类变量,不同类型的饮料就是变量值值n n 所调查的所调查的50人中,购买可口可乐的人人
15、中,购买可口可乐的人数最多,为数最多,为15人,占总被调查人数的人,占总被调查人数的30%,因此众数为,因此众数为“可口可乐可口可乐”这一品这一品牌,即牌,即 n n Mo可口可乐可口可乐33顺序数据的众数(例题分析)甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市户数户数 (户户)百分比百分比 (%)非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意 24108 93 45 30 836311510合计合计300100.034n n解:解:这里的数据为顺序数据。变量为这里的数据为顺序数据。变量为“回答类别回答类别”n n
16、甲城市中对住房表示不满意的户数最甲城市中对住房表示不满意的户数最多,为多,为108户,因此众数为户,因此众数为“不满意不满意”这一类别,即这一类别,即n n Mo不满意不满意35众数的特点特点n从众数的计算可看到众数的特点:n众数是一个位置平均数,它只考虑总体分布众数是一个位置平均数,它只考虑总体分布中最频繁出现的变量值,而中最频繁出现的变量值,而不受极端值和开口不受极端值和开口组数列的影响组数列的影响,从而增强了对变量数列一般水,从而增强了对变量数列一般水平的代表性。平的代表性。n众数是一个众数是一个不容易确定的平均指标,不容易确定的平均指标,当分布当分布没有明显的集中趋势而趋于均匀分布时,
17、则无没有明显的集中趋势而趋于均匀分布时,则无众数可言;当变量数列是不等距分组时,众数众数可言;当变量数列是不等距分组时,众数的位置也不好确定。的位置也不好确定。U、J型分布有没有众数型分布有没有众数?(无)(无)36http:/Jim Simons,Renaissance Technologies nRenaissance Technologies is a global hedge fund management firm with a long record of producing superior returns for our clients by adhering to mathe
18、matical and statistical methods in the design and execution of our investment programs.We currently have more than 300 employees,and manage approximately$20 billion.37n发现发现Chern-Simons的几何定律的几何定律:数学大师数学大师Simons在华尔街大在华尔街大显神通显神通n原始出处:原始出处:华尔街日报华尔街日报 n西蒙斯既是世界级的数学大师,又是西蒙斯既是世界级的数学大师,又是Renaissance Technolo
19、gies Corp.的老板。眼下,他准备设立一只规模可能的老板。眼下,他准备设立一只规模可能高达高达1,000亿美元的基金的消息在业内闹得沸沸扬扬,要知道,亿美元的基金的消息在业内闹得沸沸扬扬,要知道,这可是整个对冲基金行业资产管理总额的十分之一左右。从早这可是整个对冲基金行业资产管理总额的十分之一左右。从早期的推广资料来看,这只基金的最低投资额为期的推广资料来看,这只基金的最低投资额为2,000万美元,万美元,面向机构投资者发售。面向机构投资者发售。n据估计,西蒙斯目前的资产净值约为据估计,西蒙斯目前的资产净值约为25亿美元。亿美元。Renaissance旗下的核心业务旗下的核心业务规模为规
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计数据的描述 统计数据 描述 PPT 课件
限制150内