统计学--工商管理类核心课程.ppt
《统计学--工商管理类核心课程.ppt》由会员分享,可在线阅读,更多相关《统计学--工商管理类核心课程.ppt(182页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 统统 计计 学学 工商管理类核心课程工商管理类核心课程面向21世纪课程教材1统计学 第2章 统计数据的描述z 本章内容:学会统计数据的整理;进一步分析数据分布特征和变化规律,用代表值从集中、离散趋势描述数据的分布特征,重点掌握这些代表值的计算、特点和应用场合。2统计学第2章 统计数据的描述z 本章分五节:z第1节统计数据的整理z第2节分布集中趋势的测度;z第3节分布离散程度的测度;z第4节分布偏态与峰度的测度;z第5节统计表与统计图。3统计学4第1节统计数据的整理z本节需把握三个问题:z1.1数据的预处理;z1.2数据分组与频数分布;z1.3次数分配的图示和类型。4统计学51.1数据的预处理
2、z把握两个问题:z1.1.1数据的审核、筛选;z1.1.2数据的排序。5统计学61.1.1数据的审核、筛选z(1)数据的审核:A、对原始数据,审核完整性和准确性。前者指调查单位是否遗漏、项目是否齐全等;后者指数据是否真实、是否错误等。方法是逻辑检查和计算检查。zB、对二手数据审核完整性和准确性外,着重审核数据的适用性和时效性。前者应清楚数据的来源、口径和背景,后者应注意数据的时间,使用最新的数据。6统计学71.1.1数据的审核、筛选z(2)数据的筛选:z包括剔除不符和要求的数据或错误的数据;z筛选符合特定要求的数据。7统计学81.1.2数据的排序z它是按照一定顺序排列数据,便于发现明显特征趋势
3、或解决问题的线索,有助于检查纠错为归类分组提供依据。z对数字型数据:递增或递减排序z对字母型数据:升序降序排序z对汉字型数据:按拼音、字母、笔画排序8统计学91.2数据的分组与频数分布z把握三个问题:z1.2.1基本概念;z1.2.2按品质标志分组;z1.2.3按数量标志分组。9统计学101.2.1基本概念z(1)统计分组:它是根据统计研究的需要,将数据按照某种特征或标准分成不同的组别。z(2)分组标志:分组时所依据的特征或标准,有品质标志和数量标志。前者说明事物的性质或属性特征,不能用数值表现,对应列名、顺序尺度,如产品等级;后者说明事物数量特征,可以表现为数值,对应间隔、比例尺度。10统计
4、学111.2.1基本概念z(3)频数分布:根据分组计算出所有类别或数据在各组出现的次数,将全部数据按分组标志在各组内的分布状况称为频数分布。z(4)频数、频率:分布在各组的数据个数称为频数;各组频数与全部频数之和的比值称为频率或比重。11统计学12z这种分组较简单,要注意组的界限。例如,表2-1:z 表2-1 某班学生按性别分组1.2.2按品质标志分组 按性别分组 人数 百分比%男生 女生 30 20 60 40 合计 50 10012统计学131.2.3按数量标志分组z分组方法有:z(1)单变量分组:一个变量值为一组,适合离散变量,且变量值较少。步骤是先排序再分组。z例2-1某生产车间30名
5、工人周加工零件数如下(单位:件):13统计学141.2.3按数量标志分组14统计学151.2.3按数量标志分组z(1)单变量分组:首先对上面数据排序如下:z 84 85 88 91 91 94 95 96 97 99z101 101 103 105 105 105 106 106 106 106z107 107 109 110 111 111 118 119 121 128z其次进行单变量分组,形成频数分布表2-215统计学16表2-2 某车间30名工人周加工零件数分组表零件数(件)频数零件数(件)频数零件数(件)频数 84 85 88 91 94 95 96 1 1 1 2 1 1 1 97
6、 99 101 103 105 106 107 1 1 2 1 3 4 2 109 110 111 118 119 121 128 1 1 2 1 1 1 1 16统计学171.2.3按数量标志分组z(2)组距分组:z将全部变量值划分为若干区间,并将这一区间的变量值作为一组,适用于连续变量或变量值较多的情况。z需要遵循“不重不漏”的原则,可采用等距分组,也可采用不等距分组。17统计学181.2.3按数量标志分组z(2)组距分组:z步骤:先排序,然后A、确定组数:组数的确定应以能够显示数据的分布特征和规律为目的。z可按斯特格斯(Sturges)提出的经验公式确定组数K:K=1+1gN /1g2,
7、其中N为数据个数,计算结果取整。18统计学191.2.3按数量标志分组z(2)组距分组步骤 B、确定各组组距(class width):是一组上限与下限之差。z组距分组又分等距、异距分组:za 等距分组:各组组距相等,组距=(最大值最小值)/组数,即全距/组数,组距宜取5或10的倍数。zb异距分组:各组组距不等,是某些特殊现象的需要,如对人口年龄分组:z06岁(婴幼儿组)、717岁(少年儿童组)、1859岁(中青年组)、60岁以上(老年组)。19统计学201.2.3按数量标志分组z(2)组距分组步骤zC、确定组限:组限是组与组间的界限,各组有上限(upper limit)、下限(low lim
8、it)。z注意:a组限的重叠与不重叠:连续型变量一般重叠,离散型变量都可以。zb为了“不重”,上组限不在内。zc第一组下限低于或等于最小值,最后一组上限高于最大值。zd开口、闭口组:为避免空白组或极值漏掉,第一或最后一组采取“以上”或“以下”分组。20统计学211.2.3按数量标志分组(2)组距分组步骤D、整理成频数分布表:计算各组频数、频率、组中值(class midpoint)、频数密度、累计频数。组中值是下限与上限之间的中点值反映各组数据的一般水平,组中值=(下限+上限)/2。频数密度=频数/组距,等距分组的频数分布不受组距大小影响,异距分组的频数分布受组距大小影响,必须计算频数密度。累
9、计频数又分向上向下累计:向上累计从变量值小的一方向大的方向累计,表示某组上限以下累计频数或频率;向下累计相反。21统计学221.2.3按数量标志分组z(2)组距分组:对于例2-1采用组距分组,计算组数K=1+1g30/1g2=5(组),组距=(128-84)/5=8.8,组距取10件,整理成频数分布表2-3。22统计学23表2-3某车间30名工人加工零件数分组表按零件数分组频数(人)频率(%)向上累积 向下累积频数(人)频率(%)频数(人)频率(%)8090 90100 100110 110120 120130 3 7 13 5 2 10.0 23.3 43.3 16.7 6.7 3 10 2
10、3 28 30 10.0 33.3 76.6 93.3100.0 30 27 20 7 2100.0 90.0 66.7 23.4 6.7 合计 30 100 23统计学241.3次数分配的图示和类型z把握三个问题:z1.3.1直方图和折线图;z1.3.2频数分布的类型;z1.3.3洛伦茨曲线与基尼系数。24统计学251.3.1直方图和折线图(1)直方图(histogram):用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面面积积来表示各组的频数分布 在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图 直方图下的总面积等于1 根据表2-3
11、的资料绘制的直方图如图2-1:25统计学26分组数据的图示(直方图的绘制)z 我我一一眼眼就就看看出出来来了了,周周加加工工零零件件在在100100110110之之间间的的人人数数最最多多!图图2-1某车间工人周加工零件直方图某车间工人周加工零件直方图26统计学271.3.1直方图和折线图z(2)折线图(frequency polygon)也称频数多边形图,是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉折线图的两个终点要与横轴相交,具体的做法是:y第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴
12、y折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的27统计学28分组数据的图示(折线图的绘制)图图图图2-22-2某车间工人周加工零件折线图某车间工人周加工零件折线图某车间工人周加工零件折线图某车间工人周加工零件折线图 折线图与直方图折线图与直方图下的面积相等!下的面积相等!28统计学291.3.2频数分布的类型z(1)正态分布:是一种对称的钟型分布,如市场的价格分布,如图2-3(a)对称分布对称分布对称分布29统计学301.3.2频数分布的类型z(2)偏态分布:如图2-3(b)右偏分布右偏分布右偏分布左偏分布左偏分布左偏分布30统计学311.3.2频数分布的类型z(3)J
13、型分布:有正J型,如经济学中的供给曲线;有反J型,如需求曲线。如图2-3(c):正正正J J J型分布型分布型分布反反反J J J型分布型分布型分布31统计学321.3.2频数分布的类型z(4)U型分布:两端的频数分布多,中间的少,如人和动物的死亡率分布。如图2-3(d):U UU型分布型分布型分布32统计学1.3.3洛伦茨曲线与基尼系数(1)洛伦茨曲线:20世纪初美国经济学家、统计学 家 洛 伦 茨(M.E.Lorentz)根据意大利经济 学 家 巴 雷 特(V.Pareto)提出的收入分配公式绘制而成,描述收入和财富分配性质的曲线,分析该国家或地区分配的平均程度 AB绝对公平线绝对公平线
14、累累积积的的收收入入百百分分比比 累积的人口百分比累积的人口百分比 33统计学341.3.3洛伦茨曲线与基尼系数(2)基尼系数:20世纪初意大利经济学家基尼(G.Gini)根据洛伦茨曲线给出了衡收入分配平均程度的指标。A表示实际收入曲线与绝对平均线之间的面积;B表示实际收入曲线与绝对不平均线之间的面积。如果A=0,则基尼系数=0,表示收入绝对平均;如果B=0,则基尼系数=1,表示收入绝对不平均基尼系数在0 和1之间取值。AB34统计学351.3.3洛伦茨曲线与基尼系数(2)基尼系数:一般认为,基尼系数若小于0.2,表明分配平均;基尼系数在0.2至0.4之间是比较适当的,即一个社会既有效率又没有
15、造成极大的分配不公;基尼系数在0.4被认为是收入分配不公平的警戒线,超过了0.4应该采取措施缩小这一差距。35统计学第2节分布集中趋势的测度z集中趋势是指一组数据向某一中心值靠拢的倾向,对其测度就是找到其代表值。z本节需要把握七个问题:z2.1众数;2.2中位数;z2.3四分位数;2.4均值;2.5调和平均数z2.6几何平均数;2.7切尾均值;z2.8众数、中位数、均值的比较。36统计学2.1众数(mode)z把握三个问题:z2.1.1众数的概念;z2.1.2众数的确定与计算;z2.1.3众数的统计思想。37统计学 2.1.1众数的概念z(1)众数是一组数据中出现次数最多的变量值,适合于数据量
16、较多时使用,主要用于分类数据,也可用于顺序数据和数值型数据z在统计实践中有时用众数说明现象的一般水平,如了解市场需求量多的服装款式。z(2)从分布看,它是数据分布的最高峰点,若没有最高峰点,众数可以不存在,也可以有多个高峰点,对应多个众数。z看下例和图:z 38统计学众数(不惟一性不惟一性)z无众数无众数原始数据:10 5 9 12 6 8一个众数一个众数原始数据:6 5 9 8 5 5多于一个众数多于一个众数原始数据:25 28 28 36 42 4239统计学z(1)未分组数据或单变量值分组数据:找出出现次数最多的变量值。z(2)组距分组数据:众数数值与其相邻两组的频数分布有关。设众数组的
17、频数为f,前一组频数为f-1,后一组频数为f+1。zA、图形确定:从众数组直方图的两顶角向相邻两组直方图的两顶角引直线,其交点向横轴引垂线,交点为众数。看图2-4:2.1.2众数的确定与计算40统计学图2-4众数与相邻两组的关系示意图当f-1=f+1时如图(a),当f-1f+1时如图(b),当f-1f+1时如图(c)。(a)(b)(c)41统计学 2.1.2众数的确定与计算z(2)组距分组数据:B、公式计算:z上限公式z下限公式zM0表示众数,L表示众数组的下限值,U表示众数组的上限值,i表示众数组的组距。看下例:42统计学43表2-3某车间30名工人加工零件数分组表按零件数分组频数(人)频率
18、(%)向上累积 向下累积频数(人)频率(%)频数(人)频率(%)8090 90100 100110 110120 120130 3 7 13 5 2 10.0 23.3 43.3 16.7 6.7 3 10 23 28 30 10.0 33.3 76.6 93.3100.0 30 27 20 7 2100.0 90.0 66.7 23.4 6.7 合计 30 100 43统计学 例2-2z根据本章例2-1的数据,计算30名工人周加工零件数的众数。z解:众数组为100110,其频数为13,根据公式计算众数为:44统计学(3)公式计算的假定:数据分布具有明显的集中趋势,同时假定众数组的频数在该组内
19、是均匀分布的。若假定不存在,众数的代表性会很差。2.1.2众数的确定与计算45统计学 2.1.3众数的统计思想z在一组数据的中心点附近,变量值出现的频数较高,根据众数组及相邻两组的频数分布,确定中心点的位置。z因此,众数是一个位置代表值,它不受数据中极端值的影响。46统计学2.2中位数(median)把握以下三个问题:2.2.1中位数的概念;2.2.2中位数的计算;2.2.3中位数的特点与性质。47统计学2.2.1中位数的概念它是一组数据按大小排序后,处于中间位置上的变量值。主要用于顺序数据,也可用数值型数据,但不能用于分类数据中位数将全部数据等分成两部分,一部分数据比中位数大,另一部分比中位
20、数小,它也是一个位置代表值。MMe e50%50%48统计学2.2.2中位数的计算(1)根据未分组数据计算:A、先对数据排序;B、确定中位数的位置,公式为(N+1)/2,N 为数据的个数;C、确定具体数值。设一组数据为X1,X2,,XN,从小到达排序后为X(1),X(2),X(N),若N为奇数,则中位数为 ;若N为偶数,则中位数是 与 的平均数.设中位数为M0,公式为:49统计学2.2.2中位数的计算(1)根据未分组数据计算:当N为奇数时 当N为偶数时看下面的算例:50统计学数值型数据的中位数(9个数据的算例)z【例例】9个家庭的人均月收入数据原始数据原始数据:1500 750 780 108
21、0 850 960 2000 1250 1630排排 序序:750 780 850 960 1080 1250 1500 1630 2000位位 置置:1 2 3 4 5 6 7 8 9中位数中位数 108051统计学数值型数据的中位数(10个数据的算例)z【例例】:10个家庭的人均月收入数据排序排序:660 750 780 850 960 1080 1250 1500 1630 2000位置位置:1 2 3 4 5 6 7 8 9 10 52统计学 2.2.2中位数的计算z(2)根据分组数据计算:zA、先根据公式 N/2 确定中位数的位置,并确定其所在组,然后公式计算:53统计学 公式z下限
22、公式z上限公式z式中:N为数据的个数,L、U为中位数所在组下限、上限,Sm-1为中位数所在组以前各组的向上累积频数,Sm+1为中位数所在组之后各组的向下累积频数,fm为中位数所在组的频数,i为中位数所在组的组距。54统计学55表2-3某车间30名工人加工零件数分组表按零件数分组频数(人)频率(%)向上累积 向下累积频数(人)频率(%)频数(人)频率(%)8090 90100 100110 110120 120130 3 7 13 5 2 10.0 23.3 43.3 16.7 6.7 3 10 23 28 30 10.0 33.3 76.6 93.3100.0 30 27 20 7 2100.
23、0 90.0 66.7 23.4 6.7 合计 30 100 55统计学 2.2.2中位数的计算 (2)根据分组数据计算;B、根据公式计算例2-1的数据,计算30名工人周加工零件数的中位数。解:中位数的位置=30/2=15,即它在100110一组,L=100,U=110,Sm-1=10,Sm+1=7,fm=13,i=10,代入公式得:56统计学 例2-3z z这样计算假定中位数所在组频数分布是均匀的。57统计学 2.2.3中位数的特点与性质z(1)特点:稳健性,其数值不受极值的影响。z(2)性质:各变量值与中位数的离差绝对值之和最小,即58统计学2.3四分位数(quartile)z把握两个问题
24、:z2.3.1概念与特点;z2.3.2计算59统计学2.3.1概念与特点(1)排序后处于25%和75%位置上的值QQL LQQMMQQU U25%25%25%25%(2)不受极端值的影响(3)主要用于顺序数据,也可用于数值型数据,但不能用于分类数据60统计学2.3.2计算z(1)位置的确定原始数据:原始数据:分组数据:分组数据:61统计学(2)数值型数据的四分位数 (9个数据的算例)z【例例】:9个家庭的人均月收入数据原始数据原始数据:1500 750 780 1080 850 960 2000 1250 1630排排 序序:750 780 850 960 1080 1250 1500 163
25、0 2000位位 置置:1 2 3 4 5 6 7 8 962统计学(3)数值型数据的四分位数(10个数据的算例)z【例例】:10个家庭的人均月收入数据排排 序序:660 750 780 850 960 1080 1250 1500 1630 2000位位 置置:1 2 3 4 5 6 7 8 9 10 63统计学(4)分组数据的四分位数z公式类似中位数的公式:64统计学(4)分组数据的四分位数z算例:根据书上1973-1974年澳大利亚收入分布资料计算其四分位数:z另一个四分位数自己计算。65统计学 2.4均值(mean)把握五个问题:2.4.1均值的概念;2.4.2根据未分组数据计算均值;
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 工商管理 核心 课程
限制150内