统计学第2章数据的描述幻灯片.ppt
《统计学第2章数据的描述幻灯片.ppt》由会员分享,可在线阅读,更多相关《统计学第2章数据的描述幻灯片.ppt(97页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、统计学第2章数据的描述第1页,共97页,编辑于2022年,星期二2.1数据的整理是统计调查的继续,统计分析的前提和基础是统计调查的继续,统计分析的前提和基础 将统计调查得到的数据进行加工将统计调查得到的数据进行加工整理,使其系统化、条理化,符合整理,使其系统化、条理化,符合分析的需要。分析的需要。第2页,共97页,编辑于2022年,星期二统计数据的预处统计数据的预处 理理统计分组统计分组制作统计表或统计制作统计表或统计 图图统计整理的步骤统计整理的步骤第3页,共97页,编辑于2022年,星期二2.1.1统计数据的分组统计数据的分组o1 1、统计分组含义、统计分组含义n按某个标志把总体划分为若干
2、组,称为统计分组。按某个标志把总体划分为若干组,称为统计分组。分组标志是划分数据的标准或依据分组标志是划分数据的标准或依据n分组的性质来:兼有分和合双重含义。分组的性质来:兼有分和合双重含义。o2 2、统计分组的原则、统计分组的原则 穷尽原则穷尽原则 互斥原则互斥原则第4页,共97页,编辑于2022年,星期二o3 3、统计分组方法、统计分组方法 品质标志分组品质标志分组 数量标志分组数量标志分组第5页,共97页,编辑于2022年,星期二o品质分组品质分组品质标志:性别、职业、所有制等。n分组标志一经确定,组名和组数也随之确定分组标志一经确定,组名和组数也随之确定 n品质分组所形成的数列称为品质
3、数列品质分组所形成的数列称为品质数列第6页,共97页,编辑于2022年,星期二如不同品牌饮料市场占有率如不同品牌饮料市场占有率饮料品牌饮料品牌人数人数百分比百分比(%)(%)可口可乐可口可乐旭日升冰茶旭日升冰茶百事可乐百事可乐汇源果汁汇源果汁露露露露15151111 9 9 6 6 9 930302222181812121818合计合计5050100100第7页,共97页,编辑于2022年,星期二o数量标志分组数量标志分组 首先,各组数量界限的确定必须能反映事物质的差首先,各组数量界限的确定必须能反映事物质的差别。别。其次,应根据总体的数量特征,采用适当的分组形式。其次,应根据总体的数量特征,
4、采用适当的分组形式。数量标志:年龄、产量、利润等。第8页,共97页,编辑于2022年,星期二第9页,共97页,编辑于2022年,星期二单变量值分组(要点)o1.将一个变量值作为一组将一个变量值作为一组o2.2.适合于变量值较少的适合于变量值较少的 离散变量离散变量第10页,共97页,编辑于2022年,星期二组距分组(要点)1.将变量值的一个区间作为一组将变量值的一个区间作为一组2.适适合合于于连连续续变变量量和和变变量量值值较较多多的的离散变量。离散变量。3.需要遵循需要遵循“不重不漏不重不漏”的原则的原则4.有等距分组和不等距分组有等距分组和不等距分组 第11页,共97页,编辑于2022年,
5、星期二组距分组组距分组(几个概念几个概念)1.1.下限下限(low limit)(low limit):2.2.上限上限(upper limit)(upper limit):3.3.组距组距(class width)(class width):4.4.组中值组中值(class midpoint)(class midpoint):n开口组的组距:以相邻组的组距代替。开口组的组距:以相邻组的组距代替。n常以组中值来代表各组平均水平。常以组中值来代表各组平均水平。第12页,共97页,编辑于2022年,星期二组距分组(步骤)1.确定组数:确定组数:o斯特杰斯经验公式:斯特杰斯经验公式:组数组数=1+3
6、.3 Lg N=1+3.3 Lg N 2.2.确定组距:确定组距:确定组距:确定组距:(Class Width)组距组距组距组距(最大值最大值最大值最大值 -最小值最小值最小值最小值)组数组数 3.3.3.3.统计出各组的频数并整理成频数分布表统计出各组的频数并整理成频数分布表统计出各组的频数并整理成频数分布表统计出各组的频数并整理成频数分布表 第13页,共97页,编辑于2022年,星期二2.1.2 次数分配次数分配 P17o在分组的基础上,将所有单位归类并列出每一在分组的基础上,将所有单位归类并列出每一组组的次数的次数,称为次数分布或频数分布。,称为次数分布或频数分布。o次数分布数列的两个要
7、素次数分布数列的两个要素n1 1)按某标志所分的组。)按某标志所分的组。n2 2)各组所出现的单位数,即频数,亦称次数。)各组所出现的单位数,即频数,亦称次数。n一般用一般用x x表示变量;用表示变量;用f f表示频数(次数)。表示频数(次数)。第14页,共97页,编辑于2022年,星期二2.1.3 次数分配图次数分配图Excel分组数据分组数据直方图和折线图直方图和折线图第15页,共97页,编辑于2022年,星期二o用直方形的宽度和高度来表示次数分布用直方形的宽度和高度来表示次数分布的图形。的图形。o绘制直方图时,横轴表示各组组限,纵轴绘制直方图时,横轴表示各组组限,纵轴表示次数(一般标在左
8、方)和比率(或频表示次数(一般标在左方)和比率(或频率,一般标在右方)。率,一般标在右方)。第16页,共97页,编辑于2022年,星期二分组数据的图示140140 150150210210直方图下的面直方图下的面积之和等于积之和等于1 1某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图我我一一眼眼就就看看出出来来了了,销销售售量量在在 170170 180180之之间间的的天天数数最最多多!190190 200200180180160160 170170频频频频数数数数(天天天天天天)25252020151510105 53030
9、220220 230230 240240第17页,共97页,编辑于2022年,星期二o折线图:折线图可以在直方图的基础上,用折线将各组次数高度的坐标连接而成,也可以用组中值与次数求坐标点连接而成第18页,共97页,编辑于2022年,星期二分组数据的图示(折线图的绘制)折线图与直方图折线图与直方图下的面积相等!下的面积相等!140140150150210210某电脑公司销售量分布的折线图某电脑公司销售量分布的折线图某电脑公司销售量分布的折线图某电脑公司销售量分布的折线图190190200200180180160160170170220220230230240240频频频频频频数数数数数数(天天天
10、天天天)25252020151510105 53030第19页,共97页,编辑于2022年,星期二o曲线图:用平滑曲线连接各组次数坐标点即曲线图:用平滑曲线连接各组次数坐标点即得分布曲线。得分布曲线。第20页,共97页,编辑于2022年,星期二频数分布的类型频数分布的类型对称分布对称分布对称分布右偏分布右偏分布右偏分布左偏分布左偏分布左偏分布正正正J J J型分布型分布型分布反反反J J J型分布型分布型分布U UU型分布型分布型分布几种常见的频数分布几种常见的频数分布几种常见的频数分布几种常见的频数分布第21页,共97页,编辑于2022年,星期二2.1.4 洛伦茨曲线与基尼系数洛伦茨曲线与基
11、尼系数第22页,共97页,编辑于2022年,星期二洛伦茨曲线洛伦茨曲线1.1.2020世世 纪纪 初初 美美 国国 经经 济济 学学 家家、统统 计计 学学 家家 洛洛 伦伦 茨茨(M.E.(M.E.Lorentz)Lorentz)根根据据意意大大利利经经济济学学家家巴巴雷雷特特(V.(V.Pareto)Pareto)提提出的收入分配公式绘制而成出的收入分配公式绘制而成2.2.描述收入和财富分配性质的曲线描述收入和财富分配性质的曲线3.3.分析该国家或地区分配的平均程度分析该国家或地区分配的平均程度 AB累积的人口百分比累积的人口百分比累积的人口百分比累积的人口百分比 累累积积的的收收入入百百
12、分分比比 绝对公平线绝对公平线绝对公平线绝对公平线 第23页,共97页,编辑于2022年,星期二基尼系数基尼系数1.1.2020世世纪纪初初意意大大利利经经济济学学家家基基尼尼(G.(G.Gini)Gini)根根据据洛洛伦伦茨茨曲曲线给出了衡收入分配平均程度的指标线给出了衡收入分配平均程度的指标2.A A表示实际收入曲线与绝对平均线之间的面积表示实际收入曲线与绝对平均线之间的面积3.3.B B表示实际收入曲线与绝对不平均线之间的面积表示实际收入曲线与绝对不平均线之间的面积AB第24页,共97页,编辑于2022年,星期二如果如果A=0A=0,则基尼系数,则基尼系数=0=0,表示收入绝对平均,表示
13、收入绝对平均如如果果B=0B=0,则则基基尼尼系系数数=1=1,表表示示收收入入绝绝对对不不平平均均基尼系数在基尼系数在0 0 和和1 1之间取值之间取值一一般般认认为为,基基尼尼系系数数若若小小于于0.20.2,表表明明分分配配平平均均;基基尼尼系系数数在在0.20.2至至0.40.4之之间间是是比比较较适适当当的的,即即一一个个社社会会既既有有效效率率又又没没有有造造成成极极大大的的分分配配不不公公;基基尼尼系系数数在在0.40.4被被认认为为是是收收入入分分配配不不公公平平的的警警戒戒线线,超超过了过了0.40.4应该采取措施缩小这一差距。应该采取措施缩小这一差距。第25页,共97页,编
14、辑于2022年,星期二2.2 2.2 集中趋势的测度集中趋势的测度一一.众数众数二二.中位数和分位数中位数和分位数三三.均值均值四四.众数、中位数和均值的比较众数、中位数和均值的比较第26页,共97页,编辑于2022年,星期二集中趋势集中趋势(central tendency)(central tendency)1.一组数据向其中心值靠拢的倾向和程度2.测度集中趋势就是寻找数据水平的代表值或中心值3.不同类型的数据用不同的集中趋势测度值第27页,共97页,编辑于2022年,星期二2.2.1 众数 (mode)1.集中趋势的测度值之一集中趋势的测度值之一2.出现次数最多的变量值出现次数最多的变量
15、值3.不受极端值的影响不受极端值的影响4.可能没有众数或有几个众数可能没有众数或有几个众数第28页,共97页,编辑于2022年,星期二众数(不唯一性)o无众数无众数原始数据:10 5 9 12 6 8一个众数一个众数原始数据:6 5 5 9 8 5 55 5多于一个众数多于一个众数原始数据原始数据:25 28 28 36 42 42第29页,共97页,编辑于2022年,星期二1 1、由单项数列求众数、由单项数列求众数 某某 车车 间间 工工 人人 日日 产产 情情日产量(件)日产量(件)人数(人)人数(人)11501260139014251515合计合计240第30页,共97页,编辑于2022
16、年,星期二2.2.由组距数列计算由组距数列计算首先确定次数最多的组,即众数组,然后,首先确定次数最多的组,即众数组,然后,用公式计算。用公式计算。下限公式:下限公式:上限公式:上限公式:第31页,共97页,编辑于2022年,星期二2.2.2 2.2.2 中位数中位数 (median)(median)1.排序后处于中间位置上的值Me50%50%2.不受极端值的影响第32页,共97页,编辑于2022年,星期二1 1、由未分组资料计算中位数、由未分组资料计算中位数第33页,共97页,编辑于2022年,星期二 设有六个工人的日产量设有六个工人的日产量(件件)依次排列为依次排列为10、11、12,13、
17、14、15、则:、则:中位数位次(中位数位次(n+1)2 6+123.5第34页,共97页,编辑于2022年,星期二(1 1)由由单项数列单项数列求中位数求中位数2 2、由分组资料计算中位数、由分组资料计算中位数:第35页,共97页,编辑于2022年,星期二例例10:某生产车间:某生产车间120名工人生产某种零件的日产名工人生产某种零件的日产量如下表所示,计算该车间工人日产量的中位数。量如下表所示,计算该车间工人日产量的中位数。按日产量分组(件)按日产量分组(件)工人数(人)工人数(人)累计次数(向上)累计次数(向上)20202222242426263030323233331010121225
18、25303018181515101010102222474777779595110110120120合计合计120120第36页,共97页,编辑于2022年,星期二2.2.由组距数列求中位数,由组距数列求中位数,下限公式:下限公式:L为中位数所在组下限为中位数所在组下限为中位数所在组以前各组的累计次数为中位数所在组以前各组的累计次数为中位数所在组的次数为中位数所在组的次数第37页,共97页,编辑于2022年,星期二从某单位抽查从某单位抽查800户,取得人均收入资料如下表,户,取得人均收入资料如下表,计算该单位人均收入的中位数。计算该单位人均收入的中位数。人均收入(元)人均收入(元)户数(户)户
19、数(户)累计次数累计次数400-500500-600600-700700-800800-900900-10001000以上以上5451004301684210550150580748790800合计合计800第38页,共97页,编辑于2022年,星期二中位数位次中位数位次f28002400,中位数组,中位数组在在700-800这一组中。由下限公式这一组中。由下限公式第39页,共97页,编辑于2022年,星期二o中位数的性质中位数的性质:数据值与中位数之差的绝对值最小数据值与中位数之差的绝对值最小.第40页,共97页,编辑于2022年,星期二2.2.3 四分位数 (quartile)1.排序后处
20、于25%和75%位置上的值QLQMQU25%25%25%25%第41页,共97页,编辑于2022年,星期二四分位数未分组数据:未分组数据:第42页,共97页,编辑于2022年,星期二2.2.4 2.2.4 均值均值 (mean)(mean)1.集中趋势的最常用的测度值第43页,共97页,编辑于2022年,星期二简单算术平均数简单算术平均数(simple mean)(simple mean)第44页,共97页,编辑于2022年,星期二加权算术平均数加权算术平均数(weighted mean)(weighted mean)设一组数据为:设一组数据为:x x1 1,x x2 2,x xn n相应的频
21、数为:相应的频数为:f f1 1,f f2 2,f fk k第45页,共97页,编辑于2022年,星期二(例题分析)o第46页,共97页,编辑于2022年,星期二第47页,共97页,编辑于2022年,星期二(权数对均值的影响权数对均值的影响)P34o甲组:甲组:考试成绩(考试成绩(x):0 20 100o 人数分布(人数分布(f):):1 1 8o乙组:乙组:考试成绩(考试成绩(x):0 20 100o 人数分布(人数分布(f):):8 1 1第48页,共97页,编辑于2022年,星期二算术平均数算术平均数(数学性质数学性质)o1.1.各变量值与均值的离差之和等于零各变量值与均值的离差之和等于
22、零 2.各变量值与均值的离差平方和最小第49页,共97页,编辑于2022年,星期二调和平均数(harmonic mean)1.1.均值的另一种表现形式均值的另一种表现形式原来只是计算时使用了不同的数据!第50页,共97页,编辑于2022年,星期二调和平均数某日三种蔬菜的批发成交数据某日三种蔬菜的批发成交数据蔬菜蔬菜名称名称批发价格批发价格(元元)X X成交额成交额(元元)X X f f成交量成交量(公公斤斤)f f甲甲乙乙丙丙1.201.200.500.500.800.8018000180001250012500640064001500015000250002500080008000合计合计3
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 数据 描述 幻灯片
限制150内