《(精品)统计学第3章.ppt》由会员分享,可在线阅读,更多相关《(精品)统计学第3章.ppt(112页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第第 3 3 章章 数据的数据的图表展示示 3.1 数据的预处理 3.2 品质数据的整理与展示 3.3 数值型数据的整理与展示 3.4 合理使用图表3.1 数据的预处理 数据的审核 检查数据中的错误 数据的筛选 找出符合条件的数据 数据排序 升序和降序 数据透视表 提取有用的信息3.1.1 数据审核1.原始数据 审核的内容 (1)完整性审核 检查应调查的单位或个体是否有遗漏 所有的调查项目或指标是否填写齐全 (2)准确性审核 检查数据是否有错误,计算是否正确等.检查数据是否真实反映客观实际情况,内容是否符合实际.数据的审核原始数据审核数据准确性的方法1.逻辑检查从定性角度,审核数据是否符合逻辑
2、,内容是否合理,各项目或数字之间有无相互矛盾的现象主要用于对分类和顺序据的审核2.计算检查检查调查表中的各项数据在计算结果和计算方法上有无错误主要用于对数值型数据的审核2.二手数据 (1)适用性审核 应清楚数据的来源、数据的口径以及有关的背景材料,从而确定数据是否适合自己分析研究的需要.(2)时效性审核 数据是否过于滞后,尽可能使用最新的数据.n例如:消费者可以按月收入的高低分类,一项研究要了解月收入在1200元以上和8000元以下的消费者人数n二手资料中收入段的划分是:200元以下,200399元,400 599元,600 799元,800 999元,1000 1499元,1500 2499
3、元,2500 3999元,4000 5999元,6000 8999元,9000元以上n请问适用性如何?n只能提供1500 8999元收入的人数,不能提供1200 1499元和6000 7999元收入的人数。数据的审核二手数据 数据筛选是根据需要选出符合特定条件或要求的数据,可采用Excel进行数据的筛选工作.3.1.2 数据筛选例3.1 表3-1是 8 名学生4门课程的考试成绩数据,试找出统计学成绩等于75分的学生,英语成绩最高的前三名学生,4门课程的考试都大于70 分的学生.表3-1 8名学生的考试成绩1 找出统计学成绩等于75分的学生 (1)选择【数据】菜单,并选择【筛选】命令.要筛选出满
4、足条件的数据,可使用【自动筛选】命令,见图3-1.图3-1 Excel的数据筛选命令(2)这时在第一行出现向下箭头,单击统计学成绩这一列的箭头后出现图3-2的结果.图3-2 自动筛选过程(3)选择 75 则得结果如图3-3所示结果.图3-3 自动筛选结果2 找出英语成绩最高的前三名学生 (1)选择【数据】菜单,并选择【筛选】命令与使用【自动筛选】命令.(2)筛选英语成绩的前三名学生时,单击英语成绩这一列的箭头,选择【前10个】,在对话框中选择“最大”并输入“3”.图3-4 指定条件的自动筛选过程英语成绩最高的前三名学生 (3)所得结果如下.3 找出4门课程的考试都大于70 分的学生 (1)筛选
5、4门课程的考试都大于70 分的学生,应选择【高级筛选】命令.(2)使用高级筛选命令时,需要给出应满足的条件.本例是要筛选4门课程的考试都大于70 分的学生,如下图所示.(3)在高级筛选对话框中给出【数据区域】和【条件区域】,见图3-5.图3-5 多条件的高级筛选过程(4)结果如图3-6所示.图3-6 高级筛选结果3.1.3 数据排序 数据排序就是按一定顺序排列数据 主要作用:(1)发现数据的变化趋势.(2)为分类或分组提供依据.(3)直接利用排序结果作分析.排序可借助于计算机完成方法:(1)分类数据按字母顺序或笔画多少排序(2)数值型数据按数值大小排序3.1.4 数据透视表 利用Excel的【
6、数据透视表】工具,可以对数据表按使用者的要求进行汇总和作图,形成一张交叉表(列联表).利用数据透视表时,数据表应有列标题.例3.2 从某大学随机抽取30名学生,调查他们的性别、家庭所在地、平均月生活费支出、平均每月购买衣物支出和购买衣物时所考虑的首选因素等,数据列于表3-2.试以性别和购买衣物时所考虑的首选因素为行变量,以家庭所在地为列变量,对平均月生活费支出和平均每月购买衣物支出进行交叉汇总.表 3-2 随机抽取30名学生的调查数据(1)选择【数据】菜单,并选择【数据透视表和数据透视图】命令.(2)图3-7【数据透视表和数据透视图向导3步骤之1】对话框 在对话框(图3-7)中,根据需要选择相
7、应的“数据源类型”和“报表类型”.这里选择【Microsoft Office Excel 数据列或数据源】和【数据透视表】.(3)图3-8【数据透视表和数据透视图向导3步骤之2】对话框 单击【下一步】,得对话框(图3-8)如下.确定数据源区域(本例为A1-F31).(4)图3-9【数据透视表和数据透视图向导3步骤之3】对话框 单击【下一步】,得对话框(图3-9)如下,在对话框中选择透视表的输出位置(本例为H1).(5)选择【布局】,得对话框(图3-10)如下.图3-10【数据透视表和数据透视图向导布局】对话框(6)在图3-11中,先把“性别”和“购买衣物首选因素”安排为“行”,然后把“家庭所在
8、地”安排为“列”,最后把“平均月生活费”和“月平均衣物支出”安排为“数据”图3-11 选择行、列和数据(7)单击【确定】后自动返回【数据透视表和数据透视图向导3步骤之3】,然后单击【完成】,即得数据透视表(图3-12).图3-12 根据要求建立的数据透视表3.2 品质数据的整理与展示 不同类型的数据,所采取的处理方式和方法是不同的 (1)对分类数据和顺序数据主要是做分类整理 (2)对数值型数据则主要是做分组整理 适合于低层次数据的整理和显示方法也适合于高层次的数据;但适合于高层次数据的整理和显示方法并不适合于低层次的数据.3.2.1 分类数据的整理与图示1.频数与频数分布(1)频数(frequ
9、ency)每一类别包含的数据个数称为频数.各类别及相应的频数,称为频数分布.频数分布表制作步骤 ()列出各类别 ()计算各类别的频数或频率 ()制作频数分布表 ()并可用图形显示数据BAEDC比率比率百分比百分比比例比例频数频数分类分类 例 3.3 一家市场调查公司为研究不同品牌饮料的市场占有率,对随机抽取的一家超市进行了调查.调查员在某天对 50 名顾客购买饮料的品牌进行了记录,如果一个顾客购买某一品牌的饮料,就将这一饮料的品牌名字记录一次.表3-3 就是记录的原始数据.为了用 Excel 建立频数分布表,把饮料的品牌用代码表示,即 1.可口可乐 2.旭日升冰茶 3.百事可乐 4.汇源果汁
10、5.露露 表 33顾客购买饮料的品牌名称用Excel 建立频数分布表和条形图的步骤 步骤 1 把饮料的品牌用代码表示步骤 2 选择【工具】下拉菜单,并选择【数据分析】命令.步骤 3 在【数据分析】对话框中,选择【直方图】,并单击【确定】.步骤 4 当出现对话框时 (1)在【输入区域】内输入各饮料的代码.(2)在【接收区域】内输入各组的组限.(3)在【输出区域】内输入放置输出结果的开始位置.(4)选择【图表输出】(还可以根据需要同时选择【累积百分率】等项).(5)单击【确定】.图3-13 Excel 输出的频数分布表3-4 不同品牌饮料的频数分布表利用Excel求频数 利用Excel的统计函数“
11、COUNTIF”,可以计算指定范围内的单元数.例如求例3-3中“可口可乐”的频数,统计步骤如下.(1)选择【插入】下拉菜单,并选择【函数】命令.(2)在【插入函数】对话框中,选择类别为【统计】,并选择函数【COUNTIF】.(3)在【函数参数】对话框中,在【Range】中输入数据区域“A2-A51”,并在【Criteria】中输入相应条件“可口可乐”.(4)求得“可口可乐”的频数为15.(2)比例(proportion)比例是部分数据个数与全体数据个数之比,并且各部分的比例之和等于1.例如 名学生中,有 名男生和有 名女生,则男生比例和女生比例分别为和且(3)百分比(percentage)百分
12、比是用百分数表示的比例,例如合格率、升学率等,并且百分数之和为100.(4)比率(ratio)比率是任两数值的比值.例如2008年国内生产总值(GDP)为 ,2009年国内生产总值为 ,则比率称为国内生产总值的发展速度,而称为国内生产总值的增长率.2.分类数据的图示(1)条形图(bar chart)用同宽度条形的高度或长短来表示各类别数据的频数或频 率分布的图形.主要用于反映分类数据的频数分布.有单式条形图、对比条形图(对比分类变量的取值在不同 时间或不同空间上的差异或变化趋势)等形式.各类别可以放在纵轴,称为条形图.也可以放在横轴,通常 称为柱形图(column chart).用Excel
13、建立柱形图的步骤 (1)选择【插入】菜单,并选择【图表】命令.(2)在【图表向导】对话框中,选择【柱形图】和所需的图形.(3)当出现对话框时,在【数据区域】内输入各饮料的名称及相应的频数,单击【下一步】.(4)单击【标题】选项,在【图表标题】框中输入“不同品牌饮料的柱形图”,在【分类(X)轴】框中输入“品牌名称”,在【数值(Y)轴】框中输入“频数”,单击【下一步】.(5)最后单击【完成】.例3-3的柱形图品牌名称频数图3-14 不同品牌饮料的柱形图对比条形图(side-by side bar chart)当分类变量在不同时间或空间上有多个取值时,可以采用对比条形图表示在不同时间或空间上的差异或
14、变动.例3.4 一家电脑公司在一、二季度的4种品牌电脑的销售情况如下(表3-5),试给出对比条形图.表3-5 不同品牌电脑的销售数据图3-15 电脑销售量的对比条形图图3-15 电脑销售量的对比条形图(2)帕累托图(Pareto chart)帕累托图是按各类别的频数大小排列的柱形图.对表3-4 不同品牌饮料的频数分布,相应的帕累托图如下(图3-16)图3-16 不同品牌饮料的帕累托图(3)饼图(pie chart)也称圆形图,是用圆形及圆内扇形的面积来表示各类别频率大小的图形.主要用于表示总体或样本中各组成部分所占的比例,对于研究结构性问题十分有用.绘制圆形图时,各部分所占的百分比用圆内的各个
15、扇形面积表示,这些扇形的中心角度,是按各部分数据百分比占 的相应比例确定的.例3.3的饼图 用Excel 建立饼图的步骤:(1)选择【插入】菜单,并选择【图表】命令.(2)在【图表向导】对话框中,选择【饼图】和所需的图形.(3)当出现对话框时,在【数据区域】内输入各饮料的名称及相应的频数.(4)单击【标题】选项,在【图表标题】框中输入“不同品牌饮料的饼图”;单击【数据标题】选项,选择“类别名称”和“百分比”选项.(5)单击【完成】,得图3-17.图3-17 不同品牌饮料的饼图图3-17 不同品牌饮料的饼图3.2.2 顺序数据的整理与图示1.累积频数和累积频率 (1)累积频数(cumulativ
16、e frequencies)把各类别的频数逐项累加.(2)累积频率(cumulative percentages)把各类别的频率(百分比)逐项累加.在一项有关住房问题的研究中,研究人员在甲、乙两个城市各抽样调查300户家庭,其中的一个题是:“您对您家庭目前的住房状况是否满意?”1.非常不满意 2.不满意 3.一般 4.满意 5.非常满意例 3.5表3-6 甲城市家庭对住房状况的评价表3-7 乙城市家庭对住房状况的评价2.顺序数据的图示(1)累计频数分布图 根据累积频数或累积频率作折线图例3.5的累计频数分布图 用Excel 建立累计频数分布图的步骤:(1)选择【插入】菜单,并选择【图表】命令.
17、(2)在【图表向导】对话框中,选择【折线图】和所需的图形.(3)单击【下一步】,在【数据区域】内输入甲城市的回答类别及相应的频数.(4)单击【下一步】,选择【标题】项,在【图表标题】框中输入“甲城市对住房状况评价的累计分布图”;在【分类(X)轴】框中输入“(a)向上累计”;在【数值(Y)轴】框中输入“累计户数”;(5)单击【数据标志】项,选择“值”选项.(6)单击【完成】,得图3-5(a).并可根据需要,对坐标的刻度和字体等作修改.243001322252700100200300400 非常不满意 不满意 一般 满意 非常满意累积户数(户)(a)向上累积向上累积2761683030075010
18、0200300400 非常不满意 不满意 一般 满意 非常满意累积户数(户)(b)向下累积向下累积图3-18甲城市家庭对住房状况评价的累积分布图(2)环形图(annular chart)环形图用一段圆环表示某一类别的频率,可用于结构比较研究,且可以同时对多组数据作比较.例3.5的环形图 用Excel 建立环形图的步骤:(1)选择【插入】菜单,并选择【图表】命令.(2)在【图表向导】对话框中,选择【圆环图】和所需的图形.(3)单击【下一步】,当出现对话框时,在【数据区域】内输入甲城市家庭的回答类别及相应的频率.(4)单击【系列】和【添加】选项,在【值】框中输入乙城市家庭的频率.(5)单击【下一步
19、】,单击【数据标志”】选项,选择【百分比】选项.(6)单击【完成】,得图3-19.图3-19 甲、乙两城市家庭对住房状况评价的环形图8%36%31%15%7%33%26%21%13%10%非常不满意 不满意 一般 满意 非常满意图3-19 甲、乙两城市家庭对住房状况评价的环形图3.3 数值型数据的整理与展示3.3.1 数据分组分组方法单变量值分组组距分组等距分组异距分组单变量值分组 (1)适用于离散变量且变量值较少(2)把每一变量值作为一组 例3.6 某生产车间名工人日加工零件数(单位:个)如下。试采用单变量值对数据进行分组。1171221241291391071171301221251081
20、31125117122133126122118108110118123126133134127123118112112134127123119113120123127135137114120128124115139128124121单变量值分组(例题分析)零件数(个)频数(人)零件数(个)频数(人)零件数(个)频数(人)107111911282108212021291110112111301112212241311113112341332114112431342115112521351117312621371118312731392表8某车间名工人日加工零件数分组表 (1)适用连续变量或离散变
21、量且变量值较多.(2)把变量值的变化范围(最大值-最小值)划分为若干个区间,一个区间作为一组,区间长度可以相等也可以不相等.(3)分组时应“不重不漏”.组距分组 组距分组(几个概念)下限值+上限值2 2组中值=缺上限的组中值下限邻组组距/2缺下限的组中值上限邻组组距/21.下限:一个组的最小值2.上限:一个组的最大值3.组距:上限与下限之差4.组中值:下限与上限之间的中点值组距分组步骤1.选择组数 组数的确定应以能够显示数据的分布特征和规律为目的。在实际分组时,可以按 Sturges 提出的经验公式来确定组数K 按数据的个数 n 及数据变化的范围选择组数 k,一般可取 组。2.确定各组的组距
22、确定组距:组距(Class Width)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即 组距(最大值-最小值)组数 为便于计算,组距宜取5或10的倍数,而且第一组的下限应低于最小变量值,最后一组的上限应高于最大变量值。把数据归组后得频数分布表3.归组例3.7 表3-9是某电脑公司2005年前4个月各天的销售量数据(单位:台),试对数据进行分组.表3-9 某电脑公司2005年前4个月每天的销售量例3.7的组距分组 1.选择组数:本例选择 2.确定各组的组距:组距(237-141)/10=9.610 3.用Excel制作频数分布表时,【接收区域】为149,159,2
23、39.表3-10 某电脑公司销售量的频数分布(上下组限重叠)表3-11 某电脑公司销售量的频数分布(上下组限间断)表3-12 某电脑公司销售量的频数分布(使用开口组)等距分组与不等距分组1.等距分组 (1)各组的组距都相等(2)各组的组频数可直接比较2.不等距分组(1)各组的组距不都相等(2)由于各组的组频数受组距大小影响,不能直接比较(3)为消除组距大小对频数的影响,采用频数密度反映频数分布的实际状况,其中频数密度3.3.2 数值型数据的图示1.分组数据:直方图(histogram)在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图.与条形图不同
24、,直方图的各直方相连(点击横坐标,出现【数据系列格式】对话框,点击【选项】,取【分类间距】为0即可).Excel图-20某电脑公司销售量分布的直方图图-20某电脑公司销售量分布的直方图直方图与条形图的差别(1)条形图用宽度表示类别,宽度都相等,而直方图用宽度表示组距,宽度可以不相等.(2)条形图通常分开排列,而直方图则是连续排列.(3)条形图主要用于表示分类数据,直方图则主要用于表示数值型数据.2.未分组数据:茎叶图和箱线图(1)茎叶图(stem-and-leaf display)()由“茎”和“叶”两部分组成,把高位数值作为树茎,尾数作为叶.()按“茎”把一组数据分为若干行,“茎”相同的数据
25、分在同一行.()茎叶图类似于横置的直方图.图3-21 某电脑公司销售量数据的茎叶图图3-21 某电脑公司销售量数据的茎叶图 ()箱线图由一组数据的5个特征值绘制而成,由一只箱子和两条线段组成.()首先找出一组数据的5个特征值,即最大值、最小值、中位数Me 和两个四分位数(下四分位数 和上四分位数 ).先连接下四分位数和上四分位数画出箱子,在箱子中确定中位数的位置,然后再将最大值和最小值与箱子相连接.()不仅可表示一组数据的分布,还可以对多组数作比较.(2)箱线图(box plot)图3-22简单箱线图最小值下四分(位)数中位数最大值上四分(位)数图3-22简单箱线图图3-23 某电脑公司销售量
26、数据的箱线图140 150 160 170 180 190 200 210 220 230 240140 150 160 170 180 190 200 210 220 230 240140 150 160 170 180 190 200 210 220 230 240最小值 141下四分(位)数 170.25中位数 182最大值 237上四分(位)数 197图3-23 某电脑公司销售量数据的箱线图图3-24 不同分布的箱线图左偏分布对称分布右偏分布图3-24 不同分布的箱线图从某大学经济管理专业二年级学生中随机抽取11人,对8门主要课程的考试成绩进行调查,所得结果见表3-12试绘制各科考试成
27、绩的比较箱线图,并分析各科考试成绩的分布特征.例 3.8表3-13 11名学生各科的考试成绩数据表3-14 各学科考试成绩的特征值图3-258门课程考试成绩的箱线图英语统计学西方经济学市场营销学基础会计学计算机应用基础财务管理经济数学图3-258门课程考试成绩的箱线图图3-26 11名学生考试成绩的箱线图455565758595105学生1学生2学生3学生4学生5学生6学生7学生8学生9学生10学生11图3-26 11名学生考试成绩的箱线图3.时间序列数据:线图(line plot)(1)横轴表示时间,纵轴表示相应的数值(2)图形长宽比例大致为 10:7(3)一般纵轴从 0 开始,也可根据实际
28、需要从某一值开始,并且用折断符号表示 1991-2003年我国城乡居民家庭的人均收入数据如表3-15,试绘制线图.表3-15 1991-2003 年城乡居民家庭人均收入例3.9图3-27城乡居民家庭人均收入图3-27城乡居民家庭人均收入4.多变量数据的图示 以上介绍的都是单变量数据的图示方法,对于两个或两个以上变量时,则可采用多变量数据的图示方法.常用的多变量数据图示方法有散点图、气泡图和雷达图等.(1)散点图(scatter diagram)对于两个变量 ,散点图用横轴代表 ,纵轴代表 ,每对数据 用一个点表示.由 对数据形成的 个点称为散点,而由坐标与散点形成的图称为散点图.例3.10 小
29、麦的单位面积产量与降雨量和温度有一定关系,根据如下数据(表3-16),试绘制小麦产量与降雨量的散点图.表3-16 小麦产量与降雨量和温度的数据图3-28小麦产量与降雨量的散点图图3-28小麦产量与降雨量的散点图(2)气泡图(bubble chart)气泡图分别用横轴、纵轴和气泡的大小表示三个变量之间的关系.根据表3-15的数据,试绘制小麦产量与温度和降雨量的气泡图.图3-29 小麦产量与温度和降雨量的气泡图图3-29 小麦产量与温度和降雨量的气泡图(3)雷达图(radar chart)()先画一个圆,每个个体需同时考察个变量,则把圆等分,连接圆心得个变量的坐标轴.()再把一个个体的个变量在坐标
30、上的点相连接,可得一个边形.()个个体则可得个边形,这个多边形就是一个雷达图.2003年我国城乡居民家庭平均每人各项消费支出数据如表3-17,试绘制雷达图.表表3 3171720032003年城乡居民家庭平均每人各项消费支出年城乡居民家庭平均每人各项消费支出例3.11图3-302003年城乡居民家庭人均消费支出图3-302003年城乡居民家庭人均消费支出3.4 合理使用图表 统计图和统计表是展示数据的两种主要方法,统计图和统计表可以更直观和形象地表现数据的数量特征和变动规律.图3-31数据的类型与图示方法3.4.1 鉴别图形优劣的准则 统计图必须能正确和形象地表示数据的基本特征,并应尽可能简洁
31、.3.4.2 统计表的设计1.统计表的构成 四个主要部分 (1)表头 (2)行标题 (3)列标题 (4)数字资料 必要时加上“表外附加”.表3-1820022003年城乡居民家庭抽样调查资料资料来源:中国统计摘要2004,359页,北京,中国统计出版社,2004注:本表为城市居民家庭收支抽样调查材料附加行标题列标题数字资料项目单位 2002年 2003年调查户数户45317 48028 平均每户家庭人口人3.04 3.01 平均每户就业人口平均每户就业面平均每一就业者负担人数人%人1.5851.971.92 1.5852.491.91 平均每人全部年收入元8177.40 9061.22 平均每人可支配收入元7702.80 8472.20 平均每人消费性支出元6029.88 6510.94 表头统计表的设计 (1)要合理安排统计表的结构.(2)总标题要表明统计数据的时间、地点和种类.(3)表中全部数据的单位相同时,可在表右上角表明单位,否则应分别表明单位.(4)表中的上下两条横线一般用粗线,其他线则用细线.(5)通常统计表的左右两边不封口.(6)表中数据一般是右对齐,对于小数应按小数点对齐,且小数点的位数应统一(7)没有数据的格内用“”表示.(8)需要时在表的下方加上表外附加.
限制150内