(02)第2章用图表展示数据(T8)ppt课件(完整版).pptx
-
资源ID:16893256
资源大小:2.61MB
全文页数:36页
- 资源格式: PPTX
下载积分:20金币
快捷下载
会员登录下载
微信登录下载
三方登录下载:
微信扫一扫登录
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
|
(02)第2章用图表展示数据(T8)ppt课件(完整版).pptx
(02)第2章 用图表展示数据(T8)ppt课件(完整版)2 - 2统计学(第 8 版)贾俊平2022-5-19统 计 学 (第8版)2 - 3统计学(第 8 版)贾俊平2022-5-192 - 4统计学(第 8 版)贾俊平2022-5-19思维导图思维导图数据的图表展示生成频数表类别数据简单频数表二维列联表数值数据类别化分组表类别数据可视化观察频数简单条形图帕累托图簇状条形图堆积条形图观察频数构成饼图环形图数值数据可视化展示分布直方图茎叶图箱形图展示关系散点图气泡图展示相似雷达图轮廓图时间序列折线图面积图2 - 5统计学(第 8 版)贾俊平2022-5-19用哪些图形展示奖牌 思考以下问题思考以下问题下面的数据是2016年8月5日到2016年8月21日在巴西里约热内卢举办的第31届奥运会上,获得金牌前6名的国家奖牌数的分布状况日在伦敦举办的第30届奥运会上,获得金牌前6名的国家奖牌根据上面的数据,你认为可以选择哪些图形来展示三个国家所获得的奖牌情况?学完本章的图表展示技术,这样的问题就会迎刃而解排名国家金牌银牌铜牌总数1美国4637381212英国272317673中国261826704俄罗斯191819565德国171015426日本12821412 - 6统计学(第 8 版)贾俊平2022-5-19生成频数分布表l列出各类别l计算各类别的频数l生成频数分布表 生成频数分布表 类别数据的频数分布表类别数据的频数分布表计算描述统计量l频数(frequency) :落在各类别中的数据个数l比例(proportion) :某一类别数据个数占全部数据个数的比值l百分比(percentage) :将对比的基数作为100而计算的比值l比率(ratio) :不同类别数值个数的比值2 - 7统计学(第 8 版)贾俊平2022-5-19l只涉及一个类别变量l这个变量的各类别(取值)可以放在频数分布表中“行”的位置,也可以放在“列”的位置l将该变量的各类别及其相应的频数列出来就是一个简单的频数表,也称为一维列联表 生成频数分布表 类别数据的频数分布表类别数据的频数分布表简单频数表简单频数表例题分析例题分析【例2-1】为研究人们对不同类型软饮料的偏好情况,一家调查公司在某超市随机调查了50名消费者。表2-1是消费者性别及其所偏好的饮料类型记录。生成频数分布表,观察不同性别的消费者及其所偏好的饮料类型的分布状况性别饮料类型性别饮料类型女碳酸饮料女茶类饮料男茶类饮料男矿泉水男矿泉水女茶类饮料女矿泉水女碳酸饮料男碳酸饮料女矿泉水男矿泉水男其他饮料男其他饮料女茶类饮料女碳酸饮料女其他饮料男茶类饮料女果汁男茶类饮料男茶类饮料女碳酸饮料女其他饮料男碳酸饮料女矿泉水2 - 8统计学(第 8 版)贾俊平2022-5-19 生成频数分布表 类别数据的频数分布表类别数据的频数分布表简单频数表简单频数表例题分析例题分析【例2-1】SPSS输出2 - 9统计学(第 8 版)贾俊平2022-5-19l涉及两个类别变量l将一个变量的各类别放在“行”的位置,另一个变量的各类别放在“列”的位置(行和列可以互换)生成频数分布表,这样表格称为二维列联列联表表(contingency table),简称列联表或交叉交叉表(cross table)l列联表主要用于反映两个类别变量的交叉频数分布状况 生成频数分布表 类别数据的频数分布表类别数据的频数分布表二维列联表二维列联表2 - 10统计学(第 8 版)贾俊平2022-5-19 生成频数分布表 类别数据的频数分布表类别数据的频数分布表二维列联表二维列联表例题分析例题分析【例2-2】沿用例2-1。SPSS输出结果2 - 11统计学(第 8 版)贾俊平2022-5-19 生成频数分布表 数值数据的频数分布表数值数据的频数分布表数据分组数据分组类别化处理类别化处理例题分析例题分析【例2-3】某电脑公司2021年前4个月的销售额数据如表2-6所示。对数据额做适当分组,分析销售额的分布特征2341591871551721831821771631581431981411671942251771891962031871602141681731781842091761881611521492111962341851891962061501611781681741531861901601712281622231701651791861751972081531632181801751441781911971921661961791712331791871731742101541642152331751882371941981681742261801721901721871892002111561651752102071812051952011722031651961721761821881952022132 - 12统计学(第 8 版)贾俊平2022-5-19 生成频数分布表 数值数据的频数分布表数值数据的频数分布表数据分组数据分组类别化处理类别化处理例题分析例题分析销售额分组(万元)天数(天)频率(%)140-15043.3315-16097.50160-1701613.33170-1802722.50180-1902016.67190-2001714.17200-210108.33210=22086.67220-23043.33230-24054.17合计120100.00某电脑公司某电脑公司2021年前年前4个月销售额的分组表个月销售额的分组表2 - 13统计学(第 8 版)贾俊平2022-5-19l 条形图(bar plot)是用一定宽度和高度的矩形表示各类别频数多少的图形,主要用于展示类别数据的频数分布l 绘制条形图时,各类别可以放在x轴(横轴),也可以放在y轴(纵轴)。类别放在x轴的条形图称为垂直条形图(vertical bar plot)或柱形图,类别放在y轴的条形图称为水平条形图(horizontal bar plot)l 只有一个类别变量时,可以绘制简单条形图和帕累托图;有两个类别变量时,可以绘制簇状条形图或堆积条形图 类别数据可视化 类别数据可视化类别数据可视化简单条形图和帕累托图简单条形图和帕累托图简单条形图简单条形图2 - 14统计学(第 8 版)贾俊平2022-5-19 类别数据可视化 类别数据可视化类别数据可视化简单条形图和帕累托图简单条形图和帕累托图简单条形图简单条形图例题分析例题分析【例2-4】沿用例2-12 - 15统计学(第 8 版)贾俊平2022-5-19 类别数据可视化 类别数据可视化类别数据可视化简单条形图和帕累托图简单条形图和帕累托图帕累托图帕累托图例题分析例题分析【例2-4】沿用例2-1l 帕累托图(pareto plot)是以意大利经济学家V.Pareto的名字而命名l 按各类别的频数多少降序排列后绘制的条形图l 帕累托图可以看做是简单条形图的一个变种,利用该图很容易看出哪类频数出现得多,哪类频数出现得少2 - 16统计学(第 8 版)贾俊平2022-5-19 类别数据可视化 类别数据可视化类别数据可视化簇状条形图簇状条形图和和堆积条形图堆积条形图例题分析例题分析【例2-5】沿用例2-1l当有据两个类别变量时,可以将两个变量的条形图以簇状或堆积的方式绘制,这就是簇状条形图和堆积条形图l簇状条形图中,一个类别变量作为坐标轴,另一个类别变量各类别频数的条形并列摆放l在堆积条形图中,一个类别变量作为坐标轴,另一个类别变量各类别的频数按比例堆叠在同一个条中2 - 17统计学(第 8 版)贾俊平2022-5-19 类别数据可视化 类别数据可视化类别数据可视化饼图和环形图饼图和环形图饼图饼图例题分析例题分析【例2-6】沿用例2-1l饼图饼图(pie chart)是用圆形及圆内扇形的角度来表示一个样本(或总体)中各类别的频数占总频数比例大小的图形l对于研究结构性问题十分有用2 - 18统计学(第 8 版)贾俊平2022-5-19 类别数据可视化 类别数据可视化类别数据可视化饼图和环形图饼图和环形图环形图环形图例题分析例题分析【例2-7】为研究不同地区的消费者对网上购物的满意度,随机抽取东部、中部和西部的2000个消费者进行调查,得到的结果如表2-8所示。绘制环形图,分析各类别的人数构成状况l环形图与饼图类似,但又有区别。环形图中间有一个“空洞”,每个样本用一个环来表示,样本中每一类别的频数构成用环中的一段表示l环形图可显示多个样本各类别频数占其相应总频数的比例,从而有利于构成的比较研究东部中部西部总计非常满意104140132376比较满意156108120384一般148148160456不满意156108140404非常不满意156116108380总计7206206602000东部, 14%东部, 22%东部, 20%东部, 22%东部, 22%中部, 23%中部, 17%中部, 24%中部, 17%中部, 19%西部, 20%西部, 18%西部, 24%西部, 21%西部, 17%非常满意比较满意一般不满意非常不满意2 - 19统计学(第 8 版)贾俊平2022-5-19 数值数据的图表展示 数值数据可视化数值数据可视化展示分布的图形展示分布的图形直方图直方图l 直方图将数据分组后,在x轴上用矩形的宽度表示每个组的组距,在y轴上用矩形的高度表示每个组的频数或密度,多个矩形并列在一起就是直方图l 利用直方图的形状可以观察数据分布的特征(a) 右偏分布01020300.000.020.040.060.080.10(b) 对称分布-3-2-101230.00.10.20.30.4(c) 左偏分布01020300.000.020.040.060.080.10几种不同分布形状的直方图几种不同分布形状的直方图2 - 20统计学(第 8 版)贾俊平2022-5-19 数值数据可视化 数值数据可视化数值数据可视化展示分布的图形展示分布的图形直方图直方图与条形图的区别与条形图的区别与条形图的区别l 条形图中的每一矩形表示一个类别,其宽度没有意义,而直方图的宽度则表示各组的组距l 由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列l 条形图主要用于展示类别数据,而直方图则主要用于展示数值数据2 - 21统计学(第 8 版)贾俊平2022-5-19 数值数据的图表展示 数值数据可视化数值数据可视化展示分布的图形展示分布的图形直方图直方图例题分析例题分析【例2-8】2020年1月6月北京市的PM2.5数据。绘制直方图分析PM2.5的分布特征日期1月2月3月4月5月6月135921910819251312516552335018141459424431011233485612638304812271582854196628171651059375529708645615928304668905315314464112 - 22统计学(第 8 版)贾俊平2022-5-19 数值数据的图表展示 数值数据可视化数值数据可视化展示分布的图形展示分布的图形直方图直方图例题分析例题分析组距为组距为15,下溢箱为,下溢箱为10,溢出箱为,溢出箱为180组距组距=15默认默认组距组距【例2-8】2 - 23统计学(第 8 版)贾俊平2022-5-19 数值数据可视化 数值数据可视化数值数据可视化展示分布的图形展示分布的图形茎叶图茎叶图l 用于显示未分组的原始数据的分布l 由“茎”和“叶”两部分构成,其图形是由数字组成的l 以该组数据的高位数值作树茎,低位数字作树叶l 树叶上只保留最后一位数字l 茎叶图类似于横置的直方图,但又有区别直方图可观察一组数据的分布状况,但没有给出具体的数值茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息直方图适用于大批量数据,茎叶图适用于小批量数据2 - 24统计学(第 8 版)贾俊平2022-5-19 数值数据可视化 数值数据可视化数值数据可视化展示分布的图形展示分布的图形茎叶图茎叶图例题分析例题分析【例2-9】沿用例2-8l 图中的第1列给出每个茎上叶子的频数(显示为频率),第2列是“茎”( Stem),第3列是“叶”l 下面标出了极端值的个数,共有11个(系统自动将=117的数值定义为极端值。茎的宽度为10,每个叶代表一个数据(案例)。图2-11显示,PM2.5主要分布在1019之间,有35个叶子,即出现35天。从叶子的分布看,PM2.5呈现右偏分布PM2.5 PM2.5 茎叶图茎叶图频率频率 Stem & Stem & 叶叶 21.00 0 . 35566777777888888999921.00 0 . 355667777778888889999 8.00 7 . 00122556 8.00 7 . 00122556 2.00 8 . 56 2.00 8 . 56 2.00 9 . 07 2.00 9 . 07 2.00 10 . 89 2.00 10 . 89 11.00 11.00 极值极值 (=117)(=117) 主干宽度:主干宽度: 1010 每个叶:每个叶: 1 1 个案个案2 - 25统计学(第 8 版)贾俊平2022-5-19 数值数据可视化 数值数据可视化数值数据可视化展示分布的图形展示分布的图形箱形图箱形图箱形图的示意图箱形图的示意图2 - 26统计学(第 8 版)贾俊平2022-5-19 数值数据可视化 数值数据可视化数值数据可视化展示分布的图形展示分布的图形箱形图箱形图左偏分布01020300.000.020.040.060.080.100102030对称分布-3-2-101230.00.10.20.30.4-3-2-10123右偏分布01020300.000.020.040.060.080.100102030不同不同分布分布对应对应的箱的箱形图形图2 - 27统计学(第 8 版)贾俊平2022-5-19 数值数据可视化 数值数据可视化数值数据可视化展示分布的图形展示分布的图形箱形图箱形图例题分析例题分析【例2-9】沿用例2-8图中,“”和对应的数字表示离群点的位置及其数值。图2显示,2月份的PM2.5数值较高(中位数较大),4月份的PM2.5数值较低(中位数较小)。从分布形状看,6月份PM2.5的分布大致为对称,其余月份PM2.5的分布均为右偏分布,其中,2月份PM2.5的分布偏斜程度最大,其次是1月份和3月份。这几个月均出现了较多的离群值2 - 28统计学(第 8 版)贾俊平2022-5-19 数值数据可视化 数值数据可视化数值数据可视化展示变量间关系的图形展示变量间关系的图形散点图散点图【例2-11】我国2019年我国31个地区的地区生产总值、房地产开发投资和社会消费品零售总额数据。绘散点图观察它们之间的关系地区地区生产总值房地产开发投资社会消费品零售总额北京市35371.33838.415063.7天津市14104.32727.84218.2河北省35104.54347.112985.5山西省17026.71656.57030.5内蒙古自治区17212.51042.05051.1陕西省25793.23903.710213.0甘肃省8718.31257.93700.3青海省2966.0406.3948.5宁夏回族自治区3748.5403.11399.4新疆维吾尔自治区13597.11074.03617.02 - 29统计学(第 8 版)贾俊平2022-5-19 数值数据可视化 数值数据可视化数值数据可视化展示变量间关系的图形展示变量间关系的图形散点图散点图例题分析例题分析普通散点图矩阵散点图【例2-11】重叠散点图2 - 30统计学(第 8 版)贾俊平2022-5-19 数值数据可视化 数值数据可视化数值数据可视化展示变量间关系的图形展示变量间关系的图形气泡图气泡图例题分析例题分析l 普通散点图只能展示两个变量间的关系l 对于3个变量之间的关系,除了可以绘制三维散点图外,也可以绘制气泡图(bubble chart),它可以看作是散点图的一个变种l 在气泡图中,第3个变量数值的大小用圆的大小表示。【例2-11】绘气泡图观察它们之间的关系2 - 31统计学(第 8 版)贾俊平2022-5-19 数值数据可视化 数值数据可视化数值数据可视化展示样本相似性的图形展示样本相似性的图形雷达图雷达图例题分析例题分析l 雷 达 图 ( r a d a r chart)是从一个点出发,用每一条射线代表一个变量,多个变量的数据点连接成线,即围成一个区域,多个样本围成多个区域,就是雷达图l 可用于研究多个样本之间的相似程度。【例2-12】2018年北京、天津、上海和重庆的人均消费支出数据,绘制雷达图,比较不同地区的家庭消费支出的特点和相似性地区食品烟酒衣着居住生活用品及服务交通通信教育文化娱乐医疗保健其他用品及服务北京8064.92175.514110.32371.94767.43999.43274.51078.6天津8647.51990.06406.31818.44280.93186.62676.9896.3上海10728.22036.814208.52095.54881.25049.43070.21281.5重庆6220.81454.53498.81338.92545.02087.81660.0442.82 - 32统计学(第 8 版)贾俊平2022-5-19 数值数据可视化 数值数据可视化数值数据可视化展示样本相似性的图形展示样本相似性的图形雷达图雷达图例题分析例题分析【例2-12】2018年北京、天津、上海和重庆的人均消费支出数据,绘制雷达图,比较不同地区的家庭消费支出的特点和相似性0200040006000800010000120001400016000食品烟酒衣着居住生活用品及服务交通通信教育文化娱乐医疗保健其他用品及服务北京天津上海重庆110100100010000100000食品烟酒衣着居住生活用品及服务交通通信教育文化娱乐医疗保健其他用品及服务北京天津上海重庆2 - 33统计学(第 8 版)贾俊平2022-5-19 数值数据可视化 数值数据可视化数值数据可视化展示样本相似性的图形展示样本相似性的图形轮廓图轮廓图例题分析例题分析l 轮廓图(outline chart)也称为平行坐标图或多线图l 用x轴表示各样本,y轴表示每个样本的多个变量的取值,将同一样本的不同变量取值用折线连接,即为轮廓图【例2-12】2018年北京、天津、上海和重庆的人均消费支出数据,绘制轮廓图,比较不同地区的家庭消费支出的特点和相似性北京8064.92175.514110.32371.94767.43999.43274.51078.6天津8647.51990.06406.31818.44280.93186.62676.9896.3上海10728.22036.814208.52095.54881.25049.43070.21281.5重庆6220.81454.53498.81338.92545.02087.81660.0442.8食品烟酒衣着居住生活用品及服务交通通信教育文化娱乐医疗保健其他用品及服务0200040006000800010000120001400016000支出金额2 - 34统计学(第 8 版)贾俊平2022-5-19 数值数据可视化 数值数据可视化数值数据可视化时间序列图形时间序列图形折线图和面积图折线图和面积图例题分析例题分析l 时间序列是一种常见的数据形式,它是在不同时间点上记录的一组数据,如各年份的GDP数据、各月份的CPI数据、一年中各交易日的股票价格指数收盘数据等l 利用折线图(line chart)和面积图(area graph),可以观察时间序列的变化模式和特征【例2-13】沿用例2-8。以例2-8中1月份和2月份的数据为例,绘制的PM2.5的折线图。050100150200250123456789 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31PM2.5日期1月2月050100150200250123456789 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31PM2.5日期1月2月2 - 35统计学(第 8 版)贾俊平2022-5-19 合理使用图表 使用图表的注意事项使用图表的注意事项l一幅完整的图形大体上包括图形主体、标题、坐标轴注释等要素。图形主体用于表达数据信息l标题用于注释图形的内容,一般包括数据所属的时间(when)、地点(where)和内容(what),此外,还应包括必要的图形编号。标题可以放在图的上方,也可放在图的下方l坐标轴注释需要标示出坐标轴代表的变量名称,以便于阅读和理解l图形的比例也十分重要,一般图形大致为4:3的一个矩形,过长或过高的图形都有可能歪曲数据,给人留下错误的印象2 - 36统计学(第 8 版)贾俊平2022-5-19 THANKS THE END2022-5-19 THE END THANKS用图形数据特征探索