教学课件商务数据可视化 第6章ppt(全).pptx
《教学课件商务数据可视化 第6章ppt(全).pptx》由会员分享,可在线阅读,更多相关《教学课件商务数据可视化 第6章ppt(全).pptx(85页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、教学课件商务数据可视化 第6章第6章 Excel图表:分布分析图商务数据可视化思维导图Mind Mapping使用直方图分析频率分布6.16.1.1 直方图的概念及适用场景第6章 Excel图表:分布分析图6.1 使用直方图分析频率分布直方图(Histogram)是一种用来展示一组连续数据潜在的频率分布的图表,而数据分布的特点则体现在直方图的形状上。从直方图数据分布的形状、中心位置以及数据的离散程度等了解到数据的分布情况。6.1.1 直方图的概念及适用场景第6章 Excel图表:分布分析图6.1 使用直方图分析频率分布以下内容是一组原始数据及其对应的直方图展现。图 6-1 直方图将数据分组展示
2、6.1.1 直方图的概念及适用场景第6章 Excel图表:分布分析图6.1 使用直方图分析频率分布这里将年龄数据默认切分成三个大的组别,在数据标签上显示每个组别的频数。可以明显看出,组别(bin)设置过大,需要改进。如下图6-2和6-3,在设置坐标轴格式中更改“箱”的宽度至10.0,即组距调整为10.0。图 6-2 设置坐标轴格式示意图图 6-3 经过组距改进后更加合理化的直方图6.1.1 直方图的概念及适用场景第6章 Excel图表:分布分析图6.1 使用直方图分析频率分布我们也可以将频数转换成频率,用另一种指标以直方图度量相同数据,读者可以自己尝试一下。另外除了直接插入直方图外,还有一种操
3、作方法是点击数据分析选项卡而后选中直方图选项。这里要特别注意通过两种途径创建的直方图在图表设置上存在潜在的差异。6.1.1 直方图的概念及适用场景第6章 Excel图表:分布分析图6.1 使用直方图分析频率分布同时,如果使用柱形图来反映每个分组中频数,也十分直观。图6-4中的BIN表示每一个分组的上界值,NUM表示每一个组别中频数是多少,需要手动输入。图 6-41 组界限与频数信息图 6-42 三维柱形图的图表表示6.1.1 直方图的概念及适用场景第6章 Excel图表:分布分析图6.1 使用直方图分析频率分布直方图和柱状图在外观上非常近似,但是一些细节处不同,x轴和y轴的数据度量含义也是不同
4、的。l柱状图描述分类变量,直方图描述数值变量;l直方图的x轴是一条线,柱状图的x轴是分类变量;l柱状图是以矩形的长度表示每一组频数其宽度固定,利于较小的数据集分析;直方图是以矩形的长度表示每一组频数,宽度则表示组距,是故标准的直方图的高度与宽度均有意义,利于统计大量数据集的分布特征。l同时可以注意到直方图的各个矩形是连续的,柱状图的各个矩形相互之间有一定的间隔。6.1.1 直方图的概念及适用场景第6章 Excel图表:分布分析图6.1 使用直方图分析频率分布下图6-5是一个二维柱状图的实例,描绘的是某产品的用户体验反馈情况。读者可以看出直方图和柱状图的不同使用场景。图 6-5 用户产品满意度柱
5、形图6.1.1 直方图的概念及适用场景第6章 Excel图表:分布分析图6.1 使用直方图分析频率分布除了用于表示分布情况外,直方图还可以用于观察异常或孤立数据。6.1.2 直方图的形状分析第6章 Excel图表:分布分析图6.1 使用直方图分析频率分布1、钟形分布(Bell-shaped):数据分布显示为一个钟形的形状。最常见的钟形分布是正态分布,也是最理想的数据分布状态。但是钟形分布的概念要广得多,只要符合以下特点即可:“两头小,中间大”。靠近中间变量比较集中,靠近两边的变量值比较稀少。图 6-6 正态分布6.1.2 直方图的形状分析第6章 Excel图表:分布分析图6.1 使用直方图分析
6、频率分布2、双峰分布(Bimodal-shaped):双峰分布,如同其名称中所描述的,具有两个峰值(Peaks)。这种分布的特点是具有数据在某一度量值上最集中的两个区域,可以理解为具有两个众数。图 6-7 双峰分布6.1.2 直方图的形状分析第6章 Excel图表:分布分析图6.1 使用直方图分析频率分布3、右偏分布(Skewed-right-shaped):在数据图的图表展示中,偏态分布中左侧观测值个数多,而右边的观测值则少,称之为右偏分布。在右偏分布下,数据统计指标平均数(average)中位数(median)众数(mode)。图 6-8 右偏分布6.1.2 直方图的形状分析第6章 Exc
7、el图表:分布分析图6.1 使用直方图分析频率分布4、左偏分布(Skewed-left-shaped):在数据图的图表展示中,偏态分布中右侧观测值个数多,而左边的观测值则少,称之为左偏分布。在左偏分布下,数据统计指标平均数(average)中位数(median)众数(mode)。图 6-9 左偏分布6.1.2 直方图的形状分析第6章 Excel图表:分布分析图6.1 使用直方图分析频率分布5、均匀分布(Uniform):均匀分配,又称均匀分布(Uniform distribution),是一种简单的概率分布,其分为离散型均匀分布和连续型均匀分布两种类型的机率分布。从下图可以看出,并没有什么有价
8、值的差异化信息。均匀分布的例子有彩票,因为其中大部分人的获益值都是均等的。在多数情况下,数据的分布遵从均匀分布的概率分布,意味着存在不同来源的变量被合并的错误可能;如不是此问题导致的,还可以尝试不同的分组准则。总的来说,均匀分布表明数据所分组类过少。图 6-10 均匀分布6.1.2 直方图的形状分析第6章 Excel图表:分布分析图6.1 使用直方图分析频率分布6、随机分布(Random):随机分布,顾名思义,是没有明显的数据分布特征的;如同均匀分布一样,它也是一个有多个峰值区域(众数)的概率分布。随机分布在大多数场合是很常见的,但是并不能很好地反映现实中的问题,也就是这种概率分布对于进一步理
9、解数据是无作用的。往往是所分组别过多导致的。建议去除冗余的组别或者减少数据量,这是很有必要的。图 6-11 随机分布第6章 Excel图表:分布分析图6.1 使用直方图分析频率分布在数据可视化的实际操作中,我们要区别频数分布直方图和非标准的直方图。图6-12和图6-13是蚂蚁金服数据可视化团队AntV在实践教程中所举的例子。可以看出频数分布直方图和非标直方图在应用时赋予它们的功能意义不同。如频数分布直方图是用相等组距内的频数来刻画数据的分布的,而非标直方图无需这样做,因为它的目的仅是直观表示一组数据系列,也没有其他预处理操作。图 6-12 标准的直方图频数分布直方图6.1.2 直方图的形状分析
10、图 6-13 非标准的直方图6.1.3 直方图的绘制及应用第6章 Excel图表:分布分析图6.1 使用直方图分析频率分布在直方图的绘制步骤中,一方面要知晓整体的图表建立思路,另一方面要学会如何优化图表的可视化,直到使之最大限度地呈现出直方图的优点,并且做到合理地使用数据,有必要时放弃一些影响整体效果的样本。由于直方图适合大样本的数据研究,特别是频数上的统计,因此选定了某一随机抽样的个体样本的年龄、收入共同构成本例的数据来源,并以此来分析不同年龄的群体在收入上是否存在系统性的差异。第6章 Excel图表:分布分析图6.1 使用直方图分析频率分布步骤一:首先获取数据源。为了方便统计,对Incom
11、e(单位为美元)作round(四舍五入)处理,使数据等比例缩小更易被观察。为了试验性需要,对于Age列和Income列的数据使用了RANDBETWEEN()函数随机化生成了所需的数据。发现双击列分割线处可以反复进行随机操作,进一步为数据的动态可视化打下基础;需要读者更改单元格中的数据类型,以固定随机数据,见图6-14。图 6-14 样本数据(RANDBETWEEN()函数随机生成)6.1.3 直方图的绘制及应用第6章 Excel图表:分布分析图6.1 使用直方图分析频率分布步骤二:选中Age数据列,插入一张初始的直方图,见图6-15。图 6-15 年龄的各组频数分布(初始)6.1.3 直方图的
12、绘制及应用第6章 Excel图表:分布分析图6.1 使用直方图分析频率分布步骤三:调整箱的宽度到合理的数值,得到一张完善后分组更细的直方图。并加上数据标签使之更为美观,见图6-16。注:这里如果能获取到足够多的样本,理想的情况是年龄呈正态概率分布,收入呈一个类指数分布。因为使用随机函数,所以可能数据分布并不是最理想。图 6-16 年龄的各组频数分布(改进)6.1.3 直方图的绘制及应用第6章 Excel图表:分布分析图6.1 使用直方图分析频率分布步骤四:选中Income(Rounded)数据列,生成一张直方图,并调整箱大小,见图6-17。图 6-17 收入组频数分布6.1.3 直方图的绘制及
13、应用第6章 Excel图表:分布分析图6.1 使用直方图分析频率分布步骤五:在调整组距的同时也可以设置一个溢出箱,将大于某一定值的数据全部放在同一个组中,如图6-18所示。图 6-18 溢出箱6.1.3 直方图的绘制及应用6.2箱线图的绘制及应用6.2.1 什么是四分位数第6章 Excel图表:分布分析图6.2 箱线图的绘制及应用四分位数(英语:Quartile)是统计学中分位数的一种,即把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数。在根据未分组的数据确定四分位数时,首先要确定四分位数的位置。然后将变量数列总项数代入n,即可下四分位数、中位数和上四分位数。Q1的位置
14、Q2的位置Q3的位置6.2.2 箱线图的结构第6章 Excel图表:分布分析图6.2 箱线图的绘制及应用箱线图(英文:Box plot),也称盒须图、盒式图、盒状图或箱形图,是一种用作显示一组数据分散情况资料的统计图。因形状如箱子而得名。在各种领域也经常被使用,常见于品质管理。箱形图不受异常值的影响,准确稳定地描绘出数据的离散分布情况,对数据清洗也有帮助。6.2.2 箱线图的结构第6章 Excel图表:分布分析图6.2 箱线图的绘制及应用比如当回顾企业年度工作报告的时候,要检查其中有无异常情况的出现,那么可以最为清晰地反映这一信息的便是箱线图。图 6-19 箱线图的结构6.2.2 箱线图的结构
15、第6章 Excel图表:分布分析图6.2 箱线图的绘制及应用上四分位数与下四分位数之间的差是盒子的长度,即IQR=Q3-Q1。可 以 使 用 IQR 来 判 断 离 群 点。下 限 值min=Q1-1.5IQR,如果最小观测值小于min,可用最小值来替换下限值。上限制max=Q3+1.5IQR,同样也可以用最大值替换。所以会出现上下两根线长度不等的情形。如果观测值大于平均值的偏差部分超过一组测定样本数值的两倍方差(精确来说是2.7倍)则称为组中的异常值。6.2.2 箱线图的结构第6章 Excel图表:分布分析图6.2 箱线图的绘制及应用图6-20结合了直方图、箱线图和置信区间估计的内容,非常综
16、合实用。图 6-20 图表的结合使用6.2.2 箱线图的结构第6章 Excel图表:分布分析图6.2 箱线图的绘制及应用我们再来看一次直方图中的例题。如果用箱线图来进行数据的表达和展示,见图6-21,虽然没有大的谬误,但是显然不尽合理。箱线图最大的作用是展示分类数据(比如时间序列数据)在每个类别中的离散点分布特征,而在下图中只能看到一条线段,因为这里的纵坐标是频数并没有具体到每个数据。图 6-21 不适用箱线图的场景6.2.3 箱线图的绘制方法第6章 Excel图表:分布分析图6.2 箱线图的绘制及应用通过分析诸如股票行情这样的时序数据,介绍一下箱线图的绘制方法。步骤一:输入某连续两天的股票部
17、分股票成交记录的实时价格(单位:元),见图6-22。(此处同样适用了randbetween()函数,为的是在已知当日最大值和最小值的情况下随机出一些记录供实验)图 6-22 连续两天的股票实时成交价格节选6.2.3 箱线图的绘制方法第6章 Excel图表:分布分析图6.2 箱线图的绘制及应用步骤二:选中两列数据并插入一张箱线图,见图6-23和6-24。图 6-24 箱线图的初始情况图 6-23 点击直方图的下拉箭头即可找到6.2.3 箱线图的绘制方法第6章 Excel图表:分布分析图6.2 箱线图的绘制及应用图 6-25 设置数据系列格式步骤三:可以在设置数据系列格式中调整数据的显示选项,比如
18、显示内部值点、显示中线等,见图6-25。6.2.3 箱线图的绘制方法第6章 Excel图表:分布分析图6.2 箱线图的绘制及应用图 6-26 改进后的箱线图步骤三:我们从图6-26中可以看到四分位数和箱线图是怎样结合在一起的,同时也观察到,如果在四分位数的运算包含除中值的话,得出的箱线图将会更符合标准的状态。6.2.4 从箱线图看数据分布第6章 Excel图表:分布分析图6.2 箱线图的绘制及应用为了进一步说明箱线图如何描绘各分组中的四分位数分布状态,在这里以杨浦区2020/1二手房成交数据为案例,从箱线图看数据可视化的分布。而箱线图本身的四分位分类功能即可很好地满足房价分段的需要。第6章 E
19、xcel图表:分布分析图6.2 箱线图的绘制及应用图 6-27 样本数据步骤一:整理杨浦各板块的二手房房价数据。为了简化模型只研究三个板块各项目的最高单价,借此直观上从反映板块之间的价格差异。(项目的地段因素在这里不属于考虑的范围,故只是将同一板块中的项目同等看待)三个板块总共113条数据,格式如图6-27。6.2.4 从箱线图看数据分布第6章 Excel图表:分布分析图6.2 箱线图的绘制及应用图 6-28 从箱线图看数据分布步骤二:选取全部数据,插入如下图6-28的箱线图。6.2.4 从箱线图看数据分布第6章 Excel图表:分布分析图6.2 箱线图的绘制及应用图 6-29 优化后更完整的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 教学课件商务数据可视化 第6章ppt全 教学 课件 商务 数据 可视化 ppt
限制150内