《数据分析常用方法》PPT课件.pptx
常用数据分析方法常用数据分析方法统计分析工具统计分析工具v 对帐单(检查表)对帐单(检查表);v 流程图;流程图;v 散布图;散布图;v 直方图;直方图;v 排列图;排列图;v 控制图;控制图;v 因果分析图;因果分析图;有一些统计分析工具可供书业公司用来解决经营问题,它们有助于有一些统计分析工具可供书业公司用来解决经营问题,它们有助于收集和分析数据以便为决策提供依据。收集和分析数据以便为决策提供依据。第一部第一部 数据分析概述数据分析概述 1、什么是数据?数据是对图书销售业务全过程记录下来的、可以以鉴别的符号。数据是销售业务全过程的属性数量、位置及相通关系等等的抽象表示。数据表现形式数据表现形式表现形式一表现形式一数据列表数据表现形式二数据表现形式二描述性分析:数据分时段走势、差距变化情况以及描述性分析:数据分时段走势、差距变化情况以及 相应的时间背景相应的时间背景销售码洋趋势图销售码洋趋势图数据表现形式三数据表现形式三销售码洋结构比销售码洋结构比让数据说话;行动的向导;杜绝浪费;提供决策的依据。2、数据分析目的按数据的性质一般可归纳为:定性数据。往往用于频数或频率分析。定量型数据。可以用数字量化的数值。按数据的来源可分为:人力资源数据;财务数据;营销数据;采购数据;仓储数据;生产数据;编辑数据。3、数据的分类&坚持用数据说话的基本观点。&有目的地收集数据。&掌握数据的来源。&认真整理数据。4、运用统计方法应遵循的原则5 5、统计分析流程、统计分析流程确定问题确定分析目标采用科学方法收集数据考察数据时效性整理数据统计分析出具分析报告,提出解决意或建议误区一误区一:展示元素不宜大于展示元素不宜大于3 3个个5 5、数据分析误区、数据分析误区误区二误区二:时间序列数据最好使用折线图,而不宜使时间序列数据最好使用折线图,而不宜使用柱状图等用柱状图等5、数据分析误区误区三:研究用数据最好不使用三维立体图研究用数据最好不使用三维立体图5、数据分析误区误区四:为避免图表的欺骗性,图线最好占据误区四:为避免图表的欺骗性,图线最好占据2/3 2/3 至至3/43/4的高度(调整的高度(调整Y Y轴刻度)轴刻度)5、数据分析误区第二部第二部 常用的数据分析方法常用的数据分析方法总体总体总体总体:总体、个体总体、个体个体个体个体个体:总体又叫母体,是研究对象的全体。总体又叫母体,是研究对象的全体。出版商一个批次到货出版商一个批次到货的全部都可以称为总体。的全部都可以称为总体。构成总体的基本单位,称为个体。构成总体的基本单位,称为个体。每册书都是一个个体。每册书都是一个个体。来货检验常用抽样方法进行,即从来货总件数中抽出一部分件数,并来货检验常用抽样方法进行,即从来货总件数中抽出一部分件数,并测试每件的有关册数是否够数的特性数据,进行统计分析后,对总体测试每件的有关册数是否够数的特性数据,进行统计分析后,对总体作出估计和判断。作出估计和判断。样本样本样本样本:样本样本样本样本又叫又叫子样子样,是从总体中抽出来一部分个体的集合。,是从总体中抽出来一部分个体的集合。样本中每个个体叫样本中每个个体叫样品样品,样本中所包含样品数目称为样本大小,样本中所包含样品数目称为样本大小,又叫又叫样本量样本量,常用,常用n n表示。表示。对样本的特性进行测定,所得的数据称为对样本的特性进行测定,所得的数据称为样本值样本值。当样本个数越多时,分析结果越接近总体的值,样本对总体的代当样本个数越多时,分析结果越接近总体的值,样本对总体的代表性就越好。表性就越好。抽样方法抽样方法学用的统计抽样方法主要有以下三种学用的统计抽样方法主要有以下三种随机抽样法随机抽样法分层抽样法分层抽样法系统抽样法系统抽样法书书业业公公司司抽样方法抽样方法随机抽样随机抽样指总体中每一个个体都有同等可能的机会被抽到。这种抽样方法事先不能考虑抽取哪一个样品,完全用偶然方法抽样,常用抽签或利用随机数表来抽取样品以保证样品代表性。抽样当图书品种不多时,随机抽样是一种有效的抽样方法;抽样方法抽样方法分层抽样分层抽样分层抽样是先将总体按照研究内容密切有关的主要因素分类或分层,然后在各层中按照随机原则抽取样本。分层抽样可以减少层内差异,增加样本的代表性。抽样样本当到货产品较多时,分层抽样是一种有效的抽样方法;当到货产品较多时,分层抽样是一种有效的抽样方法;抽样方法抽样方法系统抽样系统抽样从总体中每隔K个个体抽取一个个体的抽样方法,比值K是总体容量N与样本容量n之比;当出版商批量发货及产品特别多时,并且易作某种次序的整理时,当出版商批量发货及产品特别多时,并且易作某种次序的整理时,系统抽样比分层抽样好;系统抽样比分层抽样好;1,2,.K K+1,K+2,.,2K 2K+1,2K+2,.,3K 直到 N为止例,从具有1000个个体的总体中抽取50个个体。总体、样本、数据间的关系总体、样本、数据间的关系总体总体样本样本结论结论数据数据抽样分析管理测试数理整理和统计数理整理和统计抽样的目的是通过样本来反映总体。抽样的目的是通过样本来反映总体。在书业公司经营管理中,常常将测试的样本数据,通过整理加工,找在书业公司经营管理中,常常将测试的样本数据,通过整理加工,找出它们的特性,从而推断总体的变化规律、趋势和性质。出它们的特性,从而推断总体的变化规律、趋势和性质。一批数据的分布情况,可以用中心倾向及数据的分散程度来表示,表一批数据的分布情况,可以用中心倾向及数据的分散程度来表示,表示中心倾向的有平均值、中位值等,表示数据分散程度的有方差、标示中心倾向的有平均值、中位值等,表示数据分散程度的有方差、标准偏差、极差等。准偏差、极差等。描述总体数据离散程度的参数为方差描述总体数据离散程度的参数为方差2 2 ,描述总体数据中心倾向的,描述总体数据中心倾向的数为均值数为均值 。若利用样本参数近似描述总体状况时,可以利用样本。若利用样本参数近似描述总体状况时,可以利用样本方差方差S S2 2近似代替总体方差近似代替总体方差2 2,利用样本均值,利用样本均值X X近似代替总体均值近似代替总体均值p p。数理整理和统计数理整理和统计样本平均值样本平均值样本中位值样本中位值X=X1+X2+X3.+Xnn中位值是按照数据大小顺序排列位于中间的数值,中位值记为X若n为偶数,则取位于中间两个数值的平均值为中位值;数理整理和统计数理整理和统计样本极差样本极差样本方差和样本标准偏差样本方差和样本标准偏差样本方差和样本标准差就是用来度量数据波动幅度大小的一个重要特性值。样本方差是一组数据中每一个数值与平均值之差的平方和的平均值,通常记为S2;样本方差的平方根S称作样本标准偏差,它与样本方差一样,是反映一组数据分散程度的特性值:样本极差表示一组数据分布的范围,是指数据中最大值与最小值的差:R=Xmax-Xmin检查表检查表在书业公司日常管理中最强调的是事实管理,就是要掌握事实,要掌握事实就必须设计检查表收集数据。业务记录用检查表业务记录用检查表层别法层别法层别法是所有手法中最基本的概念,即将多种多样的层别法是所有手法中最基本的概念,即将多种多样的数据,因应用目的的需要分类成不同的数据,因应用目的的需要分类成不同的“类别类别”,使,使之方便以后的分析;之方便以后的分析;采购营销物流财务 其 他公司数据仓库公司数据仓库层别法层别法用在检查表上用在排列图上排列图(帕累拉图)排列图(帕累拉图)关键的少数,次要的多数。通常所说的80/20法则。针对问题所收集的数据按其重要性的顺序,记录在 帕累托分析表中。公司80%的销售来自于20%教辅图书产品。排列图的作用排列图的作用公司要解决的问题很多,但从何入手呢?公司要解决的问题很多,但从何入手呢?事实上,大部分的问题,只要能找出几个影响较大的因素,并加以处置及控制,就可解决问题的80%以上。柏拉图是根据收集的数据,以不良原因、不良状况发生的现象,有系统地加以项目别分类,计算出各项目所产生的数据(如作业准确率、损失金额)及所占的比例,再依照大小顺序排列,再加上累积值的图形产品销售排列图产品销售排列图销售名次产品名称销售码洋所占%备注合计排列图的作图方法步骤排列图的作图方法步骤 将用于排列图所记录的数据进行分类。确定数据记录的时间。按分类项目进行统计。计算累计频率。准备坐标纸,画出纵横坐标。按频数大小顺序作直方图。按累计比率作排列曲线。记载排列图标题及数据简历。排列图:例排列图:例1 1如一公司由物流中心人员操作问题,导致图书损耗。记录两季教辅销售期所产生库存损耗不良情况数据,并分别将不良项目归结为下表排列图:例排列图:例2 2物流中心由于操作问题导致图书损耗断数断数印刷质量印刷质量污染污染排列图:例排列图:例2 2断数断数污染污染印刷质量印刷质量排列图:练习排列图:练习上例中物流库存损耗项目,此损耗为全年损耗码洋的总和,再将产品类别用柏拉图法分析如下:排列图:练习排列图:练习排列图:练习排列图:练习损耗50100150200比率66.7%17.9%5.1%4.1%6.1%20406080100 A B C D 其他排列图的应用排列图的应用1、利用排列图寻找图书损耗的改善重点;、利用排列图寻找图书损耗的改善重点;2、利用排列图验证改善图书损耗的效果;、利用排列图验证改善图书损耗的效果;之前之前 100%之后之后 100%实现的改善排列图的应用排列图的应用3、利用排列图对图书损耗进行分层研究;、利用排列图对图书损耗进行分层研究;A B C因果图因果图因果图因果图某项结果之形成,必定有其原因,应设法利用图解法找出其原因来。因果图因果图库存损耗库存损耗采购报订出版社发货运输搬运在库保管配货呆滞库存呆滞库存客户客户市场环境市场环境库存管理库存管理模式问题模式问题仓储库存仓储库存管理方面管理方面出版社问题出版社问题采购管理采购管理问题问题未作先进先出管制未作先进先出管制未作库存管制未作库存管制库存帐库存帐不准不准延迟交货延迟交货印刷错印刷错误误无理性采购决策无理性采购决策未严密按未严密按照应采购照应采购量量第三方进货第三方进货已有积已有积压库存压库存原先订原先订购量太购量太多多销售期已过销售期已过不适宜不适宜定量法定量法安全存量营销法安全存量营销法存量水存量水准未适准未适当修正当修正未作未作净需净需求复求复核核预测方预测方法错误法错误客户取消订单客户取消订单滞库图书因果分析滞库图书因果分析因果图因果图运用因果图有利于找到问题的症结所在,然后对症下药,解决问题。因果图再经营管理活动中,尤其是在物流作业中、问题分析中有着广泛的用途。库存损耗库存损耗人的因素技术不佳粗心缺乏培训无责任心对策表对策表对策表对策表当利用鱼刺图确定了经营问题产生的主要原因后,有必要采取措施去消除这些原因,以达到改进的目的。这时,可以采用对策表的方法。用以针对经营问题产生的原因制定对策或措施,作为实施时的依据。对策表的目的对策表的目的对策表的格式对策表的格式频数分布表频数分布表频数分布表是一种把分散和不规则的数据,整理成一个能顺着其度量的尺度,清楚地显示出该数据的集中趋势和离散程度的一种统计方法。频数分布表频数分布表测定客户报订教材完全解读100次订单教材完全解读订货频数分布表教材完全解读订货频数分布表频数分布表编制步骤频数分布表编制步骤1 11、从数据中找出最小值S和最大值L。频数分布表编制步骤频数分布表编制步骤2 22、决定组数。m=1+3.3lgn 当 n=100 时m =1+3.3 lg100=1+6.6 =7.6 8频数分布表编制步骤频数分布表编制步骤3 33、计算组距。组距 h =全距组数L-Sm组距 尽可能取为10、5、1、组距 88频数分布表编制步骤频数分布表编制步骤4 44、求界限值。在划分界限时,必须明确端点的归属,所以在决定组的界限值时,可以从每一个界限值上加上或减去1/2测量单位。频数分布表编制步骤频数分布表编制步骤5 55、计算组中值。各组的下界限值与上界限值的平均值称为该组的组中值。频数分布表编制步骤频数分布表编制步骤6 66、统计频数。落在各组中的数据的个数称为频数。频数分布表编制步骤频数分布表编制步骤7 77、列频数分布表。频数直方图频数直方图以坐标横轴表示组距,坐标纵轴表示频数,所画出的矩形图称为频数直方图,简称直方图。订货码洋订货码洋11.405 11.505 11.605 11.705 11.805 11.905 12.005 12.105 12.205 12.305 12.405 频数直方图在销售中应用直方图在销售中应用1、判断分布类型客户订货特性值的分布,一般都是服从正态分布或近似正态分布。当客户订货特性值的分布不具有正态性时,往往是公司营销政策不理想,或教辅供应能力不足。因而,由客户订货特性值所作的直方图的形状,可以推测营销政策是否稳定,或供货是否充足,由此可对客户订货作出初步判断。根据客户订货特性值的频数分布,可将直方图分为正常型直方图和异常型直方图两种类型。正常型直方图正常型直方图看直方图时应着眼于图形的整体形状,根据形状判断它是正常型还是异常型。正常型直方图具有“中间高,两边低,左右对称”的特征,它的形状像“山”,字。因此,根据客户订货特性值的频数分布所画出来的直方图是正常型时,就可初步判断为经营过程是稳定的,或供货能力是充足的。不正常直方图不正常直方图孤岛型直方图孤岛型直方图双峰型直方图双峰型直方图折齿型直方图折齿型直方图绝壁型直方图绝壁型直方图孤岛型直方图孤岛型直方图在主体直方图的左侧或右侧出现孤立的小块,像一个孤立的小岛。出现孤岛型直方图,说明有特殊事件发生。造成原因可能是一时供货发生变化,或者一段时间内出版商断故障,或者短时间内从第三方进货等。所以,只要找出原因,就能使直方图恢复到正常型。双峰型直方图双峰型直方图双峰型直方图是指在直方图中有左右两个峰,出现双峰型直方图,这是由于观测值来自两个总体、两种分布,数据混在一起。往往是由于将两季教辅销售列示在一起所造成的。折齿型直方图折齿型直方图折齿型直方图形状凹凸相隔,象梳子折断齿一样。出现折齿型直方图,多数是由于备货不合理,或处理数据时分组不适当等原因造成。绝壁型直方图绝壁型直方图绝壁型直方图左右不对称,并且其中一侧像高山绝壁的形状,当用剔除了客户退货特性值数据作直方图时,往往会出现绝壁型直方图。此外,亦可能是操作者的工作习惯,习惯于偏标准下限,于是出现左边绝壁的直方图。偏态型直方图偏态型直方图某种原因使下(上)限受到限制时,容易发生“偏左型”(偏右型)。平顶型直方图平顶型直方图与双峰型类似,由于多个总体、多种分布混在一起。直方图与标准比较直方图与标准比较对于正常型直方图,将其分布范围B=S,L(S为一批数据中的最小值,L为一批数据中的最大值)与标准范围T=SL,Su,SL为标准下界限,Su为标准上界限)进行比较,就可以看出订货特性值的分布是否在标准范围内,从而可以了解销售过程是否处于所希望的状态。为了方便,可在直方图上标出标准下界限值和标准上界限值。直方图在标准范围内的情况直方图在标准范围内的情况当教辅供应特性值符合规定标准时,其对应的直方图,必定在标准范围之内。符合规定的直方图大致有下面四种类型:TB SL (S)(L)SuTB SL (S)(L)SuTB SL (S)(L)Su TB SL (S)(L)Su直方图在标准范围内的情况直方图在标准范围内的情况直方图的分布范围直方图的分布范围B位于标准范围位于标准范围T内,但有余量内,但有余量;直方图的分布中心与标准中直方图的分布中心与标准中心近似重合,这是理想的直方图。此时,销售处于正常管理状态。心近似重合,这是理想的直方图。此时,销售处于正常管理状态。TB SL (S)(L)Su直方图在标准范围内的情况直方图在标准范围内的情况直方图的分布范围直方图的分布范围B B位于标准范围位于标准范围T T内,数据变化仍比较集中,但分布中心偏内,数据变化仍比较集中,但分布中心偏移标准中心,并且直方图的一侧已达到标准界限,移标准中心,并且直方图的一侧已达到标准界限,此时状态稍有变化,产品此时状态稍有变化,产品就可能超出标准,出现销量下滑。因此,需要采取措施,使得分布中心与标就可能超出标准,出现销量下滑。因此,需要采取措施,使得分布中心与标准中心重合。准中心重合。TB SL (S)(L)SuTB SL (S)(L)Su 直方图在标准范围内的情况直方图在标准范围内的情况直方图的分布范围直方图的分布范围B B没有超出标准范围没有超出标准范围T T,但没有余量。此时分布中心稍有偏,但没有余量。此时分布中心稍有偏移便会出现跑单,所以应及时采取措施,缩小订货特性值的分布范围。移便会出现跑单,所以应及时采取措施,缩小订货特性值的分布范围。TB SL (S)(L)Su直方图在标准范围内的情况直方图在标准范围内的情况客户订货特性值的分布非常集中,致使直方图的分布范围客户订货特性值的分布非常集中,致使直方图的分布范围B B与标准范围与标准范围T T之间之间的余量过大。此时,可对客户订货管理等适当放宽要求,从而降低渠道库存的余量过大。此时,可对客户订货管理等适当放宽要求,从而降低渠道库存积压积压TB SL (S)Su (L)直方图超出标准范围内的情况直方图超出标准范围内的情况客户订货特性值的分布客户订货特性值的分布中心向左中心向左(或向右或向右偏离标准中心,致使直方图分布范偏离标准中心,致使直方图分布范围围B B的下界限的下界限(上界限上界限)超出标准范围超出标准范围T T的下界限的下界限(或上界限或上界限),因而在下界限,因而在下界限(或或上界限上界限)出现客户后期从第三方进货或者由于订数据不退货害怕库存慎重销售。出现客户后期从第三方进货或者由于订数据不退货害怕库存慎重销售。TB(S)SL(L)Su直方图超出标准范围内的情况直方图超出标准范围内的情况直方图的分布范围直方图的分布范围B B超出标准范围超出标准范围T T,此时,在标准上界限和下界限都出现不,此时,在标准上界限和下界限都出现不合格品。这种情况通常是由于产品销售疲软,这时,应及时采取促销措施,合格品。这种情况通常是由于产品销售疲软,这时,应及时采取促销措施,降低分布的标准差。如果属于标准定得不合理,可以放宽标准范围。降低分布的标准差。如果属于标准定得不合理,可以放宽标准范围。TB(S)SLSu (L)直方图超出标准范围内的情况直方图超出标准范围内的情况直方图的分布范围直方图的分布范围B B大大超出标准范围大大超出标准范围T T,此时已出现市场大面积少货,必须,此时已出现市场大面积少货,必须立即分析原因,采取紧急措施立即分析原因,采取紧急措施;如果营销政策允许改变,就重新修订营销政策。如果营销政策允许改变,就重新修订营销政策。TB(S)SLSu (L)直方图的分层比较直方图的分层比较教材解读三基手册直方图的缺点直方图的缺点 波动图直方图时间直方图直方图(练习练习)下线客户不同品种订货统计表下线客户不同品种订货统计表直方图直方图(练习练习)1、从数据中找出最小值S和最大值L。2、决定组数。m=1+3.3lgn=63、计算组距。组距 4、求界限值。下限值 5、计算组中值。6、统计频数。7、列频数分布表。直方图直方图(练习练习)直方图直方图(练习练习)X频数频数多边形频数多边形以坐标横轴表示组中值,坐标纵轴表示频数,所画出的多边形图称为频数多边图,简称多边图。多边图的作法与直方图类似,不同的只是多边图以组中值为横坐标,频数为纵坐标,在坐标平面上依次标出各点的位置,然后把相邻各点用直线段连接起来,由此得到频数多边形。销售码洋销售码洋11.405 11.505 11.605 11.705 11.805 11.905 12.005 12.105 12.205 12.305 12.405 0 05 510101515202025253030频数请大家参与讨论