数据分析方法及理论详解.pptx
数据分析的重要性及提升经验数据分析的重要性及提升经验-Gary 0.5小时小时思路和方法思路和方法-May 1小时小时撰写分析报告的思路:撰写分析报告的思路:Why/What/How事件分析改进的思路:事件分析改进的思路:DMAIC案例分享案例分享统计基础统计基础-May 2小时小时概率论概率论描述性统计描述性统计假设检验假设检验方差分析方差分析回归分析(一元)回归分析(一元)抽样方法抽样方法目录第一页,编辑于星期五:九点 十分。正确恰当地描述企业数据和信息正确恰当地描述企业数据和信息数据收集数据收集运用表格和图表表示数据运用表格和图表表示数据数值描述的度量数值描述的度量运用样本信息得出总体结论运用样本信息得出总体结论概率论基础概率论基础离散分布、正态分布离散分布、正态分布置信区间、假设检验置信区间、假设检验进行可靠的预测进行可靠的预测简单线性回归简单线性回归多元回归多元回归时间序列预测时间序列预测数据分析的三个层次入门入门容易容易,精,精深难!深难!第二页,编辑于星期五:九点 十分。环节不能缺失环节不能缺失次序不能颠倒次序不能颠倒内容本身比版面设计更重要内容本身比版面设计更重要撰写分析报告的思路WhyWhatHow第三页,编辑于星期五:九点 十分。只有只有What-How常见的不够好的分析报告What只有只有WhatWhatHow你见过的好分析报告具备什么特征?你见过的好分析报告具备什么特征?第四页,编辑于星期五:九点 十分。DMAIC来源于来源于6sigma6sigma基本知识基本知识DMAIC介绍介绍事件分析改进的思路:DMAIC第五页,编辑于星期五:九点 十分。一、六西格玛管理的起源和推广1 1、起源、起源来自日本的竞争压力1980年鲍文高尔文工作组和萨恩德赖的研究1987年全面推行61992年产品和服务质量达到6水平1988年获美国波多礼奇国家质量奖 从开始实施的1987-1997年的10年间,销售额增长了5倍,利润每年增长20%,通过实施六西格玛管理所带来的收益累计达140亿美元,股票价格平均每年上涨21.3%,效果十分显著。第六页,编辑于星期五:九点 十分。一、六西格玛管理的起源和推广2 2、推广、推广1)联合信号公司 1992年,博西迪将六西格玛引入联合信号公司。公司的收益从1991年的3.42亿美元增长到1997年的11.7亿美元。而且连续31个季度保持每股利润13%以上的增长,公司的股价增长了8倍。2)美国通用电气公司 六西格玛方法演变为一个管理系统。3)其它 福特、杜邦、ABB、3M、东芝、三星、LG、西门子、爱立信、花旗银行、美国运通、英特尔、微软等跨国公司。第七页,编辑于星期五:九点 十分。理念理念测量标准测量标准方法论方法论战略战略企业文化企业文化-全面关注、了解客户需求!全面关注、了解客户需求!-量化管理!量化管理!-流程优化流程优化/改进,减少缺陷!改进,减少缺陷!-持续改善,追求卓越的质量!持续改善,追求卓越的质量!6 Sigma的管理方法重点是将所有的管理方法重点是将所有的工作作为一种的工作作为一种流程流程,采用,采用量化量化的方的方法法分析分析流程流程中影响质量的中影响质量的因素因素,找出,找出最最关键的因素关键的因素加以加以改进改进从而达到更高从而达到更高的的客户满意度客户满意度。-杰克韦尔奇杰克韦尔奇二、什么是二、什么是 6-Sigma6-Sigma第八页,编辑于星期五:九点 十分。-Sigma 是一个统计学测量单位,它反映是一个统计学测量单位,它反映了一个流程的表现水平。了一个流程的表现水平。Sigma水平水平表达的是每个环节满足客户要求的表达的是每个环节满足客户要求的程度。程度。6水平水平=百万次机会百万次机会3.43.4次缺陷次缺陷理念理念测量标准测量标准方法论方法论战略战略企业文化企业文化二、什么是二、什么是 6-Sigma6-Sigma第九页,编辑于星期五:九点 十分。A 槍手uxLCLUCLB 槍手uxLCLUCLC 槍手uxLCLUCL什么是Sigma?第十页,编辑于星期五:九点 十分。什么是6-Sigma?Spec.Limit PercentDefective PPM 1 30.23 697700 269.13 308700 3 93.32 66810 4 99.3790 6210 5 99.9767 233 6 99.999660 3.4-6 6 -3 3 T T+3 +6 +1.51.5 -1.51.5 3.4 DPMODefects per Million Opportunity3.4 DPMODefects per Million OpportunityY YL LYR左偏移右偏移6sigma比3sigma好20000倍第十一页,编辑于星期五:九点 十分。理念理念测量标准测量标准方法论方法论战略战略企业文化企业文化6 Sigma 包括两套严格的,系统化地包括两套严格的,系统化地应用统计学工具的分析方法:应用统计学工具的分析方法:两种方法都强调关注输入来实现对输出的改善。两种方法都强调关注输入来实现对输出的改善。两种方法都强调关注输入来实现对输出的改善。两种方法都强调关注输入来实现对输出的改善。DMADV:设计新的产品和流程设计新的产品和流程DMAIC:改善现有的产品或流程改善现有的产品或流程二、什么是二、什么是 6-Sigma6-Sigma第十二页,编辑于星期五:九点 十分。定义定义定义定义D Defineefine测量测量MMeasureeasure分析分析A Analysisnalysis控制控制C Controlontrol改善改善I ImprovemproveDMAIC二、什么是二、什么是 6-Sigma6-Sigma第十三页,编辑于星期五:九点 十分。定义定义D Defineefine测量测量MMeasureeasure分析分析A Analysisnalysis审核审核V Verifyerify设计设计D DesignesignDMADV二、什么是二、什么是 6-Sigma6-Sigma第十四页,编辑于星期五:九点 十分。1.0(D)定义范围定义范围了解过程了解过程2.0(M)测量评估测量评估确定目标确定目标3.0(A)分析过程分析过程确定重点确定重点4.0(I)制定措施制定措施实施改进实施改进5.0(C)效果控制效果控制持续改善持续改善DMAICSix Sigma 五步法五步法定义问题范围定义问题范围明确客户需求明确客户需求确认业务流程确认业务流程成立高效团队成立高效团队 项目范围确定:解决什么问题 团队建设(成员、章程)项目推进计划 业务主流程图SIPOC 细化的关键业务流程图 客户关心的关键质量CTQ可使用的工具可使用的工具 头脑风暴、因果图 柏拉图等 客户调查、抽样统计 QFD、矩阵表、雷达图等 KPI 流程图 项目管理 每一步工作每一步工作每一步工作输出每一步工作输出第十五页,编辑于星期五:九点 十分。DMAIC2.0(M)测量性能测量性能评估现状评估现状3.0(A)分析过程分析过程确定重点确定重点4.0(I)制定措施制定措施实施改进实施改进5.0(C)效果控制效果控制持续改善持续改善2.0(M)测量评估测量评估确定目标确定目标3.0(A)分析过程分析过程确定重点确定重点4.0(I)制定措施制定措施实施改进实施改进5.0(C)效果控制效果控制持续改善持续改善1.0(D)定义范围定义范围了解过程了解过程Six Sigma 五步法五步法明确测量对象明确测量对象明确测量标准明确测量标准现状水平分析现状水平分析确定项目目标确定项目目标 确定衡量项目指标、参数 项目计划书(目标、收益预算)目前的绩效水平 测量系统、Defect的定义 测量系统分析/改进报告每一步工作每一步工作可使用的工具可使用的工具 检查表 抽样统计 JMP统计软件 测量基础 测量系统分析-MAS 项目管理每一步工作输出每一步工作输出第十六页,编辑于星期五:九点 十分。DMAIC1.0(D)定义范围定义范围了解过程了解过程2.0(M)测量评估测量评估确定目标确定目标3.0(A)分析过程分析过程确定重点确定重点4.0(I)制定措施制定措施实施改进实施改进5.0(C)效果控制效果控制持续改善持续改善Six Sigma 五步法五步法细化流程细化流程分析影响因素分析影响因素找关键因子找关键因子 流程分析报告关键因素X确定并排序 影响项目 Y值的输入因素X每一步工作每一步工作可使用的工具可使用的工具 头脑风暴、因果图、原因筛选 相关性分析 对比实验 多变异分析-ANOVA 失效模式和后果分析-FMEA 柏拉图、JMP统计软件 每一步工作输出每一步工作输出第十七页,编辑于星期五:九点 十分。DMAIC1.0(D)定义范围定义范围了解过程了解过程 2.0(M)测量评估测量评估确定目标确定目标3.0(A)分析过程分析过程确定重点确定重点4.0(I)制定措施制定措施实施改进实施改进5.0(C)效果控制效果控制持续改善持续改善Six Sigma 五步法五步法找出改进方案找出改进方案 针对每一个关键因素 X找出尽可能多的 改进方案评估评估 方案方案 选择的方案方案实施方案实施效果验证效果验证 行动计划表并实施 改善效果分析报告每一步工作输出每一步工作输出每一步工作每一步工作可使用的工具可使用的工具 头脑风暴、方案评估 实验设计-DOE 回归分析、对比分析 责任矩阵、甘特图 项目管理 客户满意度调查 统计基础、JMP软件 第十八页,编辑于星期五:九点 十分。DMAICSix Sigma 五步法五步法1.0(D)定义范围定义范围了解过程了解过程2.0(M)测量评估测量评估确定目标确定目标3.0(A)分析过程分析过程确定重点确定重点5.0(C)效果控制效果控制持续改善持续改善4.0(I)制定措施制定措施实施改进实施改进控制跟踪控制跟踪固化改进固化改进 文件、制度、体系的形成 改善效果监控报告 关键因素监控报告确定新的改善思路确定新的改善思路再次寻找改善 机会,持续改善每一步工作每一步工作可使用的工具可使用的工具 抽样统计 SPC 控制图 客户满意度调查 JMP统计软件 每一步工作输出每一步工作输出第十九页,编辑于星期五:九点 十分。理念理念测量标准测量标准方法论方法论战略战略企业文化企业文化追求卓越(追求卓越(6 6 水平水平-几乎完美的结果)几乎完美的结果)持续改善(不断改进与创新)持续改善(不断改进与创新)在在GE 6 Sigma 作为企业的一种战作为企业的一种战略被实施。略被实施。二、什么是二、什么是 6-Sigma6-Sigma第二十页,编辑于星期五:九点 十分。注注注注:DPPM:DPPM:DPPM:DPPM表示表示表示表示每百万产品中的缺陷数量每百万产品中的缺陷数量每百万产品中的缺陷数量每百万产品中的缺陷数量 水平水平 2 2 3 3 4 4 5 5 6 6DPPM 308,70066,810 6,210 233 3.4 劣质产品的成本(占销售额)30-40%20-30%15-20%10-15%10%不同不同 水平的比较水平的比较第二十一页,编辑于星期五:九点 十分。6 Sigma以用户为中心,以用户为中心,提倡不断改善,追求卓越提倡不断改善,追求卓越以系统的方法为员工提供统以系统的方法为员工提供统一的工作方式一的工作方式在公司内部提供统一的交在公司内部提供统一的交流语言和工具流语言和工具理念理念测量标准测量标准方法论方法论战略战略企业文化企业文化二、什么是二、什么是 6-Sigma6-Sigma第二十二页,编辑于星期五:九点 十分。三、六西格玛管理的组织和推进1 1、六西格玛管理的组织结构、六西格玛管理的组织结构 高层领导是推进六西格玛管理获得成功的关键因素。公司高层领导倡导者业务负责人六西格玛推进小组资深黑带/培训、咨询师黑带黑带黑带绿带绿带图3 六西格玛管理组织结构示意图第二十三页,编辑于星期五:九点 十分。三、六西格玛管理的组织和推进1 1、六西格玛管理的组织结构、六西格玛管理的组织结构高层领导的具体作用:1、制定2-5年的六西格玛战略目标。2、授权一个推进小组。3、制定推进方案。4、领导层亲自参加。公司高层领导倡导者业务负责人六西格玛推进小组资深黑带/培训、咨询师黑带黑带黑带绿带绿带图3 六西格玛管理组织结构示意图第二十四页,编辑于星期五:九点 十分。三、六西格玛管理的组织和推进1 1、六西格玛管理的组织结构、六西格玛管理的组织结构 倡导者发起和支持黑带项目,是六西格玛管理的关键因素。公司高层领导倡导者业务负责人六西格玛推进小组资深黑带/培训、咨询师黑带黑带黑带绿带绿带图3 六西格玛管理组织结构示意图第二十五页,编辑于星期五:九点 十分。三、六西格玛管理的组织和推进1 1、六西格玛管理的组织结构、六西格玛管理的组织结构 倡导者通常是企业推行六西格玛领导小组的一员,或者是中层以上的管理人员,其工作通常是以战略视角对六西格玛管理进行全面的战略部署、项目策划及目标确定、资源分配与过程监控,最终对六西格玛活动整体负责。公司高层领导倡导者业务负责人六西格玛推进小组资深黑带/培训、咨询师黑带黑带黑带绿带绿带图3 六西格玛管理组织结构示意图第二十六页,编辑于星期五:九点 十分。三、六西格玛管理的组织和推进1 1、六西格玛管理的组织结构、六西格玛管理的组织结构公司高层领导倡导者业务负责人六西格玛推进小组资深黑带/培训、咨询师黑带黑带黑带绿带绿带 六西格玛管理的高参及专家,是运用六西格玛管理工具的高手。黑带是完成六西格玛项目的骨干,是核心力量。绿带是黑带项目团队的成员或较小项目的全队负责人。第二十七页,编辑于星期五:九点 十分。三、六西格玛管理的组织和推进2 2、六西格玛管理的推进步骤、六西格玛管理的推进步骤收益(元)六西格玛带来的纯收益0领导承诺推进六西格玛开始投入1 2 3 4时间(年)关键转折点导入期加速期成长期成熟期ABCD图4 六西格玛管理的推进轨迹第二十八页,编辑于星期五:九点 十分。客户满意客户满意 、数据驱动、数据驱动 持续改善持续改善持续改善持续改善 、追求卓越、追求卓越、追求卓越、追求卓越 6SIGMA6SIGMA核心理念核心理念:第二十九页,编辑于星期五:九点 十分。米饭改善案例分享第三十页,编辑于星期五:九点 十分。数据分析的重要性及提升经验-Gary 0.5小时思路和方法-May 1小时撰写分析报告的思路:Why/What/How事件分析改进的思路:DMAIC案例分享统计基础统计基础-May 2小时概率论描述性统计假设检验方差分析回归分析(一元)抽样方法目录第三十一页,编辑于星期五:九点 十分。概率论描述性统计假设检验方差分析回归分析(一元)抽样方法统计基础第三十二页,编辑于星期五:九点 十分。一、概率论一、概率论第三十三页,编辑于星期五:九点 十分。一、随机事件及其运算1 随机事件的概念 客观世界中,存在两类不同的现象 确定性现象确定性现象在一定的条件下,必然要出现某一种结果的现象我们前面所学的微积分就是用来研究客观世界中的“确定性现象”的数量规律及其存在形式的例如,“抛一石头,石头下落”;“在标准大气压下,纯水加热到100,水必然沸腾”;都是确定性现象 基本知识基本知识第三十四页,编辑于星期五:九点 十分。随机性现象随机性现象 在一定的条件下,可能结果不止一个而事先无法确定的现象,例如,抛一枚硬币,其结果可能是正面向上,也有可能反面向上,每次抛掷之前无法确定其结果是什么;一袋中装有红白两种颜色的球,从袋中任取一球,其颜色有可能是红色的,也有可能是白色的,在每次取球之前无法确定其颜色;这些都是随机性现象 概率统计就是研究随机现象数学规律的一个数学分支 一次试验结果的不确定性,表现了随机现象的偶然性的一面,而大量重复的试验,显现出随机现象的统计规律性,表现了它的必然性的一面,这就是随机现象的二重性随机现象的二重性偶然性和统计必然性之间的辩证关系偶然性和统计必然性之间的辩证关系基本知识基本知识第三十五页,编辑于星期五:九点 十分。事件之间的关系及运算与集合之间的关系与运算是完全类似的2 事件的关系及运算或 包含与相等包含与相等若事件 A 发生必然导致事件 B 发生,则称事件事件 B 包含事件包含事件 A,记为例如在上述掷骰子的试验中,事件O=“出现奇数点”与事件 A=“出现1点,或3点”的关系是规定:对任何事件 A,都有若且则称事件A 与 B相等相等,记为基本知基本知识识第三十六页,编辑于星期五:九点 十分。事件的和(或并)事件的和(或并)事件 A 与 B 至少有一个发生所构成的事件称为事件 A 与 B 的和事件和事件,也称为事件A 与 B 的并并记为 A+B 或例如在掷骰子的试验中,事件 O=“出现奇数点”与事件 B=“出现2点”的和是O+B =1,2,3,5 推广到 n 个事件,事件 A1,A2,An 中至少有一个发生所构成的事件称为A A1,1,A A2,2,An An 这这 n n 个个事件的和事件事件的和事件(或并或并)基本知识基本知识第三十七页,编辑于星期五:九点 十分。事件的积(或交)事件的积(或交)事件 A 与 B 同时发生所构成的事件称为事件 A 与 B 的积事件积事件,也称为事件A 与 B 的交交记为 A B 或例如在掷骰子的试验中,事件 O=“出现奇数点”与事件 B=“出现点数大于2”的积是O B =3,5 基本知识基本知识第三十八页,编辑于星期五:九点 十分。事件的差事件的差若事件 A 发生,而事件 B 不发生所构成的事件称为事件 A 与 B 的差差,记为 AB例如在掷骰子的试验中,事件 O=“出现奇数点”与事件 B=“出现大于2的点”的差是O B =1 基本知识基本知识第三十九页,编辑于星期五:九点 十分。互不相容(互斥)事件互不相容(互斥)事件则称事件事件 A 与与 B 互不相容互不相容,或称 A 与与 B 是互斥事件是互斥事件若事件 A 与 B 的积是不可能事件,即例如在掷骰子的试验中,事件 O=“出现奇数点”与事件 E=“出现偶数点”互不相容基本知识基本知识第四十页,编辑于星期五:九点 十分。对立(互补)事件对立(互补)事件设 A 是一事件,称A 为 A 的对立事件对立事件,记为即例如在掷骰子的试验中,事件 O=“出现奇数点”的对立事件是 E=“出现偶数点”;基本知识基本知识第四十一页,编辑于星期五:九点 十分。设 A,B,C 是同一随机试验的事件,那么有下列性质:性质1 交换律交换律 A+B=B +A,A B=B A;性质2 结合律结合律 (A+B)+C=A +(B+C),(A B)C=A(B C);性质3 分配律分配律 A(B+C)=AB +AC;3 事件运算的性质性质4 对偶律对偶律性质5 吸收律吸收律 AB+A=A,(A+B)A=A;性质6 对立律对立律基本知识基本知识第四十二页,编辑于星期五:九点 十分。例例1.掷一颗骰子的试验E,观测出现的点数:事件 A表示出现“偶数点”,事件 B表示出现“小于 4的奇数”,事件 C表示出现“大于 2 的点数”,用集合的列举表示法表示下列事件:,A,B,C,A+B,BC,BC,解解根据题意知=1,2,3,4,5,6,A=2,4,6,B=1,3,C=3,4,5,6,A+B=1,2,3,4,6,BC=1,BC=3,案例案例第四十三页,编辑于星期五:九点 十分。二、概率的定义定义定义 如果在n次随机试验中,事件 A出现了m次,则称比值 m/n为 n次试验中事件 A出现的频率频率 1 概率的定义随机事件在一次试验试验中是否发生虽然不能事先确定,但是在大量重复试验的情况下,它的发生呈现一定的规律性例如,历史上曾有人作过抛掷硬币的大量重复试验,结果如下表所示基本知识基本知识第四十四页,编辑于星期五:九点 十分。抛掷次数(n)正面向上次数(m)频率(m/n)204810610.5181404020480.50691200060190.501624000120120.500530000149840.499672088361240.5011抛掷硬币试验结果表当抛掷硬币的次数很多时,出现正面的频率值是稳定的,接近于常数0.5,在它附近摆动基本知识基本知识第四十五页,编辑于星期五:九点 十分。定义定义在大量重复进行同一试验时,事件 A 发生的频率总是接近于某个常数,在它附近摆动,把这个常数叫做事件事件 A 的概率,的概率,记作 P(A)概率从数量上反映了一个事件发生可能性的大小抛掷一枚硬币出现“正面向上”的概率是0.5,是指出现“正面向上”的可能性是50%上面有关概率的定义,实际上也是求一个事件概率的基本方法:进行大量重复试验,用这个事件发生的频率近似地作为它的概率基本知识基本知识第四十六页,编辑于星期五:九点 十分。概率范围显然必然事件的概率是1,即不可能事件的概率是0,即如果事件 A,B 互不相容,则 一般地,如果事件 A1,A2,An 彼此互不相容,那么基本知识基本知识第四十七页,编辑于星期五:九点 十分。2 概率的性质性质性质1设 A 是A的对立事件,则性质性质2性质性质3 设A,B为二事件,则P(A+B)=P(A)+P(B)P(AB).性质性质4 设A,B为二事件,若B包含A,即则性质性质5 若B包含A,即则基本知识基本知识第四十八页,编辑于星期五:九点 十分。某足球队在未来一周中有两场比赛,在第一场比赛中获胜的概率为1/2,在第二场比赛中获胜的概率是1/3,在两场比赛中都获胜概率是1/6,那么该队在这两场比赛中至少有一场 获胜的概率是多少?案例案例解:设事件 Ai=第 i 场比赛获胜,i=1,2.于是有:P(A1)=1/2,P(A2)=1/3,P(A1 A2)=1/6 由于事件两场比赛中至少有一场获胜可用事件 A1A2 表示,所求概率为 P(A1A2).另外由于事件 A1 与 A2 是可能同时发生的,故 A1 与 A2 不是互不相容事件,应用性质(3)来求,即:P(A1A2)=P(A1)P(A2)-P(A1A2)=1/2+1/3-1/6=2/3 这表明在未来两场比赛中至少有一场获胜的概率为 2/3.第四十九页,编辑于星期五:九点 十分。练习题作业作业第五十页,编辑于星期五:九点 十分。二、描述性统计二、描述性统计第五十一页,编辑于星期五:九点 十分。描述统计分析描述统计分析数据分布性质数据分布性质平均数平均数平均数平均数中位数中位数中位数中位数众数众数众数众数集中趋势集中趋势极差极差极差极差方差方差方差方差标准差标准差标准差标准差离散趋势离散趋势偏态偏态偏态偏态分布形态分布形态四分位差四分位差四分位差四分位差峰度峰度峰度峰度第五十二页,编辑于星期五:九点 十分。平均数是将总体中所有个体的数量标志差异抽象化,平均数是将总体中所有个体的数量标志差异抽象化,用以反映现象在一定时间、地点条件下的一般水平用以反映现象在一定时间、地点条件下的一般水平或代表性水平或代表性水平.对象:个体单位的数量差异;对象:个体单位的数量差异;手段:将数量差异抽象化手段:将数量差异抽象化,即去差异;即去差异;目的:反映各个个体现象数值的一般水平,代表性目的:反映各个个体现象数值的一般水平,代表性水平水平仅适用于定距变量。(单位数必须一样)仅适用于定距变量。(单位数必须一样)函数:函数:=average()=average()平均数基本知基本知识识第五十三页,编辑于星期五:九点 十分。一个身高一个身高180180的不会游泳的人想涉水过河的不会游泳的人想涉水过河,已知河的已知河的平均深度为平均深度为1 1米米,此人是否过河此人是否过河?为什么为什么?某人想购买一台冰箱某人想购买一台冰箱,现有如下信息现有如下信息:冰箱品牌冰箱品牌 A BA B平均使用年限平均使用年限 10 1010 10最多使用年限最多使用年限 20 1220 12最少使用年限最少使用年限 2 82 8平均数的局限性基本知识基本知识第五十四页,编辑于星期五:九点 十分。M M:吉斯莫先生有一个小工厂,生产超级小玩意:吉斯莫先生有一个小工厂,生产超级小玩意儿。儿。M M:管理人员由吉斯莫先生、他的弟弟、六个亲:管理人员由吉斯莫先生、他的弟弟、六个亲戚组成。工作人员由戚组成。工作人员由5 5个领工和个领工和1010个工人组成。个工人组成。工厂经营得很顺利,现在需要一个新工人。工厂经营得很顺利,现在需要一个新工人。M M:现在吉斯莫先生正在接见萨姆,谈工作问题。:现在吉斯莫先生正在接见萨姆,谈工作问题。吉斯莫:我们这里报酬不错。平均薪金是每周吉斯莫:我们这里报酬不错。平均薪金是每周300300元。你在学徒期间每周得元。你在学徒期间每周得7575元,不过很快就可元,不过很快就可以加工资。以加工资。骗人的“平均数”第五十五页,编辑于星期五:九点 十分。M M:萨姆工作了几天之后,要求见厂长。:萨姆工作了几天之后,要求见厂长。萨姆;你欺骗我!我已经找其他工人核对过了,萨姆;你欺骗我!我已经找其他工人核对过了,没有一个人的工资超过每周没有一个人的工资超过每周100100元。平均工资怎元。平均工资怎么可能是一周么可能是一周300300元呢?元呢?吉斯莫:啊,萨姆,不要激动。平均工资是吉斯莫:啊,萨姆,不要激动。平均工资是300300元。我要向你证明这一点。元。我要向你证明这一点。吉斯莫:这是我每周付出的酬金。我得吉斯莫:这是我每周付出的酬金。我得24002400元,我元,我弟弟得弟弟得10001000元,我的六个亲戚每人得元,我的六个亲戚每人得250250元,五个元,五个领工每人得领工每人得200200元,元,1010个工人每人个工人每人100100元。总共是元。总共是每周每周69006900元,付给元,付给2323个人,对吧?个人,对吧?骗人的“平均数”第五十六页,编辑于星期五:九点 十分。萨姆:对,对,对!你是对的,平均工资是每周萨姆:对,对,对!你是对的,平均工资是每周300300元。可你还是蒙骗了我。元。可你还是蒙骗了我。吉斯莫;我不同意!你实在是不明白。我已经把工吉斯莫;我不同意!你实在是不明白。我已经把工资列了个表,并告诉了你,工资的中位数是资列了个表,并告诉了你,工资的中位数是200200元,元,可这不是平均工资,而是中等工资。可这不是平均工资,而是中等工资。萨姆:每周萨姆:每周100100元又是怎么回事呢?元又是怎么回事呢?吉斯莫:那称为众数,是大多数人挣的工资。吉斯莫:那称为众数,是大多数人挣的工资。吉斯莫:老弟,你的问题是出在你不懂平均数、吉斯莫:老弟,你的问题是出在你不懂平均数、中位数和众数之间的区别。中位数和众数之间的区别。萨姆:好,现在我可懂了。我萨姆:好,现在我可懂了。我我辞职!我辞职!骗人的“平均数”第五十七页,编辑于星期五:九点 十分。将总体中的各个个体数值按照大小顺序排列,居于将总体中的各个个体数值按照大小顺序排列,居于中间位置的数值,便是中位数。中间位置的数值,便是中位数。中位数中位数基本知识基本知识第五十八页,编辑于星期五:九点 十分。它把观察总数一分为二,其中一半具有比它小的变量它把观察总数一分为二,其中一半具有比它小的变量值,另一半具有比它大的变量值。所以,中位值是数值,另一半具有比它大的变量值。所以,中位值是数据序列之中央位置的值。据序列之中央位置的值。函数:函数:=median()=median()适用于定序变量适用于定序变量是一种集中趋势或平均指标是一种集中趋势或平均指标位于中间位置的数值位于中间位置的数值如果数据为奇数项,中位数是中间位置的数值如果数据为奇数项,中位数是中间位置的数值如果数据为偶数项,中位数是中间位置两个数值的平均如果数据为偶数项,中位数是中间位置两个数值的平均数数是一种位置平均数是一种位置平均数不受总体中极值的影响不受总体中极值的影响中位数基本知识基本知识第五十九页,编辑于星期五:九点 十分。数据:10.34.9 8.9 11.7 6.3 7.7顺序:4.9 6.3 7.77.7 8.98.910.3 11.7位置:123 34 456求中位数案例案例第六十页,编辑于星期五:九点 十分。总体中出现次数最多的数值是众数。总体中出现次数最多的数值是众数。众数众数基本知基本知识识第六十一页,编辑于星期五:九点 十分。用具有频数最多的值来表示变量的集中值。用具有频数最多的值来表示变量的集中值。适用于任何层次的变量,只要知道频次分适用于任何层次的变量,只要知道频次分布,就能找到众值。因此,它最易求出,布,就能找到众值。因此,它最易求出,也特别适用于单峰对称的情况。也是比较也特别适用于单峰对称的情况。也是比较两个分布是否相近首先要考虑的参数。两个分布是否相近首先要考虑的参数。对于多峰的图形,由于众值不唯一,用此法就对于多峰的图形,由于众值不唯一,用此法就不适当了。不适当了。函数:函数:=mode()=mode()众数二.集中趋势测量法基本知基本知识识第六十二页,编辑于星期五:九点 十分。众数无众数无众数数据数据:10.310.3 4.94.9 8.98.9 11.711.7 6.36.3 7.77.7一个众数一个众数数据数据:6.36.34.94.98.98.9 6.3 6.3 4.94.94.94.9一个以上的众数一个以上的众数数据数据:212128282828414143434343基本知基本知识识第六十三页,编辑于星期五:九点 十分。1.1.三值都是希望通过一个数值来描述整体特征,以便简化资料。都是反三值都是希望通过一个数值来描述整体特征,以便简化资料。都是反映了变量的集中趋势。映了变量的集中趋势。众值:适用于定类、定序和定距变量众值:适用于定类、定序和定距变量中位值:适用于定序和定距变量中位值:适用于定序和定距变量均值:适用于定距变量。均值:适用于定距变量。2.2.众值仅使用于了资料中最大频次数,因此,资料使用是不完众值仅使用于了资料中最大频次数,因此,资料使用是不完全的;中位值只考虑了变量的顺序和居中位置,对不按序排序全的;中位值只考虑了变量的顺序和居中位置,对不按序排序的数,不在中位的数值的大或小反映不出来;均值既考虑到频的数,不在中位的数值的大或小反映不出来;均值既考虑到频次,又考虑到变量值的大小,因此,反映最灵敏。次,又考虑到变量值的大小,因此,反映最灵敏。3.3.虽然均值对资料信息利用最充分,但对严重偏态的分布,会失虽然均值对资料信息利用最充分,但对严重偏态的分布,会失去它应有的代表性。只对单峰和基本对称的图形,用均值作为集去它应有的代表性。只对单峰和基本对称的图形,用均值作为集中趋势才是合理的。对偏态的分布,应使用中位值作为集中趋势。中趋势才是合理的。对偏态的分布,应使用中位值作为集中趋势。众数、中数和均数的比较基本知识基本知识第六十四页,编辑于星期五:九点 十分。偏态和三值的关系对称图形偏态图形偏态图形众值中位值均值众值中位值均值众值均值中位值基本知识基本知识第六十五页,编辑于星期五:九点 十分。2月员工月员工AHT,哪一组表现好?哪组表现差?,哪一组表现好?哪组表现差?案例案例第六十六页,编辑于星期五:九点 十分。孟子说孟子说“物之不齐,物之性也物之不齐,物之性也”。乃佛家之殊。乃佛家之殊相相差异来自于大量现象的异质性或多变性差异来自于大量现象的异质性或多变性大量现象相异之外,有其相同的一面。但经大量现象相异之外,有其相同的一面。但经常是相异之处比相同之处更为显著。常是相异之处比相同之处更为显著。统计分析的主题,便是一套研究差异的技术。统计分析的主题,便是一套研究差异的技术。离散趋势基本知识基本知识第六十七页,编辑于星期五:九点 十分。是测定总体中各个个体单位标志值差异的变动范围是测定总体中各个个体单位标志值差异的变动范围或差异程度的指标。或差异程度的指标。离散趋势集中趋势基本知识基本知识第六十八页,编辑于星期五:九点 十分。为什么说图中的为什么说图中的两个城市,一个两个城市,一个“四四季分明季分明”,一个,一个“四四季温差不大季温差不大”?基本知识基本知识第六十九页,编辑于星期五:九点 十分。第一次第一次 第二次第二次 第三次第三次 第四次第四次 第五次第五次甲命中环数甲命中环数78889乙命中环数乙命中环数1061068甲,乙两名射击手的测试成绩统计如下:甲,乙两名射击手的测试成绩统计如下:请分别计算两名射手的平均成绩;请分别计算两名射手的平均成绩;教练的烦恼教练的烦恼甲甲乙乙 现要挑选一名射击手参加比现要挑选一名射击手参加比 赛,若你是教练,你认为挑赛,若你是教练,你认为挑 选哪一位比较适宜?为什么?选哪一位比较适宜?为什么?成绩(环)成绩(环)射射击击次次序序012234546810 请根据这两名射击手的成绩在请根据这两名射击手的成绩在 下图中画出折线统计图;下图中画出折线统计图;基本知识基本知识第七十页,编辑于星期五:九点 十分。F测量的是数据的分散程度,就是样本中最大值测量的是数据的分散程度,就是样本中最大值与最小值之差。与最小值之差。F反映标志值的变动范围反映标志值的变动范围F极差计算简便,易于理解,应用普遍。极差计算简便,易于理解,应用普遍。F极差极差=最大标志值最大标志值-最小标志值最小标志值极差基本知识基本知识第七十一页,编辑于星期五:九点 十分。一组数据中,各数据与它们一组数据中,各数据与它们的平均数的差的平方的的平均数的差的平方的平均数。平均数。方差方差计算公式:计算公式:一般步骤一般步骤:求平均求平均再求差再求差然后平方然后平方最后再平均最后再平均基本知识基本知识第七十二页,编辑于星期五:九点 十分。例例:为了考察甲、乙两种小麦的长势为了考察甲、乙两种小麦的长势,分别从中抽分别从中抽出出1010株苗,测得苗高如下株苗,测得苗高如下(单位单位:cm):cm):甲甲:12 13 14 15 10 16 13 11 15 11乙乙:11 16 17 14 13 19 6 8 10 16 问哪种小麦长得比较整齐问哪种小麦长得比较整齐?方差越大方差越大,波动越大,越不稳定。波动越大,越不稳定。基本知基本知识识第七十三页,编辑于星期五:九点 十分。标准差是一组数值自平均值分散开来的程度的一种测标准差是一组数值自平均值分散开来的程度的一种测量观念。量观念。一个较大的标准差,代表大部分的数值和其平均值之间差一个较大的标准差,代表大部分的数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值。异较大;一个较小的标准差,代表这些数值较接近平均值。数据的单位与方差的单位一致吗?数据的单位与方差的单位一致吗?标准差标准差基本知识基本知识第七十四页,编辑于星期五:九点 十分。偏度F理想的分布形态是对称的,但在现实生活中,理想的分布形态是对称的,但在现实生活中,现象之分布并不完全对称,而是或多或少地现象之分布并不完全对称,而是或多或少地不同程度地存在着非对称情况,在统计上将不同程度地存在着非对称情况,在统计上将这个非对称分布称为偏态。这个非对称分布称为偏态。F表征概率分布密度曲线相对于平均值不对称程度的特征表征概率分布密度曲线相对于平均值不对称程度的特征数。数。基本知识基本知识第七十五页,编辑于星期五:九点 十分。偏度F如果偏度如果偏度=0=0,则表明此分布为对称分布;,则表明此分布为对称分布;F如如果果偏偏度度000,则则表表明明此此分分布布为为右右偏偏态态,此此时时数数据据位位于于均均值值右右边边的比位于左边的多;的比位于左边的多;F非对称分布称为偏态非对称分布称为偏态基本知识基本知识第七十六页,编辑于星期五:九点 十分。峰度F峰度是表明一个次数分布陡峭或平缓的指标。峰度是表明一个次数分布陡峭或平缓的指标。F一一个个总总体体分分布布的的峰峰度度越越大大,分分布布形形态态便便越越陡陡峭峭,总体的数值便越集中总体的数值便越集中F一一个个总总体体分分布布峰峰度度越越小小,分分布布形形态态便便越越平平缓缓,总总体体的的数值便越分散,差异便越数值便越分散,差异便越基本知识基本知识第七十七页,编辑于星期五:九点 十分。峰度F如果峰度如果峰度=0=0,则表明此分布为正态分布;常态峰,则表明此分布为正态分布;常