《统计方法基础知识精品文稿.ppt》由会员分享,可在线阅读,更多相关《统计方法基础知识精品文稿.ppt(52页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、统计方法基础知识第1页,本讲稿共52页第四部分 QC小组统计技术应用第2页,本讲稿共52页 QCQC小组活动为什么要应用统计技术小组活动为什么要应用统计技术1 1、证实活动的科学性,达到质量改进的目的、证实活动的科学性,达到质量改进的目的2 2、运用统计方法、运用统计方法增强分析解决问题的能力增强分析解决问题的能力3 3、用事实数据说话、用事实数据说话提供活动的证据提供活动的证据4 4、准确的统计分析、准确的统计分析决策下一步行动决策下一步行动5 5、提高活动效率、提高活动效率少走或不走弯路少走或不走弯路第3页,本讲稿共52页(1)(1)统计方法基础知识统计方法基础知识第4页,本讲稿共52页
2、统计方法基础知识统计方法基础知识 (P116P116)统计:收集和整理国情、资料的一种活动。统计:收集和整理国情、资料的一种活动。统计方法:统计方法:收集、整理、分析和解释统计数收集、整理、分析和解释统计数 据,并对其所反映的问题做出一定结论的方法。据,并对其所反映的问题做出一定结论的方法。目的:进行数据的整理、分析。目的:进行数据的整理、分析。方法:全数检验或随机抽取。方法:全数检验或随机抽取。工具:工具:“老七种工具老七种工具”、“新七种工具新七种工具”等。等。一、什么是统计方法一、什么是统计方法第5页,本讲稿共52页一、什么是统计方法一、什么是统计方法(P P116)116)统计方法分类
3、:一般分为统计方法分类:一般分为描述性描述性和和推断性推断性两类。两类。如老师由这个班级的数学平均成绩,去估计整个年级如老师由这个班级的数学平均成绩,去估计整个年级5 5个班的平均水平,这种统计估计就属于推个班的平均水平,这种统计估计就属于推断性统计方法。推断性统计方法要通过详细样本来达到了解、推断总体的目的。具有由局部推断断性统计方法。推断性统计方法要通过详细样本来达到了解、推断总体的目的。具有由局部推断整体的性质,如控制图、散布图、假设检验、抽样检查等。整体的性质,如控制图、散布图、假设检验、抽样检查等。(2)(2)推断性推断性:在对统计数据进行描述的基础上,进一步在对统计数据进行描述的基
4、础上,进一步分析、解释和作出推断性结论。分析、解释和作出推断性结论。展示出统计数据的规律,这就是统计方法的描述性,例:计算一个班级的数学平均成展示出统计数据的规律,这就是统计方法的描述性,例:计算一个班级的数学平均成绩,最高最低分的差距,描述性统计方法常用曲线、表格、图形反映统计数据和描述绩,最高最低分的差距,描述性统计方法常用曲线、表格、图形反映统计数据和描述观测结果,使数据更容易理解,如排列图、直方图、柱状图、折线图等。观测结果,使数据更容易理解,如排列图、直方图、柱状图、折线图等。(1 1)描述性)描述性:对统计数据进行整理和描述对统计数据进行整理和描述第6页,本讲稿共52页二、统计方法
5、的性质:二、统计方法的性质:描述性、推断性、风险性。描述性、推断性、风险性。(1 1)描述性:用统计方法对数据进行整理和描述,)描述性:用统计方法对数据进行整理和描述,展示统计数据的规律,就是统计方法的描述性展示统计数据的规律,就是统计方法的描述性(2 2)推断性:统计方法通过详细研究样本,达到了解、)推断性:统计方法通过详细研究样本,达到了解、推断总体的目的,具有由局部推断整体的性质。推断总体的目的,具有由局部推断整体的性质。(3 3)风险性:部分推断全体,结论不可能全正确,可能有)风险性:部分推断全体,结论不可能全正确,可能有错误,有错误就要承担风险。正确运用统计方法,把风险错误,有错误就
6、要承担风险。正确运用统计方法,把风险降至最低。降至最低。第7页,本讲稿共52页1 1、提供特征数据;(平均值、中位数、标准偏差、方差、极、提供特征数据;(平均值、中位数、标准偏差、方差、极差等)差等)2 2、比较差异;(假设检验、显著性检验、水平对比)、比较差异;(假设检验、显著性检验、水平对比)3 3、分析影响因素;(因果图、系统图、分层法等)、分析影响因素;(因果图、系统图、分层法等)4 4、分析相关关系;确定关系的性质和程度(散布图)、分析相关关系;确定关系的性质和程度(散布图)5 5、确定试验方案;(抽样检验、单因素检验、正交试验、确定试验方案;(抽样检验、单因素检验、正交试验、可靠性
7、试验等)可靠性试验等)6 6、发现问题,分析动态变化情况(排列图、直方图、发现问题,分析动态变化情况(排列图、直方图、控制图、散布图等)控制图、散布图等)7 7、描述质量形成过程(流程图、控制图等)、描述质量形成过程(流程图、控制图等)三、统计方法的用途三、统计方法的用途第8页,本讲稿共52页1 1、QCQC小组活动要求用事实和数据说话,没有对事实的小组活动要求用事实和数据说话,没有对事实的 统计分析就不能提供活动的证据。统计分析就不能提供活动的证据。2 2、没有准确的统计分析有可能发生错误的判断,导致、没有准确的统计分析有可能发生错误的判断,导致 下一步行动的决策错误。下一步行动的决策错误。
8、3 3、没有数据分析就不能充分体现科学性。、没有数据分析就不能充分体现科学性。4 4、不使用统计方法、不使用统计方法QCQC小组往往会走弯路,影响小组的小组往往会走弯路,影响小组的 活动效率及小组成员的积极性。活动效率及小组成员的积极性。5 5、学会和使用统计方法将提高、学会和使用统计方法将提高QCQC小组成员分析问题和小组成员分析问题和 解决问题的能力。解决问题的能力。6 6、统计方法是科学管理的基础,正确、适宜地使用统、统计方法是科学管理的基础,正确、适宜地使用统 计技术也是对计技术也是对QCQC小组的基本要求。小组的基本要求。四、四、QCQC小组为什么要用统计方法小组为什么要用统计方法第
9、9页,本讲稿共52页统计数据及分类统计数据及分类数据分类:计量数据、计数数据数据分类:计量数据、计数数据 1、计量数据计量数据 服从于正态分布服从于正态分布 凡是可以连续取值的,或可以用测量凡是可以连续取值的,或可以用测量工具测量出小数点以下数值的数据。工具测量出小数点以下数值的数据。如:用于计量的长度、重量、温度、时间、如:用于计量的长度、重量、温度、时间、强度等数据。强度等数据。长度长度12mm之间,可连续测出之间,可连续测出1.1、1.2.1.11.2之之间还可测出间还可测出1.11、1.12等数等数第10页,本讲稿共52页统计数据及分类统计数据及分类(P118)2 2、计数数据计数数据
10、 凡是不能连续取值的或用测量工具也得不凡是不能连续取值的或用测量工具也得不 到小数点以下的数据,而只能自然数的数到小数点以下的数据,而只能自然数的数 据称为计数数据。据称为计数数据。计数数据分为:计数数据分为:计件数据计件数据 服从于二项分布服从于二项分布 计点数据计点数据 服从于泊松分布服从于泊松分布12345只能测得只能测得0或或1、2、3、等自然数,不合格等自然数,不合格品数、缺陷数,只能测得品数、缺陷数,只能测得1件、件、2件件第11页,本讲稿共52页 计件数据:计件数据:按件计数的数据,如不合格品数、不合格品率、彩色电视机数等。按件计数的数据,如不合格品数、不合格品率、彩色电视机数等
11、。统计数据及分类统计数据及分类计点数据:计点数据:指按缺陷点(项)计数的数据,不合格数、如疵点数、砂眼数、气泡数、产品指按缺陷点(项)计数的数据,不合格数、如疵点数、砂眼数、气泡数、产品缺陷数等。缺陷数等。注意:注意:当数据以百分率表示时,判断它是计量数据还是计数数据,取决于给出数据的计算当数据以百分率表示时,判断它是计量数据还是计数数据,取决于给出数据的计算公式的分子,当分子是计量数据时、则求得的百分率数为计量公式的分子,当分子是计量数据时、则求得的百分率数为计量数据,当分子是计数数据时,数据,当分子是计数数据时,即使得到百分率不是整数、也属计数数据。即使得到百分率不是整数、也属计数数据。1
12、2台台1000台台100%=1.2%生产的生产的1000台电动机中有台电动机中有12台不合格。台不合格。从从1.2%看虽有小数点以下数值,计算公看虽有小数点以下数值,计算公式分子式分子12台是计数数据,台是计数数据,1.2%应为计数应为计数数据。数据。第12页,本讲稿共52页产品质量的波动产品质量的波动(P119)P119)过程中有许多导致波动的因素存在;过程中有许多导致波动的因素存在;每种因素的发生是随机的且无法预测,但都影响着每种因素的发生是随机的且无法预测,但都影响着 过程的输出,即质量特性;过程的输出,即质量特性;波动具有随机性也有规律性;波动具有随机性也有规律性;质量特性有波动是正常
13、,无波动则属异常;质量特性有波动是正常,无波动则属异常;彻底消灭波动是不可能的,但减少波动是可能的;彻底消灭波动是不可能的,但减少波动是可能的;质量管理工作的一项重要工作,就是把正常波动控质量管理工作的一项重要工作,就是把正常波动控 制在合理范围之内,消除异常波动。制在合理范围之内,消除异常波动。一、波动理论一、波动理论第13页,本讲稿共52页1 1、正常波动:正常波动:随机原因引起的产品质量波动。随机原因引起的产品质量波动。特点:大量存在、影响很小、消除难度大、特点:大量存在、影响很小、消除难度大、经济代价高。经济代价高。要求:一般情况下在生产过程中允许存在。要求:一般情况下在生产过程中允许
14、存在。控制状态:仅有正常波动的生产过程,简称控制状态:仅有正常波动的生产过程,简称 为控制状态或稳定状态。为控制状态或稳定状态。产品质量波动分为产品质量波动分为正常波动正常波动和和异常波动异常波动两类。两类。二、波动的分类二、波动的分类第14页,本讲稿共52页特点:不经常发生,一旦发生影响较大,容易特点:不经常发生,一旦发生影响较大,容易 查明原因,容易预防和消除。查明原因,容易预防和消除。要求:由于对生产影响大,生产过程中不允许要求:由于对生产影响大,生产过程中不允许 存在。存在。产品质量的波动产品质量的波动 2 2、异常波动:异常波动:由系统原因引起的产品质量波动。由系统原因引起的产品质量
15、波动。质量管理工作的一项重要工作,就是把正常波动控质量管理工作的一项重要工作,就是把正常波动控制在合理范围之内,消除异常波动。制在合理范围之内,消除异常波动。第15页,本讲稿共52页三、引起波动的因素三、引起波动的因素引起产品质量波动六个方面引起产品质量波动六个方面,“5M1E5M1E”因素:因素:人员(人员(ManMan)操作者的意识、技术、素养及熟练程度等;)操作者的意识、技术、素养及熟练程度等;机器(机器(MachineMachine)设备、工夹具精度、维护与保养等;)设备、工夹具精度、维护与保养等;材料(材料(MaterialMaterial)化学成份、物理性能及外观质量等;)化学成份
16、、物理性能及外观质量等;方法(方法(MethodMethod)加工工艺、操作规程的作业程度;)加工工艺、操作规程的作业程度;测量(测量(MeasureMeasure)测量设备、试验手段和测试方法等;)测量设备、试验手段和测试方法等;环境(环境(EnviromentEnviroment)工作场地的温、湿度,照明噪声等;)工作场地的温、湿度,照明噪声等;正常波动正常波动随机原因随机原因随机特点随机特点普遍存在普遍存在异常波动异常波动系统原因系统原因系统特点系统特点单一现象单一现象飞机晚点:空中管制、调配、天气变化、机械故障飞机晚点:空中管制、调配、天气变化、机械故障第16页,本讲稿共52页 当过程
17、处于稳定状态时,产品质量特性数据,其波当过程处于稳定状态时,产品质量特性数据,其波动服从于一定的分布规律。动服从于一定的分布规律。例如:长度尺寸必然形成右图例如:长度尺寸必然形成右图 的分布规律的分布规律。四、波动的规律性四、波动的规律性正态分布图正态分布图分布有两种类型:分布有两种类型:一种是连续型分布一种是连续型分布常见的有:正态分布(计量数据)常见的有:正态分布(计量数据)一种是离散型分布,常见的有:一种是离散型分布,常见的有:1 1、二项分布(计件数据)二项分布(计件数据)2 2、泊松分布(计点数据)泊松分布(计点数据)第17页,本讲稿共52页关于正态分布关于正态分布正态分布受两个参数
18、影响正态分布受两个参数影响(总体总体平均值)平均值)集中位置集中位置 (总体总体标准偏差)标准偏差)分散程度分散程度通常用样本平均值:通常用样本平均值:X X样本的标准偏差:样本的标准偏差:S S正态分布曲线,又称高斯曲线、钟型曲线。正态分布曲线,又称高斯曲线、钟型曲线。XS备注:高斯德国数学家备注:高斯德国数学家第18页,本讲稿共52页正态分布特性正态分布特性区间内的概率区间内的概率0.6826 0.9545 0.9973XS23第19页,本讲稿共52页 如果你是某学校高一的班主任,当每次考试成绩如果你是某学校高一的班主任,当每次考试成绩公布前,你第一想知道的结果是什么?公布前,你第一想知道
19、的结果是什么?一、正态分布参数一、正态分布参数 平均值平均值 人口普查华东,人均收入、男女平均身高等人口普查华东,人均收入、男女平均身高等第20页,本讲稿共52页1 1、一组数据向其中心值靠拢的倾向和程度、一组数据向其中心值靠拢的倾向和程度2 2、测量集中位置就是寻找数据一般的代表值和、测量集中位置就是寻找数据一般的代表值和 中心值。中心值。3 3、平均值平均值是正态分布曲线的位置参数,它只是正态分布曲线的位置参数,它只 决定曲线出现频率最大数值,而不改变正态决定曲线出现频率最大数值,而不改变正态 曲线的形状。曲线的形状。4 4、平均值易受极端值的影响。、平均值易受极端值的影响。一、正态分布参
20、数一、正态分布参数 平均值平均值 总体平均值总体平均值(样本平均值样本平均值X)X)第21页,本讲稿共52页一、正态分布参数一、正态分布参数 平均值平均值 12 相同相同 不同的正态分布曲线不同的正态分布曲线不同,最大值的位置不同不同,最大值的位置不同是正态分布的中心是正态分布的中心60 70 80 三次考试的三次考试的平均成绩平均成绩第22页,本讲稿共52页 如果你想过河,有人只告诉你河的平均深度是如果你想过河,有人只告诉你河的平均深度是 1.5 1.5 米,你是否还想知道它的变化范围。米,你是否还想知道它的变化范围。二、正态分布参数二、正态分布参数 标准偏差标准偏差 标准偏差说明数据的分散
21、程度标准偏差说明数据的分散程度第23页,本讲稿共52页二、正态分布参数二、正态分布参数 标准偏差标准偏差 1 1、数据分布的另一个重要特征、数据分布的另一个重要特征2 2、离散程度的各测度值就是对数据分散程度、离散程度的各测度值就是对数据分散程度 所作的描述。所作的描述。3 3、反映一组数据各变量值远离其、反映一组数据各变量值远离其中心值中心值的程的程 度,因此也称为离中趋势度,因此也称为离中趋势总体标准偏差总体标准偏差(样本标准偏差(样本标准偏差S S)第24页,本讲稿共52页二、正态分布参数二、正态分布参数 标准偏差标准偏差 标准偏差是正态分布曲线的形状参数,它决定了曲标准偏差是正态分布曲
22、线的形状参数,它决定了曲线的高、矮、胖、瘦。线的高、矮、胖、瘦。当当较小时,数据较多集中于平均值附近,曲较小时,数据较多集中于平均值附近,曲线形状就较高和瘦;线形状就较高和瘦;当当较大时,数据集中程度就差,曲线就矮和胖。较大时,数据集中程度就差,曲线就矮和胖。第25页,本讲稿共52页 相同相同 不同的正态分布曲线不同的正态分布曲线1=0.42=1.03=2.5问题:问题:是多少考试是多少考试分数较接近分数较接近?不同曲线的高度不同不同曲线的高度不同决定曲线的形状决定曲线的形状二二 正态分布参数正态分布参数 标准偏差标准偏差 第26页,本讲稿共52页三、三、正态分布正态分布主要特点:主要特点:1
23、 1、集中性:正态曲线的高峰位于正中央,即均数所、集中性:正态曲线的高峰位于正中央,即均数所 在的位置;在的位置;2 2、对称性:正态曲线以均数为中心,左右对称,曲对称性:正态曲线以均数为中心,左右对称,曲 线两端永远不与横轴相交;线两端永远不与横轴相交;(是否有零缺陷?)(是否有零缺陷?)3 3、均匀变动性:正态曲线由均数所在处开始,分别、均匀变动性:正态曲线由均数所在处开始,分别 向左右两侧逐渐均匀下降,靠近向左右两侧逐渐均匀下降,靠近的偏差出现概的偏差出现概 率较大,远离率较大,远离的偏差出现概率小,在远离一定的偏差出现概率小,在远离一定 的范围以外的偏差,其出现的概率是很小的如:的范围
24、以外的偏差,其出现的概率是很小的如:(在(在 3 3以外的偏差,出现概率不到以外的偏差,出现概率不到0.3%0.3%)。)。4 4、曲线与横坐标轴所围成的面积等于、曲线与横坐标轴所围成的面积等于1 1;5 5、对、对的正偏差和负偏差概率相等。的正偏差和负偏差概率相等。第27页,本讲稿共52页正态分布特性正态分布特性min maxXXS23极差相当于极差相当于6 6倍的标准偏差倍的标准偏差 99.73%区间内的概率区间内的概率0.6826 0.9545 0.9973 0.99994 0.9999942345第28页,本讲稿共52页总体:指某次统计分析中研究对象的全体又称总体:指某次统计分析中研究
25、对象的全体又称 母体。母体。总体是提供数据的大本营、数据库。如某专业同一年的考生、一条总体是提供数据的大本营、数据库。如某专业同一年的考生、一条生产线的某个零件、所有中国工人、农民、生产线的某个零件、所有中国工人、农民、1818岁的人都可分别构成一个岁的人都可分别构成一个总体。我们为研究一道工序或一批产品质量的好坏、这道工序、这批产总体。我们为研究一道工序或一批产品质量的好坏、这道工序、这批产品就是总体。总体可以是有限的、也可是无限的。一批电子元件品就是总体。总体可以是有限的、也可是无限的。一批电子元件1010万件,万件,5 5万个电阻,数量大,但可以数清,为有限总体。总体也可以是一个过万个电
26、阻,数量大,但可以数清,为有限总体。总体也可以是一个过程。如生产线上的一道工序,自来水管中的水,煤气管道中的煤气等为程。如生产线上的一道工序,自来水管中的水,煤气管道中的煤气等为无限总体。组成总体的每个单元(产品)叫做个体。总体中所含的个体无限总体。组成总体的每个单元(产品)叫做个体。总体中所含的个体数叫做总体含量(总体大小)。用符号数叫做总体含量(总体大小)。用符号N N表示。表示。总体与样本总体与样本(P124)第29页,本讲稿共52页 样本:从总体中随机抽取出来要对其进行分样本:从总体中随机抽取出来要对其进行分 析的一部分个体,也称为子体。析的一部分个体,也称为子体。样本中所含的样品数目
27、、一般叫样本大小或样本容量、常用符号样本中所含的样品数目、一般叫样本大小或样本容量、常用符号“n”“n”表示。表示。例:从例:从10001000件产品中随机抽取件产品中随机抽取2020件、对它进行检测,这件、对它进行检测,这2020件产品组成一个样本即件产品组成一个样本即n=20n=20、样本是由一个或若干个样品组成的。样本是由一个或若干个样品组成的。总体与样本总体与样本抽样:从总体中随机抽取样品组成样本的活抽样:从总体中随机抽取样品组成样本的活 动过程。动过程。随机抽样:使总体中每一个个体都有同等的随机抽样:使总体中每一个个体都有同等的 机会被抽取出来组成样本的活动过程。机会被抽取出来组成样
28、本的活动过程。第30页,本讲稿共52页总体可以是一批产品,进行质量判断,确定是否合格总体可以是一批产品,进行质量判断,确定是否合格(有限总体)。可以是一个过程对工序进行分析控制(有限总体)。可以是一个过程对工序进行分析控制(无限总体)。(无限总体)。判断判断随机抽取随机抽取测量测量总体总体样本样本数据数据总体与样本的关系总体与样本的关系(P124)(P124)第31页,本讲稿共52页用样本推断总体用样本推断总体样样本本总体总体总体总体样本统计量样本统计量样本统计量样本统计量样本统计量样本统计量如:样本均值如:样本均值如:样本均值如:样本均值如:样本均值如:样本均值 方差、标准差方差、标准差方差
29、、标准差方差、标准差方差、标准差方差、标准差总体均值、方差、总体均值、方差、总体均值、方差、总体均值、方差、标准偏差标准偏差标准偏差标准偏差第32页,本讲稿共52页SX计算时计算时代表代表判断判断数量:数量:N集中位置(平均值):集中位置(平均值):分散程度(标准偏差):分散程度(标准偏差):总体总体数量:数量:N数量:数量:n样本样本X数量:数量:n平均值:平均值:标准偏差:标准偏差:s如果产品特性值是计量数据,如果产品特性值是计量数据,则总体与样本的关系:则总体与样本的关系:第33页,本讲稿共52页 1 1、简单随机抽样、简单随机抽样从:抽样误差小。抽样手续比较繁杂。从:抽样误差小。抽样手
30、续比较繁杂。100100件中抽件中抽1010件组成样本,把件组成样本,把100100件从件从1 1至至100100编号,用抽签(抓阄)查数值表抽编号,用抽签(抓阄)查数值表抽1010张。例张。例 2 2、系统抽样法(等距抽样)、系统抽样法(等距抽样)例:例:100100件从件从1 1至至100100编号,抽签或查随机数值表,确定那件产品入选,如编号,抽签或查随机数值表,确定那件产品入选,如5 5号、号、1515、2525、操作简、操作简便、不易出差错。易出现大的偏差,织布机恰好便、不易出差错。易出现大的偏差,织布机恰好5050米出现一段疵布米出现一段疵布 3 3、分层抽样法(类型抽样法)、分层
31、抽样法(类型抽样法)甲、乙、丙三个工人同一台设备加工零件,放在三个地方,抽甲、乙、丙三个工人同一台设备加工零件,放在三个地方,抽1515个零件组成样本,随机在三个个零件组成样本,随机在三个地方抽地方抽5 5个组成样本,代表性好、误差小。抽样手续繁杂。个组成样本,代表性好、误差小。抽样手续繁杂。4 4、整群抽样法(集团抽样)、整群抽样法(集团抽样)将总体分成许多群,如每隔将总体分成许多群,如每隔1010小时抽小时抽3030分钟的产量组成样本。实施方便抽样误差大。分钟的产量组成样本。实施方便抽样误差大。用于工序控制。用于工序控制。随机抽样方法随机抽样方法第34页,本讲稿共52页 某零件某零件202
32、0箱,每箱箱,每箱5050个,共个,共10001000个、要抽取个、要抽取100100个进行测试研究,怎样个进行测试研究,怎样用上述用上述4 4种方法种方法 1 1、2020箱倒在一起混合,从箱倒在一起混合,从1 1至至10001000编号,查随机数表编号,查随机数表或抽签,抽出毫无规律的或抽签,抽出毫无规律的100100个样本,简单随机抽样。个样本,简单随机抽样。2 2、2020箱混合,箱混合,1 1至至10001000编号,查随机数表或抽签决编号,查随机数表或抽签决定起始号,如定起始号,如6 6号,依次为号,依次为1616、2626、916916、100100个样本,个样本,系统抽样。系统
33、抽样。3 3、2020箱中每箱随机抽取箱中每箱随机抽取5 5个,个,100100个样本,分层抽样。个样本,分层抽样。4 4、2020箱随机抽出箱随机抽出2 2箱,进行检验,整群抽样。箱,进行检验,整群抽样。随机抽样方法随机抽样方法第35页,本讲稿共52页 统计特征数是对样本来说的。统计特征数是对样本来说的。常用的统计特征数可分为两类:常用的统计特征数可分为两类:一:表示数据的集中位置一:表示数据的集中位置 1 1、样本平均值样本平均值 2 2、样本中位数样本中位数 二:表示数据的离散程度二:表示数据的离散程度 1 1、样本方差、样本方差 s s2 2 2 2、样本标准偏差、样本标准偏差 s s
34、;3 3、样本极差、样本极差 R R 统计特征数统计特征数 (P125)(P125)x第36页,本讲稿共52页一、表示数据的集中位置一、表示数据的集中位置1 1、样本的平均值、样本的平均值2 2、样本的中位数、样本的中位数中心位置中心位置X xX x第37页,本讲稿共52页 样本平均值样本平均值(P126P126)X X 式中式中 样本的算术平均值;样本的算术平均值;n n:样本大小。:样本大小。最常用的测度值,是最常用的测度值,是集中趋势集中趋势的测度值之一,的测度值之一,易受极端值影响。易受极端值影响。计算公式:计算公式:=X:第38页,本讲稿共52页 样本平均值样本平均值X 原始数据原始
35、数据:105913685.868613951066543211+XXXXXXNXXNii计算算例:计算算例:第39页,本讲稿共52页 样本中位数样本中位数(P126)(P126)将所收集的数按大小排序,在正中位置的数为中将所收集的数按大小排序,在正中位置的数为中位数。位数。集中趋势的测度值之一。集中趋势的测度值之一。不受极端值影响。不受极端值影响。50%50%x当当N N为畸数为畸数时,中位数为正中间位置的数。时,中位数为正中间位置的数。当当N N为偶数为偶数时,中位数为正中间两个数的算术时,中位数为正中间两个数的算术平均值。平均值。x较样本平均值表示的集中较样本平均值表示的集中位置粗略位置粗
36、略第40页,本讲稿共52页五个数据取中位数五个数据取中位数原始数据原始数据:10 5 9 12 6 8排排 序序:5 6 8 8.5 8.5 9 10 12位位 置置:1 2 3 4 5 6原始数据原始数据:24 22 21 26 20排排 序序:20 21 22 24 26位位 置置:1 2 3 4 5六个数据取中位数六个数据取中位数中位数中位数中位数中位数8+98+92 28.58.5中位数中位数中位数中位数 2222第41页,本讲稿共52页1.1.数据分布的另一个重要特征数据分布的另一个重要特征数据分布的另一个重要特征数据分布的另一个重要特征2.2.离散程度的各测度值就是对数据离散程度所
37、作的描述离散程度的各测度值就是对数据离散程度所作的描述离散程度的各测度值就是对数据离散程度所作的描述离散程度的各测度值就是对数据离散程度所作的描述3.3.它它它它所所所所反反反反映映映映的的的的是是是是各各各各变变变变量量量量值值值值远远远远离离离离其其其其中中中中心心心心值值值值的的的的程程程程度度度度,因因因因此此此此也也也也称称称称为为为为离中趋势离中趋势离中趋势离中趋势4.4.从另一个侧面说明了集中趋势测度值的代表程度从另一个侧面说明了集中趋势测度值的代表程度从另一个侧面说明了集中趋势测度值的代表程度从另一个侧面说明了集中趋势测度值的代表程度离散程度离散程度min maxX离中趋势离中
38、趋势第42页,本讲稿共52页二、表示数据的离散程度二、表示数据的离散程度min maxX离散程度离散程度1、样本的方差、样本的方差 S22、样本的标准偏差、样本的标准偏差 S3、样本的极差、样本的极差 R第43页,本讲稿共52页方差和标准差方差和标准差(P126)(P126)1.离散程度的测度值之一离散程度的测度值之一2.最常用的测度值最常用的测度值3.反映了数据的分布反映了数据的分布4.反映了各变量值与均值的平均差异反映了各变量值与均值的平均差异5.根据总体数据计算的,称为总体方差或标根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方准差;根据样本数据计算的,称为样本方
39、差或标准差差或标准差4 6 8 10 124 6 8 10 12X=X=8.38.3第44页,本讲稿共52页1 1、样本方差的计算、样本方差的计算样本方差样本方差 S2:(xi-xxi-x):表示某一数据与样本平均值之间):表示某一数据与样本平均值之间 的偏差的偏差 n n:采集的样本数:采集的样本数 n-1n-1:样本方差的自由度:样本方差的自由度第45页,本讲稿共52页1.1.一组数据中可以自由取值的数据的个数一组数据中可以自由取值的数据的个数2.2.当当样样本本数数据据的的个个数数为为 n 时时,若若样样本本均均值值 确确定定后后,只只有有n n-1-1个个数数据据可可以以自自由由取取值
40、值,其其中中必必有有一一个个数数据据则则不不能能自由取值;自由取值;3.3.例例如如,样样本本有有3 3个个数数值值,即即x x1 1=2=2,x x2 2=4=4,x x3 3=9=9,则则 x x=5 5。当当 x x =5 5 确确定定后后,x x1 1,x x2 2和和x x3 3有有两两个个数数据据可可以以自自由由取取值值,另另一一个个则则不不能能自自由由取取值值,比比如如x x1 1=6=6,x x2 2=7=7,那那么么 x x3 3 则必然取则必然取 2 2;4.4.样样本本方方差差用用自自由由度度去去除除,其其原原因因可可以以从从多多方方面面来来解解释释,从实际应用的角度看,
41、主要为了更精确。从实际应用的角度看,主要为了更精确。X(n-1)样本方差的自由度样本方差的自由度第46页,本讲稿共52页样本方差算例样本方差算例 原始数据原始数据:10 5 9 13 6 8 平均数据:平均数据:10+5+9+13+6+86=8.5第47页,本讲稿共52页2 2、样本标准偏差的计算、样本标准偏差的计算S:样本标准偏差样本标准偏差,样本方差的正平方根。样本方差的正平方根。样本标准偏差样本标准偏差S:第48页,本讲稿共52页原始数据原始数据原始数据原始数据:10 5 9 13 6 8样本标准偏差算例样本标准偏差算例第49页,本讲稿共52页1.一组数据的最大值与最小值之差一组数据的最
42、大值与最小值之差2.2.离散程度的最简单测度值离散程度的最简单测度值3.3.表示数据的分散范围表示数据的分散范围4.4.易受极端值影响易受极端值影响样本极差样本极差 (P127)P127)R RR R=max(=max(X Xi)-min(i)-min(X Xi)i)=205 145=60(公分)(公分)205145平均:平均:175只用了一组数据中两头数据没有用全部数据信息,反映实际情况的准确性差。第50页,本讲稿共52页两类错误和风险两类错误和风险(P127P127)根据随机抽样检测,研究样本质量状况,以此推断整根据随机抽样检测,研究样本质量状况,以此推断整批产品的好坏,并做出决定接收或拒
43、收。批产品的好坏,并做出决定接收或拒收。可能会出现四种情况:可能会出现四种情况:(1 1)假定这批产品质量是好的,样品好:)假定这批产品质量是好的,样品好:接收接收(2 2)假定这批产品质量是好的,样品不好:)假定这批产品质量是好的,样品不好:拒收拒收(3 3)假定这批产品的质量不好,样品不好:)假定这批产品的质量不好,样品不好:拒收拒收(4 4)假定这批产品的质量不好,样品好:)假定这批产品的质量不好,样品好:接收接收第51页,本讲稿共52页 第第1 1、3 3项为正确推断,项为正确推断,第第2 2、4 4项为错误推断。项为错误推断。第第2 2项判断错误称为项判断错误称为“弃真弃真”,是是把质量好的产品作把质量好的产品作为坏的处理,为坏的处理,这类风险是企业风险。这类风险是企业风险。类类 第第4 4项判断错误称为项判断错误称为“取伪取伪”,是把质量坏的产品是把质量坏的产品作为好的处理,这类风险是用户风险。作为好的处理,这类风险是用户风险。类类 运用统计方法,就是要把两类风险率和总损失率控运用统计方法,就是要把两类风险率和总损失率控制在期望的范围之内。制在期望的范围之内。两类错误和风险两类错误和风险第52页,本讲稿共52页
限制150内