《质量专业基础理论与实务 初级.doc》由会员分享,可在线阅读,更多相关《质量专业基础理论与实务 初级.doc(358页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第一章概率统计基础知识第一节质量特性数据的统计规律一、总体、个体与样本产品的质量可以用一个或多个质量特性来表示。这里的特性可以是定量的,也可以是定性的。例如灯泡的寿命,钢的成分等都是定量特性;而按规范判定产品为“合格”或“不合格”,则是一种定性特征。在质量管理中,通常研究一个过程中生产的全体产品。在统计中,将研究、考察对象的全体称为总体。例如某个工厂在一个月内按照一定材料及一定工艺生产的一批灯泡。总体是由个体组成的。在上例中,这批灯泡中的每个特定的灯泡都是一个个体。如果总体中包含的个体数不大,而对产品质量特性的观测(例如测量)手段不是破坏性的,工作量也不大,那么有可能对总体中的每个个体都进行观
2、测,以得到每个个体的质量特性值。但是如果总体中的个体数N很大,甚至是无限的,或者观测是破坏性的或观测的费用很大,那么不可能对总体中的每个个体都进行观测。通常的做法是从总体中抽取一个或多个个体来进行观测。抽出来的这一部分个体组成一个样本,样本中所包含的个体数目称为样本量。通过对样本的观测来对总体特性进行研究,是统计的核心。上述总体、个体和样本的概念是统计的基本概念,从上面的叙述中,这些概念都可以是具体的产品。但有时为了表达的方便,当研究产品某个特定的质量特性X时,也常把全体产品的特性看做为总体,而把一个具体产品的特性值x视为个体,把从总体中抽出的由n个产品的特性值x1,x2,xn看做为一个样本。
3、例1.1-1从一个工厂一个月内生产的一批灯泡中抽取n=8个灯泡,进行寿命试验,得到这8个灯泡的使用寿命为(单位为小时):325,84,1244,870,645,1423,1071,992这8个灯泡或相应的使用寿命即为一个样本,样本量n=8。从总体中抽取样本的方法称为抽样。为使抽取的样本对总体有代表性,样本不能是有选择的,最好应是随机抽取的,关于这一点,以后我们还要详细解释。二、频数(频率)直方图及累积频数(频率)直方图为研究一批产品的质量情况,需要研究它的某个质量特性(这里为了叙述简单起见,仅讨论一个质量特性,有必要时也可以同时讨论多个质量特性)X的变化规律。为此,从这批产品(总体)中抽取一个
4、样本(设样本量为n),对每个样本产品进行该特性的测量(观测)后得到一组样本观测值,记为x1,x2,xn,这便是我们通常说的数据。为了研究数据的变化规律,需要对数据进行一定的加工整理。直方图是为研究数据变化规律而对数据进行加工整理的一种基本方法。下面用一个例子来说明直方图的概念及其作法。例1.1-2食品厂用自动装罐机生产罐头食品,从一批罐头中随机抽取100个进行称量,获得罐头的净重数据如下:为了解这组数据的分布规律,对数据作如下整理:(1)找出这组数据中的最大值xmax及最小值xmin,计算它们的差R=xmax-xmin,R称为极值,也就是这组数据的取值范围。在本例中xmax=356,xmin=
5、332,从而R=356-332=24。(2)根据数据个数,即样本量n,决定分组数k及组距h。一批数据究竟分多少组,通常根据n的多少而定,不过这也不是绝对的,表1.1-1是可以参考的分组数。选择k的原则是要能显示出数据中所隐藏的规律,组数不能过多,但也不能太少。每一组的区间长度,称为组距。组距可以相等,也可以不相等。组距相等的情况用得比较多,不过也有不少情形在对应于数据最大及最小的一个或两个组,使用与其他组不相等的组距。对于完全相等的组距,通常取组距h为接近R/k的某个整数值。在本例中,=100,取k=9,R/k=24/9=2.7,故取组距h=3。(3)确定组限,即每个区间的端点及组中值。为了避
6、免一个数据可能同时属于两个组,因此通常将各组的区间确定为左开右闭的:(a0,a1,(a1,a2,(ak-1,ak通常要求a0xmax。在等距分组时,a1=a0+h,a2=a1+h,ak=ak-1+h,而每一组的组中值在本例中取a0=331.5,则每组的组限及组中值见表1.1-2。(4)计算落在每组的数据的频数及频率确定分组后,统计每组的频数,即落在组中的数据个数ni以及频率fi=ni/n,列出每组的频数、频率表,见表1.1-2。(5)作频数频率直方图在横轴上标上每个组的组限,以每一组的区间为底,以频数(频率)为高画一个矩形,所得的图形称为频数(频率)直方图,如图1.1-1。到在本例中频数直方图
7、及频率直方图的形状是完全一致的。这是因为分组是等距的。在分组不完全等距的情形,在作频率直方图时,应当用每个组的频率与组距的比值fi/hi为高作矩形。此时以每个矩形的面积表示频率。(6)累积频数和累积频率直方图还有另一种直方图使用的是累积频数和累积频率。以累积频率直方图为例,首先要计算累积频率Fi,Fi是将这一组的频率与前面所有组的频率累加,也即第1组的F1=f1,第2组的F2=f1+f2,一般的,Fi=fj。本例中的各组Fi值也见表1.1-2。如果以每组的累积频率Fi为高作矩形,所得的直方图称为累积频率直方图,本例中的累积频率直方图如图1.1-2所示。可以从直方图获得数据的分布规律,其中包含数
8、据取值的范围,以及它们的集中位置和分散程度等信息。应当引起注意的是,如果我们观测的数据量(即样本量)n很大,而分组又很细,那么从频率直方图及累积频率直方图可以分别得到一根光滑曲线,关于这一点我们将在本章第三节详细讨论。三、数据集中位置的度量对一组样本数据,可以用一些量表示它们的集中位置。这些量中,常用的有样本均值、样本中位数和样本众数。(一)样本均值样本均值也称样本平均数,记为,它是样本数据x1,x2,xn的算术平均数:例1.1-3轴直径的一个n=5的样本观测值(单位:cm)为:15.09,15.29,15.15,15.07,15.21,则样本均值为:=15.09+15.29+15.15+15
9、.07+15.21)=15.162 对于n较大的分组数据,可利用将每组的组中组xi用频率fi加权计算近似的样本均值:例1.1-4在例11.2中,100个罐头的净量的均值按分组计算为:=3330.01十3360.04十3390.11+3570.01 =34508/100=345.08样本均值是使用最为广泛的反映数据集中位置的度量。它的计算比较简单,但缺点是它受极端值的影响比较大。(二)样本中位数样本中位数是表示数据集中位置的另一种重要的度量,用符号Me或表示。在确定样本中位数时,需要将所有样本数据按其数值大小从小到大重新排列成以下的有序样本:x(1),x(2),x(n)其中x(1)=xmin,x
10、(n)=xmax分别是数据的最小值与最大值。样本中位数定义为有序样本中位置居于中间的数值,具体地说:例1.1-5对例1.1-3中的5个轴直径数据进行按从小到大的重新排序,得到如下有序样本:15.07,15.09,15.15,15.21,15.29 这里n=5为奇数,(n+1)/2=3,因而样本中位数Me=x(3)=15.15。注意,在此例中,中位数15.15与均值15.162很接近。与均值相比,中位数不受极端值的影响。因此在某些场合,中位数比均值更能代表一组数据的中心位置。(三)样本众数样本众数是样本数据中出现频率最高的值,常记为Mod。例如对例1.1-2中的罐头净量,100个数据中,344出
11、现的次数最多,为12次,因此Mod=344。样本众数的主要缺点是受数据的随机性影响比较大,而且对大的n,也很难确定,有时也不惟一,此时较多地采用分组数据。在本例中第5组(343.5,346.5的频率为0.30,是所有组中最高的,因而该组的组中值345可以作为众数的估计。注意到该数与前面定的344相差不大。四、数据分散程度的度量一组数据总是有差别的,对一组质量特性数据,大小的差异反映质量的波动。也有一些用来表示数据内部差异或分散程度的量,其中常用的有样本极差、样本方差、样本标准差和样本变异系数。(一)样本极差样本极差即是样本数据中最大值与最小值之差,用R表示。对于有序样本,极差R为:R=x(n)
12、-x(1)(1.1-4)例如在例1.1-3,5个轴直径数据的极差R=15.21-15.09=0.12。样本极差只利用了数据中两个极端值,因此它对数据信息的利用不够充分,极差常用于n不大的情况。(二)样本方差与标准差数据的分散程度可以用每个数据xi离其均值的差xi-来表示,xi-称为xi的离差。对离差不能直接取平均,因为离差有正有负,取平均会正负相抵,无法反映分散的真实情况。当然可以先将其取绝对值,再进行平均,这就是平均绝对差:但是由于对绝对值的微分性质较差,理论研究较为困难,因此平均绝对差使用并不广泛。使用最为广泛的是用离差平方来代替离差的绝对值,因而数据的总波动用离差平方和来表示,样本方差定
13、义为离差平方和除以n-1,用s2表示:因为n个离差的总和为0,所以对于n个独立数据,独立的离差个数只有n-1个,称n-1为离差(或离差平方和)的自由度,因此样本方差是用n-1而不是用n除离差平方和。样本方差正的算术平方根称为样本标准差,即:注意标准差的量纲与数据的量纲一致。在具体计算时,离差平方和也可用以下两个简便的公式:因此样本方差计算可用以下公式:对例1.1-3的轴直径数据,离差平方和、样本方差及样本标准差的计算可列表进行。为计算方便,可以将数据减去一个适当的常数,这样不影响样本方差及标准差的计算结果。例如,在本例中,将每个数据减去15,即可大大减少计算量。在实际使用中还可以利用计算器来计
14、算,特别是许多科学计算用的计算器,都具有平均数、方差与标准差的计算功能。(三)样本变异系数样本标准差与样本均值之比称为样本变异系数,有时也称之为相对标准差,记为cv:例如对例1.1-2的轴直径数据,样本变异系数cv=0.0901/15.162=0.0059。第二节概率基础知识一、事件与概率(一)随机现象在一定条件下,并不总是出现相同结果的现象称为随机现象。从这个定义中可看出,随机现象有两个特点:(1)随机现象的结果至少有两个;(2)至于哪一个出现,人们事先并不知道。抛硬币、掷骰子是两个最简单的随机现象。抛一枚硬币,可能出现正面,也可能出现反面,至于哪一面出现,事先并不知道。又如掷一颗骰子,可能
15、出现1点到6点中某一个,至于哪一点出现,事先也并不知道。例1.2-1随机现象的例子:(1)一天内进入某超市的顾客数;(2)一顾客在超市中购买的商品数;(3)一顾客在超市排队等候付款的时间;(4)一颗麦穗上长着的麦粒个数;(5)新产品在未来市场的占有率;(6)一台电视机从开始使用到发生第一次故障的时间;(7)加工机械轴的直径尺寸;(8)一罐午餐肉的重量。随机现象在质量管理中到处可见。认识一个随机现象首要的是能罗列出它的一切可能发生的基本结果。这里的基本结果是指今后的抽样单元,故又称样本点,随机现象一切可能样本点的全体称为这个随机现象的样本空间,常记为。“抛一枚硬币”的样本空间=正面,反面;“掷一
16、颗骰子”的样本空间=1,2,3,4,5,6;“一顾客在超市中购买商品件数”的样本空间=0,1,2,;“一台电视机从开始使用到发生第一次故障的时间”的样本空间=t:t0;“测量某物理量的误差”的样本空间=x:-xB,则:P(A-B)=P(A)-P(B)性质4:事件A与B的并的概率为:P(AB)=P(A)+P(B)-P(AB)这个性质称为概率的加法法则,可以从图1.1-5中看出。特别当A与B不相容时,由于P(AB)=P()=0,则:P(A U B)=P(A)+P(B)性质5:对于多个互不相容事件A1,A2,A3,也有类似的性质:P(A1A2A3)=P(A1)+P(A2)+P(A3)+下面的例子可帮
17、助我们理解这些性质。例1.2-7抛三枚硬币,至少一个正面出现(记为事件A3)的概率是多少?解:在抛三枚硬币的随机试验中,诸如(正,反,正)这样的样本点共有8个。A3中所含这样的样本点较多,但其对立事件=“抛三枚硬币,全是反面”=(反,反,反),只含一个样本点,从等可能性可知P()=1/8。再由性质1,立即可得:P(A3)=1-P()=1-1/8=7/8=0.875例1.2-8一批产品共100件,其中5件不合格品,现从中随机抽出10件,其中最多有2件不合格品的概率是多少?解:设A表示事件“抽出10件中恰好有i件不合格品”,于是所求事件A=“最多有2件不合格品”可表示为:A=A0A1 U A2并且
18、A0,A1,A2为三个互不相容事件,由性质(5)P(A)=P(A0)+P(A1)+P(A2)。余下就是用古典方法算得:Ai的概率。据A0的定义,从100件产品随机抽出10件的所有样本点共有)个。要使抽出的10件产品中有0件不合格品,即全是合格品,则10件必须从95件合格品中抽取,所以:类似地可算得:于是所求的概率是:P(A)=0.5837+0.3394+0.0702=0.9933 可见事件A发生的概率很接近于1,发生的可能性很大;而它的对立事件=“抽10件产品中至少3件不合格品”的概率P()=1-P(A)=1-0.9933=0.0067,发生的可能性很小。例1.2-9某足球队在未来一周中有两场
19、比赛,在第一场比赛中获胜概率为1/2,在第二场比赛中获胜概率是1/3,如果在两场比赛中都获胜概率是1/6,那么该队在这两场比赛中至少有一场获胜的概率是多少?解:设事件Ai=“第i场比赛获胜”,i=1,2。于是有:P(A1)=1/2,P(A2)=1/3,P(A1 A2)=1/6由于事件“两场比赛中至少有一场获胜”可用事件A1A2表示,所求概率为P(A1A2)。另外由于事件A1与A2是可能同时发生的,故A1与A2不是互不相容事件,应用性质(4)来求,即:这表明在未来两场比赛中至少有一场获胜的概率为2/3。(二)条件概率、概率的乘法法则及事件的独立性(1)条件概率与概率的乘法法则条件概率要涉及两个事
20、件A与B,在事件B已发生的条件下,事件A再发生的概率称为条件概率,记为P(A|B)。条件概率的计算公式为:这表明:条件概率可用两个特定的(无条件)概率之商来计算,在举例说明之前,先导出概率的乘法公式。性质6:对任意两个事件A与B,有:P(AB)=P(A|B)P(B)=P(B|A)P(A)(1.2-4)其中第一个等式成立要求P(B)0,第二个等式成立要求P(A)0。例1.2-10设某样本空间含有25个等可能的样本点,又设事件A含有其中15个样本点,事件B含有7个样本点,交事件AB含有5个样本点,详见图1.2-11。由古典定义可知:于是在事件B发生的条件下,事件A的条件概率为:这个条件概率也可以这
21、样来认识:当已知事件B发生,就意味着其对立事件是不会发生了。即中18个样本点可不予考虑,可能的情况是事件B中的7个样本点之一。可见事件B的发生把原来的样本空间缩减为新的样本空间B=B。这时事件A所含样本点在B中所占比率为5/7。这与公式计算结果一致,这不是偶然的,任一条件概率都可这样解释。类似地,利用这个解释,可得P(B|A)=5/15=1/3。例1.2-11表1.2-3给出乌龟的寿命表,记事件AX=“乌龟活到X岁”,从表中可以读出P(A20)=0.92,P(A80)=0.87等。现要寻求下列事件的条件概率:20岁的乌龟能活到80岁的概率是多少?要求的概率是条件概率P(A80|A20),按公式
22、应为:由于活到80岁的乌龟一定要先活到20岁,这意味着A80A20,从而交事件A20 A80=A80,故上述条件概率为:即100只活到20岁的乌龟中大约有95只能活到80岁。120岁的乌龟能活到200岁的概率是多少?类似有:即活到120岁的乌龟中大约有一半还能活到200岁。这里谈论的是乌龟的寿命,假如我们能获得弹药的贮存寿命表,那么就可计算,存放10年的弹药再放5年仍完好的概率是多少?假如有一个国家或地区的人的寿命表,就可算得30岁的人能活到60岁的概率是多少?保险公司正是利用这个条件概率对30岁的投保人计算人身保险费率的。(2)独立性和独立事件的概率设有两个事件A与B,假如其中一个事件的发生
23、不依赖另一个事件发生与否,则称事件A与B相互独立。性质7:假如两个事件A与B相互独立,则A与B同时发生的概率为:P(AB)=P(A)P(B)(1.2-5)性质8:假如两个事件A与B相互独立,则在事件B发生的条件下,事件A的条件概率P(A|B)等于事件A的(无条件)概率P(A)。这是因为:例1.2-12设实验室标本沾有污染的概率为0.15,如今有三个标本独立地在实验室制作,问三个标本都被污染的概率是多少?解:设Ai=“第i个实验室标本被污染”,i=1,2,3。要求的概率为P(A1 A2 A3),由于三个标本相互独立,所以:P(A1 A2A3)=P(A1)P(A2)P(A3)=(0.15)3=0. 这个概率是很小的。第三节随机变量及其分布一、随机变量用来表示随机现象结果的变量称为随机变量。常用大写字母X,Y,Z等表示随机变量,而它们的取值用相应的小写字母x,y,z等表示。假如一个随机变量仅取数轴上有限个点或可列个点(见图1.3-1),则称此随机变量为离散随机变量,或离散型随机变量。假如一个随机变量的所有可能取值充满数轴上一个区间(a,b)(见图1.3-2),则称此随机变量为连续随机变量,或连续型随机变量,其中a可以是-,b可以是+。例1.3-11产品的质量特性是表征产品性能的指标,产品的性能一般都具有随机性,所以每个质量特性就是一个随机变量。
限制150内