第4章概率分布.ppt
4-1统计学统计学STATISTICS(第三版第三版)第4章概率分布 Still waters run deep.流静水深流静水深,人静心深人静心深 Where there is life,there is hope。有生命必有希望。有生命必有希望4-2统计学统计学STATISTICS(第三版第三版)数学定律不能百分之百确切地用在现实生活里;能百分之百确切地用数学定律描述的,就不是现实生活 Alber Einstein统计名言统计名言2008年8月第第 4 章章 概率分布概率分布4.1 度量事件发生的可能性度量事件发生的可能性3.2 随机变量概率分布随机变量概率分布3.3 由正态分布导出的几由正态分布导出的几个重要个重要分布分布3.4 样本统计量的概率分布样本统计量的概率分布2008年8月4-4统计学统计学STATISTICS(第三版第三版)学习目标学习目标l度量事件发生的可能性度量事件发生的可能性度量事件发生的可能性度量事件发生的可能性概率概率概率概率l离散型概率分布离散型概率分布离散型概率分布离散型概率分布l l二项分布,泊松分布,超几何分布二项分布,泊松分布,超几何分布l连续型概率分布连续型概率分布连续型概率分布连续型概率分布l l正态分布正态分布l由正态分布导出的几个重要分布由正态分布导出的几个重要分布由正态分布导出的几个重要分布由正态分布导出的几个重要分布l lc c2 2-分布,分布,t t-分布,分布,F F-分布分布l样本统计量的概率分布样本统计量的概率分布样本统计量的概率分布样本统计量的概率分布2008年8月4-5统计学统计学STATISTICS(第三版第三版)中奖的可能性有多大?中奖的可能性有多大?很很多多想想在在彩彩票票市市场场上上赚赚大大钱钱,这这可可以以理理解解,但但赢赢得得大大奖奖的的人人总总是是少少数数。山山东东的的一一打打工工者者为为了了碰碰运运气气,半半个个小小时时花花去去了了10001000元元钱钱,买买了了500500张张即即开开型型福福利利彩彩票票,结结果果也也没没撞撞上上大大奖奖。有有人人曾曾做做过过统统计计,最最赚赚钱钱的的彩彩票票,中中彩彩的的概概率率最最高高是是500500万万分之一,有的达到分之一,有的达到10001000万分之一甚至更低万分之一甚至更低假假定定每每张张彩彩票票面面值值是是2 2元元,大大奖奖的的奖奖金金额额是是500500万万元元,中中将将概概率率是是500500万万分分之之一一,你你花花掉掉10001000万万元元购购买买500500万万张张彩彩票票,即即使使中中了了500500万万的的大大奖奖,你你仍仍然然亏亏损损500500万万。况况且且,从从概概率率的的意意义义上上看看,即即使使你你购购买买500500万万张张彩彩票票,也也不不能能肯肯定定就就中中大大奖奖法法国国人人就就有有这这样样的的俗俗语语:“中中彩彩的的机机会会比比空空难难还还少少。”对对于于多多数数人人来来说说,彩彩票票只只是是一一种种数数字字游游戏戏,是是社社会会筹筹集集闲闲散散资资金金的的一一种种方方式式,而而不不是是一一种种投投资资,更更不不是是赌赌博博。相相信信有有了了本本章章介绍的概率方面的知识,你就不会再跟彩票较劲介绍的概率方面的知识,你就不会再跟彩票较劲2008年8月4.1 度量事件发生的可能性度量事件发生的可能性l 概率是什么?概率是什么?概率是什么?概率是什么?l 怎样获得概率?怎样获得概率?怎样获得概率?怎样获得概率?l 怎样理解概率?怎样理解概率?怎样理解概率?怎样理解概率?第第 4 章章 概率分布概率分布2008年8月4-7统计学统计学STATISTICS(第三版第三版)什么是概率?什么是概率?(probability)1.概率是对事件发生的可能性大小的度量l l明明天天降降水水的的概概率率是是80%80%。这这里里的的80%80%就就是是对对降降水水这这一一事事件件发发生生的的可可能能性性大大小小的的一一种种数数值度量值度量l l你你购购买买一一只只股股票票明明天天上上涨涨的的可可能能性性是是30%30%,这也是一个概率这也是一个概率2.一个介于0和1之间的一个值3.事件A的概率记为P(A)2008年8月4-8统计学统计学STATISTICS(第三版第三版)怎样获得概率?怎样获得概率?1.重复试验获得概率重复试验获得概率l l当当试试验验的的次次数数很很多多时时,概概率率P P(A A)可可以以由由所所观观察察到到的的事件事件A A发生次数发生次数(频数频数)的比例来逼近的比例来逼近l l在在相相同同条条件件下下,重重复复进进行行n n次次试试验验,事事件件A A发发生生了了mm次,则事件次,则事件A A发生的概率可以写为发生的概率可以写为 2.用类似的比例来逼近用类似的比例来逼近l l一一家家餐餐馆馆将将生生存存5 5年年的的概概率率,可可以以用用已已经经生生存存了了5 5年年的类似餐馆所占的比例作为所求概率一个近似值的类似餐馆所占的比例作为所求概率一个近似值3.主观概率主观概率2008年8月4.2 随机变量的概率分布随机变量的概率分布 4.2.1 随机变量及其概括性度量随机变量及其概括性度量 4.2.2 离散型概率分布离散型概率分布 4.2.3 连续型概率分布连续型概率分布第第 4 章章 概率分布概率分布2008年8月4.2.1 随机变量及其概括性度量随机变量及其概括性度量4.2 随机变量的概率分布随机变量的概率分布2008年8月4-11统计学统计学STATISTICS(第三版第三版)什么是随机变量?什么是随机变量?(random variables)1.事先不知道会出现什么结果投掷两枚硬币出现正面的数量投掷两枚硬币出现正面的数量一座写字楼,每平方米的出租价格一座写字楼,每平方米的出租价格一个消费者对某一特定品牌饮料的偏好一个消费者对某一特定品牌饮料的偏好 2.一般用 X,Y,Z 来表示3.根据取值情况的不同分为离散型随机变量和连续型随机变量2008年8月4-12统计学统计学STATISTICS(第三版第三版)离散型随机变量离散型随机变量(discrete random variables)1.随机变量 X 取有限个值或所有取值都可以逐个列举出来 x1,x2,2.以确定的概率取这些不同的值3.离散型随机变量的一些例子试验试验试验试验随机变量随机变量随机变量随机变量可能的取值可能的取值可能的取值可能的取值抽抽抽抽查查查查100100个个个个产品产品产品产品一家餐馆营业一天一家餐馆营业一天一家餐馆营业一天一家餐馆营业一天电脑公司一个月的销售电脑公司一个月的销售电脑公司一个月的销售电脑公司一个月的销售销售一辆汽车销售一辆汽车销售一辆汽车销售一辆汽车取到次品的个数取到次品的个数取到次品的个数取到次品的个数顾顾顾顾客数客数客数客数销销销销售量售量售量售量顾顾顾顾客性客性客性客性别别别别0,1,2,1000,1,2,1000,1,2,0,1,2,0,1,2,0,1,2,男性男性男性男性为为为为0,0,女性女性女性女性为为为为1 12008年8月4-13统计学统计学STATISTICS(第三版第三版)连续型随机变量连续型随机变量(continuous random variables)1.可以取一个或多个区间中任何值 2.所有可能取值不可以逐个列举出来,而是取数轴上某一区间内的任意点3.连续型随机变量的一些例子试验试验试验试验随机变量随机变量随机变量随机变量可能的取值可能的取值可能的取值可能的取值抽抽抽抽查查查查一批一批一批一批电电电电子元件子元件子元件子元件新建一座住宅楼新建一座住宅楼新建一座住宅楼新建一座住宅楼测量一个产品的测量一个产品的测量一个产品的测量一个产品的长长长长度度度度使用寿命使用寿命使用寿命使用寿命(小小小小时时时时)半年后完工的百分比半年后完工的百分比半年后完工的百分比半年后完工的百分比测测测测量量量量误误误误差差差差(cm)(cm)X X 0 00 0 X X 100100X X 0 02008年8月4-14统计学统计学STATISTICS(第三版第三版)离散型随机变量的期望值离散型随机变量的期望值(expected value)1.描述离散型随机变量取值的集中程度2.离散型随机变量X的所有可能取值xi与其取相对应的概率 pi 乘积之和3.记为 或E(X),计算公式为2008年8月4-15统计学统计学STATISTICS(第三版第三版)离散型随机变量的方差离散型随机变量的方差(variance)1.随随机机变变量量X X的的每每一一个个取取值值与与期期望望值值的的离离差差平平方方和的数学和的数学期望,记为期望,记为 2 2 或或D D(X X)2.描述离散型随机变量取值的分散程度描述离散型随机变量取值的分散程度3.计算公式为计算公式为4.方差的平方根称为标准差,记为方差的平方根称为标准差,记为 或或 D D(X X)2008年8月4-16统计学统计学STATISTICS(第三版第三版)离散型数学期望和方差离散型数学期望和方差(例题分析例题分析)【例例例例】一一家家电电脑脑配配件件供供应应商商声声称称,他他所所提提供供的的配配件件100100个个中中拥拥有有次次品品的的个个数数及及概概率率如如下下表表。求求该该供应商次品数的数学期望和标准差供应商次品数的数学期望和标准差次品数次品数X X=x xi i0 01 12 23 3概率概率P P(X X=x xi i)p pi i0.750.750.120.120.080.080.050.052008年8月4-17统计学统计学STATISTICS(第三版第三版)连续型随机变量的期望和方差连续型随机变量的期望和方差1.连续型随机变量的期望值2.方差2008年8月4.2.2 离散型概率分布离散型概率分布4.2 随机变量的概率分布随机变量的概率分布2008年8月4-19统计学统计学STATISTICS(第三版第三版)离散型随机变量的概率分布离散型随机变量的概率分布1.列出离散型随机变量列出离散型随机变量X X的所有可能取值的所有可能取值2.列出随机变量取这些值的概率列出随机变量取这些值的概率3.通常用下面的表格来表示通常用下面的表格来表示X=xix1,x2,xnP(X=xi)=pip1,p2,pn4.P P(X X=x xi i)=)=p pi i称为离散型随机变量的概率函数称为离散型随机变量的概率函数p pi i 0 0;5.常用的有二项分布、泊松分布、超几何分布等常用的有二项分布、泊松分布、超几何分布等2008年8月4-20统计学统计学STATISTICS(第三版第三版)离散型随机变量的概率分布离散型随机变量的概率分布(例题分析例题分析)【例例】一部电梯在一周内发生故障的次数X及相应的概率如下表故障次数故障次数X X=x xi i0 01 12 23 3概率概率P P(X X=x xi i)p pi i0.100.100.250.250.350.35 (1)(1)确定确定 的值的值 (2)(2)求正好发生两次故障的概率求正好发生两次故障的概率 (3)(3)求故障次数多于一次的概率求故障次数多于一次的概率 (4)(4)最多发生一次故障的概率最多发生一次故障的概率 2008年8月4-21统计学统计学STATISTICS(第三版第三版)离散型随机变量的概率分布离散型随机变量的概率分布(例题分析例题分析)解:解:(1)由于0.10+0.25+0.35+=1 所以,=0.30 (2)P(X=2)=0.35 (3)P(X 2)=0.10+0.25+0.35=0.70 (4)P(X1)=0.35+0.30=0.652008年8月4-22统计学统计学STATISTICS(第三版第三版)二项试验二项试验(Bernoulli试验试验)1.二项分布建立在Bernoulli试验基础上2.贝努里试验满足下列条件n n一一次次试试验验只只有有两两个个可可能能结结果果,即即“成成功功”和和“失败失败”l l“成功成功”是指我们感兴趣的某种特征是指我们感兴趣的某种特征n n一一次次试试验验“成成功功”的的概概率率为为p p,失失败败的的概概率率为为q q=1-=1-p p,且概率且概率p p对每次试验都是相同的对每次试验都是相同的 n n试验是相互独立的,并试验是相互独立的,并可以重复进行可以重复进行n n次次 n n在在n n次次试试验验中中,“成成功功”的的次次数数对对应应一一个个离离散散型型随机变量随机变量X X 2008年8月4-23统计学统计学STATISTICS(第三版第三版)二项分布二项分布(Binomial distribution)1.重复进行 n 次试验,出现“成功”的次数的概率分布称为二项分布,记为XB(n,p)2.设X为 n 次重复试验中出现成功的次数,X 取 x 的概率为2008年8月4-24统计学统计学STATISTICS(第三版第三版)二项分布二项分布(例题分析例题分析)【例】【例】【例】【例】已知一批产品的次品率为已知一批产品的次品率为4%4%,从中任意有放回地抽,从中任意有放回地抽 取取5 5个。求个。求5 5个产品中个产品中 (1)(1)没有次品的概率是多少?没有次品的概率是多少?(2)(2)恰好有恰好有1 1个次品的概率是多少?个次品的概率是多少?(3)(3)有有3 3个以下次品的概率是多少?个以下次品的概率是多少?2008年8月4-25统计学统计学STATISTICS(第三版第三版)二项分布二项分布(用用Excel计算概率计算概率)第第1步:步:在Excel表格界面,直接点击【fx】(插入函数)命令 第第2步:步:在【选择类别选择类别】中点击【统计统计】,并在【选择函数选择函数】中点击【BINOMDIST】,然后单击【确定】第第3步:步:在【Number_s】后填入试验成功次数(本例为1)在【Trials】后填入总试验次数(本例为5)在【Probability_s】后填入试验的成功概率(本例为 0.04)在【Cumulative】后填入0(或FALSE),表示计算成 功次数恰好等于指定数值的概率(填入1或TRUE表示 计算成功次数小于或等于指定数值的累积概率值)用用用用用用ExcelExcelExcel计算二项分布的概率计算二项分布的概率计算二项分布的概率计算二项分布的概率计算二项分布的概率计算二项分布的概率2008年8月4-26统计学统计学STATISTICS(第三版第三版)泊松分布泊松分布(Poisson distribution)1.18371837年年法法国国数数学学家家泊泊松松(D.Poisson(D.Poisson,17811840)17811840)首次提出首次提出 2.用用于于描描述述在在一一指指定定时时间间范范围围内内或或在在一一定定的的长长度度、面积、体积之内每一事件出现次数的分布面积、体积之内每一事件出现次数的分布3.泊松分布的例子泊松分布的例子n n一定时间段内,某航空公司接到的订票电话数一定时间段内,某航空公司接到的订票电话数n n一定时间内,到车站等候公共汽车的人数一定时间内,到车站等候公共汽车的人数n n一定路段内,路面出现大损坏的次数一定路段内,路面出现大损坏的次数n n一定时间段内,放射性物质放射的粒子数一定时间段内,放射性物质放射的粒子数n n一匹布上发现的疵点个数一匹布上发现的疵点个数n n一定页数的书刊上出现的错别字个数一定页数的书刊上出现的错别字个数 2008年8月4-27统计学统计学STATISTICS(第三版第三版)泊松分布泊松分布(概率分布函数概率分布函数)给定的时间间隔、长度、面 积、体积内“成功”的平均数e=2.71828 x 给定的时间间隔、长度、面 积、体积内“成功”的次数2008年8月4-28统计学统计学STATISTICS(第三版第三版)泊松分布泊松分布(例题分析例题分析)【例例例例】假假定定某某航航空空公公司司预预订订票票处处平平均均每每小小时时接接到到4242次次订订票票电电话话,那那么么1010分分钟钟内内恰恰好好接接到到6 6次次电电话话的的概概率是多少?率是多少?解:解:解:解:设设X X=1010分钟内航空公司预订票处接到的电话次数分钟内航空公司预订票处接到的电话次数 2008年8月4-29统计学统计学STATISTICS(第三版第三版)泊松分布泊松分布(用用Excel计算概率计算概率)第第1步:步:在Excel表格界面,直接点击【fx】(插入函数)命令 第第2步:步:在【选择类别选择类别】中点击【统计统计】,并在【选择函数选择函数】中点击【POISSON】,然后单击【确定】第第3步:步:在【X】后填入事件出现的次数(本例为6)在【Means】后填入泊松分布的均值(本例为7)在【Cumulative】后填入0(或FALSE),表示计算成 功次数恰好等于指定数值的概率(填入1或TRUE表示 计算成功次数小于或等于指定数值的累积概率值)用用用用用用ExcelExcelExcel计算泊松分布的概率计算泊松分布的概率计算泊松分布的概率计算泊松分布的概率计算泊松分布的概率计算泊松分布的概率2008年8月4-30统计学统计学STATISTICS(第三版第三版)超几何分布超几何分布(hypergeometric distribution)1.采用不重复抽样,各次试验并不独立,成功的概率也互不相等2.总体元素的数目N很小,或样本容量n相对于N来说较大时,样本中“成功”的次数则服从超几何概率分布3.概率分布函数为2008年8月4-31统计学统计学STATISTICS(第三版第三版)超几何分布超几何分布(例题分析例题分析)【例例例例】假假定定有有1010支支股股票票,其其中中有有3 3支支购购买买后后可可以以获获利利,另另外外7 7支支购购买买后后将将会会亏亏损损。如如果果你你打打算算从从1010支支股股票票中中选选择择4 4支支购购买买,但你并不知道哪但你并不知道哪3 3支是获利的,哪支是获利的,哪7 7支是亏损的。求支是亏损的。求 (1)(1)有有3 3支能获利的股票都被你选中的概率有多大?支能获利的股票都被你选中的概率有多大?(2)3 (2)3支可获利的股票中有支可获利的股票中有2 2支被你选中的概率有多大?支被你选中的概率有多大?解:解:解:解:设设N N=1010,MM=3=3,n n=4=42008年8月4-32统计学统计学STATISTICS(第三版第三版)超几何分布超几何分布(用用Excel计算概率计算概率)第第1步:步:在Excel表格界面,直接点击【fx】(插入函数)命令 第第2步:步:在【选择类别选择类别】中点击【统计统计】,并在【选择函数选择函数】中点击【HYPGEOMDIST】,然后单击【确定】第第3步:步:在【Sample_s】后填入样本中成功的次数x(本例为3)在【Number_sample】后填入样本容量n(本例为4)在【Population_s】后填入总体中成功的次数M(本例 为3)在【Number_pop】后填入总体中的个体总数N (本例为10)用用用用用用ExcelExcelExcel计算超几何分布的概率计算超几何分布的概率计算超几何分布的概率计算超几何分布的概率计算超几何分布的概率计算超几何分布的概率2008年8月4.2.3 连续型概率分布连续型概率分布4.2 随机变量的概率分布随机变量的概率分布2008年8月4-34统计学统计学STATISTICS(第三版第三版)连续型随机变量的概率分布连续型随机变量的概率分布1.连续型随机变量可以取某一区间或整个实数轴上的任意一个值2.它取任何一个特定的值的概率都等于03.不能列出每一个值及其相应的概率4.通常研究它取某一区间值的概率5.用概率密度函数的形式和分布函数的形式来描述2008年8月4-35统计学统计学STATISTICS(第三版第三版)常用连续型概率分布常用连续型概率分布2008年8月4-36统计学统计学STATISTICS(第三版第三版)正态分布正态分布(normal distribution)1.由由C.F.C.F.高斯高斯(Carl Friedrich GaussCarl Friedrich Gauss,1777177718551855)作为描述误差相对频数分布的模型而提出作为描述误差相对频数分布的模型而提出2.描述连续型随机变量的最重要的分布描述连续型随机变量的最重要的分布3.许多现象都可以由正态分布来描述许多现象都可以由正态分布来描述 4.可用于近似离散型随机变量的分布可用于近似离散型随机变量的分布n n例如:例如:二项分布二项分布5.经典统计推断的基础经典统计推断的基础x xf f(x x)2008年8月4-37统计学统计学STATISTICS(第三版第三版)概率密度函数概率密度函数f f(x x)=)=随机变量随机变量 X X 的频数的频数 =正态随机变量正态随机变量X X的均值的均值 =正态随机变量正态随机变量X X的方差的方差 =3.1415926=3.1415926;e=;e=2.718282.71828x x=随机变量的取值随机变量的取值(-(-x x +)2008年8月4-38统计学统计学STATISTICS(第三版第三版)正态分布函数的性质正态分布函数的性质1.1.图形是关于图形是关于x x=对称钟形曲线,且峰值在对称钟形曲线,且峰值在x x=处处2.2.均均值值 和和标标准准差差 一一旦旦确确定定,分分布布的的具具体体形形式式也也惟惟一一确确定定,不不同同参参数数正正态态分分布布构构成成一一个个完完整整的的“正正态态分分布布族族”3.3.均均值值 可可取取实实数数轴轴上上的的任任意意数数值值,决决定定正正态态曲曲线线的的具具体体位位置置;标标准准差差决决定定曲曲线线的的“陡陡峭峭”或或“扁扁平平”程程度度。越大,正态曲线扁平;越大,正态曲线扁平;越小,正态曲线越高陡峭越小,正态曲线越高陡峭4.4.当当X X的的取取值值向向横横轴轴左左右右两两个个方方向向无无限限延延伸伸时时,曲曲线线的的两个尾端也无限渐近横轴,理论上永远不会与之相交两个尾端也无限渐近横轴,理论上永远不会与之相交5.5.正正态态随随机机变变量量在在特特定定区区间间上上的的取取值值概概率率由由正正态态曲曲线线下下的面积给出,而且其曲线下的总面积等于的面积给出,而且其曲线下的总面积等于1 1 2008年8月4-39统计学统计学STATISTICS(第三版第三版)和和 对对正态曲线的影响正态曲线的影响xf(x)CAB =1/2=1/2 1 1 1 1 2 2 2 2 =1 =1 2008年8月4-40统计学统计学STATISTICS(第三版第三版)标准正态分布标准正态分布(standardize normal distribution)3.标准正态分布标准正态分布的概率密度函数的概率密度函数1.随机变量具有均值为随机变量具有均值为0 0,标准差为,标准差为1 1的正态分布的正态分布2.任任何何一一个个一一般般的的正正态态分分布布,可可通通过过下下面面的的线线性性变换转化为标准正态分布变换转化为标准正态分布4.标准正态分布标准正态分布的分布函数的分布函数2008年8月4-41统计学统计学STATISTICS(第三版第三版)正态分布正态分布(用用Excel计算计算正态分布正态分布的概率的概率)第第第第1 1步:步:步:步:在在ExcelExcel表格界面中,点击表格界面中,点击“fxfx ”(”(插入函数插入函数)命令命令第第第第2 2步:步:步:步:在【选择类别】中点击【统计】,并在【选择函数】在【选择类别】中点击【统计】,并在【选择函数】中点击【中点击【NORMDISTNORMDIST】,然后单击【确定】,然后单击【确定】第第第第3 3步:步:步:步:在【在【X X】后输入正态分布函数计算的区间点】后输入正态分布函数计算的区间点(即即x x值值)在【在【MeanMean】后输入正态分布的均值】后输入正态分布的均值 在【在【Standard_devStandard_dev】后输入正态分布的标准差】后输入正态分布的标准差 在【在【CumulativeCumulative】后输入】后输入1(1(或或TRUE)TRUE)表示计算事件出表示计算事件出 现次数小于或等于指定数值的累概率现次数小于或等于指定数值的累概率 单击【确定】单击【确定】2008年8月4-42统计学统计学STATISTICS(第三版第三版)正态分布正态分布(计算计算标准正态分布标准正态分布的概率和的概率和反函数值反函数值)第第第第1 1步:步:步:步:在在ExcelExcel表格界面中,点击表格界面中,点击“fxfx ”(”(插入函数插入函数)命令命令第第第第2 2步:步:步:步:在【选择类别】中点击【统计】,并在【选择函数】中点击在【选择类别】中点击【统计】,并在【选择函数】中点击 【NORMSDISTNORMSDIST】,单击【确定】,单击【确定】第第第第3 3步:步:步:步:在【在【Z Z】后输入】后输入Z Z的值。单击【确定】的值。单击【确定】第第第第1 1步:步:步:步:在在ExcelExcel表格界面中,点击表格界面中,点击“fxfx ”(”(插入函数插入函数)命令命令第第第第2 2步:步:步:步:在【选择类别】中点击【统计】,并在【选择函数】中点击在【选择类别】中点击【统计】,并在【选择函数】中点击 【NORMSINVNORMSINV】,然后单击【确定】,然后单击【确定】第第第第3 3步:步:步:步:在【在【ProbabilityProbability】后输入给定的概率值。单击【确定】后输入给定的概率值。单击【确定】计算概率计算概率计算概率计算概率计算计算计算计算z z值值值值2008年8月4-43统计学统计学STATISTICS(第三版第三版)正态分布正态分布(例题分析例题分析)【例】【例】【例】【例】计算以下概率计算以下概率 (1)(1)X XN N(50,10(50,10),求,求 和和 (2)(2)Z ZN N(0,1)(0,1),求,求 和和 (3)(3)正态分布概率为正态分布概率为 0.05 0.05 时,求标准正态累积分布函数时,求标准正态累积分布函数 的反函数值的反函数值 z z 用用Excel正态分布的正态分布的计算概率计算概率 2008年8月4-44统计学统计学STATISTICS(第三版第三版)数据正态性的评估数据正态性的评估1.1.对数据画出频数分布的直方图或茎叶图对数据画出频数分布的直方图或茎叶图n n若若数数据据近近似似服服从从正正态态分分布布,则则图图形形的的形形状状与与上上面面给给出出的的正态曲线应该相似正态曲线应该相似3.3.绘绘制制正正态态概概率率图图。有有时时也也称称为为分分位位数数分分位位数数图图或或称称QQ-QQ图或称为图或称为P-PP-P图图n n用用于于考考察察观观测测数数据据是是否否符符合合某某一一理理论论分分布布,如如正正态态分分布布、指数分布、指数分布、t t分布等等分布等等n nP-PP-P图图是是根根据据观观测测数数据据的的累累积积概概率率与与理理论论分分布布(如如正正态态分分布布)的累积概率的符合程度绘制的的累积概率的符合程度绘制的n nQ-QQ-Q图图则则是是根根据据观观测测值值的的实实际际分分位位数数与与理理论论分分布布(如如正正态态分布分布)的分位数绘制的的分位数绘制的 4.4.使使用用非非参参数数检检验验中中的的Kolmogorov-SmirnovKolmogorov-Smirnov检检验验(K-S(K-S检验检验)2008年8月4-45统计学统计学STATISTICS(第三版第三版)正态概率图的绘制正态概率图的绘制(normal probability plots)正正态态概概率率图图可可以以在在概概率率纸纸上上绘绘制制,也也可可以以在在普普通通纸纸上绘制。在普通纸上绘制正态概率图的步骤上绘制。在普通纸上绘制正态概率图的步骤第第1 1步:步:将样本观察值从小到大排列将样本观察值从小到大排列第第2 2步:步:求出样本观察值的标准正态分数求出样本观察值的标准正态分数z zi i 。标准正。标准正 态分数满足态分数满足第第3 3步:步:将将z zi i作为纵轴,作为纵轴,x xi i作为横轴,绘制图形,即为作为横轴,绘制图形,即为 标准正态概率图标准正态概率图2008年8月4-46统计学统计学STATISTICS(第三版第三版)正态概率图的绘制正态概率图的绘制(例题分析例题分析)【例例例例】在在一一家家保保险险公公司司中中随随机机抽抽取取1010名名销销售售人人员员,他他们们的的年年销销 售售(单单 位位:万万 元元)分分 别别 为为176176,191191,214214,220220,205205,192192,201201,190190,183183,185185。绘绘制制正正态态概概率率图图,判判断断销销售售额额数数据据是是否否服服从正态分布从正态分布 2008年8月4-47统计学统计学STATISTICS(第三版第三版)用用SPSS绘制正态概率图绘制正态概率图 第第1步:步:选择【Graphs】下拉菜单,并选择【P-P】或【Q-Q】选项进入主对话框第第2步:步:在主对话框中将变量选入【Variables】,点击【OK】用用用用SPSSSPSS绘制正态概率图绘制正态概率图绘制正态概率图绘制正态概率图2008年8月4-48统计学统计学STATISTICS(第三版第三版)正态概率图的绘制正态概率图的绘制(例题分析例题分析)P-PP-P图图图图 Q-Q Q-Q图图图图 2008年8月4-49统计学统计学STATISTICS(第三版第三版)正态概率图的分析正态概率图的分析(normal probability plots)1.实实际际应应用用中中,只只有有样样本本数数据据较较多多时时正正态态概概率率图图的的效效果果才才比比较较好好。当当然然也也可可以以用用于于小小样样本本,但但此此时时可能会出现与正态性有较大偏差的情况可能会出现与正态性有较大偏差的情况2.在在分分析析正正态态概概率率图图时时,最最好好不不要要用用严严格格的的标标准准去去衡衡量量数数据据点点是是否否在在一一条条直直线线上上,只只要要近近似似在在一一条条直线上即可直线上即可3.对对于于样样本本点点中中数数值值最最大大或或最最小小的的点点也也可可以以不不用用太太关关注注,除除非非这这些些点点偏偏离离直直线线特特别别远远,因因为为这这些些点点通通常常会会与与直直线线有有偏偏离离。如如果果某某个个点点偏偏离离直直线线特特别别远远,而而其其他他点点又又基基本本上上在在直直线线上上时时,这这个个点点可可能能是离群点,可不必考虑是离群点,可不必考虑2008年8月4.3 由正态分布导出的几个重要分布由正态分布导出的几个重要分布 4.3.1 2 分布分布 4.3.2 t 分布分布 4.3.3 F 分布分布第第 4 章章 概率分布概率分布2008年8月4.3.1 2 分布分布4.3 由正态分布导出的几个重要分布由正态分布导出的几个重要分布2008年8月4-52统计学统计学STATISTICS(第三版第三版)1.1.由由阿阿贝贝(AbbeAbbe)于于18631863年年首首先先给给出出,后后来来由由海海尔尔墨墨特特(HermertHermert)和和卡卡 皮皮尔尔逊逊(KPearsonKPearson)分分别别于于18751875年年和和19001900年推导出来年推导出来2.2.设设 ,则,则3.3.令令 ,则,则 y y 服从自由度为服从自由度为1 1的的 2 2分布,即分布,即4.4.对于对于n n个正态随机变量个正态随机变量y y1 1 ,y y2 2 ,y yn n,则随机变量,则随机变量5.5.称为具有称为具有n n个自由度的个自由度的 2 2分布,记为分布,记为c c2-分布分布(2-distribution)2008年8月4-53统计学统计学STATISTICS(第三版第三版)1.分布的变量值始终为正分布的变量值始终为正 2.分分布布的的形形状状取取决决于于其其自自由由度度n n的的大大小小,通通常常为为不不对对称称的的正正偏偏分分布布,但但随随着着自自由由度度的的增增大大逐逐渐渐趋趋于对称于对称 3.期期望望为为:E E(2 2)=)=n n,方方差差为为:D D(2 2)=2)=2n n(n n为为自自由度由度)4.可可加加性性:若若U U和和V V为为两两个个独独立立的的 2 2分分布布随随机机变变量量,U U 2 2(n(n1 1),V V 2 2(n n2 2),),则则U U+V V这这一一随随机机变变量量服服从自由度为从自由度为n n1 1+n n2 2的的 2 2分布分布 c c2-分布分布(性质和特点性质和特点)2008年8月4-54统计学统计学STATISTICS(第三版第三版)不同自由度的不同自由度的c c2-分布分布 2 2 2 22 2n n=1=1n n=4=4n n=10=10n n=20=202008年8月4-55统计学统计学STATISTICS(第三版第三版)c c2-分布分布(用用Excel计算计算c c2分布的概率分布的概率)1.利用Excel提供的【CHIDIST】统计函数,计算c2分布右单尾的概率值l语法:CHIDIST(x,degrees_freedom),其中df为自由度,x,是随机变量的取值2.利用【CHIINV】函数则可以计算给定右尾概率和自由度时相应的反函数值 l语法:CHIINV(probability,degrees_freedom)用用用用ExcelExcel计算计算计算计算c c c c2 2 分布的概率分布的概率分布的概率分布的概率2008年8月4.3.2 t 分布分布4.3 由正态分布导出的几个重要分布由正态分布导出的几个重要分布2008年8月4-57统计学统计学STATISTICS(第三版第三版)t-分布分布(t-distribution)1.1.提提出出者者是是William William GossetGosset,也也被被称称为为学学生生分分布布(students(students t)t)2.2.t t 分分布布是是类类似似正正态态分分布布的的一一种种对对称称分分布布,通通常常要要比比正正态态分分布布平平坦坦和和分分散散。一一个个特特定定的的分分布布依依赖赖于于称称之之为为自自由由度度的的参参数。随着自由度的增大,分布也逐渐趋于正态分布数。随着自由度的增大,分布也逐渐趋于正态分布 x x xt t 分布与标准正态分布的比较分布与标准正态分布的比较t t 分布分布标准正态分布标准正态分布t t不同自由度的不同自由度的t t分布分布标准正态分布标准正态分布t t(dfdf=13)=13)t t(dfdf=5)=5)z z2008年8月4-58统计学统计学STATISTICS(第三版第三版)t-分布分布(用用Excel计算计算t分布的概率和临界值分布的概率和临界值)1.利用Excel中的【TDIST】统计函数,可以计算给定值和自由度时分布的概率值l语法:语法:TDIST(x,degrees_freedom,tails)2.利用【TINV】函数则可以计算给定概率和自由度时的相应 l语法:语法:TINV(probability,degrees_freedom)用用用用ExcelExcel计算计算计算计算t t分布的临界值分布的临界值分布的临界值分布的临界值2008年8月4.3.3 F 分布分布4.3 由正态分布导出的几个重要分布由正态分布导出的几个重要分布2008年8月4-60统计学统计学STATISTICS(第三版第三版)1.1.为为纪纪念念统统计计学学家家费费希希尔尔(R.A.FisherR.A.Fisher)以以其其姓姓氏氏的的第第一个字母来命名则一个字母来命名则2.2.设设若若U U为为服服从从自自由由度度为为n n1 1的的 2 2分分布布,即即U U 2 2(n n1 1),V V为为服服从从自自由由度度