《统计学数据描述功能与概率论知识.pptx》由会员分享,可在线阅读,更多相关《统计学数据描述功能与概率论知识.pptx(28页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、本资料来源基本统计概念基本统计概念n统计学的功能统计学的功能n统计学是感官研究的一个重要部分。统计学是感官研究的一个重要部分。n统计学可对感官数据进行有效总结并允许感官专统计学可对感官数据进行有效总结并允许感官专业人员从实验获得的信息中获得可靠的结论。业人员从实验获得的信息中获得可靠的结论。n统计学对数据的分析和阐述有统计学对数据的分析和阐述有3条主要途径。条主要途径。n对结果的简单描述对结果的简单描述统计学的统计学的“描述描述”功能功能n数据必须用最能代表原始数据的值来概括,例如,数据必须用最能代表原始数据的值来概括,例如,我们可以用平均值和标准偏差(数据分布的一种我们可以用平均值和标准偏差
2、(数据分布的一种度量)来描述数据。度量)来描述数据。统计学的功能统计学的功能n为实验处理提供根据为实验处理提供根据统计学的统计学的“推论推论”功能功能n如做出如下推论:一种组分或工艺变量,实际如做出如下推论:一种组分或工艺变量,实际上对产品的感官性质有影响,而且所发现的不上对产品的感官性质有影响,而且所发现的不同处理产生的任何差异不能简单地归结于偶然同处理产生的任何差异不能简单地归结于偶然变化。变化。n估计实验变量(称为独立变量)之间的相关程估计实验变量(称为独立变量)之间的相关程度和衡量所得数据的属性度和衡量所得数据的属性统计学的统计学的“衡量衡量”功能功能统计学在感官评价中作用统计学在感官
3、评价中作用n统计学构成了感官专业人员所用工具的一个重要统计学构成了感官专业人员所用工具的一个重要部分部分n因为评价测量中会有误差而且要分清是偶然变化的因为评价测量中会有误差而且要分清是偶然变化的结果还是实验变量(组分、工艺、包装、储藏寿命结果还是实验变量(组分、工艺、包装、储藏寿命等)引起的结果。等)引起的结果。n因为感官专业人员使用人作为测量仪器,这与其他因为感官专业人员使用人作为测量仪器,这与其他比如用仪器测量过程相比增加了变动性,这使得统比如用仪器测量过程相比增加了变动性,这使得统计方法的使用成为必要。计方法的使用成为必要。一、统计学数据描述功能一、统计学数据描述功能n用平均值和标准偏差
4、来描述我们的测量:用平均值和标准偏差来描述我们的测量:n(1)平均值:平均值:n(2)标准偏差)标准偏差n是指测量值在中心值周围的分散程度是指测量值在中心值周围的分散程度n标准偏差可由以下推理得出:标准偏差可由以下推理得出:n首先,我们要求知道每个数据与平均值相差多少?首先,我们要求知道每个数据与平均值相差多少?这要求用减法来完成;这要求用减法来完成;n其次,我们需要将所有这些差值取平均值以得到一其次,我们需要将所有这些差值取平均值以得到一个数值来表示数据偏离均值的总趋势。个数值来表示数据偏离均值的总趋势。一、数据描述一、数据描述n(2)标准偏差)标准偏差n但是,由于一些差值是正值,一些差值是
5、负值,我们但是,由于一些差值是正值,一些差值是负值,我们不能将其简单相加,否则正值和负值会相互抵消。因不能将其简单相加,否则正值和负值会相互抵消。因此,在相加前先将其求平方,然后对其取平方根。此,在相加前先将其求平方,然后对其取平方根。 n样本的标准偏差:样本的标准偏差:n这里之所以除这里之所以除n-1是因为我们测定的不是所有集合,而是因为我们测定的不是所有集合,而只是抽样调查。只是抽样调查。n在一些统计方法中,我们不使用标准偏差而是使用其在一些统计方法中,我们不使用标准偏差而是使用其平方值,这称为样本的方差,表示为平方值,这称为样本的方差,表示为S2。 二、概率论知识二、概率论知识n1、正态
6、分布、正态分布n(1)随机变量)随机变量X的概率密度函数的概率密度函数n如果某连续型随机变量如果某连续型随机变量X的概率密度函数为:的概率密度函数为:n (1)222)(21)(xxf 则称随机变量X服从具有参数和2的正态分布, 并记为),(2NX, 其中为X的总体平均值,2为总体方差(为标准差,NX22)() 二、概率论知识二、概率论知识n(2)正态分布的概率密度函数具有的性质)正态分布的概率密度函数具有的性质n(3)利用正态分布计算概率利用正态分布计算概率nX的某区间内曲线与横轴之间的面积就是随机的某区间内曲线与横轴之间的面积就是随机变量落在该区间的概率。这部分的面积是如何变量落在该区间的
7、概率。这部分的面积是如何计算的呢?计算的呢? 和和2是是决决定定正正态态分分布布的的两两个个参参数数,决决定定水水平平位位置置,2决决定定离离散散程程度度。 正正态态分分布布的的概概率率密密度度函函数数具具有有下下列列性性质质: 1)以以x为为对对称称轴轴对对称称分分布布 2)以以x为为渐渐近近线线 二、概率论知识二、概率论知识n(3)利用正态分布计算概率利用正态分布计算概率n这个积分是不能用求积分公式的办法轻松地这个积分是不能用求积分公式的办法轻松地解决的,只能用近似解法。即把代表概率的解决的,只能用近似解法。即把代表概率的那部分面积划分为许多纵向的小长方形,把那部分面积划分为许多纵向的小长
8、方形,把这些小长方形的面积计算出来并相加而求得。这些小长方形的面积计算出来并相加而求得。 例例 子子1: 已已 知知 某某 品品 种种 玉玉 米米 的的 单单 株株 产产 量量X服服 从从 正正 态态 分分 布布),(2NX, 其其 中中gg5,35。 现现 从从 这这 总总 体体 随随 机机 抽抽 取取 一一 株株 玉玉 米米 , 问问 其其 产产 量量 落落 在在 ( 30, 40) 之之 间间 的的概概 率率 是是 多多 少少 ? 二、概率论知识二、概率论知识n(3)利用正态分布计算概率)利用正态分布计算概率n2、标准正态分布标准正态分布n如果一个随机变量的概率密度函数为:如果一个随机变
9、量的概率密度函数为:n (2)n就说随机变量就说随机变量Z服从标准正态分布服从标准正态分布。 如如果果数数据据资资料料的的和和改改变变了了, 又又必必须须重重算算一一遍遍, 这这无无疑疑是是非非常常费费时时、 费费力力、费费神神的的事事情情。 幸幸好好,统统计计学学家家找找到到了了一一种种简简便便的的方方法法来来解解决决这这一一问问题题。对对于于一一个个随随机机变变量量),(2NX,如如果果令令xz,则则随随即即变变量量z服服从从于于1, 02的的标标准准正正态态分分布布。 二、概率论知识二、概率论知识n2、标准正态分布标准正态分布 将将式式(2)与与式式(1)进进行行比比较较,可可以以看看出
10、出标标准准正正态态分分布布不不再再依依赖赖于于参参数数和和。 因因此此, 可可将将标标准准正正态态分分布布只只随随即即变变量量与与其其概概率率的的对对应应关关系系计计算算出出来来, 并并列列成成标标准准正正态态概概率率分分布布表表, 以以便便查查阅阅。 对对于于不不同同的的和和, 只只要要将将变变量量值值转转化化为为z值值,然然后后查查表表即即可可得得到到其其概概率率值值。 标标 准准 正正 态态 分分 布布 表表 列列 出出 了了 区区 间间 ( - , u) 之之 间间 的的 概概 率率 。 表表 中中 最最 左左 列列 和和 最最 上上 行行 之之和和 是是 我我 们们 要要 查查 的的
11、z值值 , 行行 列列 交交 叉叉 处处 列列 出出 的的 是是 相相 应应 区区 间间 的的 概概 率率 。 二、概率论知识二、概率论知识n2、标准正态分布标准正态分布n例如如果要查区间(例如如果要查区间(-,1.96)的概率,应在的概率,应在标准正态分布表中左列为标准正态分布表中左列为1.90,顶行为,顶行为0.06的的行列交叉找相应的概率,答案为行列交叉找相应的概率,答案为0.9750。n现在来解决上面的例子现在来解决上面的例子1中的问题:中的问题:n第一步:把一般的正态变量转换为标准正态分第一步:把一般的正态变量转换为标准正态分布,于是有布,于是有二、概率论知识二、概率论知识n2、标准
12、正态分布标准正态分布n第二步:从标准正态分布表查第二步:从标准正态分布表查出出 ,并将后者减前者,得到,并将后者减前者,得到最后答案:最后答案:nP(-z-1)=0.1587,P(-z1)=0.8413,n故故P(-1z1)=0.8413-0.1587=0.6826二、概率论知识二、概率论知识n可以判定:从此玉米品种中随机抽取一株,其可以判定:从此玉米品种中随机抽取一株,其产量落在(产量落在(30,40)之间的概率为)之间的概率为0.6826。n利用标准正态分布表,不仅可以查出给定随机利用标准正态分布表,不仅可以查出给定随机变量的概率值,更经常地是给定一个概率值,变量的概率值,更经常地是给定一
13、个概率值,查出相应的查出相应的z值。值。n例子例子2:已知研究生完成一篇硕士论文的时间:已知研究生完成一篇硕士论文的时间服从正态分布,平均花费服从正态分布,平均花费2500h,标准差为,标准差为400h。求:。求:二、概率论知识二、概率论知识n1)先随机找到一个已完成论文的学生,他完)先随机找到一个已完成论文的学生,他完成论文时间超过成论文时间超过2700h的概率。的概率。n2)完成论文最快的前)完成论文最快的前5%的学生花费时间的界的学生花费时间的界限是多少小时?限是多少小时?n解答:首先将正态分布转化为标准正态分布:解答:首先将正态分布转化为标准正态分布: n查标准正态分布表左侧概率值查标
14、准正态分布表左侧概率值0.6915(-,0.5),然后用),然后用1-0.6915=0.3085,即,即为所求。为所求。二、概率论知识二、概率论知识n花费时间最少的花费时间最少的5%是在分布的左侧,因此应是在分布的左侧,因此应查得查得z=-1.6,则,则n衡量估计把握性大小的概率称为衡量估计把握性大小的概率称为置信度置信度,用,用100%减去置信度得到的互补概率称为减去置信度得到的互补概率称为显著水显著水平平,显著水平常记为,显著水平常记为。 二、概率论知识二、概率论知识n 3、t分布分布n(1)随机变量)随机变量t的密度函数的密度函数nt分布是分布是Gosset于于1908年以年以“Stud
15、ent”为名发表为名发表论文提出的分布,故又称学生氏论文提出的分布,故又称学生氏t分布。分布。n随机变量随机变量t的密度函数的密度函数为:为:n称随机变量称随机变量t服从自由度为服从自由度为df=n-1的的t分布分布二、概率论知识二、概率论知识n3、t分布分布二、概率论知识二、概率论知识n3、t分布分布n(2)t分布的概率密度函数的性质分布的概率密度函数的性质n 是偶函数,故图形关于是偶函数,故图形关于x=0对称,且当对称,且当n充分大充分大时,时,t分布近似分布近似N(0,1)标准正态分布;)标准正态分布;n不同的自由度,有不同的曲线。当不同的自由度,有不同的曲线。当df比较小时,曲比较小时
16、,曲线肥矮;当线肥矮;当df比较大时,曲线高瘦;当比较大时,曲线高瘦;当df时,时,t分布逼近于标准正态分布,分布逼近于标准正态分布,t分布分布曲线与标准正态曲线与标准正态分布曲线重合。分布曲线重合。)(xf二、概率论知识二、概率论知识n3、t分布分布n(3)分位点)分位点n对于给定的对于给定的(01),),称满足条件:称满足条件:n 点点t(n)为为t分布上分布上 分位点或分位点或上侧临界值,其几何意义图上侧临界值,其几何意义图5-7所示。所示。n由由t分布的对称性,称满足条件:分布的对称性,称满足条件:n 的点的点t/2(n)为为t分布的双侧分布的双侧分位点或双分位点或双侧临界值,其几何意
17、义如图侧临界值,其几何意义如图5-8所示。所示。二、概率论知识二、概率论知识n3、t分布分布n(3)分位点)分位点n表表3给出了给出了t分布临界值表。分布临界值表。n与标准正态分布表不同,与标准正态分布表不同,t分布临界值给出的是不分布临界值给出的是不同自由度下某些小概率下的同自由度下某些小概率下的t临界值。临界值。二、概率论知识二、概率论知识n3、t分布分布n(3)分位点)分位点n例如当例如当df=15,=0.05时,查时,查t分布表有:分布表有:nt0.05(15)=1.753(上侧临界点)(上侧临界点),nt0.05/2(15)=2.131(双侧临界点)(双侧临界点)二、概率论知识二、概
18、率论知识n3、t分布分布n(4)定理定理nA、定理、定理1n假定总体假定总体的期望值已知为的期望值已知为,(,(1,2,n)是它)是它的一个随机样本,则统计量的一个随机样本,则统计量 n遵循自由度为遵循自由度为(n-1)的)的t分布分布t(n-1),),nSxt为样本的方差。为该样本的均值,2Sx二、概率论知识二、概率论知识n3、t分布分布n(4)定理定理nB、定理、定理2n假定假定(1,2,n)和()和(y1,y2,yn)分别是来)分别是来自正态总体自正态总体 的样本,且它们相互独立,的样本,且它们相互独立,则统计量则统计量n服从自由度为(服从自由度为(n1+n2-2)的)的t分布分布,其中
19、,其中),(和2221),(NN212111)(nnSyxtn2) 1() 1(21222211nnSnSnSn二、概率论知识二、概率论知识n4、F分布分布n设随机变量设随机变量 ,且,且X与与Y相互独立,则相互独立,则称统计量称统计量 : 服从第一自由度为服从第一自由度为n1、第二自由度为、第二自由度为n2的的F分布。分布。nF分布的概率密度曲线如下图分布的概率密度曲线如下图6-5所示。所示。 )(,2212)(nYnX21/nYnXF 二、概率论知识二、概率论知识n4、F分布分布nF分布的分位点:分布的分位点:n对于给定的对于给定的(01),称满足条件:),称满足条件:n 的点的点F(n1,n2)称为)称为F分布上的分布上的分位点,如上图分位点,如上图6-6所示。所示。n对不同的对不同的n1、n2、,F分布上分布上分位点分位点F(n1,n2)的)的值可查值可查F分布分布表。表。n下表下表4-2给出了在概率为给出了在概率为0.05水平下水平下不同不同n1、n2的的F分位分位数。数。)(21nnFFP,
限制150内