概率论与数理统计基础知识ppt课件.pptx
概率论与数理统计基础概率论与数理统计基础 概率论概述 数学作为一门工具性学科在我们的日常生活以及科学研究中扮演着极其重要的角色。概率论与数理统计作为数学的一个重要组成部分,在生活中的应用也越来越广泛。概率论是研究随机现象数量规律的数学分支。在一定条件下,在个别试验或观察中呈现不确定性,但在大量重复试验或观察中其结果又具有一定规律性的现象,称为随机现象。亦即事前不可预言的现象,即在相同条件下重复进行试验,每次结果未必相同,或知道事物过去的状况,但未来的发展却不能完全肯定。如:以同样的方式抛置硬币却可能出现正面向上也可能出现反面向上;走到某十字路口时,可能正好是红灯,也可能正好是绿灯。研究这类现象的数学工具便是概率论和数理统计。随机试验:每次试验究竟出现哪个结果不能事先肯定,则称其为一个随机试验,简称试验,常用字母E表示.样本点:.在概率论中,把随机试验的每个可能的基本结果称为样本点(Sample Point),样本空间:把样本点的全体称为该试验的样本空间(Sample Space),事件的包含与相等 如果事件A发生必然导致事件B发生,即A的每个样本点都是B的样本点,则称B包含A,记作 从事件的集合表示看,事件B包含事件A就是样本空间的子集B包含子集A 对任何事件A,总有 如果 ,同时 ,则称事件A和事件B相等,记为A=B,即,A与B含有相同的样本点事件间的关系事件的互斥 如果事件A和B不可能同时发生,即A与B没有公共样本点,则称A与B是互斥的(Mutually Exclusive)或互不相容的,换句话说,两个事件A与B互斥就是样本空间两个子集A与B不相交事件的互逆 如果事件A和B中必有一个发生但又不可能同时发生,则称A与B是互逆(Mutually Inverse)或对立的,称B为A的逆事件(或对立事件),事件间的运算和事件 对事件A和B,定义它们的和事件为 =“A发生或B发生”=“A和B中至少有一个发生”积事件 定义事件与的积事件为 AB=“A和B同时发生”差事件 定义事件A与B的差事件为“A-B=A发生且B不发生”=“A与 同时发生”随机事件的概率随机事件的概率 一个事件的一个事件的概率概率(记为)就是能刻画该事件发生的可能性大小的(记为)就是能刻画该事件发生的可能性大小的一个数值一个数值.在大量的重复试验或观察中,事件发生的可能性却可呈现出一定的统在大量的重复试验或观察中,事件发生的可能性却可呈现出一定的统计规律,并且随着试验或观察次数的增加,这种规律会表现得愈加计规律,并且随着试验或观察次数的增加,这种规律会表现得愈加明显明显.显然,在重复试验或观察中,要反映一个事件发生的可能性大显然,在重复试验或观察中,要反映一个事件发生的可能性大小,最直观的一个量就是小,最直观的一个量就是频率频率(Frequency),其定义是:若在,其定义是:若在n次试次试验中,事件验中,事件A发生了次发生了次 ,则,则A在在n次试验中发生的频率:次试验中发生的频率:我们知道,频率我们知道,频率 越大(或小),事件越大(或小),事件A发生的可能性就越大发生的可能性就越大(或小),即,(或小),即,A的概率就越大(或小)的概率就越大(或小).可见,频率是概率的一个可见,频率是概率的一个很好反映很好反映.但是,频率却不能因此作为概率,因为概率应当是一个确但是,频率却不能因此作为概率,因为概率应当是一个确定的量,不应象频率那样随重复试验和重复次数的变化而变化定的量,不应象频率那样随重复试验和重复次数的变化而变化.不不过,即使这样,频率还是可以作为概率的一个估计,而且是一个有过,即使这样,频率还是可以作为概率的一个估计,而且是一个有客观依据的估计,这个依据就是所谓的客观依据的估计,这个依据就是所谓的频率稳定性频率稳定性:当试验或观察:当试验或观察次数次数n较大时,事件较大时,事件A发生的频率发生的频率 会在某个确定的常数会在某个确定的常数p附近摆动,附近摆动,并渐趋稳定并渐趋稳定.根据频率稳定性,我们可以对概率给出一个客观描述,这就是概根据频率稳定性,我们可以对概率给出一个客观描述,这就是概率的统计定义:一个事件率的统计定义:一个事件A A的概率的概率 就是该事件的频率稳定值就是该事件的频率稳定值p p,即,即一、个体、母体与子样 在统计分析中,构成研究对象的每一个最基本的单位称为个体。进行统计分析,通常是从母体中随机地选择一部分样品,称为子样(又称样本)。用它来代表母体进行观察、研究、检验、分析,取得数据后加以整理,得出结论 例如,我们可将一个编号水泥看成是母体,每一包水泥看成是个体,通过随机取样(连续取样或从20个以上不同部位取样),所取出的12kg检验样品可称为子样,通过检验分析,即可判断该编号水泥(母体)的质量状况。常见的数理统计方式二、数据、计量值与计数值数据 通过测试或调查母体所得的数字或符号记录,称为数据。计量值 凡具有连续性或可以利用各种计量分析一起、量具测出的数据。如长度、质量、温度、化学成分、强度等,多属于计量值数据。计量值也可以是整数,也可以是小数,具有连续性。计数值 凡不能用测量工具和一起进行测量,而是用计数的方法得到的非连续性数据。如合格率,废品个数等,数据计数值数据。计数值是不连续的、间断的,以离散状态出现。三、频数、频率与概率 随机变量是一种随着机会而改变其数值并且具有一定规律性的变量。如测定水泥的强度,每一袋水泥的试验结果不可能完全相同,即使一袋水泥,抽取几组试样,其试验结果也不可能完全一致,但是在一定的范围内波动,这是由于水泥的均匀性及试验误差等因素的影响,使得每次试验结果都是一个随机变量。频数、频率 测定的一组数据中某一数值重复出现的次数或在某一范围内数值重复出现的次数为频数。频率为频数占数据总数的百分比。概率 概率的统计定义,就是把概率理解为频率的稳定值;在条件基本相同的大量重复试验中,随着试验总次数不断增加,频率总是在某一常数附近波动,相对地稳定下来,这就是频率的相对稳定性。这个常数表现为该频率的相对稳定值,称为概率。四、数据统计特征数算术平均值我们从总体抽了一个样本(子样),得到一批数据X1、X2、X3Xn在处理这批数据时,经常用算术平均值X来代表这个总体的平均水平。统计中称这个算术平均值为“样平均值”。中位数把数据按大小顺序排列,排在正中间的一个数即为中位数。当数据的个数n为奇数时,中位数就是正中间的数值,当n为偶数时,则中位数为中间两个数的算术平均值。极差R极差就是数据中最大值和最小值的差,又称全距,用符号R表示。R=Xmax-Xmin式中 Xmax数据中的最大值 Xmin数据中的最小值标准偏差(子样S,母体O)标准偏差是人们总结和推导出来的一个衡量总体分散程度的度量值,又称为均方根差。其推导过程是:设有n个数据,先技术出算术平均值X,将总体中各个数据减去平均值,即得离差。离差可能是正数,也可能是负数或零。如果将全部离差相加,其代数和将会为零。为此先将各离差平方,计算出离差的平方和。并除以数据的个数n,则求得各离差平方的算是平均值(即方差)。子样的标准偏差用S表示,母样的标准偏差用O表示。变异系数CV 用极差和标准偏差都只反映数据波动的绝对大小。当测量单位不同或测量单位相同,但不同组的平均数相差很大时,用标准偏差来衡量离散程度的大小是不合理的,必须用相对标准偏差(即变异系数)来表示离散程度。如在做水泥均匀性试验时,就要求计算变异系数,通过变异系数就可以比较不同企业的水泥质量波动情况。五、定量分析中的误差 定量分析中,反省结果应具有一定的准确度,因为不准确的分析结果会导致产品报废,资源浪费,甚至得出错误的结论。但是在分析过程中,即使是技术很熟练的人,用同一方法对同一试样仔细地进行多次分析,也不能得到完全一致的分析结果,而是分析结果在一定的范围内波动。这就是说,分析过程中误差是客观存在的。因此要善于判断分析结果的准确性,查出产生误差的原因,进一步研究减小误差的方法,以不断提高分析结果的准确程度。准确度与误差准确度是分析结果与真实值相符合的程度,通过用误差的大小来表示。误差越小。分析结果的准确度越高。误差有两种表示方法:绝对误差和相对误差。绝对误差是测定值与真实值之差,相对误差是绝对误差在真实值中所占的百分率,即 绝对值=测定值真实值 绝对误差 相对误差=X 100 真实值 由于一般分析测定中误差的数值是相当小的,因此有时也用测定结果代替真实值,即相对误差近视地等于绝对误差与测定结果之比,再乘以100 精密度与偏差精密度是指在相同条件下几次平行测定的结果相互接近的程度。通常用偏差的大小来表示。偏差越小,分析结果的精密度越高。偏差也有绝对偏差和相对偏差之分。测定结果(Xi)与平均值(X)之差为绝对偏差(d),即个别测定的绝对偏差;绝对偏差在平均值中所占的百分率为相对偏差(dr),即个别测定的相对偏差。因此 绝对值=测定值 n 次测定值的算术平均值 绝对偏差 相对偏差=X100 算术平均值 误差的来源根据误差的性质,可将误差分为两类。即系统误差和偶然误差。系统误差 系统误差又称可定误差或可测误差。这是由于测定过程中某些经常性的原因所造成的误差,它影响分析结果的准确度。偶然误差 偶然误差又称非确定误差或随机误差。这是由一些难以控制的偶然因素所造成的误差,没有一定的规律性。虽然操作者仔细操作,外界条件也尽量保持一直,但测得的一系列数据仍有差别,并且所得数据误差的正负不定、大小不定。产生这类误差的原因常常难于觉察,可能是由于室温、气压、温度等检验条件的偶然波动所引起;或是因使用的砝码偶然缺损,试剂质量或浓度改变所造成;也可能由于个人一时辨别的差异使读书不一致。减少系统误差的方法选择合适的分析方法。这是减少系统误差的根本途径。对不同种类的试样应采取不同的分析步骤,防止不明成分的干扰。采用对比检验方法。即用标样进行对比分析或用标准方法进行对比分析。利用标准样来检查和校正分析结果消除系统误差的方法,在实际工作中应用得较为普遍。通常应取用与分析样品的组成比较接近的标准样进行对比分析。记录及计算上的错误等等。都会对检验结果带来严重影响,必须避免。但操作错误不是误差,如果已发现错误的测定结果,应予剔除,不得报出或参加平均值的计算.实例实例1 抛掷骰子抛掷骰子,观察出现的点数观察出现的点数.S=1,2,3,4,5,6样本点本身就是数量样本点本身就是数量(不需要数量转化)(不需要数量转化)恒等变换恒等变换且有且有则有则有随机变量的定义随机变量的定义定义定义实例实例2 随机变量随机变量 X 为为“测量某零件尺寸时的测量测量某零件尺寸时的测量误差误差”.则则 X 的取值范围为的取值范围为(a,b).随机变量的分类随机变量的分类(1)离散型离散型 随机变量所取的可能值是有限多个或随机变量所取的可能值是有限多个或无限可列个无限可列个,叫做离散型随机变量叫做离散型随机变量.(2)连续型连续型 随机变量所取的可能值可以连续地充随机变量所取的可能值可以连续地充满某个区间满某个区间,叫做连续型随机变量叫做连续型随机变量.随机过程的基本概念及分类随机过程的基本概念及分类例例1 用用X(t)表示某手机在大年初一早上从表示某手机在大年初一早上从8:00开始经过开始经过 t 时刻收时刻收 到的短信数。到的短信数。例例2 设质点设质点Q在一直线上移动,每单位时间移动一次,且只能在整数在一直线上移动,每单位时间移动一次,且只能在整数点上移动。用点上移动。用X(t)表示表示 t 时刻该质点所处的位置。时刻该质点所处的位置。随机过程的定义随机过程的定义 (,F,P)为一概率空间,为一概率空间,T(,+)为参数集。若对任一为参数集。若对任一t T,有一个定义,有一个定义在在(,F,P)随机变量随机变量X(t,)(或或Xt(),与之对应与之对应,则称则称X(t,),t T为为随机过随机过程程(Stochastic Processes)。简记。简记X(t),t T(或或Xt,t T)(s.p.)。或者或者 X(t,)是一个二元函数:是一个二元函数:固定固定t,X(t,)是一个随机变量;是一个随机变量;(随机过程在随机过程在t时刻的状态时刻的状态)固定固定,X(t,)是一个实值函数;是一个实值函数;(随机过程的样本函数或随机过程的样本函数或样本曲线、现实或轨道样本曲线、现实或轨道)随机变量(random variable):简单的随机现象,如某班一天学生出勤人数,是静态的。随机过程(stochastic process):随机现象的动态变化过程。动态的。如某一时期各个时刻的状态样本及抽样分布一、总体与样本 一个统计问题总有它明确的研究对象.1、总体与个体研究对象的全体称为总体,总体中所包含的个体的个数称为总体的容量.总体中每个成员称为总体中每个成员称为个体个体2、样本 总体中抽出若干个体而成的集体,称为样本。样本中所含个体的个数,称为样本容量。抽样分布1.统计量 不含任何未知参数的样本的函数称为统计量.它是完全由样本决定的量.几个常见统计量几个常见统计量样本平均值样本平均值它反映了它反映了总体均值总体均值的信息的信息样本方差样本方差它反映了总体它反映了总体方差的信息方差的信息样本标准差样本标准差 它反映了总体它反映了总体k 阶矩的信息阶矩的信息样本样本k阶原点矩阶原点矩样本样本k阶中心矩阶中心矩 k=1,2,它反映了总体它反映了总体k 阶阶中心矩的信息中心矩的信息 二、统计三大抽样分布t 分布分布F分布分布 参数估计1 参数估计的一般问题 2 一个总体参数的区间估计3 两个总体参数的区间估计4 样本容量的确定1.估计量:用于估计总体参数的随机变量估计量:用于估计总体参数的随机变量如样本均值,样本比例、样本方差等如样本均值,样本比例、样本方差等例如例如:样本均值就是总体均值样本均值就是总体均值 的一个估计量的一个估计量2.参数用参数用 表示,估计量表示,估计量用用 表示表示3.估估计计值值:估估计计参参数数时时计计算算出出来来的的统统计计量量的的具体值具体值如果样本均值如果样本均值 x=80,则,则80就是就是 的估计值的估计值估计量与估计值估计量与估计值(estimator&estimated value)点估计点估计(point estimate)1.用用样样本本的的估估计计量量直直接接作作为为总总体体参参数数的的估估计计值值例如:用样本均值直接例如:用样本均值直接作为作为总体均值的估计总体均值的估计例例如如:用用两两个个样样本本均均值值之之差差直直接接作作为为总总体体均均值之差的估计值之差的估计2.没有给出估计值接近总体参数程度的信息没有给出估计值接近总体参数程度的信息3.点点估估计计的的方方法法有有矩矩估估计计法法、顺顺序序统统计计量量法法、最大似然法、最小二乘法等最大似然法、最小二乘法等区间估计区间估计(interval estimate)1.在在点点估估计计的的基基础础上上,给给出出总总体体参参数数估估计计的的一一个个区区间间范范围,该区间由样本统计量加减抽样误差而得到的围,该区间由样本统计量加减抽样误差而得到的2.根根据据样样本本统统计计量量的的抽抽样样分分布布能能够够对对样样本本统统计计量量与与总总体体参数的接近程度给出一个概率度量参数的接近程度给出一个概率度量比如,某班级平均分数在比如,某班级平均分数在7585之间,置信水平是之间,置信水平是95%样本统计量样本统计量样本统计量样本统计量 (点估计点估计点估计点估计)置信区间置信区间置信区间置信区间置信下限置信下限置信下限置信下限置信上限置信上限置信上限置信上限1.由样本统计量所构造的总体参数的估计区间称为由样本统计量所构造的总体参数的估计区间称为置信区间置信区间2.统计学家在某种程度上确信这个区间会包含真正统计学家在某种程度上确信这个区间会包含真正的总体参数,所以给它取名为置信区间的总体参数,所以给它取名为置信区间 3.用一个具体的样本所构造的区间是一个特定的区用一个具体的样本所构造的区间是一个特定的区间,我们无法知道这个样本所产生的区间是否包间,我们无法知道这个样本所产生的区间是否包含总体参数的真值含总体参数的真值我们只能是希望这个区间是大量包含总体参数真值我们只能是希望这个区间是大量包含总体参数真值的区间中的一个,但它也可能是少数几个不包含参的区间中的一个,但它也可能是少数几个不包含参数真值的区间中的一个数真值的区间中的一个置信区间置信区间(confidence interval)无偏性无偏性(unbiasedness)无偏性:估计量抽样分布的数学期望等于被无偏性:估计量抽样分布的数学期望等于被 估计的总体参数估计的总体参数 P()BA无偏无偏有偏有偏有效性有效性(efficiency)有效性:有效性:对同一总体参数的两个无偏点估计量对同一总体参数的两个无偏点估计量 ,有更小标准差的估计量更有效,有更小标准差的估计量更有效 AB 的抽样分布的抽样分布 的抽样分布的抽样分布P()一致性一致性(consistency)一致性:随着样本容量的增大,估计量的一致性:随着样本容量的增大,估计量的 值越来越接近被估计的总体参数值越来越接近被估计的总体参数AB较小的样本容量较小的样本容量较大的样本容量较大的样本容量P()方差分析和回归分析方差分析和回归分析一、单因素方差分析一、单因素方差分析 二、一元线性回归二、一元线性回归 三、回归诊断三、回归诊断 n方差分析方差分析(Analysis of variance,简称简称:ANOVA),是由英国统计学家费歇尔是由英国统计学家费歇尔(Fisher)在在20世纪世纪20年代提出的年代提出的,可用可用于推断两个或两个以上总体均值是否于推断两个或两个以上总体均值是否有差异的显著性检验有差异的显著性检验.n单因素方差分析单因素方差分析 仅考虑有一个因素仅考虑有一个因素A对试验对试验指标的影响指标的影响.假如因素假如因素 A有有r 个水平个水平,分别在分别在第第 i 水平下进行了水平下进行了 多次独立观测多次独立观测,所得到的所得到的试验指标的数据试验指标的数据 一元线性回归一、确定性关系:当自变量给定一个值时,就确定应变量的值与之对应。如:在自由落体中,物体下落的高度h与下落时间t之间有函数关系:变量与变量之间的关系 二、相关性关系:变量之间的关系并不确定,而是表现为具有随机性的一种“趋势”。即对自变量x的同一值,在不同的观测中,因变量Y可以取不同的值,而且取值是随机的,但对应x在一定范围的不同值,对Y进行观测时,可以观察到Y随x的变化而呈现有一定趋势的变化。为统一记号,后面一律用y表示因变量。