抽样和抽样分布课件.pptx
一.抽样二.试验三.样本空间四.事件及其概率第一节 随机事件及其概率一、抽样1.概念从总体中抽取部分单位,并进行实际调查,以推断总体。2.抽样的两种方法:重置抽样和不重置抽样两种抽样方法重置抽样1.概念:也称有放回的抽样,从总体中抽取一个单位,登记后再放回总体参加下一次的抽取,连续试验n次。2.重置抽样排列数:从总体N个单位,抽取样本容量为n个单位的重置试验,可能抽取的样本点个数:不重置抽样1.概念:也称无放回的抽样,每次总体中抽取一个单位,登记后不再放回原总体,不参加下一次抽选,下一次继续从总体余下的单位抽取样本单位,这样继续进行n次试验。有n个单位的样本是由n次连续试验构成的,但因每次抽出不重置,所以实质上等同于同时从总体中抽取n个样本单位。不重置抽样排列数:不重置抽样又分为考虑顺序和不考虑顺序的情况(排列与组合)。从10个同学中抽三个担任不同职务,有:从10个同学中抽三个考察其平均成绩,则:二、试验1.概念:在相同条件下,对事物或现象所进行的观察。例如:掷一枚骰子,观察其出现的点数;产品质例如:掷一枚骰子,观察其出现的点数;产品质量检验,考察其是否是合格品等。量检验,考察其是否是合格品等。2.试验具有以下特点:可以在相同的条件下重复进行;可以在相同的条件下重复进行;每次试验的每次试验的可能结果可能结果不止一个,但试验的所不止一个,但试验的所有可能结果在试验之前是确切知道的;有可能结果在试验之前是确切知道的;在试验结束之前,不能确定该次试验的确切在试验结束之前,不能确定该次试验的确切结果;结果;1.基本事件如果一个事件不能分解成两个或更多个事件,则这个事件称为基本事件,也称为样本点。通常样本点不止一个单位,而是由许多单位构成,这时就要连续n次试验的结果构成一个样本点。2.样本空间以全部样本点为元素的集合,称为样本空间。三、样本空间试验 样本空间抛一枚硬币抛一枚硬币抛掷一颗骰子抛掷一颗骰子抽出一件产品检测抽出一件产品检测一场足球比赛一场足球比赛正面向上,反面向上正面向上,反面向上11,22,33,44,55,66点点合格,不合格合格,不合格获胜,失利,平局获胜,失利,平局抛掷两枚硬币抛掷两枚硬币抽两件产品检测抽两件产品检测(正,正),(反,正),(反,(正,正),(反,正),(反,反)反)练习题写出随机试验的样本空间1.记录某班一次统计学测试的平均分数2.某人骑自行车在公路上行驶,观察该骑车人在遇到第一个红灯停下来以前已经遇到的绿灯个数。3.生产产品,直到有10件正品为止,记录生产产品的总件数。1.1.事事件件:随随机机试试验验的的每每一一个个可可能能结结果果(任任何何样样本本点点集集合合)例如:掷一枚骰子出现的点数为例如:掷一枚骰子出现的点数为332.2.随机事件:每次试验可能出现也可能不出现的事件随机事件:每次试验可能出现也可能不出现的事件 例如:掷一枚骰子可能出现的点数例如:掷一枚骰子可能出现的点数3.3.必然事件:每次试验一定出现的事件,用必然事件:每次试验一定出现的事件,用表示。表示。例如:掷一枚骰子出现的点数小于例如:掷一枚骰子出现的点数小于774.4.不可能事件:每次试验一定不出现的事件,用不可能事件:每次试验一定不出现的事件,用表表示。示。例如:掷一枚骰子出现的点数大于例如:掷一枚骰子出现的点数大于66四、事件及其概率5.事件的概率(1)事件A的概率是对事件A在试验中出现的可能性大小的一种度量(2)表示事件A出现可能性大小的数值,事件A的概率表示为P(A)(3)概率的定义有:古典定义、统计定义和主观概率定义6.概率的统计定义v 在相同条件下进行n次随机试验,事件A出现 m 次,则比值 m/n 称为事件A发生的频率。随着n的增大,该频率围绕某一常数P上下摆动,且波动的幅度逐渐减小,趋向于稳定,这个频率的稳定值即为事件A的概率,记为例如,投掷一枚硬币,出现正面和反面的频率,随着投掷次数 n 的增大,出现正面和反面的频率稳定在1/2左右试验的次数 试验的次数正面 正面/试验次数 试验次数1.00 1.000.00 0.000.25 0.250.50 0.500.75 0.750 0 25 25 50 50 75 75 100 100 125 125第二节 随机变量及其分布 一、随机变量的概念 二、离散型随机变量的概率分布 三、连续型随机变量的概率分布一、随机变量的概念1.概念随机事件的数量表现就称为随机变量。例如:投掷两枚硬币出现正面的数量;从班级同学中抽10个,抽中女生的人数。2.分类根据取值情况的不同分为离散型随机变量和连续型随机变量(1)离散型随机变量如果随机变量 X 的取值都可以逐个列举出来 X1,X2,则X称为离散型随机变量离散型随机变量的一些例子试验 随机变量 可能的取值抽查100个产品一家餐馆营业一天电脑公司一个月的销售销售一辆汽车取到次品的个数顾客数销售量顾客性别0,1,2,1000,1,2,0,1,2,男性为0,女性为1(2)连续型随机变量如果X 的所有可能取值不可以逐个列举出来,而是取数轴上某一区间内的任意点,则称该随机变量为连续型随机变量连续型随机变量的一些例子试验 随机变量 可能的取值抽查一批电子元件新建一座住宅楼测量一个产品的长度使用寿命(小时)半年后工程完成的百分比测量误差(cm)X 00 X 100X 0二、离散型随机变量的概率分布1.离散型随机变量X的所有可能取值及其取这些值的概率按顺序排列起来就形成概率分布。2.通常用下面的表格来表示X=xix1,x2,xnP(X=xi)=pip1,p2,pn3.概率分布的性质:随机变量取值的概率是非负的,即 pi0;随机变量所有取值的概率总和等于1,即(ii11,22,nn)4.离散型随机变量的概率分布(实例)【例】如规定打靶中域 得3分,中域 得2分,中域 得1分,中域外得0分。今某射手每100次射击,平均有30次中域,55次中域,10次中,5次中域外。则考察每次射击得分为0,1,2,3这一离散型随机变量,其概率分布为X=xi0 1 2 3P(X=xi)pi0.05 0.10 0.55 0.305.离散型随机变量的数学特征vv离散型随机变量的数学期望vv离散型随机变量的方差离散型随机变量的数学期望(1)在离散型随机变量X的一切可能取值的完备组中,各可能取值xi与其相对应的概率pi乘积之和。(2)计算公式为(3)性质第三章所讲的平均数的性质也完全适合于数学期望。对于抽样分布通常要考虑多个变量的情况,所以还要补充两条性质。n个随机变量代数和的数学期望等于它们的数学期望之和。n个独立随机变量连乘积的数学期望等于它们数学期望的乘积离散型随机变量的方差(1)随机变量X的每一个取值与期望值的离差平方的数学期望,记为D(X),或Var(X),或它用来描述离散型随机变量取值的分散程度(2)计算公式为离散型随机变量的方差(实例)【例】投掷一枚骰子,出现的点数是个离散型随机变量,其概率分布为如下。计算数学期望和方差X=xi1 2 3 4 5 6P(X=xi)=pi1/6 1/6 1/6 1/6 1/6 1/6解:解:数学期望为数学期望为:方差为:方差为:三、连续型随机变量的概率分布连续型随机变量可以取某一区间或整个实数轴上的任意一个值。它取任何一个特定的值的概率都等于0,所以不能列出每一个值及其相应的概率,通常研究它取某一区间值的概率(一)密度函数f(x)1.f(x)表示随机变量X在点x上的概率密度,所以称为密度函数。2.f(x)不是概率。3.通常把密度函数的图形称为分布曲线。在平面直角坐标系中画出f(x)的图形,则对于任何实数 a b,P(a X b)是该曲线下从a 到 b的面积f(x)xa b概率是曲线下的面积(二)密度函数具有以下性质:1.1.密度函数密度函数 是非负函数,即是非负函数,即2.2.随机变量随机变量XX落在区间落在区间 内的概率等于它的密度内的概率等于它的密度函数在该区间上的定积分。即:函数在该区间上的定积分。即:其几何意义就是概率其几何意义就是概率 等于区间等于区间 上分布曲线和上分布曲线和XX轴围成的面积。轴围成的面积。3.3.由于由于 是必然事件,所以是必然事件,所以(三)分布函数1.连续型随机变量的概率也可以用分布函数F(x)来表示2.分布函数定义为3.根据分布函数,P(aXb)可以写为分布函数与密度函数的图示1.密度函数曲线下的面积等于12.分布函数是曲线下小于 x0 的面积f(x)xx0F F(x x0 0)(四)连续型随机变量的期望和方差1.连续型随机变量的数学期望为2.方差为第三节 抽样分布vv基本概念vv重置抽样分布及其数值特征vv不重置抽样分布及其数值特征一、基本概念1.抽样分布:从一个总体中抽取样本容量相同的所有可能样本之后,计算样本统计量的值及取该值的相应概率,就组成了样本统计量的概率分布,简称抽样分布。样本统计量总体未知参数样本统计量样本统计量样本统计量样本统计量样本统计量样本统计量样本统计量样本统计量样本统计量样本统计量样本统计量样本统计量抽样分布样本统计量所有可能值的概率分布主要样本统计量平均数比率(成数)方差.参数和统计量(总体指标和抽样指标)v v总体参数(总体指标)(parameter)根据全及总体各个单位的标志值或标志属性计算的,反映总体某种属性或特征的综合指标称为全及指标。全及指标值具有唯一性。v v常用的全及指标有总体平均数()(或总体成数P)、总体标准差(或总体方差2)。统计量(抽样指标)由抽样总体各单位标志值计算出来反映样本特征,用来估计总体的综合指标称为统计量(抽样指标)。它是一个随机变量。3.统计量的特点v统计量(抽样指标)是随机变量,随着抽到的样本单位不同其取值也会有变化。v 统计量是样本变量的函数,用来估计总体参数,因此与总体参数相对应。要了解本班男同学的身高,从总共30名男同学中抽取5名同学测量他们的身高,用这5名同学的平均身高来估计本班男同学的身高。样本点:样本空间:样本统计量:4.统计量的计算v样本平均数:v样本方差:v样本成数:二、重置抽样分布(一)样本平均数的分布样本平均数的分布是总体中全部样本平均数的可能取值和与之相应的概率组成。下面用一个例子来说明该问题某班组5个工人的日工资为34、38、42、46、50元。现用重置抽样的方法从5人中随机抽2个构成样本。共有52=25个样本。样本平均数的均值、方差及标准差:抽样平均数的标准差反映所有的样本平均数与总体平均数的平均误差,又称为抽样平均误差,用 表示。(二)两个重要结论:1.重置抽样的样本平均数的平均数等于总体平均数,即2.重置抽样的抽样平均数的标准差等于总体标准差除以样本单位数的平方根。即样本抽样分布原总体分布以上两个结论具有普遍意义,其一般推导见课本p113。这一等式可以看出两项重要事实(1)抽样平均误差比总体标准差小的多,仅为其。例如一个县的粮食亩产高低悬殊,亩产标准差为80公斤,如果随机抽取100亩求平均亩产,那么样本平均亩产量的差异就显著减小,平均误差只及总体亩产标准差的,即所以用样本平均亩产来代表总体平均亩产是更有效的.(2)抽样平均误差与总体标准差成正比变化,而与样本容量n的平方根成反比变化。例如在同一个总体中,如果抽样单位数扩大原来的4倍,则抽样平均误差就缩小一半,如果抽样平均误差增加一倍,则样本单位数只需要原来的1/4。(三)总体成数的估计总体成数p是指具有某种特征的单位在总体中的比重。在前面我们已经知道,成数是一个特殊平均数,设总体单位总数目是N,总体中有该特征的单位数是N1。设X是0、1变量,即:总体单位有该特征,则X取1,否则取0,则有:现从总体中抽出n个单位,如果其中有相应特征的单位数是n1,则样本成数是:成 数 P也是一个随机变量,利用样本平均数的分布性质结论,即有:例题Eg.已知某批零件的一级品率为80,现用重置抽样方法从中抽取100件,求样本一级品率的抽样平均误差。三、不重置抽样分布(一)样本平均数的分布某班组5个工人的日工资为34、38、42、46、50元。现用不重置抽样的方法从5人中随机抽2个构成样本。共有20个样本。不重置抽样样本平均数的平均数、方差及标准差:(二)两个重要结论:1.不重置抽样分布虽然与重置抽样分布不同,但它们的样本平均数的平均数仍等于总体平均数,即:2.抽样平均数的标准差也是反映样本平均数与总体平均数的平均误差程度。即:所以抽样平均数的标准差也可称为抽样平均误差,或抽样标准误差,不重置抽样的抽样平均误差等于重置抽样的平均误差乘以修正因子n/N称为抽样比。(三)样本成数的分布抽样平均误差为:对于(0,1)分布的总体,总体平均数为:总体方差为:从总体中抽取容量为n的样本,样本成数p的分布实质是样本平均数的分布。有:重置抽样 不重置抽样样本平均数误差样本成数误差抽样平均误差公式汇编回顾vv某企业生产一批灯泡,共10,000只,随机抽取500只做耐用试验。测算结果平均使用寿命为5,000小时,由历史经验得知总体标准差为300小时,500之中发现10只不合格。vv求平均数和成数的抽样平均误差。第四节 正态分布和正态逼近 一、正态分布v二、正态分布再生定理v三、中心极限定理 四、抽样分布的正态逼近一、正态分布(一)正态分布概述:1.定义一个连续型随机变量X,如果其密度函数为那么我们称X服从参数为x和正态分布。连续型随机变量的一种重要分布,它是统计推断的基础2.密度函数f(x)的性质(1)对称性;(2)非负性;(3)最大值;(4)拐点;f(x)(5)x 和 的意义;位置参数 形状参数(1)变动平均数(2)变动标准差改变分布中心位置;表现为图形的平移。分布疏密程度表现为图形的拉伸或压缩(二)正态分布函数的标准化1.标准正态分布定义数学期望为0,方差为1的正态分布,称为标准正态分布。用N(0,1)来表示。变量X服从标准正态分布记为:标准正态分布其几何意义是将分布曲线的中心移到原点,使得离差化为以 为单位的相对离差。2.标准正态分布的特点:(1)分布的平均数(数学期望)为0;(2)分布的方差为1。(3)密度函数为:(4)分布函数:3.非标准正态分布标准化(1)为什么要把不同的正态分布变换为具有相同参数的 标准正态分布:N(0,1)?为了计算的方便!计算服从标准正态分布的变量取值在某个区间的概率只需查标准正态概率分布表(2)如何进行标准化?标准正态分布表的两种形式:本教材后附表本教材后附表是这种形式是这种形式-Z形式1形式2在统计推断中,常常需要(1)求随机变量Z距中心的绝对值不超过z的概率。即变量落在区间(z,z)的概率。(2)给定F(z),求随机变量Z距中心的距离z。ZF(Z)(%)1.000 68.271.645 90.001.960 95.002.000 95.453.000 99.73记住4.标准正态分布表的使用:例题:F(Z)-2 0 2例题:525 550 575 F(x)二、正态分布再生定理 n x2x3x1xNx(x11 x1n)(x21 x2n)(xm1 xmn)x1x2xm x三、中心极限定理 P126随着n 的增大而趋近于中心极限定理 大样本n 30n 小结:v正态分布再生定理:限定总体服从正 态分布,对样本容量n无要求;v中心极限定理:总体分布可不为正态 分布,甚至可以不知道总体的分布。要求样本单位数n很大(至少n30),则样本平均数就趋近于正态分布。四、抽样分布的正态逼近 v正态逼近 应用于样本统计量取值某个区间的概率v总体分布类型不清楚时,只要样本容量相当大,就可以用正态分布来近似地估计样本平均数和样本成数取值某个区间的概率v一般认为,时为大样本,抽样分布接近正态。-0.4 0 1.2 思考与练习(P130132)思考题:4.6 4.7 4.11 4.12 4.13练习题:4.22,3 4.244.25