数理统计基础精.ppt
数理统计基础第1页,本讲稿共100页 培训大纲培训大纲 一、一、一、一、发展简史发展简史 二、数理统计的基本知识二、数理统计的基本知识二、数理统计的基本知识二、数理统计的基本知识 三、随机变量的数字特征三、随机变量的数字特征三、随机变量的数字特征三、随机变量的数字特征 四、分布四、分布四、分布四、分布 五、假设检验五、假设检验五、假设检验五、假设检验第2页,本讲稿共100页概率论的起源与初步发展概率论的起源与初步发展 1657年,荷兰数学家惠更斯(C.Huyens,1629-1695)发表了论赌博中的计算,这是最早的概率论著作。这些数学家的著述中所出现的第一批概率论概念与定理,标志着概率论的诞生。而概率论最终成为一门独立的数学分支,真正的奠基人是伯努利(Jacob Bernoulli,1654-1705)。他的主要贡献是建立了概率论中的第一个极限定理我们称为“伯努利大数定律”。即“在多次重复试验中,频率有越趋稳定的趋势”。这一定理是在他去世后,即1713年,发表在他的遗著猜度术中。第3页,本讲稿共100页19世纪概率论朝着建立完整的理论体系和更广泛的应用方向发展其中为之作出较大贡献的代表性人物有:法国数学家拉普拉斯(PierreSimonLaplace,17491826)德国数学家高斯(C.F.Gauss,1777.4.301855.2.23)法国物理学家泊松(S.D.Poisson,17811840)等特别是数学家拉普拉斯,他是严密的、系统的科学概率论的最卓越的创建者,在1812年出版的概率的分析理论中,拉普拉斯以强有力的分析工具处理了概率论的基本内容,实现了从组合技巧向分析方法的过渡,以往零散的结果系统化,开辟了概率论发展的新时期。泊松则推广了大数定理,提出了著名的泊松分布。俄国数学家切比雪夫(Chebyshev,18211894)建立了关于独立随机变量序列的大数定律,推广了棣莫弗拉普拉斯的极限定理。第4页,本讲稿共100页 高斯从描述天文观测的误差而引进正态分布,并使用最小二乘法作为参数的估计方法,是近代数理统计学发展初期的重大事件。英国生物学家高尔顿(F.Galton,18221911)在回归方面的先驱性工作,也是这个时期中的主要发展,他在遗传研究中为了弄清父子两辈特征的相关关系,揭示了统计方法在生物学研究中的应用,他引进回归直线、相关系数的概念,创始了回归分析。高尔顿的学生皮尔逊(K.Pearson,18561936)在1900年提出了检验拟合优度的统计量。他还提出了矩估计法。皮尔逊的学生英国医生戈塞特(W.S.Gosset,笔student18761937)于1908年导出了t的精确分布,开了小样本理论的先河。英国实验遗传学家兼统计学家费歇尔(18901962),是将数理统计作为一门数学学科的奠基者,在样本相关系数的分布、方差分析、实验设计等方面的研究中做出了重要贡献。第5页,本讲稿共100页统计描述统计分析统计推断假设检验假设检验参数估计参数估计区间估计区间估计点估计点估计统计指标统计指标集中趋势指标集中趋势指标 离散趋势指标离散趋势指标统计图表总总 体体抽样抽样推断推断样样本本第6页,本讲稿共100页 培训大纲培训大纲 一、发展简史一、发展简史一、发展简史一、发展简史 二、二、二、二、数理统计的基本知识数理统计的基本知识数理统计的基本知识数理统计的基本知识 三、随机变量的数字特征三、随机变量的数字特征三、随机变量的数字特征三、随机变量的数字特征 四、分布四、分布四、分布四、分布 五、假设检验五、假设检验五、假设检验五、假设检验第7页,本讲稿共100页1、随机现象随机现象、随机事件随机事件与与随机变量随机变量 随机现象随机现象:某些现象发生的结果在:某些现象发生的结果在一次观察一次观察中具有中具有不确定性不确定性,而在大量的,而在大量的重复观察重复观察中中表现出表现出某种某种规律性规律性。随机事件随机事件:进行随机试验时,某事件在一定条件下可能出现也可能不出现,:进行随机试验时,某事件在一定条件下可能出现也可能不出现,其结果事先不能肯定,该事件则是随机事件。其结果事先不能肯定,该事件则是随机事件。随机变量随机变量:用来代表:用来代表随机事件随机事件的的变量变量。2 2、概率概率与与频率频率 频率频率:某变量值出现的次数(频数):某变量值出现的次数(频数)/重复观察的总次数。重复观察的总次数。对一个随机事件重复观察时,尽管每进行对一个随机事件重复观察时,尽管每进行n n次试验,所得到的频率可能次试验,所得到的频率可能各不相同,但随着各不相同,但随着n n的增大,频率会逐渐稳定在的增大,频率会逐渐稳定在某个常数附近波动某个常数附近波动。频率的稳定性说明随机事件发生的可能性大小是事件本身固有的一种客频率的稳定性说明随机事件发生的可能性大小是事件本身固有的一种客观属性。观属性。概率概率:表示:表示随机事件随机事件发生可能性大小的发生可能性大小的数值数值。(。(用用P P表示表示)通常由)通常由频率的稳定值频率的稳定值反反映。映。确定性事件:确定性事件:(1 1)必然事件必然事件P=1P=1,(2 2)不可能事件)不可能事件P=0P=0;随机性事件随机性事件:概率概率取值介于取值介于0 01 1之间。之间。概率越接近概率越接近0 0,表明事件发生的可能性越小。,表明事件发生的可能性越小。概率越接近概率越接近1 1,表明事件发生的可能性越大。,表明事件发生的可能性越大。第8页,本讲稿共100页 概率概率和和频率频率有区别:有区别:频率频率是是已经已经进行进行试验的结果,描述的是试验的结果,描述的是样本样本中事件出现的可中事件出现的可能性大小(样本信息),能性大小(样本信息),样本不同,其值也不同样本不同,其值也不同,具有,具有偶然性偶然性;概率概率刻画的则是刻画的则是总体总体中随机事件出现的可能性大小(总体信中随机事件出现的可能性大小(总体信息),是一种客观存在,息),是一种客观存在,是个确定数值是个确定数值,具有,具有必然性必然性。3、小概率原理、小概率原理:概率很小的随机事件在概率很小的随机事件在一次或少量一次或少量实际观察中是不可能发生实际观察中是不可能发生的(尽管理论上有发生的可能)的(尽管理论上有发生的可能)小概率:小概率:P0.05或或P0.014、总体和个体、总体和个体在统计学中,常把所研究对象的全体称为总体在统计学中,常把所研究对象的全体称为总体,而把组成总体而把组成总体的每个元素叫做的每个元素叫做个体个体。总体总体:指:指同质同质的观察单位某种变量值的集合;(同质是指的观察单位某种变量值的集合;(同质是指被研究被研究指标指标的主要的主要影响因素影响因素相同)相同)总体根据有无时间和空间的限制又分为总体根据有无时间和空间的限制又分为有限总体有限总体和和无限总体无限总体第9页,本讲稿共100页5、样本、样本抽样抽样:为了推断总体的性态而从总体中抽取部分个体的过程。为了推断总体的性态而从总体中抽取部分个体的过程。简单随机抽样简单随机抽样:抽取的个体是相互独抽取的个体是相互独立的随机变量且都与总体同分布的抽样。立的随机变量且都与总体同分布的抽样。由简单随机抽样所得样本由简单随机抽样所得样本(X1,X2,Xn)称为称为简单随机样本简单随机样本。从总体从总体X中随机抽取中随机抽取n个个体个个体X1,X2,Xn所组成的一个个体组所组成的一个个体组(X1,X2,Xn),),称为总体称为总体X的一个样本,个体的数目的一个样本,个体的数目n 称为称为样本容样本容量量。通过试验对样本通过试验对样本(X1,X2,Xn)进行观测,得到的进行观测,得到的n个确定的实个确定的实验数据验数据(x1,x2,xn),称为样本称为样本(X1,X2,Xn)的一个的一个观察值观察值,简称,简称 样样本值本值,也称为样本的一次实现。也称为样本的一次实现。第10页,本讲稿共100页6、变异变异与与抽样误差抽样误差 同质条件:都是鼻咽癌患者同质条件:都是鼻咽癌患者 都用相同治疗方法变异都用相同治疗方法变异现象:疗效各不相同现象:疗效各不相同 变异变异:指:指同质事物同质事物间的间的差异差异。是客观存在的现象,可。是客观存在的现象,可分为以下两类:分为以下两类:(1)个体变异个体变异:指同一特征或同一条件下个体间:指同一特征或同一条件下个体间的差异。的差异。(2)随机测量变异随机测量变异:指同一个体:指同一个体重复观测重复观测结果未必结果未必相等的现象。相等的现象。第11页,本讲稿共100页7、抽样、抽样 随机抽样:随机抽样:在抽样过程中,要使总体中的每一个观察对象都在抽样过程中,要使总体中的每一个观察对象都 有同等机会被抽中成为样本。有同等机会被抽中成为样本。抽样研究的目的:抽样研究的目的:利用样本信息估计或推断总体特征利用样本信息估计或推断总体特征。样本样本要具备以下两个条件:要具备以下两个条件:(1)可靠性可靠性:样本中的每一个个体均来自样本中的每一个个体均来自既定既定的的同一总体同一总体 (2)代表性代表性:样本要由样本要由随机抽样随机抽样获得;并且要抽取获得;并且要抽取一定的数量一定的数量;分层抽分层抽样。样。第12页,本讲稿共100页8、统计资料的类型、统计资料的类型 (1)、)、数值变量数值变量资料(资料(计量计量资料)资料)用用定量定量的方法(仪器、实验)对观察对象的某项指标进行测量所得的方法(仪器、实验)对观察对象的某项指标进行测量所得到的到的数值数值(有度量单位有度量单位、可以是、可以是小数、连续性资料小数、连续性资料)。)。(2)、分类变量资料:)、分类变量资料:是将观察单位按某种属性或类别分组,然后清点各组观察单位的个数所得是将观察单位按某种属性或类别分组,然后清点各组观察单位的个数所得的数据(的数据(无度量单位无度量单位、整数整数、离散性资料离散性资料)分类变量又可分为分类变量又可分为有序分类有序分类和和无序分类无序分类两种情况:两种情况:、无序分类变量资料无序分类变量资料(计数资料计数资料)二项分类二项分类:按属性或类别分组时,分成对立的:按属性或类别分组时,分成对立的两种属性或类别两种属性或类别;如阳性与阴性、有效与;如阳性与阴性、有效与无效无效 多项分类:按属性或类别分组时,分成互不相容的几种属性或类别;如血型多项分类:按属性或类别分组时,分成互不相容的几种属性或类别;如血型A型、型、B型、型、O型、型、AB型型 、有序分类变量资料(等级资料):、有序分类变量资料(等级资料):将观察单位按某种属性的不同程度、档次或等级分类,然后清点各等级类别所得的将观察单位按某种属性的不同程度、档次或等级分类,然后清点各等级类别所得的观察单位数。观察单位数。*有序分类变量资料与多项分类资料的区别:有序分类变量资料与多项分类资料的区别:各等级类别有程度上的差别(这种差别按顺序排列,任何两类别的排序不能替换)各等级类别有程度上的差别(这种差别按顺序排列,任何两类别的排序不能替换)*多项分类资料多项分类资料根据分析需要:各类变量资料之间可以互相转化根据分析需要:各类变量资料之间可以互相转化第13页,本讲稿共100页如如如如:9、统计量、统计量 纯粹由样本而构成(不含其它未知参数)的函数纯粹由样本而构成(不含其它未知参数)的函数 g(X1,X2,Xn)称为称为统计量统计量。注:注:统计量通常也是随机变量。统计量通常也是随机变量。10、切比雪夫不等式(Chebyshevsinequality)对于任一随机变量X,若EX与DX均存在,则对任意0,恒有P|X-EX|=DX/2或P|X-EX|=1-DX/2、如果一组数据不是对称分布,经验法则就不再使用,这时可使用切比雪夫不等式,它对任何分布形状的数据都适用、切比雪夫不等式提供的是“下界”,也就是“所占比例至少是多少”、K=2=75%K=3=89%K=4=94%,第14页,本讲稿共100页1111、几种基本的统计量、几种基本的统计量15设设(X1,X2,Xn)为总体为总体X的样本,的样本,样本均值样本均值样本样本k阶阶(原点原点)矩矩样本样本k阶中心矩阶中心矩注注 1)1)以上统计量又称为以上统计量又称为样本的数字特征样本的数字特征;另外在不混淆的情况下另外在不混淆的情况下,对于总体对于总体X的期望的期望E(X)和方差和方差D(X)也分别称为均值和方差也分别称为均值和方差,分别记为分别记为,2 2.2)2)样本方差样本方差 S2 S2 稍不同于稍不同于样本的样本的2 2阶中心矩阶中心矩M2M2。3)称为样本的偏差平方和称为样本的偏差平方和 性质性质:设总体设总体X的期望为的期望为,方差为方差为 2,则,则与与 相互独立相互独立.第15页,本讲稿共100页12、频数表频数表:频数频数(f):相同观察值相同观察值(或观察结果或观察结果)出现的次数出现的次数 观察值及其相应的频数按一定顺序排列的表格观察值及其相应的频数按一定顺序排列的表格.频数表编制步骤如下频数表编制步骤如下:1 1、找、找极值极值:即找出最大值即找出最大值(Xmax=19.84)(Xmax=19.84)和最小值和最小值(Xmin=9.23)(Xmin=9.23)2 2、求、求 全距全距(R):(R):本例本例R=XmaxR=Xmax Xmin=10.61Xmin=10.613 3、定、定组段组段与与组数组数:组段组段指各组的起止范围指各组的起止范围;组数组数指组段的个数指组段的个数(用用k)k)表示表示;频数表一频数表一般设般设10101515个组段个组段,这里取这里取k=10k=10。4 4、求、求组距组距(i):(i):等距分组时等距分组时i=R/(ki=R/(k1)1)本例本例i=10.61/10=1.0611i=10.61/10=1.06115 5、列、列组限组限:(1)(1)每个组段的起点为下限每个组段的起点为下限,终止点为上限终止点为上限(2)(2)第一组段下限取等于或略小于第一组段下限取等于或略小于XminXmin的整数的整数,其余各个组段依次累加其余各个组段依次累加i i作下限作下限6 6、划记、划记归组归组:二、二、频数图频数图:在频数表的基础上在频数表的基础上,以直方的以直方的面积大小面积大小表示表示频数的多少频数的多少,以直方的面积以直方的面积占总面积的比例表示占总面积的比例表示频率频率大小的图形大小的图形第16页,本讲稿共100页120例正常成年人血清铜含量频数表例正常成年人血清铜含量频数表第17页,本讲稿共100页频数分布特征频数分布特征(两方面特征两方面特征)1、集中趋势集中趋势:14组段组段(居中组段居中组段)频数最多频数最多,其它组段的频数分布其它组段的频数分布向其向其靠拢靠拢.2、离散趋势离散趋势:居中组段两侧的频数逐渐居中组段两侧的频数逐渐减少减少频数分布的类型频数分布的类型1、对称分布对称分布:集中位置居中集中位置居中,两侧基本对称的频数分布两侧基本对称的频数分布频数表的用途频数表的用途1 1、揭示资料的、揭示资料的分布类型分布类型 2 2、反映频数的、反映频数的集中趋势集中趋势和和离散趋势离散趋势3 3、便于发现某些特大或特小的、便于发现某些特大或特小的可疑值可疑值4 4、便于进一步计算、便于进一步计算统计指标统计指标和作和作统计处理统计处理第18页,本讲稿共100页 培训大纲培训大纲 一、发展简史一、发展简史 二、数理统计的基本知识二、数理统计的基本知识 三、三、随机变量的数字特征随机变量的数字特征随机变量的数字特征随机变量的数字特征 四、分布四、分布四、分布四、分布 五、假设检验五、假设检验五、假设检验五、假设检验第19页,本讲稿共100页集中趋势(centraltendency)1.1.一一组数据向其中心值靠拢的倾向和程度组数据向其中心值靠拢的倾向和程度2.2.测度集中趋势就是寻找数据一般水平的代表值测度集中趋势就是寻找数据一般水平的代表值/中心值中心值3.3.不同类型的数据用不同的集中趋势测度值不同类型的数据用不同的集中趋势测度值4.4.集中趋势只是数据分布的一个特征,它所反映的是总体各单位变量值向其中心值集中趋势只是数据分布的一个特征,它所反映的是总体各单位变量值向其中心值聚集的程度聚集的程度。集中趋势特征值集中趋势特征值:均数、中位数、众数均数、中位数、众数第20页,本讲稿共100页1、平均数、平均数指标体系:反映一组观察值的集中位置或平均水平;常用的有指标体系:反映一组观察值的集中位置或平均水平;常用的有均数均数、几何均数几何均数、中位数中位数(1)、算术均数(均数)算术均数(均数):特点特点:对观察值进行数量上的平均,适用于均匀分布或近似正态分布的资料。:对观察值进行数量上的平均,适用于均匀分布或近似正态分布的资料。各变量值与平均数的离差之和等于零均值是统计分布的均衡点均值是统计分布的均衡点各变量值与平均数的离差平方和最小各变量值与平均数的离差平方和最小计算均数时,应:计算均数时,应:、应做正态性假设检验、应做正态性假设检验、均数受极端值影响较大、均数受极端值影响较大(2)、几何均数:、几何均数:n个数值连乘的个数值连乘的n次方根次方根特点:是比例或倍数上的平均,适用于成比例(或成倍数)关系的资料。特点:是比例或倍数上的平均,适用于成比例(或成倍数)关系的资料。主要用于计算平均增长率、平均发展速度第21页,本讲稿共100页(3)、切尾均值)、切尾均值(trimmed mean)去掉大小两端的若干数值后计算中间数据的均值在电视大奖赛、体育比赛及需要人们进行综合评价的比赛项目中已得到广泛应用。计算公式为 n n 表示观察值的个数;表示观察值的个数;表示切尾系数表示切尾系数性质:、=0,切尾均值就是算数平均数、1/2,切尾均值就是中位数、改变的值可以选择集中趋势的测度值、切尾均值是结合了均值利用数据信息充分和中位数不受极端值影响的两个有点而形成的新型统计量第22页,本讲稿共100页2、中位数中位数(Median):将一组观察值按大小顺序排列,位次居中的数值;):将一组观察值按大小顺序排列,位次居中的数值;特点特点:序数序数上的平均上的平均 适用适用 (1)偏态分布资料偏态分布资料 (2)一端或两端无确切界值的开口资料。一端或两端无确切界值的开口资料。中位数的性质中位数的性质:、不受极端值的影响,具有稳健(稳定)性特点、不受极端值的影响,具有稳健(稳定)性特点 、各变量值与中位数的离差绝对值之和最小,即、各变量值与中位数的离差绝对值之和最小,即注意事项注意事项 、对于偏态分布资料,中位数不受两端特大值和特小值的影响,只和位置居中的观察、对于偏态分布资料,中位数不受两端特大值和特小值的影响,只和位置居中的观察值有关。而均数受特大值和特小值的影响,会偏大或者偏小,所以对于偏态分布的资料,值有关。而均数受特大值和特小值的影响,会偏大或者偏小,所以对于偏态分布的资料,均数的代表性差,不适合描述偏态分布的集中趋势。均数的代表性差,不适合描述偏态分布的集中趋势。、中位数适合于任何分布类型的资料、中位数适合于任何分布类型的资料 、与、与变异指标变异指标结合使用,才能全面反映资料特征(集中和离散趋势)结合使用,才能全面反映资料特征(集中和离散趋势)、同质(同类)事物方能计算平均数。、同质(同类)事物方能计算平均数。、如果数据大量重复某一数值,此时中位数未必准确,在解释时要特别小心、如果数据大量重复某一数值,此时中位数未必准确,在解释时要特别小心 、主要用于顺序数据,也可用数值型数据,但不能用于分类数据、主要用于顺序数据,也可用数值型数据,但不能用于分类数据 第23页,本讲稿共100页3、众数(众数(mode):、一组数据中出现次数最多的变量值、分布最高峰点所对应的数值即众数、一种位置代表值,不受极端值的影响,应用场合有限、一组数据可能没有众数或有几个众数、主要用于分类数据,也可用于顺序数据和数值型数据下限公式:下限公式:上限公式:上限公式:第24页,本讲稿共100页众数、中位数和平均数的关系左偏分布左偏分布左偏分布左偏分布左偏分布左偏分布均值均值均值均值均值均值 中位数中位数中位数中位数中位数中位数 众数众数众数众数众数众数对称分布对称分布对称分布对称分布对称分布对称分布 均值均值均值均值均值均值=中位数中位数中位数中位数中位数中位数=众数众数众数众数众数众数右偏分布右偏分布右偏分布右偏分布右偏分布右偏分布众数众数众数众数众数众数 中位数中位数中位数中位数中位数中位数均值均值均值均值均值均值取决于数据分布状况对称分布时,中位数、众数和算术平均数合而为一,即:Me=M0=X在非对称分布的情况下,中位数、众数和算术平均数之间存在一定的差别。右偏,则三者之间的关系是:M0MeX;左偏,则三者之间的关系是:M0MeX。无论是右偏还是左偏,中位数总是介于算术平均数和众数之间。第25页,本讲稿共100页众数、中位数、平均数的特点和应用众数优点:不受极端值影响缺点:具有不惟一性偏态分布且有明显峰值时应用比均值好中位数优点:不受极端值影响数据偏态分布时应用比均值好平均数优点:数学性质优良缺点:易受极端值影响数据对称分布或接近对称分布时应用数据类型数据类型分类数据分类数据 顺序数据顺序数据数值型数据数值型数据适适用用的的测测度度值值众数众数中位数中位数平均数平均数众数众数众数众数中位数中位数第26页,本讲稿共100页离散程度数据分布的另一个重要特征数据分布的另一个重要特征反映各变量值远离其中心值的程度反映各变量值远离其中心值的程度(离散程度离散程度)从另一个侧面说明了集中趋势测度值的代表程度从另一个侧面说明了集中趋势测度值的代表程度变量值变异大,离散程度就大,均值的代表性就小。反之亦然。变量值变异大,离散程度就大,均值的代表性就小。反之亦然。反映离散程度相关的统计量主要有下面几个:反映离散程度相关的统计量主要有下面几个:分类数据:分类数据:异众比率异众比率顺序数据:顺序数据:四分位差四分位差数值型数据:数值型数据:方差和标准差方差和标准差相对位置度量:相对位置度量:离散系数离散系数第27页,本讲稿共100页1、异众比率(variationratio)、对分类数据离散程度的测度、非众数组的频数占总频数的比例、用于衡量众数的代表性、用于衡量众数的代表性、计算公式为2、内距(inter-quartilerange,IQR)、也称四分位差,是两个四分位数之差、内距=上四分位数-下四分位数=Q3-Q1=QUQL=P75-P25、极差容易受极端值影响,内距基本不受极端值影响、内距反映的是中间50%数值大小的差异Q的主要用途:、Q适用于任何分布的资料,结果比极差稳定,尤其适用于大样本偏态分布的资料。、与M共同描述偏态分布资料的分布特征,简写成M(Q);、计算参考值范围(百分位数P2.5,P97.5的范围)方法方法方法方法1 1:定义算法:定义算法:定义算法:定义算法方法方法方法方法2 2:较准确算法:较准确算法:较准确算法:较准确算法第28页,本讲稿共100页3、极差(range):用于反映个体变异的范围用于反映个体变异的范围、离散程度的最简单测度值、易受极端值影响,数据越多,R可能越大。(不稳定)、未考虑数据的分布,未顾及全部数据间的变异、计算公式为计算公式为4、平均差(meandeviation)、各变量值与其平均数离差绝对值的平均数、能全面反映一组数据的离散程度、数学性质较差,实际中应用较少、计算公式为计算公式为未分组数据未分组数据未分组数据未分组数据组距分组数据组距分组数据组距分组数据组距分组数据第29页,本讲稿共100页5.方差方差:、数据离散程度的最常用测度值、反映了各变量值与均值的平均差异、根据总体数据计算的,称为总体方差或标准差,记为2();根据样本数据计算的,称为样本方差或标准差,记为s2(s)方差的重要性质:、若每一个变量值加上一个常数,方差和标准差不变、变量对算术平均数的方差,小于对任意常数的方差第30页,本讲稿共100页6、标准差与平均差、标准差与平均差虽都是变量值与均值的平均离差,但不同的是平均差所平均的是离差绝对值,而标准差平均的是离差平方。、标准差彻底解决了正负离差不能相加的问题。它在抽样调查、相关分析中应用较多,所以标准差是应用较为广泛的一种离中趋势的测度值。、平均差和标准差其数值大小,不仅决定于各标志值的差异程度,还决定于数列平均水平的高低,同时它们具有与标志值相同的名数。7、自由度(degreeoffreedom)、自由度是指附加给独立的观测值的约束或限制的个数、从字面涵义来看,自由度是指一组数据中可以自由取值的个数、当样本数据的个数为n时,若样本平均数确定后,则附加给n个观测值的约束个数就是1个,因此只有n-1个数据可以自由取值,其中必有一个数据不能自由取值、按着这一逻辑,如果对n个观测值附加的约束个数为k个,自由度则为n-k、为什么样本方差的自由度是n-1呢?因为在计算离差平方和时,必须先求出样本均值x,而x则是附加给离差平方和的一个约束,因此,计算离差平方和时只有n-1个独立的观测值,而不是n个、样本方差用自由度去除,其原因可从多方面解释,从实际应用角度看,在抽样估计中,当用样本方差s2去估计总体方差2时,它是2的无偏估计量第31页,本讲稿共100页平均差系数平均差系数8、离散系数(coefficientofvariation)对于具有不同平均水平和不同计量单位的数列,就不能直接利用标准差等来比较其标志变动程度的大小,而需要用变异系数,以消除不同数列水平的影响。、对数据相对离散程度的测度、消除了数据水平高低和计量单位的影响、用于对不同组别数据离散程度的比较、离散系数包括:变异系数(CV):一组观察值的s与均数的百分比。CV的主要用途:、比较度量单位不同或均数相差悬殊时几组样本资料的离散性;、评价精密度。第32页,本讲稿共100页9、标准分数(standardscore)、也称标准化值、对某一个值在一组数据中相对位置的度量、可用于判断一组数据是否有离群点、用于对变量的标准化处理、计算公式为性质:、均值等于0、方差等于1第33页,本讲稿共100页箱线图(boxplot)、用于显示未分组的原始数据的分布、由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成、绘制方法首先找出一组数据的5个特征值,即最最大大值值、最最小小值值、中中位位数数Me和两个四四分分位数位数(下四分位数QL和上四分位数QU)连接两个四分位数画出箱子,再将两个极值点与箱子相连接该箱线图也称为该箱线图也称为Median/Quart./Range箱线图箱线图中位数中位数4 46 68 810101212QQU UUQQL L LX X最大值最大值最大值X X最小值最小值最小值Median/Quart./RangeMedian/Quart./Range箱线图箱线图箱线图箱线图第34页,本讲稿共100页应用变异指标的注意事项应用变异指标的注意事项、极差适用于任何分布的资料,用于资料的粗略分析。、极差适用于任何分布的资料,用于资料的粗略分析。、标准差适用于正态分布或近似正态分布的资料。、标准差适用于正态分布或近似正态分布的资料。、四分位数间距适用于偏态分布的资料。、四分位数间距适用于偏态分布的资料。、变异系数适用于度量单位不同的指标间的比较以及均数相差、变异系数适用于度量单位不同的指标间的比较以及均数相差比较悬殊的变异程度的比较。比较悬殊的变异程度的比较。第35页,本讲稿共100页偏态及其测度偏态系数计算方法有很多,比较常用的是:偏态系数计算方法有很多,比较常用的是:是对分布偏斜是对分布偏斜是对分布偏斜是对分布偏斜方向方向及及及及程度程度的测度。的测度。的测度。的测度。偏态偏态利用众数、中位数和均值之利用众数、中位数和均值之利用众数、中位数和均值之利用众数、中位数和均值之间的关系判断分布的偏斜方间的关系判断分布的偏斜方间的关系判断分布的偏斜方间的关系判断分布的偏斜方向向向向利用利用利用利用偏态系数偏态系数偏态系数偏态系数既可以判断既可以判断既可以判断既可以判断分布的偏斜方向,还可测分布的偏斜方向,还可测分布的偏斜方向,还可测分布的偏斜方向,还可测度偏斜的程度度偏斜的程度度偏斜的程度度偏斜的程度皮尔逊测定法动差测定法第36页,本讲稿共100页在计算偏态系数时,如果公式中的众数不易计算,可用中位数代替已知 偏态系数实际上是以标准差为单位的算术平均数与众数的离差,因而其数值的变动范围,一般应在0与+3及0与-3之间;偏态系数为0表示对称分布,+3 表示极右偏,-3 表示极左偏。测定分布的偏度测定分布的偏度:偏度系数偏度系数SK=0SK0SK0(对称分布对称分布)正偏态分布(右)正偏态分布(右)负偏态分布负偏态分布(左)左)第37页,本讲稿共100页 所以,所以,m3可以测定偏度。为消除量纲,转变为系数,可以测定偏度。为消除量纲,转变为系数,再除以再除以3。0正偏态正偏态偏度系数偏度系数 (m3三阶中心矩三阶中心矩)在偏斜适度(微偏)的情况下,不论左偏还是右偏,则有如在偏斜适度(微偏)的情况下,不论左偏还是右偏,则有如下的下的经验公式经验公式:第38页,本讲稿共100页偏度系数偏度系数第39页,本讲稿共100页峰度及其测度峰度系数计算方法有很多,比较常用的是:峰度系数计算方法有很多,比较常用的是:是对分布集中趋势是对分布集中趋势是对分布集中趋势是对分布集中趋势高峰高峰高峰高峰的形状的测度。的形状的测度。峰度峰度大大大大量量量量的的的的客客客客观观观观事事事事物物物物的的的的统统统统计计计计规规规规律律律律都都都都呈呈呈呈现现现现钟钟钟钟型型型型分分分分布布布布,但但但但其其其其分分分分布布布布曲曲曲曲线线线线的的的的陡陡陡陡峭峭峭峭程程程程度度度度却却却却有所不同,峰度正是测度数据分布与正态分布相比有所不同,峰度正是测度数据分布与正态分布相比有所不同,峰度正是测度数据分布与正态分布相比有所不同,峰度正是测度数据分布与正态分布相比尖峭尖峭尖峭尖峭或或或或扁平扁平扁平扁平的程度的程度的程度的程度 当频数分布中的频数比较集中于众数的位置,使频数分布曲线较正态分布曲线更当频数分布中的频数比较集中于众数的位置,使频数分布曲线较正态分布曲线更为隆起,称为尖顶峰度为隆起,称为尖顶峰度 当频数分布中的频数,对众数来说比较分散,使频数分布曲线较正态分布曲当频数分布中的频数,对众数来说比较分散,使频数分布曲线较正态分布曲线更为平滑,称为平顶峰度线更为平滑,称为平顶峰度 峰度的测定方法,是以四阶中心距为基础。将四阶中心距的期望除以峰度的测定方法,是以四阶中心距为基础。将四阶中心距的期望除以4,化为相,化为相对数,即为峰度的测定值。对数,即为峰度的测定值。第40页,本讲稿共100页峰度测度峰度测度峰度测度峰度测度通常是与正态分布相比较而言,可分为通常是与正态分布相比较而言,可分为通常是与正态分布相比较而言,可分为通常是与正态分布相比较而言,可分为尖峰分布尖峰分布尖峰分布尖峰分布平峰分布平峰分布平峰分布平峰分布正态分布正态分布正态分布正态分布在在在在归归归归化化化化到到到到同同同同一一一一方方方方差差差差时时时时,若若若若分分分分布布布布的的的的形形形形状状状状比比比比正正正正态态态态分分分分布布布布更更更更矮更胖,则称为矮更胖,则称为矮更胖,则称为矮更胖,则称为平峰分布平峰分布平峰分布平峰分布在在在在归归归归化化化化到到到到同同同同一一一一方方方方差差差差时时时时,若若若若分分分分布布布布的的的的形形形形状状状状比比比比正正正正态态态态分分分分布布布布更更更更瘦瘦瘦瘦更更更更高,则称为高,则称为高,则称为高,则称为尖峰分布尖峰分布尖峰分布尖峰分布第41页,本讲稿共100页三、应用举例第42页,本讲稿共100页思考:从图中我们能分析出什么结论?思考:从图中我们能分析出什么结论?思考:从图中我们能分析出什么结论?思考:从图中我们能分析出什么结论?第43页,本讲稿共100页 培训大纲培训大纲 一、发展简史一、发展简史 二、数理统计的基本知识二、数理统计的基本知识 三、随机变量的数字特征三、随机变量的数字特征 四、四、四、四、分布分布 五、假设检验五、假设检验五、假设检验五、假设检验第44页,本讲稿共100页1 1、概率分布的分位数、概率分布的分位数(分位点分位点)定义定义对总体对总体X和给定的和给定的 (0 1),若存在,若存在x,使使PXx =,如图,如图.PXx =则称则称x 为为X分布的分布的上侧上侧 分位数分位数或或上侧临界值上侧临界值.x oyx若存在数若存在数 1、2,使使PX 1=PX 2则称则称 1、2为为X分布的双侧分布的双侧 分位数或双侧临界分位数或双侧临界值值.oyx 2 1第45页,本讲稿共100页双侧双侧 分位数或双侧临界值的特例分位数或双侧临界值的特例当当X的分布的分布关于关于y y轴对称轴对称时,时,则称则称 为为X分布的分布的双侧双侧 分位数分位数或或双侧临界值双侧临界值.如图如图.若存在若存在 使使yxO第46页,本讲稿共100页2、正态分布、正态分布 、特征:、特征:是一种重要的连续型分布。是一种重要的连续型分布。具有具有集中性集中性、对称性对称性和和均匀变动性均匀变动性。表现。表现为以均数为中心,高峰位于中央,两侧逐渐下降并完全对称,曲线两端永远不与横为以均数为中心,高峰位于中央,两侧逐渐下降并完全对称,曲线两端永远不与横轴相交轴相交 、正态分布的密度函数:、正态分布的密度函数:、标准正态密度函数标准正态密度函数、u0.05=1.645,u0.01=2.326 u0.025=1.96,u0.005=2.575第47页,本讲稿共100页 定义定义 设总体设总体 ,是是 的一个样本的一个样本,则称统计量则称统计量 服从自由度为服从自由度为n n的的 分布,记作分布,记作自由度是指独立随机变量的个数,自由度是指独立随机变量的个数,3 3 3 3 3 3、2 2 2 22 2分布分布分布分布分布分布n n大大分布的密度函数为分布的密度函数为 其图形随自由度的不其图形随自由度的不同而有所改变同而有所改变.第48页,本讲稿共100页上上上上 分位点分位点分位点分位点则称点则称点t 为为 2 2(n)n)分布的分布的上上 分位点分位点,记为记为 2 2 (n)n)。当当n45时,可查表时,可查表;其中其中Z 是是 N(0,1)的上的上 分位点。分位点。对于给定的正数对于给定的正数(0(0 1),45时,有近似公式:时,有近似公式:特特特特性:性:性:性:E(Y)=n,D(Y)=2n;可加性可加性:若若Y1 2(n1),Y2 2(n2),且且Y1,Y2相互独立,则相互独立,则 Y1+Y2 2(n1+n2)第49页,本讲稿共100页 定义定义 设随机变量设随机变量XN(0,1),Y 2(n),且,且X与与Y相互独立,则称统计量相互独立,则称统计量 服从自由度为服从自由度为n的的t分布分布或或学生氏学生氏分布,分布,记作记作T t(n).定义定义定义定义:若随机变量:若随机变量T的概率密度函数为的概率密度函数为4 4 4 4 4 4、t t t 分布分布分布分布分布分布T T服从自由度为服从自由度为n n的的 t 分布(分布(俗称俗称学生分布学生分布学生分布学生分布),记为,记为 T Tt t(n n)特点:特点:特点:特点:当当n时,时,t t(n n)N(0,1)N(0,1)第50页,本讲稿共100页上上 分位点分位点t t(n)(n)注意注意:t 1-(n)=-t (n)n45时,可查表求得;时,可查表求得;n 45时时,t(n)z 双侧双侧 分位点分位点 即即:对于给定的正数:对于给定的正数(0(0 1)u=的点的点u.(相当于:相当于:使得使得 PT t=/2 的点的点t.)注:正态分布、注:正态分布、2 2分布等也都有双侧分位点分布等也都有双侧分位点 对较小的对较小的n值,值,t分布与标准正态分布之间有较大差异分布与标准正态分布之间有较大差异.且且P|T|t0P|X|t0,其中,其中X N(0,1),即在,即在t分布的尾部比在标准正态分布的尾