数理统计基础精.ppt
《数理统计基础精.ppt》由会员分享,可在线阅读,更多相关《数理统计基础精.ppt(100页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数理统计基础第1页,本讲稿共100页 培训大纲培训大纲 一、一、一、一、发展简史发展简史 二、数理统计的基本知识二、数理统计的基本知识二、数理统计的基本知识二、数理统计的基本知识 三、随机变量的数字特征三、随机变量的数字特征三、随机变量的数字特征三、随机变量的数字特征 四、分布四、分布四、分布四、分布 五、假设检验五、假设检验五、假设检验五、假设检验第2页,本讲稿共100页概率论的起源与初步发展概率论的起源与初步发展 1657年,荷兰数学家惠更斯(C.Huyens,1629-1695)发表了论赌博中的计算,这是最早的概率论著作。这些数学家的著述中所出现的第一批概率论概念与定理,标志着概率论的诞
2、生。而概率论最终成为一门独立的数学分支,真正的奠基人是伯努利(Jacob Bernoulli,1654-1705)。他的主要贡献是建立了概率论中的第一个极限定理我们称为“伯努利大数定律”。即“在多次重复试验中,频率有越趋稳定的趋势”。这一定理是在他去世后,即1713年,发表在他的遗著猜度术中。第3页,本讲稿共100页19世纪概率论朝着建立完整的理论体系和更广泛的应用方向发展其中为之作出较大贡献的代表性人物有:法国数学家拉普拉斯(PierreSimonLaplace,17491826)德国数学家高斯(C.F.Gauss,1777.4.301855.2.23)法国物理学家泊松(S.D.Poisso
3、n,17811840)等特别是数学家拉普拉斯,他是严密的、系统的科学概率论的最卓越的创建者,在1812年出版的概率的分析理论中,拉普拉斯以强有力的分析工具处理了概率论的基本内容,实现了从组合技巧向分析方法的过渡,以往零散的结果系统化,开辟了概率论发展的新时期。泊松则推广了大数定理,提出了著名的泊松分布。俄国数学家切比雪夫(Chebyshev,18211894)建立了关于独立随机变量序列的大数定律,推广了棣莫弗拉普拉斯的极限定理。第4页,本讲稿共100页 高斯从描述天文观测的误差而引进正态分布,并使用最小二乘法作为参数的估计方法,是近代数理统计学发展初期的重大事件。英国生物学家高尔顿(F.Gal
4、ton,18221911)在回归方面的先驱性工作,也是这个时期中的主要发展,他在遗传研究中为了弄清父子两辈特征的相关关系,揭示了统计方法在生物学研究中的应用,他引进回归直线、相关系数的概念,创始了回归分析。高尔顿的学生皮尔逊(K.Pearson,18561936)在1900年提出了检验拟合优度的统计量。他还提出了矩估计法。皮尔逊的学生英国医生戈塞特(W.S.Gosset,笔student18761937)于1908年导出了t的精确分布,开了小样本理论的先河。英国实验遗传学家兼统计学家费歇尔(18901962),是将数理统计作为一门数学学科的奠基者,在样本相关系数的分布、方差分析、实验设计等方面
5、的研究中做出了重要贡献。第5页,本讲稿共100页统计描述统计分析统计推断假设检验假设检验参数估计参数估计区间估计区间估计点估计点估计统计指标统计指标集中趋势指标集中趋势指标 离散趋势指标离散趋势指标统计图表总总 体体抽样抽样推断推断样样本本第6页,本讲稿共100页 培训大纲培训大纲 一、发展简史一、发展简史一、发展简史一、发展简史 二、二、二、二、数理统计的基本知识数理统计的基本知识数理统计的基本知识数理统计的基本知识 三、随机变量的数字特征三、随机变量的数字特征三、随机变量的数字特征三、随机变量的数字特征 四、分布四、分布四、分布四、分布 五、假设检验五、假设检验五、假设检验五、假设检验第7
6、页,本讲稿共100页1、随机现象随机现象、随机事件随机事件与与随机变量随机变量 随机现象随机现象:某些现象发生的结果在:某些现象发生的结果在一次观察一次观察中具有中具有不确定性不确定性,而在大量的,而在大量的重复观察重复观察中中表现出表现出某种某种规律性规律性。随机事件随机事件:进行随机试验时,某事件在一定条件下可能出现也可能不出现,:进行随机试验时,某事件在一定条件下可能出现也可能不出现,其结果事先不能肯定,该事件则是随机事件。其结果事先不能肯定,该事件则是随机事件。随机变量随机变量:用来代表:用来代表随机事件随机事件的的变量变量。2 2、概率概率与与频率频率 频率频率:某变量值出现的次数(
7、频数):某变量值出现的次数(频数)/重复观察的总次数。重复观察的总次数。对一个随机事件重复观察时,尽管每进行对一个随机事件重复观察时,尽管每进行n n次试验,所得到的频率可能次试验,所得到的频率可能各不相同,但随着各不相同,但随着n n的增大,频率会逐渐稳定在的增大,频率会逐渐稳定在某个常数附近波动某个常数附近波动。频率的稳定性说明随机事件发生的可能性大小是事件本身固有的一种客频率的稳定性说明随机事件发生的可能性大小是事件本身固有的一种客观属性。观属性。概率概率:表示:表示随机事件随机事件发生可能性大小的发生可能性大小的数值数值。(。(用用P P表示表示)通常由)通常由频率的稳定值频率的稳定值
8、反反映。映。确定性事件:确定性事件:(1 1)必然事件必然事件P=1P=1,(2 2)不可能事件)不可能事件P=0P=0;随机性事件随机性事件:概率概率取值介于取值介于0 01 1之间。之间。概率越接近概率越接近0 0,表明事件发生的可能性越小。,表明事件发生的可能性越小。概率越接近概率越接近1 1,表明事件发生的可能性越大。,表明事件发生的可能性越大。第8页,本讲稿共100页 概率概率和和频率频率有区别:有区别:频率频率是是已经已经进行进行试验的结果,描述的是试验的结果,描述的是样本样本中事件出现的可中事件出现的可能性大小(样本信息),能性大小(样本信息),样本不同,其值也不同样本不同,其值
9、也不同,具有,具有偶然性偶然性;概率概率刻画的则是刻画的则是总体总体中随机事件出现的可能性大小(总体信中随机事件出现的可能性大小(总体信息),是一种客观存在,息),是一种客观存在,是个确定数值是个确定数值,具有,具有必然性必然性。3、小概率原理、小概率原理:概率很小的随机事件在概率很小的随机事件在一次或少量一次或少量实际观察中是不可能发生实际观察中是不可能发生的(尽管理论上有发生的可能)的(尽管理论上有发生的可能)小概率:小概率:P0.05或或P0.014、总体和个体、总体和个体在统计学中,常把所研究对象的全体称为总体在统计学中,常把所研究对象的全体称为总体,而把组成总体而把组成总体的每个元素
10、叫做的每个元素叫做个体个体。总体总体:指:指同质同质的观察单位某种变量值的集合;(同质是指的观察单位某种变量值的集合;(同质是指被研究被研究指标指标的主要的主要影响因素影响因素相同)相同)总体根据有无时间和空间的限制又分为总体根据有无时间和空间的限制又分为有限总体有限总体和和无限总体无限总体第9页,本讲稿共100页5、样本、样本抽样抽样:为了推断总体的性态而从总体中抽取部分个体的过程。为了推断总体的性态而从总体中抽取部分个体的过程。简单随机抽样简单随机抽样:抽取的个体是相互独抽取的个体是相互独立的随机变量且都与总体同分布的抽样。立的随机变量且都与总体同分布的抽样。由简单随机抽样所得样本由简单随
11、机抽样所得样本(X1,X2,Xn)称为称为简单随机样本简单随机样本。从总体从总体X中随机抽取中随机抽取n个个体个个体X1,X2,Xn所组成的一个个体组所组成的一个个体组(X1,X2,Xn),),称为总体称为总体X的一个样本,个体的数目的一个样本,个体的数目n 称为称为样本容样本容量量。通过试验对样本通过试验对样本(X1,X2,Xn)进行观测,得到的进行观测,得到的n个确定的实个确定的实验数据验数据(x1,x2,xn),称为样本称为样本(X1,X2,Xn)的一个的一个观察值观察值,简称,简称 样样本值本值,也称为样本的一次实现。也称为样本的一次实现。第10页,本讲稿共100页6、变异变异与与抽样
12、误差抽样误差 同质条件:都是鼻咽癌患者同质条件:都是鼻咽癌患者 都用相同治疗方法变异都用相同治疗方法变异现象:疗效各不相同现象:疗效各不相同 变异变异:指:指同质事物同质事物间的间的差异差异。是客观存在的现象,可。是客观存在的现象,可分为以下两类:分为以下两类:(1)个体变异个体变异:指同一特征或同一条件下个体间:指同一特征或同一条件下个体间的差异。的差异。(2)随机测量变异随机测量变异:指同一个体:指同一个体重复观测重复观测结果未必结果未必相等的现象。相等的现象。第11页,本讲稿共100页7、抽样、抽样 随机抽样:随机抽样:在抽样过程中,要使总体中的每一个观察对象都在抽样过程中,要使总体中的
13、每一个观察对象都 有同等机会被抽中成为样本。有同等机会被抽中成为样本。抽样研究的目的:抽样研究的目的:利用样本信息估计或推断总体特征利用样本信息估计或推断总体特征。样本样本要具备以下两个条件:要具备以下两个条件:(1)可靠性可靠性:样本中的每一个个体均来自样本中的每一个个体均来自既定既定的的同一总体同一总体 (2)代表性代表性:样本要由样本要由随机抽样随机抽样获得;并且要抽取获得;并且要抽取一定的数量一定的数量;分层抽分层抽样。样。第12页,本讲稿共100页8、统计资料的类型、统计资料的类型 (1)、)、数值变量数值变量资料(资料(计量计量资料)资料)用用定量定量的方法(仪器、实验)对观察对象
14、的某项指标进行测量所得的方法(仪器、实验)对观察对象的某项指标进行测量所得到的到的数值数值(有度量单位有度量单位、可以是、可以是小数、连续性资料小数、连续性资料)。)。(2)、分类变量资料:)、分类变量资料:是将观察单位按某种属性或类别分组,然后清点各组观察单位的个数所得是将观察单位按某种属性或类别分组,然后清点各组观察单位的个数所得的数据(的数据(无度量单位无度量单位、整数整数、离散性资料离散性资料)分类变量又可分为分类变量又可分为有序分类有序分类和和无序分类无序分类两种情况:两种情况:、无序分类变量资料无序分类变量资料(计数资料计数资料)二项分类二项分类:按属性或类别分组时,分成对立的:按
15、属性或类别分组时,分成对立的两种属性或类别两种属性或类别;如阳性与阴性、有效与;如阳性与阴性、有效与无效无效 多项分类:按属性或类别分组时,分成互不相容的几种属性或类别;如血型多项分类:按属性或类别分组时,分成互不相容的几种属性或类别;如血型A型、型、B型、型、O型、型、AB型型 、有序分类变量资料(等级资料):、有序分类变量资料(等级资料):将观察单位按某种属性的不同程度、档次或等级分类,然后清点各等级类别所得的将观察单位按某种属性的不同程度、档次或等级分类,然后清点各等级类别所得的观察单位数。观察单位数。*有序分类变量资料与多项分类资料的区别:有序分类变量资料与多项分类资料的区别:各等级类
16、别有程度上的差别(这种差别按顺序排列,任何两类别的排序不能替换)各等级类别有程度上的差别(这种差别按顺序排列,任何两类别的排序不能替换)*多项分类资料多项分类资料根据分析需要:各类变量资料之间可以互相转化根据分析需要:各类变量资料之间可以互相转化第13页,本讲稿共100页如如如如:9、统计量、统计量 纯粹由样本而构成(不含其它未知参数)的函数纯粹由样本而构成(不含其它未知参数)的函数 g(X1,X2,Xn)称为称为统计量统计量。注:注:统计量通常也是随机变量。统计量通常也是随机变量。10、切比雪夫不等式(Chebyshevsinequality)对于任一随机变量X,若EX与DX均存在,则对任意
17、0,恒有P|X-EX|=DX/2或P|X-EX|=1-DX/2、如果一组数据不是对称分布,经验法则就不再使用,这时可使用切比雪夫不等式,它对任何分布形状的数据都适用、切比雪夫不等式提供的是“下界”,也就是“所占比例至少是多少”、K=2=75%K=3=89%K=4=94%,第14页,本讲稿共100页1111、几种基本的统计量、几种基本的统计量15设设(X1,X2,Xn)为总体为总体X的样本,的样本,样本均值样本均值样本样本k阶阶(原点原点)矩矩样本样本k阶中心矩阶中心矩注注 1)1)以上统计量又称为以上统计量又称为样本的数字特征样本的数字特征;另外在不混淆的情况下另外在不混淆的情况下,对于总体对
18、于总体X的期望的期望E(X)和方差和方差D(X)也分别称为均值和方差也分别称为均值和方差,分别记为分别记为,2 2.2)2)样本方差样本方差 S2 S2 稍不同于稍不同于样本的样本的2 2阶中心矩阶中心矩M2M2。3)称为样本的偏差平方和称为样本的偏差平方和 性质性质:设总体设总体X的期望为的期望为,方差为方差为 2,则,则与与 相互独立相互独立.第15页,本讲稿共100页12、频数表频数表:频数频数(f):相同观察值相同观察值(或观察结果或观察结果)出现的次数出现的次数 观察值及其相应的频数按一定顺序排列的表格观察值及其相应的频数按一定顺序排列的表格.频数表编制步骤如下频数表编制步骤如下:1
19、 1、找、找极值极值:即找出最大值即找出最大值(Xmax=19.84)(Xmax=19.84)和最小值和最小值(Xmin=9.23)(Xmin=9.23)2 2、求、求 全距全距(R):(R):本例本例R=XmaxR=Xmax Xmin=10.61Xmin=10.613 3、定、定组段组段与与组数组数:组段组段指各组的起止范围指各组的起止范围;组数组数指组段的个数指组段的个数(用用k)k)表示表示;频数表一频数表一般设般设10101515个组段个组段,这里取这里取k=10k=10。4 4、求、求组距组距(i):(i):等距分组时等距分组时i=R/(ki=R/(k1)1)本例本例i=10.61/
20、10=1.0611i=10.61/10=1.06115 5、列、列组限组限:(1)(1)每个组段的起点为下限每个组段的起点为下限,终止点为上限终止点为上限(2)(2)第一组段下限取等于或略小于第一组段下限取等于或略小于XminXmin的整数的整数,其余各个组段依次累加其余各个组段依次累加i i作下限作下限6 6、划记、划记归组归组:二、二、频数图频数图:在频数表的基础上在频数表的基础上,以直方的以直方的面积大小面积大小表示表示频数的多少频数的多少,以直方的面积以直方的面积占总面积的比例表示占总面积的比例表示频率频率大小的图形大小的图形第16页,本讲稿共100页120例正常成年人血清铜含量频数表
21、例正常成年人血清铜含量频数表第17页,本讲稿共100页频数分布特征频数分布特征(两方面特征两方面特征)1、集中趋势集中趋势:14组段组段(居中组段居中组段)频数最多频数最多,其它组段的频数分布其它组段的频数分布向其向其靠拢靠拢.2、离散趋势离散趋势:居中组段两侧的频数逐渐居中组段两侧的频数逐渐减少减少频数分布的类型频数分布的类型1、对称分布对称分布:集中位置居中集中位置居中,两侧基本对称的频数分布两侧基本对称的频数分布频数表的用途频数表的用途1 1、揭示资料的、揭示资料的分布类型分布类型 2 2、反映频数的、反映频数的集中趋势集中趋势和和离散趋势离散趋势3 3、便于发现某些特大或特小的、便于发
22、现某些特大或特小的可疑值可疑值4 4、便于进一步计算、便于进一步计算统计指标统计指标和作和作统计处理统计处理第18页,本讲稿共100页 培训大纲培训大纲 一、发展简史一、发展简史 二、数理统计的基本知识二、数理统计的基本知识 三、三、随机变量的数字特征随机变量的数字特征随机变量的数字特征随机变量的数字特征 四、分布四、分布四、分布四、分布 五、假设检验五、假设检验五、假设检验五、假设检验第19页,本讲稿共100页集中趋势(centraltendency)1.1.一一组数据向其中心值靠拢的倾向和程度组数据向其中心值靠拢的倾向和程度2.2.测度集中趋势就是寻找数据一般水平的代表值测度集中趋势就是寻
23、找数据一般水平的代表值/中心值中心值3.3.不同类型的数据用不同的集中趋势测度值不同类型的数据用不同的集中趋势测度值4.4.集中趋势只是数据分布的一个特征,它所反映的是总体各单位变量值向其中心值集中趋势只是数据分布的一个特征,它所反映的是总体各单位变量值向其中心值聚集的程度聚集的程度。集中趋势特征值集中趋势特征值:均数、中位数、众数均数、中位数、众数第20页,本讲稿共100页1、平均数、平均数指标体系:反映一组观察值的集中位置或平均水平;常用的有指标体系:反映一组观察值的集中位置或平均水平;常用的有均数均数、几何均数几何均数、中位数中位数(1)、算术均数(均数)算术均数(均数):特点特点:对观
24、察值进行数量上的平均,适用于均匀分布或近似正态分布的资料。:对观察值进行数量上的平均,适用于均匀分布或近似正态分布的资料。各变量值与平均数的离差之和等于零均值是统计分布的均衡点均值是统计分布的均衡点各变量值与平均数的离差平方和最小各变量值与平均数的离差平方和最小计算均数时,应:计算均数时,应:、应做正态性假设检验、应做正态性假设检验、均数受极端值影响较大、均数受极端值影响较大(2)、几何均数:、几何均数:n个数值连乘的个数值连乘的n次方根次方根特点:是比例或倍数上的平均,适用于成比例(或成倍数)关系的资料。特点:是比例或倍数上的平均,适用于成比例(或成倍数)关系的资料。主要用于计算平均增长率、
25、平均发展速度第21页,本讲稿共100页(3)、切尾均值)、切尾均值(trimmed mean)去掉大小两端的若干数值后计算中间数据的均值在电视大奖赛、体育比赛及需要人们进行综合评价的比赛项目中已得到广泛应用。计算公式为 n n 表示观察值的个数;表示观察值的个数;表示切尾系数表示切尾系数性质:、=0,切尾均值就是算数平均数、1/2,切尾均值就是中位数、改变的值可以选择集中趋势的测度值、切尾均值是结合了均值利用数据信息充分和中位数不受极端值影响的两个有点而形成的新型统计量第22页,本讲稿共100页2、中位数中位数(Median):将一组观察值按大小顺序排列,位次居中的数值;):将一组观察值按大小
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数理统计 基础
限制150内