应用统计学电子教案完整版.ppt
第一章第一章绪绪论论第一节第一节统计的产生与发展统计的产生与发展第二节第二节统计研究的特点、统计研究的特点、方法和作用方法和作用本章小节本章小节主主要要内内容容第一节第一节统计的产生与发展统计的产生与发展一、统计与统计学一、统计与统计学统计学是研究如何对社会总体的数量特统计学是研究如何对社会总体的数量特征和规律进行描述、推断、认识的一门学科。征和规律进行描述、推断、认识的一门学科。从字面上直观理解,从字面上直观理解,“统计统计”是指对大量事是指对大量事物进行汇总计数,因此可以简单地说统计就物进行汇总计数,因此可以简单地说统计就是总起来计量,即统而计之。例如计算全国是总起来计量,即统而计之。例如计算全国的总人口数、国内生产总值,计算某个企业的总人口数、国内生产总值,计算某个企业的职工人数、产品产量,甚至是计算某个家的职工人数、产品产量,甚至是计算某个家庭每月的收入和支出等等都是统计。庭每月的收入和支出等等都是统计。一、统计与统计学一、统计与统计学 统计活动一般按照统计设计、统计调查、统计整统计活动一般按照统计设计、统计调查、统计整理、统计分析和统计资料的开发利用这几个阶段依理、统计分析和统计资料的开发利用这几个阶段依次进行。如图次进行。如图1.1.1所示。所示。二、统计的产生与发展二、统计的产生与发展 统计产生统计产生原始社会后期:原始社会后期:统计萌芽于计数活动;统计萌芽于计数活动;奴隶制国家产生:使统计日显重要;奴隶制国家产生:使统计日显重要;封建社会时期:封建社会时期:统计已具规模;统计已具规模;资本主义的兴起:统计扩展到社会经济各方面。资本主义的兴起:统计扩展到社会经济各方面。统计学作为一门系统的科学,距今已统计学作为一门系统的科学,距今已有有300多年的历史。多年的历史。二、统计的产生与发展二、统计的产生与发展 统计发展统计发展 按照统计学的发展历程,我们可以把统计学划分为按照统计学的发展历程,我们可以把统计学划分为古典统计学、近代统计学和现代统计学三个时期,古典统计学、近代统计学和现代统计学三个时期,如图如图1.1.2所示。所示。(一)统计学学派(一)统计学学派1德国的记述学派(国势学派德国的记述学派(国势学派 康令康令 (16061681)阿痕瓦尔(阿痕瓦尔(17191772:1764年首创统计学一词)年首创统计学一词)他们在大学中开设他们在大学中开设“国势学国势学”采用记述性材料,采用记述性材料,讲述国家讲述国家“显著事项显著事项”,籍以说明管理国家的方法。,籍以说明管理国家的方法。特点是偏重于事物质的解释而忽视量的分析。特点是偏重于事物质的解释而忽视量的分析。三、统计学学派与统计学学科体系三、统计学学派与统计学学科体系(二)统计学的近代期(二)统计学的近代期(18世纪末世纪末19世纪末)世纪末)2政治算术学派政治算术学派代表人物:代表人物:英国的威廉英国的威廉配第、约翰配第、约翰格朗特等格朗特等。威廉威廉配第的代表著配第的代表著政治算术政治算术对当时的英、荷、对当时的英、荷、法等国的法等国的“国富和力量国富和力量”进行了数量的计算和比较;进行了数量的计算和比较;格朗特写出了第一本关于人口统计的著作。他们开格朗特写出了第一本关于人口统计的著作。他们开创了从数量方面研究社会经济现象的先例。创了从数量方面研究社会经济现象的先例。三、统计学学派与统计学学科体系三、统计学学派与统计学学科体系三、统计学学派与统计学学科体系三、统计学学派与统计学学科体系数理统计学派数理统计学派代表人物:法国的拉普拉斯,比利时的代表人物:法国的拉普拉斯,比利时的凯特勒。拉普拉斯把古典概率论引进统计学,凯特勒。拉普拉斯把古典概率论引进统计学,发展了概率论,推广了概率论在统计中的应发展了概率论,推广了概率论在统计中的应用。用。凯特勒凯特勒把德国的国势学派、英国的政治把德国的国势学派、英国的政治算术学派和意大利、法国的古典概率论家以算术学派和意大利、法国的古典概率论家以融合改造为近代意义的统计学。他是数理统融合改造为近代意义的统计学。他是数理统计学派的奠定人,有计学派的奠定人,有“统计学之父统计学之父”之称。之称。4社会统计学派社会统计学派 代表人物:德国的克尼斯、恩格尔、梅尔等。代表人物:德国的克尼斯、恩格尔、梅尔等。他们强调统计学是研究社会现象的科学,他们强调统计学是研究社会现象的科学,包括统计资料的搜集、整理和分析研究,目的包括统计资料的搜集、整理和分析研究,目的是要揭示现象内部的联系。是要揭示现象内部的联系。三、统计学学派与统计学学科体系三、统计学学派与统计学学科体系三、统计学学派与统计学学科体系三、统计学学派与统计学学科体系(二)统计学学科体系(二)统计学学科体系理论统计学理论统计学指统计学的数指统计学的数学原理,它根植学原理,它根植于纯数学的一个于纯数学的一个领域领域概率论。概率论。应用统计学应用统计学将统计学的基本原理应用于各个领将统计学的基本原理应用于各个领域就形成各种各样的应用统计学。它域就形成各种各样的应用统计学。它包括一整套统计分析方法,有的是适包括一整套统计分析方法,有的是适用于各个领域的一般性的统计方法,用于各个领域的一般性的统计方法,如数据收集与整理、参数估计、假设如数据收集与整理、参数估计、假设检验、方差分析、相关与回归等。有检验、方差分析、相关与回归等。有的则是某一专业领域中特有的分析方的则是某一专业领域中特有的分析方法,例如经济统计学中的指数分析法、法,例如经济统计学中的指数分析法、统计决策及产品质量统计管理等。统计决策及产品质量统计管理等。理论统计学理论统计学数理统计学数理统计学数理统计学是应用数学的一个分支,在这里作为统计学数理统计学是应用数学的一个分支,在这里作为统计学的一个分支,它以概率论等数学理论为基础,研究随机现象的一个分支,它以概率论等数学理论为基础,研究随机现象的数量规律,是一门纯方法论的科学,为其它学科提供数学的数量规律,是一门纯方法论的科学,为其它学科提供数学分析和推断的方法与技术。分析和推断的方法与技术。统计学原理统计学原理 统计学原理是在统计实践的基础上,对统计理论方法的统计学原理是在统计实践的基础上,对统计理论方法的最一般概括,内容包括统计的对象和任务,统计的理论基础最一般概括,内容包括统计的对象和任务,统计的理论基础和方法论基础,以及关于统计活动各个环节的理论和方法。和方法论基础,以及关于统计活动各个环节的理论和方法。统计学原理中结合了数学、概率论和数理统计学的知识,又统计学原理中结合了数学、概率论和数理统计学的知识,又是统计实践经验的高度总结,是指导统计实践活动的科学依是统计实践经验的高度总结,是指导统计实践活动的科学依据。一般所说的统计学就是指统计学原理。据。一般所说的统计学就是指统计学原理。社会经济统计学社会经济统计学 社会经济统计学是将理论统计学应用于社会经社会经济统计学是将理论统计学应用于社会经济领域,以社会、经济、人口、科技和文化等人类济领域,以社会、经济、人口、科技和文化等人类自身及其活动为对象的统计方法论,为对社会经济自身及其活动为对象的统计方法论,为对社会经济现象数量特征进行的调查研究提供原理、原则和方现象数量特征进行的调查研究提供原理、原则和方式方法。式方法。自然统计学自然统计学 自然统计学是将理论统计学应用于自然现象领域,自然统计学是将理论统计学应用于自然现象领域,是探索地理、地质、气候、天文、生物等非人类现是探索地理、地质、气候、天文、生物等非人类现象的数量关系和数量规律的统计方法论。其中较为象的数量关系和数量规律的统计方法论。其中较为重要的分支有生物统计学、气象统计学、天文统计重要的分支有生物统计学、气象统计学、天文统计学等。学等。应用统计学应用统计学(三)(三)统计学与其他学科的关系统计学与其他学科的关系 统计学和数学的关系统计学和数学的关系统计学中具有方法论性质的数理统计学是统计学中具有方法论性质的数理统计学是应用数学的一个分支,因此统计学与数学的关应用数学的一个分支,因此统计学与数学的关系十分密切,且与其他的应用数学有一定的共系十分密切,且与其他的应用数学有一定的共性。如和数学中的有关定理一样,统计中的一性。如和数学中的有关定理一样,统计中的一些分布也是客观现象数量特征的一种抽象。些分布也是客观现象数量特征的一种抽象。统计学与其他的数学分支相比又有其特殊性。统计学与其他的数学分支相比又有其特殊性。(1)处理的数据不同。处理的数据不同。(2)处理的方法不同。处理的方法不同。(三)(三)统计学与其他学科的关系统计学与其他学科的关系统计学与其他专门学科的关系统计学与其他专门学科的关系统计方法一般的数据分析方法适用于统计方法一般的数据分析方法适用于其他任何科学中的偶然现象,因此它与很其他任何科学中的偶然现象,因此它与很多专门学科都有关系。多专门学科都有关系。但是统计方法只是但是统计方法只是从事物的外在数量表现去推断该事物可能从事物的外在数量表现去推断该事物可能的规律性的规律性,它本身不能说明何以会有这个,它本身不能说明何以会有这个规律性,这是各专门学科的任务。规律性,这是各专门学科的任务。第二节第二节统计研究的特点、方法和作用统计研究的特点、方法和作用统计研究的特点统计研究的特点第二节第二节统计研究的特点、方法和作用统计研究的特点、方法和作用数量性数量性“数字是统计的语言数字是统计的语言”,数量性是统计研究,数量性是统计研究的基本特点,统计研究系统如图的基本特点,统计研究系统如图1.2.1所示所示.统计研究的特点统计研究的特点总体性总体性统计研究就是总的、综合的数量研究。统计研究就是总的、综合的数量研究。一般理解的总体是指统计总体,是由同类一般理解的总体是指统计总体,是由同类个体组成的集合体,如人口总体、企业总个体组成的集合体,如人口总体、企业总体、商品总体等等,这时统计研究的目的体、商品总体等等,这时统计研究的目的不是计量个体的特征表现,而是对个体的不是计量个体的特征表现,而是对个体的特征表现进行统计整理和统计分析,得到特征表现进行统计整理和统计分析,得到总体的综合的数量特征。总体的综合的数量特征。具体性具体性具体性即客观性。统计对象是具体的,具体性即客观性。统计对象是具体的,是客观存在的事物或现象。统计数据包是客观存在的事物或现象。统计数据包括原始数据和计算结果,都是客观现象括原始数据和计算结果,都是客观现象在一定时间、地点、条件下的数量表现,在一定时间、地点、条件下的数量表现,是具体的数据。是具体的数据。统计研究的特点统计研究的特点统计研究的方法统计研究的方法按照统计工作的不同阶段和作用列出的常用统计方法如图按照统计工作的不同阶段和作用列出的常用统计方法如图1.2.2所示。所示。大量观测法大量观测法所谓大量观测法就是对所研究的客观现象总体所谓大量观测法就是对所研究的客观现象总体中的全部或者足够多的个体进行观测以达到正确认中的全部或者足够多的个体进行观测以达到正确认识总体的目的。大量观测法不是一种具体的应用方识总体的目的。大量观测法不是一种具体的应用方法,而是研究客观现象总体数量特征的重要思想方法,而是研究客观现象总体数量特征的重要思想方法和原则,是统计研究的指导原则。法和原则,是统计研究的指导原则。统计实验法和统计调查法统计实验法和统计调查法 统计实验法是按照一个设定的实验程序,观测统计实验法是按照一个设定的实验程序,观测现象开始实验以后的数量特征,根据实验收集的资现象开始实验以后的数量特征,根据实验收集的资料进行整理、分析,得到对现象总的认识。料进行整理、分析,得到对现象总的认识。统计调查法指主要依靠调查人员,通过各种途统计调查法指主要依靠调查人员,通过各种途径收集所研究现象的数据资料,包括历史资料和现径收集所研究现象的数据资料,包括历史资料和现实资料。实资料。统计研究的方法统计研究的方法统计描述法和统计推断法统计描述法和统计推断法统计描述法统计描述法是综合描述的方法,是通过对所是综合描述的方法,是通过对所收集的数据进行加工处理,计算综合性的统计指收集的数据进行加工处理,计算综合性的统计指标,描述所研究现象总体数量特征和数量关系的标,描述所研究现象总体数量特征和数量关系的方法。根据所描述问题的特点,可以具体使用综方法。根据所描述问题的特点,可以具体使用综合指标法和数学模型法。合指标法和数学模型法。统计推断法统计推断法是在对已知事物进行描述的基础是在对已知事物进行描述的基础上,对未知事物进行推断的方法。根据推断的内上,对未知事物进行推断的方法。根据推断的内容不同可分为抽样估计法以及假设检验法等。容不同可分为抽样估计法以及假设检验法等。统计研究的方法统计研究的方法统计具有以下三个方面的作用:统计具有以下三个方面的作用:提供信息服务提供信息服务提供统计信息是统计的信息职能,是统计的首要职能。提供统计信息是统计的信息职能,是统计的首要职能。提供咨询服务提供咨询服务 提供咨询服务是统计的咨询职能。统计工作的任务不提供咨询服务是统计的咨询职能。统计工作的任务不仅要完成提供信息的基本任务,还要进一步利用已经掌仅要完成提供信息的基本任务,还要进一步利用已经掌握的各种统计信息资料,为政府、企业以及个人等提供握的各种统计信息资料,为政府、企业以及个人等提供各种咨询建议和对策方案。各种咨询建议和对策方案。提供监督服务提供监督服务 提供监督服务是统计的监督职能。监督职能是指根据提供监督服务是统计的监督职能。监督职能是指根据长期的大量的统计信息,按照标准监督客观现象发展变长期的大量的统计信息,按照标准监督客观现象发展变化状况,确定其是否正常,有无警情。化状况,确定其是否正常,有无警情。统计研究的作用统计研究的作用例例1.1边际消费倾向边际消费倾向(Marginal Propensity to Consume)例例1.2投资乘数(投资乘数(InvestmentMultiplier)应用实例应用实例 例例1.3.3 增长率问题增长率问题(Growth Rate)本章小节本章小节统计统计是对变量观测值产生的变异性的研究;是对变量观测值产生的变异性的研究;统计学统计学(statistics)是收集、描述和解释数据的科学,是科是收集、描述和解释数据的科学,是科学的一种普遍性语言。学的一种普遍性语言。统计方法统计方法包括:收集资料方法;整理资料方法;统计分析包括:收集资料方法;整理资料方法;统计分析方法等。方法等。统计分析方法统计分析方法是统计方法的核心,统计分析方法可以分为是统计方法的核心,统计分析方法可以分为两部分:两部分:描述性统计和推断性统计。描述性统计和推断性统计。描述性统计描述性统计是通过对所收集的数据进行加工处理,计算综合性的统是通过对所收集的数据进行加工处理,计算综合性的统计指标,描述所研究现象总体数量特征和数量关系的方法;计指标,描述所研究现象总体数量特征和数量关系的方法;推断性统计推断性统计阐明如何利用样本数据来推断被抽样总体的性质,并按阐明如何利用样本数据来推断被抽样总体的性质,并按规定的置信度来实现这种推断。规定的置信度来实现这种推断。统计过程统计过程的一个非常重要的部分是研究统计的结果和给的一个非常重要的部分是研究统计的结果和给出恰当的结论,这些结论必须正确地被表达,不能随意添出恰当的结论,这些结论必须正确地被表达,不能随意添加,除非还有其他的信息。加,除非还有其他的信息。第三章第三章抽样分布抽样分布第一节第一节随机样本随机样本第二节第二节抽样分布抽样分布本章小节本章小节主主要要内内容容第一节第一节随机样本随机样本 在统计学中,我们研究的问题一般集中在在统计学中,我们研究的问题一般集中在研究对研究对象的某一数量指标象的某一数量指标。比如某型号的电子元器件的寿比如某型号的电子元器件的寿命、一批某种产品的合格率等。因而,需要考虑通过命、一批某种产品的合格率等。因而,需要考虑通过与这一数量指标相联系的随机试验,来对这一数量指与这一数量指标相联系的随机试验,来对这一数量指标进行试验或观测。标进行试验或观测。我们将试验的我们将试验的全部可能的观测值全部可能的观测值称为称为总体总体,每一每一个观测值个观测值称为称为个体个体,总体总体中所包含的中所包含的个体数个体数称为称为总体总体的容量的容量。容量为有限的称为。容量为有限的称为有限总体有限总体,否则称为,否则称为无限无限总体总体。3.1关于抽样的基本概念关于抽样的基本概念为什么要抽样为什么要抽样?为了收集必要的资料,对所研究对象(总体)的为了收集必要的资料,对所研究对象(总体)的全部元素逐一进行观测,往往不很现实。全部元素逐一进行观测,往往不很现实。抽抽样样原原因因元素多,搜集数据费元素多,搜集数据费时、费用大,不及时而时、费用大,不及时而使所得的数据无意义使所得的数据无意义总体庞大总体庞大,难以对难以对总体的全部元素总体的全部元素进行研究进行研究检查具有破坏性检查具有破坏性炮弹、灯管、砖等炮弹、灯管、砖等第一节第一节随机样本随机样本简单随机抽样(简单随机抽样(x1,x2,xn):简单随机抽样是指从总体中抽取样本容量为简单随机抽样是指从总体中抽取样本容量为n的样的样本时,本时,x1,x2,xn这这n个随机变量必须具备以下个随机变量必须具备以下两个条件:两个条件:这这n个随机变量与总体个随机变量与总体X具有具有相同的概率分布相同的概率分布;它们之间它们之间相互独立相互独立。第一节第一节随机样本随机样本甲乙丙丁四个生产商,其产品质量如下表所示:甲乙丙丁四个生产商,其产品质量如下表所示:如果仅从如果仅从AB两个生产商的产品中进行抽样,抽样两个生产商的产品中进行抽样,抽样质量就偏高;如果仅从质量就偏高;如果仅从CD两个生产商的产品中进行抽两个生产商的产品中进行抽样,抽样质量就偏低;样,抽样质量就偏低;因此采用简单随机抽样保证因此采用简单随机抽样保证随机样本随机样本与与总体总体具有具有相同的概率分布。相同的概率分布。ABCD质量质量高高高高低低低低样本统计量与抽样分布样本统计量与抽样分布:在简单随机抽样中,样本具有随机性,样本的在简单随机抽样中,样本具有随机性,样本的参数参数,s2等也会随着样本不同而不同,故它们是样等也会随着样本不同而不同,故它们是样本的函数,记为本的函数,记为g(x1,x2,xn),称为样本),称为样本统计量。统计量。统计量的概率分布称为抽样分布(统计量的概率分布称为抽样分布(Sampledistribution)3.1关于抽样的基本概念关于抽样的基本概念第一节第一节随机样本随机样本3.1关于抽样的基本概念关于抽样的基本概念第二节第二节抽样分布抽样分布 一、一、统计量统计量 定义定义不含有任何未知参数的样本的函数,称为统计不含有任何未知参数的样本的函数,称为统计量量。显然,统计量为随机变量。显然,统计量为随机变量。几个常用统计量几个常用统计量样本矩(样本均值;样本方差;原点矩,中心样本矩(样本均值;样本方差;原点矩,中心矩等)矩等)几个常用统计量几个常用统计量二、几个常用的抽样分布二、几个常用的抽样分布 抽样分布的定义抽样分布的定义 统计量的分布称为抽样分布。统计量的分布称为抽样分布。来自正态总体的几个常用统计量的分布,已来自正态总体的几个常用统计量的分布,已有一些重要的结果(人们已经获得这些统计量的有一些重要的结果(人们已经获得这些统计量的具体的分布密度函数)。下面介绍来自正态总体具体的分布密度函数)。下面介绍来自正态总体的几个常用统计量的分布。的几个常用统计量的分布。第二节第二节抽样分布抽样分布 几几种种概概率率分分布布正态分布正态分布 分布分布 F F分布分布 t t分布分布几种与正态分布有关的概率分布几种与正态分布有关的概率分布若随机变量若随机变量X的概率密度函数的概率密度函数记为记为 1.正态分布正态分布图图4-14-1一般正态分布一般正态分布1.正态分布正态分布标准正态分布标准正态分布:当当时,时,记为记为U N(0,1)图图3-13-1标准正态分布标准正态分布1.正态分布正态分布非标准正态分布向标准正态分布的转化非标准正态分布向标准正态分布的转化若若标准化因子标准化因子则则U N(0,1)1.正态分布正态分布查表查表当当u大于零时,可查正态分布表大于零时,可查正态分布表但如果但如果u0时,则可由式时,则可由式(u)=1(u)求出求出1.正态分布正态分布线性性质:线性性质:如果如果,且相互独立。且相互独立。对于常数对于常数,有下式成立:,有下式成立:1.正态分布正态分布2.分布分布设设 是来自总体是来自总体 的样本,则称统的样本,则称统计量计量为为服从自由度为服从自由度为 的的 分布,记为分布,记为的一个重要性质:可加性的一个重要性质:可加性图图3-23-22 2分布图分布图2.分布分布查表:查表:对于给定的对于给定的,00.1时则时则称式称式为有限总体的修正系数为有限总体的修正系数。4.3样本平均数的抽样分布样本平均数的抽样分布5.基于正态总体样本的均值与方差的分布基于正态总体样本的均值与方差的分布 从总体中抽取样本容量为从总体中抽取样本容量为n的简单随的简单随机样本,当样本容量机样本,当样本容量n30时,样本均时,样本均值值的抽样分布可用的抽样分布可用正态概率分布近似。正态概率分布近似。中心极限定理中心极限定理5.基于正态总体样本的均值与方差的分布基于正态总体样本的均值与方差的分布(四)基于正态总体样本的均值与方差的分布(四)基于正态总体样本的均值与方差的分布 设设来自正态总体来自正态总体的样本,的样本,分别为样本的均值和方差。则分别为样本的均值和方差。则设设为来自正态总体为来自正态总体的样本,的样本,为来自正态总体为来自正态总体的样本的样本,分别为两个样本的均值和方差。则分别为两个样本的均值和方差。则当当时,则时,则三、三、样本比例的抽样分布样本比例的抽样分布(一)重复抽样下样本比例的抽样分布(一)重复抽样下样本比例的抽样分布 可以证明,(二)不重复抽样下样本比例的抽样分布(二)不重复抽样下样本比例的抽样分布 可以证明,本章本章小结小结统计量是统计推断的基本变量。统计量是统计量是统计推断的基本变量。统计量是不含不含有任何未知参数的样本的函数有任何未知参数的样本的函数。统计量的分布称为抽样分布。统计量的分布称为抽样分布。对于正态总体,我们给出了几个常用的统计量对于正态总体,我们给出了几个常用的统计量的分布。的分布。对于实际应用中的比率问题,给出了大样本下对于实际应用中的比率问题,给出了大样本下的抽样分布。的抽样分布。思考题思考题 思考题思考题 思考题思考题案例讨论题案例讨论题在在1936年的美国总统选举中有两位候选人,即民主党候选人罗斯福年的美国总统选举中有两位候选人,即民主党候选人罗斯福(F.D.Roosevelt)和共和党候选人兰登()和共和党候选人兰登(G.A.London)。)。有一家文摘杂志通过有一家文摘杂志通过从电话号码簿和一些俱乐部成员的名单中选取从电话号码簿和一些俱乐部成员的名单中选取1000万人,以发出询问信的方式进万人,以发出询问信的方式进行民意调查,共有行民意调查,共有240万人作出了回答。据此资料,此文摘杂志预测兰登将以获得万人作出了回答。据此资料,此文摘杂志预测兰登将以获得57%的选票获胜,而罗斯福的得票率将是的选票获胜,而罗斯福的得票率将是43%。而选举结果罗斯福的得票率则是。而选举结果罗斯福的得票率则是62%,兰登仅得到,兰登仅得到38%的选票。的选票。为此,这家杂志社很快就倒闭了。为此,这家杂志社很快就倒闭了。自自1916年以来,此家杂志每次所作的预测都是正确的,因而影响很大。年以来,此家杂志每次所作的预测都是正确的,因而影响很大。这次它的这次它的预测基于巨大数字的预测基于巨大数字的240万的答卷作出的,却预测错误。万的答卷作出的,却预测错误。当时有电话的家庭有当时有电话的家庭有1100万户,失业者有万户,失业者有900万人。万人。有一个叫乔治有一个叫乔治.盖洛普(盖洛普(GeorgeGallup)的人建立的一个调查组织从)的人建立的一个调查组织从1000万人中万人中随机选取了随机选取了3000人,就提前知道了文摘将要得出的结论:兰登将以人,就提前知道了文摘将要得出的结论:兰登将以56%的选票获的选票获胜,这与文摘公布结果的仅差胜,这与文摘公布结果的仅差1%,而这个结论来自于,而这个结论来自于3000人而非人而非204万人。万人。盖盖洛普从更大的范围内随机选取了洛普从更大的范围内随机选取了5000人,据此预测罗斯福将以人,据此预测罗斯福将以56%得票率获胜,得票率获胜,而兰登的得票率为而兰登的得票率为44%。与实际结果差与实际结果差6%。讨论题:讨论题:(1)此文摘杂志社此次预测错误的根本原因?)此文摘杂志社此次预测错误的根本原因?(2)为什么盖洛普预测成功?)为什么盖洛普预测成功?(3)预测的误差是否随着抽样数量的增加而减少?)预测的误差是否随着抽样数量的增加而减少?(4)从这个案例分析中得到什么启发?)从这个案例分析中得到什么启发?第四章第四章统计推断统计推断第一节第一节参数估计参数估计 第二节第二节假设检验假设检验第三第三节节假设检验中的两个问题假设检验中的两个问题 本章小节本章小节主主要要内内容容第一节第一节参数估计参数估计 一、一、点估计点估计设总体设总体 的分布函数的形式已知,但它含有一个或多个未的分布函数的形式已知,但它含有一个或多个未知参数,借助于总体的一个样本来估计总体未知参数的值知参数,借助于总体的一个样本来估计总体未知参数的值的问题称为参数的点估计问题。的问题称为参数的点估计问题。常用的构造估计量的方法:矩估计法和最大似然估计法。常用的构造估计量的方法:矩估计法和最大似然估计法。(一)矩估计法(一)矩估计法 英国统计学家英国统计学家K.Pearson提出的矩估计法,其提出的矩估计法,其主要思想是:以样本矩作为相应的总体矩的估主要思想是:以样本矩作为相应的总体矩的估计,以样本矩的函数作为相应的总体矩的函数计,以样本矩的函数作为相应的总体矩的函数的估计。的估计。这里,这里,表示总体的矩,它是总体分布参数的表示总体的矩,它是总体分布参数的函数,而函数,而是样本的函数。由上述是样本的函数。由上述个方程个方程组成的方程组,可以解出总体分布中的组成的方程组,可以解出总体分布中的个未个未知参数。知参数。例例1 设总体的均值及方差设总体的均值及方差 (不为零)都存(不为零)都存在,且均未知。在,且均未知。又设又设 是来自总体是来自总体 的一个样本,试求的一个样本,试求 的矩估计量。的矩估计量。解解 由由 ,得,得再以再以代替代替,即得,即得的矩的矩估计量分别为估计量分别为(二)最大似然估计法(二)最大似然估计法 由由R.A.Fisher引进的最大似然估计法,无论引进的最大似然估计法,无论从理论上还是从应用上,至今仍然是一种重要从理论上还是从应用上,至今仍然是一种重要且普遍适用的方法。且普遍适用的方法。估计过程:估计过程:由所谓的似然函数(它是参数和样本的函数)由所谓的似然函数(它是参数和样本的函数)若若则称则称为参数为参数的最大似然估计值,的最大似然估计值,为为的似然估计量。的似然估计量。一般情况下,可由方程一般情况下,可由方程求得。求得。u求最大似然估计量的步骤为求最大似然估计量的步骤为:(1)1)对给定的总体对给定的总体X X,写出似然函数写出似然函数 (2)(2)列出似然方程列出似然方程(3)(3)求解上述方程,得关于求解上述方程,得关于 的解即为的解即为 的最大似然估计量的最大似然估计量。含多个参数含多个参数令令似然方程似然方程或或 最大似然解最大似然解点估计的常用方法点估计的常用方法例2 (一一)无偏性无偏性 设设为参数为参数的点估计量,若的点估计量,若则称则称为参数为参数的无偏估计量。的无偏估计量。二、估计量的评选标准二、估计量的评选标准(二二)有效性有效性 设设和和是是的无偏估计量,若对于的无偏估计量,若对于的变的变化范围内的任意一个值,都有化范围内的任意一个值,都有且至少有一个且至少有一个使得不等号成立,则称使得不等号成立,则称较较有效。有效。(三三)相合性相合性 无偏性与有效性都是基于样本容量无偏性与有效性都是基于样本容量n固定的前固定的前提下提出的,我们希望随着样本容量的增大,提下提出的,我们希望随着样本容量的增大,一个估计量的值趋向于待估参数的真值。一个估计量的值趋向于待估参数的真值。设设为参数为参数的一个估计量,若对于其变化的一个估计量,若对于其变化范围内的任意一个范围内的任意一个,当,当时,时,依概率依概率收敛于收敛于,则称则称为为的相合估计量的相合估计量。u如果对任意小的正数,有如果对任意小的正数,有则称则称是是的一致估计量,称的一致估计量,称具有具有相合性相合性,可以证明,可以证明均具有均具有相合性相合性。(三三)相合性(相合性(consistencyconsistency)u注注:具有无偏性。具有无偏性。,对于对于 ,具有无偏性具有无偏性二、估计量的评选标准二、估计量的评选标准 三、三、区间估计区间估计 定义定义设总体设总体的分布函数的分布函数中含有未知参数中含有未知参数对于给定的对于给定的,有两个样本统计量,有两个样本统计量,使得,使得 则称随机区间则称随机区间 是是 的置信度为的置信度为 的置信的置信区间,区间,分别称为置信度为分别称为置信度为 的双侧置信区的双侧置信区间的置信下限和置信上限。间的置信下限和置信上限。u区间估计的概念区间估计的概念的样本的样本使得使得置信度置信度1-1-三、三、区间估计区间估计 置信度置信度1 1下下的置信区间:的置信区间:1-1-是置信度,置信度也称为置信概率是置信度,置信度也称为置信概率称为显著性水平称为显著性水平则称则称三、三、区间估计区间估计 三、三、区间估计区间估计例例题题例例题题确定未知参数置信区间的一般步骤确定未知参数置信区间的一般步骤(1)构构造造一一个个样样本本的的函函数数它它包包含含待待估估未未知知参参数数,而而不不含含其其它它未未知知参参数数,并并且且的的分分布布已已知知且不依赖于任何未知参数;且不依赖于任何未知参数;(2 2)对对于于给给定定的的置置信信度度 ,定定出出两两个个常常数数a a,b b,使得使得(3 3)若能由上式得到等价的不等式)若能由上式得到等价的不等式 ,其其中中,都都是是统统计计量量,那那么么 就就是是 的的一一个置信度为个置信度为 的置信区间的置信区间正态正态总体参数的置信区间总体参数的置信区间 1.单个正态总体单个正态总体的情况的情况(1)的置信区间的置信区间已知时,已知时,未知时,未知时,(2 2)方差方差的置信区间(仅以的置信区间(仅以未知为例)未知为例)例例3 3 现从某天生产的洗衣粉中随机地取现从某天生产的洗衣粉中随机地取16袋,称得重量(以克袋,称得重量(以克计)如下表所示。计)如下表所示。设洗衣粉的重量近似地服从正态分布,试求总体均值的置信度为设洗衣粉的重量近似地服从正态分布,试求总体均值的置信度为0.950.95的置信区间的置信区间。解解这里,总体的方差未知,故总体均值这里,总体的方差未知,故总体均值的置信区间为:的置信区间为:而,经过计算得,而,经过计算得,又查表得,又查表得,故所求的置信区间为故所求的置信区间为(500.4,507.1)。5065084995035045104975125145054934965065025094962两个正态总体的情况两个正态总体的情况 实际中存在这样的问题:已知产品的某一指实际中存在这样的问题:已知产品的某一指标服从正态分布,但由于原料、设备条件、标服从正态分布,但由于原料、设备条件、操作人员不同,或工艺过程的改变等因素的操作人员不同,或工艺过程的改变等因素的影响,而引起总体均值、方差的改变。影响,而引起总体均值、方差的改变。我们我们要考察这些变化的大小,这就涉及两个正态要考察这些变化的大小,这就涉及两个正态总体均值差或方差比的估计问题。总体均值差或方差比的估计问题。设有两个正态总体设有两个正态总体,样本均,样本均值和方差分别为值和方差分别为(1)两个总体均值差的置信区间)两个总体均值差的置信区间 均已知,均已知,的置信区间的置信区间 未知但相等,未知但相等,的置信区间的置信区间(2 2)两个总体方差比的置信区间)两个总体方差比的置信区间 这里仅讨论这里仅讨论未知的情形未知的情形对于给定的置信度对于给定的置信度,的置信区间为的置信区间为四、大样本下总体均值、比率的区间估计四、大样本下总体均值、比率的区间估计(一)总体均值(一)总体均值 的区间估计的区间估计 这里的大样本,是指样本的容量不小于这里的大样本,是指样本的容量不小于301.总体方差总体方差 已知时总体均值已知时总体均值 的置信区间的置信区间2.总体方差总体方差 未知时总体均值未知时总体均值 的置信区间的置信区间两个正态总体参数的比较两个正态总体参数的比较1 12 22 22 2且两样本容且两样本容量均量均3030由由S S1 12 2和和 S S2 22 2分别估计分别估计1 12 2和和2 22 2,即可即可例例5 某保险公司有某保险公司有36个投保人的年龄资料如表表个投保人的年龄资料如表表所示所示。所示所示。试求投保人平均年龄的置信度为试求投保人平均年龄的置信度为95%95%的置信区间。的置信区间。233642343934354253284939394645393845274354363438363147444845443324405032解解 这里总体的方差未知,但为大样本情形。这里总体的方差未知,但为大样本情形。查标准正态分布表得查标准正态分布表得 ,再由上表数据,再由上表数据,得得 ,由此,可以得到投保人平均,由此,可以得到投保人平均年龄年龄 的置信度为的置信度为95%的置信区间为,的置信区间为,即即(39.96,42.04)(二)总体比率的区间估计(二)总体比率的区间估计 由样本比率的抽样分布可以知,当样本容量由样本比率的抽样分布可以知,当样本容量 足够大时足够大时(一般指不小于(一般指不小于30,且且 都都大于大于5),),样本比率样本比率 的抽样分布近似正态分布。设总体的抽样分布近似正态分布。设总体比率为比率为 ,则有,则有对于置信度对于置信度,P的置信区间为的置信区间为例例6 某公司要估计某天生产的某型号的全部产某公司要估计某天生产的某型号的全部产品的合格率。品的合格率。为此随机抽取了为此随机抽取了100件产品,件产品,经检验其中有经检验其中有94件为合格品。件为合格品。对于置信度对于置信度95%,试求该天此型号产品合格率的区间估,试求该天此型号产品合格率的区间估计。计。解解由题意,易得样本合格率由题意,易得样本合格率 ,从而得,从而得全部产品合格率置信度为全部产品合格率置信度为95%的置信区间为的置信区间为即即(89.35%,98.65%)(三)两个总体均值差的区间估计(三)两个总体均值差的区间估计 对于给定的置信度对于给定的置信度,的置信区间的置信区间这里,这里,为来自与两个总体的样本均值;为来自与两个总体的样本均值;为样本的方差。为样本的方差。例例7 7 为了评估甲乙两种方法包装某产品所需要的时间,在为了评估甲乙两种方法包装某产品所需要的时间,在不同的方法下独立地抽取两个随机样本,经整理计算得到不同的方法下独立地抽取两个随机样本,经整理计算得到下列资料。试在置信度下列资料。试在置信度95%95%下,给出这两种方法下包装某产下,给出这两种方法下包装某产品平均时间之差的置信区间。品平均时间之差的置信区间。解解 由公式由公式 得到这两种方法下包装某产品平均时间之差的置信度为得到这两种方法下包装某产品平均时间之差的置信度为 95%95%的置信区间为的置信区间为(3.86,10.14)甲方法乙方法样本容量样本容量n n与总体方差、允许误差、置信度有以下关系:与总体方差、允许误差、置信度有以下关系:1 1在给定的置信水平下,允许误差越大,样本在给定的置信水平下,允许误差越大,样本容量就可以越小。容量就可以越小。2.2