高中数学《随机抽样》课件1新人教B版必修.ppt
目标v(1)随机抽样v能从现实生活或其他学科中提出具有一定价值的统计问题.v结合具体的实际问题情境,理解随机抽样的必要性和重要性.v在参与解决统计问题的过程中,学会用简单随机抽样方法从总体中抽取样本;通过对实例的分析,了解分层抽样和系统抽样方法.v能通过试验、查阅资料、设计调查问卷等方法收集数据.目标v(2)用样本估计总体v通过实例体会分布的意义和作用,在表示样本数据的过程中,学会列频率分布表、画频率分布直方图、频率折线图、茎叶图,体会他们各自的特点.v通过实例理解样本数据标准差的意义和作用,学会计算数据标准差.v能根据实际问题的需求合理地选取样本,从样本数据中提取基本的数字特征(如平均数、标准差),并作出合理的解释.目标v(2)用样本估计总体v在解决统计问题的过程中,进一步体会用样本估计总体的思想,会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征;初步体会样本频率分布和数字特征的随机性.v 会用随机抽样的基本方法和样本估计总体的思想,解决一些简单的实际问题;能通过对数据的分析为合理的决策提供一些依据,认识统计的作用,体会统计思维与确定性思维的差异.v形成对数据处理过程进行初步评价的意识.目标v(3)变量的相关性v通过收集现实问题中两个有关联变量的数据作出散点图,并利用散点图直观认识变量间的相关关系.v经历用不同估算方法描述两个变量线性相关的过程.知道最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.定位 v学生将在义务教育阶段学习统计与概率的基础上,通过实际问题情境,学习随机抽样、样本估计总体、线性回归的基本方法,体会用样本估计总体及其特征的思想;通过解决实际问题,较为系统地经历数据收集与处理的全过程,体会统计思维与确定性思维的差异。数据处理的能力数据处理的能力v统计思想主要体现在把握数据的能力,养成会用数据“说事”,收集数据,整理数据,分析数据,从数据中提取信息,并利用这些信息说明问题,在这个过程中,形成对数据意识,养成会用数据“说事”的习惯。这种能力已经成为高中数学课程要培养学生形成的一个基本能力。统计注重过程统计注重过程v必修的统计课程的定位是对统计有一个初步的认识。通过案必修的统计课程的定位是对统计有一个初步的认识。通过案例体会统计的全过程:收集数据、利用图表整理和分析数据、例体会统计的全过程:收集数据、利用图表整理和分析数据、求出数据的数字特征、进行统计推断。在这个过程中,进一求出数据的数字特征、进行统计推断。在这个过程中,进一步体会随机思想和统计的重要性。步体会随机思想和统计的重要性。v无论是在必修课程中,还是在选修无论是在必修课程中,还是在选修1 1(2 2)课程中,统计教学)课程中,统计教学都注重过程,解决一个统计问题,常常需要我们通过收集数都注重过程,解决一个统计问题,常常需要我们通过收集数据,整理数据,分析数据,从数据中提取信息,并利用这些据,整理数据,分析数据,从数据中提取信息,并利用这些信息说明问题。在选修信息说明问题。在选修1 1(2 2)课程中,我们介绍了几种常见)课程中,我们介绍了几种常见的统计案例,也希望通过这些常见的案例分析能够进一步体的统计案例,也希望通过这些常见的案例分析能够进一步体会统计的全过程。会统计的全过程。统计采用的案例的教学方式统计采用的案例的教学方式v对于统计内容的教学,采用案例的教学方式是统计教学的基本教学方式。统计方法看起来不难,但是理解起来还是有困难的,通过大量的具体案例来可以帮助理解。在统计课程中,通过对案例的学习体会数据处理的过程和思想。统计是一种归纳的思维统计是一种归纳的思维 v 处理统计问题的思维方式和传统的数学思维方式有所不同,它是一种归纳的思维方式,传统的数学思维更强调演绎。在统计教学中,通过收集数据、利用图表整理和分析数据、求出数据的数字特征、进行统计推断,这个过程是通过对数据的处理,归纳出数据特征的过程。在统计教学中,教师应帮助学生学会归纳的思考问题,这也是统计教学的基本目标之一。随机的思想随机的思想v随机思想是概率的重要概念,是认识随机现象和统计规律的重要思想,随机思想渗透在统计的过程中,这两部分内容联系非常紧密,在中小学阶段,统计的分量要更大一些。在高中阶段,随机思想和统计思想的介绍分为两部分,在必修中,设计了概率初步和统计初步的内容;在选修1-2和选修2-2中,设计了统计案例;在选修2-3中,设计了对于概率的进一步理解,理解随机变量和一些离散的随机变量模型。统计中的随机思想统计中的随机思想 v在统计的教学中,应该注意培养学生的随机思想,例如,解决统计问题的第一个步骤是收集数据,我们有不同的方法来收集数据,无论是随机抽样,还是分层抽样,等等,都渗透着随机的思想。由于样本的随机性,统计的结果可能会犯错误。随机思想是理解统计问题的一个基本思想。总体和样本 v统计中总体、样本的概念,对学生来说,直观上不难理解,。但要深究起来并不简单。比如在检查某厂的产品时,我们说的总体通常并不仅仅是厂中堆放的所有产品,还包括按同样方法过去生产出的所有产品,以及将来按同样方法可能生产出来的产品。这是一个抽象的概念。因此,总体在现代统计学中被定义为一个分布。样本也一样不好理解。样本是远比总体更重要的概念,它和抽样方法紧密相连,决定了我们的数学模型。但是,这些都不是在中学要讨论的内容。在中学教学中,教师不应该,也不必要引导学生去探究这些概念的确切定义。只需给出直观的说明。总体和样本 v重要的是要让学生认识到,样本是总体的一部分。重要的是要让学生认识到,样本是总体的一部分。因此,由样本得到的平均数、方差等等,都不是总因此,由样本得到的平均数、方差等等,都不是总体的平均数、方差等等。这个区别十分重要,体的平均数、方差等等。这个区别十分重要,要让让学生认识到样本的随机性、数据的数字特征的随机学生认识到样本的随机性、数据的数字特征的随机性。性。也就是说,两个人用同样的方法处理同一个问题时,他们抽样的结果一般是不同的(同一个人做两次,抽样的结果也不会完全一样)。因此,由不同样本得到的结果也不会相同。换句话说,结果有随机性。下结论可能会犯错误。总体和样本 v在具体的教学中,应通过具体例子,让学生认识到,尽管结果可能犯错误,但统计的推断还是有意义的。作为教师应该清楚,样本随机性产生的误差是可以估计的。也可以估计由此犯错误的概率。这和样本抽取不当以及故意制造误导产生的错误是完全不同的 抽样 v抽样讲的是如何搜集数据。由于我们希望得到我们希望得到的数据能正确反映实际的状况的数据能正确反映实际的状况,所以采用随机地抽样。这是关键所在这是关键所在。比如要了解某地区18岁男孩的身高。若这些男孩中一米九以上的有千分之一,随机抽样使每个男孩被等可能抽到,因此,抽到一米九以上的可能性也是千分之一。若这些男孩中一米六到一米八的占百分之七十,那么抽到男孩身高在一米六到一米八之间的可能性也有百分之七十。另外,由于抽签与顺序无关,若抽取第一个男孩,身高在一米九以上的概率是千分之一,那么抽取第二个男孩、第三个男孩等,其身高在一米九以上的概率也是千分之一。抽样 v随机抽样能使得样本中不同身高的百分比和总体中的百分比近似相同。换句话说,随机换句话说,随机抽样的样本能很好地反映总体的状况。如果抽样的样本能很好地反映总体的状况。如果不把这一点说清楚,只单纯地介绍三种抽样不把这一点说清楚,只单纯地介绍三种抽样的具体操作方法就讲偏了。的具体操作方法就讲偏了。抽样 v我们关注三种抽样方法的差别和不同的适用范围。我们关注三种抽样方法的差别和不同的适用范围。例如,系统抽样通常比简单随机抽样简单,在田野上考察害虫的个数,通常就是从任意一个地点出发,每隔相同的距离测量害虫的个数。但如果考察马路上的车流量,每隔几天记录一次,若选择不当,例如,每七天测一次,恰选在了星期日。就会造成错误的结果。同样在分层抽样中,如果分的不当,同一组内个体相差太大,结果也会有偏差。在给学生讲授时,应讲清这些,而不是单纯地讲方法。从统计上说,理解这些比方法本身更重要。抽样 v在抽样理论中,人们还关心样本抽取多少个为好。比如,在初等概率论中,讨论过如下一类问题:掷一个均匀硬币,要想以90%的概率保证频率和概率之差不超过0.01,至少要掷多少次硬币,等等。老师们若能复习一下这方面的内容会很有好处,例如在教学中,在让学生通过掷硬币来体会频率的稳定性时,自己心中可以有底。但这部分内容超出了中学的要求。如果笼统地讨论抽取多少个样本合适,可以认为:一方面,样本抽取的越多,得到的信息越多;另一方面,抽取是有代价的(如要花费人力、时间、经费等)。当抽取的代价超过了因抽取所得到的好处时,显然不宜再抽取。抽样 v作为教师应该清楚不同的抽样方法得到的是不同的数学模型(样本的分布不同)。在数学上处理起来有难易的差别。最常用的假定是:样本是独立同分布的(粗略地说,独立是指每次抽样和前面的抽取无关,不能因为这次抽到一个男孩身高较高,下次就故意去找一个身材较矮的。同分布是指,若第一次抽到一米九以上的可能性是千分之一,那末第二次抽到一米九以上的可能性也是千分之一,等等)。即假定抽样是有放回的,这是实际问题的一个近似。抽样 v还应该让学生关注的是:实际问题中的样本是否是随机的。例如,一些心理学实验是由志愿人员完成的,可能缺乏代表性。一些数据只来自某个学校或某个医院,并非随机抽样等等。作为基础教育让学生认识到,由于缺乏随机性,报刊杂志等提供的数据以及由此产生的结论可能产生误导。这是十分重要的。整理数据和画统计图表 v我们抽取到的数据是杂乱无章的。从这些数据中能得到什么信息?对数据进行整理和画统计图表,其对数据进行整理和画统计图表,其目的是为了能从数据中得到信息目的是为了能从数据中得到信息。教师在讲授时不应只让学生掌握方法(方法都不困难,但有的教师把这部分内容讲成了如何画图表。),而应侧重于说明应侧重于说明如此整理数据后如此整理数据后(或某一统计图表或某一统计图表),能告诉我们何,能告诉我们何种信息。还要让学生理解不同的整理方法,不同的种信息。还要让学生理解不同的整理方法,不同的图表的特点图表的特点。整理数据和画统计图表v例如,把学生的学习成绩从小到大排列,并把相同分数的归为一类。这样可列成一个表或画出一个散点图。从该表(图)我们很容易得到如下信息:学生的最高分,最低分是多少,不及格的有几个人,得到任一分数,例如85分,的学生人数,等等。但是,当我们处理的数据是连续变量,例如某种产品的重量,这种方法就不方便了。当数据很多时该方法也不方便。这时人们常用直方图或只给出某一范围内的数据个数。例如,得分在80分到89分之间的学生人数,等等。这是更常用的方法。整理数据和画统计图表v但它是以丢失一部分信息为代价的它是以丢失一部分信息为代价的,即由直方图人们无法恢复原来的数据。当然丢失的数据可能对我们要处理的问题没用。在这部。在这部分教学中应从得到信息、表述信息的角度出分教学中应从得到信息、表述信息的角度出发,分析各种方法和图表的优劣,并鼓励学发,分析各种方法和图表的优劣,并鼓励学生自己给出新的方法。生自己给出新的方法。事实上,人们仍在不断地创造新的方法,如茎叶图,就是近几年来才常采用的一种方法。注意v在用样本估计总体时要清楚样本的数据(均值、方差等)是随机的,而总体的均值、方差等是客观存在的。人们在估计时可用不同的方法,好坏也要视情况而定。回归分析v在统计中,回归分析是应用很广的。在中学,要讨论回归方程的求法,这部分内容属于统计中对回归系数的估计;另一部分是,判断回归方程是否有意义,这属于假设检验。v在中学的教学中,首先要让学生理解这里讨论的相关关系和过去学的函数关系的区别。这很重要。回归分析v在估计问题中,应要求学生自己探索回归直线的求法(事实上,通过老师启发学生可以给出许多方法)。在统计中,重要的是寻找好的方法,而不是套用公式计算。从历史上看,拉普拉斯、欧拉等许多大数学家都曾为寻找这一直线而努力,他们的做法并不成功。后来,由勒让德、高斯提出了最小二乘法。套用公式计算回归系数,对学生来说并不困难。但这里应该让学生体会到,数学中介绍的方法是前人经过长期探索才得到的。体会在统计中寻找方法的重要。回归分析v作为老师应该清楚,之所以用最小二乘法,是因为这样得到的估计量,在许多标准下是好的。而这些标准我们在中学无法讲授。另外,根据实际问题的需要,完全可以用别的方法,例如,把误差的平方改为误差的绝对值,或把误差改为求点到直线的距离等等。人们现在正是这样做的。不应该让学生错误地以为最小二乘法是绝对的、永远是最优的。回归分析v应该让学生关注方程的意义和合理性。可以通过例子,提示回归系数计算的不合理性:比如,如果在圆上取一组点,仍可套用公式,用这组点的坐标得到一个回归直线方程,这样的直线显然是没意义的。例 v一只红铃虫的产卵数y和温度x有关,现收集了7组观测数据列于表4中,试建立y与x之间的回归方程。v温度x/21 23 25 27 29 32 35v产卵数y/个 7 11 21 24 66 115 325v根据已给出的问题背景,经过分析,把温度x作为解释变量,红铃虫的产卵数y作为预报变量。例v作出散点图 例v从散点图中可以看到随着自变量x的增加,因变量y有增加的趋势,但它们明显不是线性关系。例v根据散点分布情况,会确定回归模型的类型。如果散点图中的点分布在一个直线状带形区域,可以选用线性回归模型来建模;如果散点图中的点分布在一个曲线状带形区域,要先对变量作适当的变换,再利用线性回归模型来建模。散点似乎分布在指数函数(即)或二次函数曲线(即y=c3x2+c4)的周围,因此可以考虑对原始数据进行相应的变换(即对解释变量的对数变换或平方变换),把非线性问题转化为线性问题。例v如果回归模型选择指数函数,则令z=lny,变换后样本点应该分布在直线z=bx+a (a=ln c1,b=c2)的周围。例v将数据变换后得到如下的数据表。vx 21 23 25 27 29 32 35vZ 1.94 2.39 3.04 3.17 4.19 4.74 5.78v根据上表数据,作出散点。从图中可以看出,变换后的样本点分布在一条直线的附近,因此可以用线性回归方程来拟合。例例例v我们还可以在回归模型中选择二次函数曲线。独立性检验v在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶;而另外772名不是因为患心脏病而住院的男性病人中有175人秃顶。利用系独立性检验方法判断秃顶与患心脏病是否有关系?你所得的结论在什么范围内有效?独立性检验v根据题目所给数据得到如下列联表:v v根据列表中的数据,得到独立性检验独立性检验v实际解决问题时,只凭列联表的数据下结论不够确切,原因是列联表中的数据是样本数据,它只是总体的代表,具有随机性。用列联表检验的方法确认所得结论,能够确切判断在多大程度上适用于总体。独立性检验v运用独立性检验的基本思想、方法解决实际问题得出的结论往往是有条件的,不能不顾条件,扩大范围使用。如上例的数据来自于医院的住院病人,因此题目中的结论能够很好地适用于住院的病人群体,而这个结论推广到其他群体则可能会出现错误,除非有其他的证据表明可以进行这种推广。