教育统计与测量学原理优秀PPT.ppt
教育统计与测量学原理你现在浏览的是第一页,共79页教育统计与测量学原理教育统计与测量学原理学习教育统计与教育测量的重要意义学习教育统计与教育测量的重要意义1、教育统计和测量是认识教育本质的有力武器;、教育统计和测量是认识教育本质的有力武器;2、是分析处理教育工作中各种数据资料、进行、是分析处理教育工作中各种数据资料、进行 教育督导与评价的有效工具;教育督导与评价的有效工具;3、对教育管理科学化具有重要意义、对教育管理科学化具有重要意义;4、是教育科学研究中,发现探索教育教学规律、指导教、是教育科学研究中,发现探索教育教学规律、指导教育教学实践、为教育行政部门决策提供依据的重要思育教学实践、为教育行政部门决策提供依据的重要思想方法;想方法;5、是党和政府制定教育方针、政策以及认清教育、是党和政府制定教育方针、政策以及认清教育事业和整个国民经济发展关系的重要工具。事业和整个国民经济发展关系的重要工具。你现在浏览的是第二页,共79页 第一部分:教育统计学一、概述 1、什么是教育统计学、什么是教育统计学 2、教育统计学的历史、教育统计学的历史 3、教育统计学的内容、教育统计学的内容二、描述统计 1、常用的统计表、图与统计量、常用的统计表、图与统计量 2、相关分析、相关分析 3、正态分布、正态分布三、推断统计 1、相关概念、相关概念 2、总体平均数估计、总体平均数估计 3、平均数差异的显著性检验、平均数差异的显著性检验四、实验设计简介四、实验设计简介你现在浏览的是第三页,共79页一、概述一、概述教育统计学概念、发展历史、内容教育统计学概念、发展历史、内容 1 1、概念:、概念:教育统计学就是运用数理统计的原理和方法研教育统计学就是运用数理统计的原理和方法研究教育问题的一门应用科学。它是研究如何收集、整理、分析究教育问题的一门应用科学。它是研究如何收集、整理、分析和解释教育方面的数据,从而表明教育上某些现象的特征及规和解释教育方面的数据,从而表明教育上某些现象的特征及规律的一门科学,它是处理教育实际工作和进行教育研究以及提律的一门科学,它是处理教育实际工作和进行教育研究以及提高管理质量的科学水平、提高教育质量的重要工具。高管理质量的科学水平、提高教育质量的重要工具。教育统计学的主要任务:对教育现象进行调查和实验,教育统计学的主要任务:对教育现象进行调查和实验,在占有充分数据资料的基础上,经过对数据的整理计算、在占有充分数据资料的基础上,经过对数据的整理计算、统计分析和统计检验等方法,对研究结果予以科学说明。统计分析和统计检验等方法,对研究结果予以科学说明。即从数量方面的研究,来探索教育和心理现象的发展变即从数量方面的研究,来探索教育和心理现象的发展变化的特征和规律,或根据研究结果的数据处理、统计推化的特征和规律,或根据研究结果的数据处理、统计推断,做出正确决策。断,做出正确决策。你现在浏览的是第四页,共79页教育统计学概念、发展历史、内容教育统计学概念、发展历史、内容 2 2、教育统计学发展史:教育统计学发展史:教育统计学产生于上个世纪初,发展于五、六十年代,教育统计学产生于上个世纪初,发展于五、六十年代,广泛应用于八十年代以后。广泛应用于八十年代以后。(1)国外:)国外:20世纪初统计学传入美国,桑代克(世纪初统计学传入美国,桑代克(E.L.Thorndike)为了达到)为了达到“极力以心理学极力以心理学与统计学为工具研究教育学,使教育科学化与统计学为工具研究教育学,使教育科学化”的目的,的目的,1904年出版世界上第一本有关教育统计学的专著年出版世界上第一本有关教育统计学的专著心理与社会测量导论心理与社会测量导论。(2)国内:我国的教育统计学是在辛亥革命以后,随着西方科学技术成就一起被引入。)国内:我国的教育统计学是在辛亥革命以后,随着西方科学技术成就一起被引入。当时的大学教育系和中等师范学校,都把教育统计学作为必修课程,很多学者撰写专著,当时的大学教育系和中等师范学校,都把教育统计学作为必修课程,很多学者撰写专著,如薛鸿志如薛鸿志教育统计方法教育统计方法(1925)、王书林)、王书林教育测验与统计教育测验与统计(1935)等。)等。1979年随着全年随着全国教育科学规划会议的召开,教育统计学恢复了新生,各师范大学又都开设了教育统计学国教育科学规划会议的召开,教育统计学恢复了新生,各师范大学又都开设了教育统计学课程。教育部组织叶佩华、万梅亭、郝德元、陈一百等教授编写课程。教育部组织叶佩华、万梅亭、郝德元、陈一百等教授编写教育统计学教育统计学作为全国通作为全国通用教材。用教材。经过经过100多年的发展,各种教育统计方法已相当丰富。但每一种方法的运用在我国还处于多年的发展,各种教育统计方法已相当丰富。但每一种方法的运用在我国还处于推广和适用阶段,因此不少人对它的作用缺乏足够的认识,特别是对复杂的教育问题,由于统推广和适用阶段,因此不少人对它的作用缺乏足够的认识,特别是对复杂的教育问题,由于统计方法本身的限制,还有十分重要的实验设计和统计推断的问题不能在理论上得到有力解决,计方法本身的限制,还有十分重要的实验设计和统计推断的问题不能在理论上得到有力解决,还有待于教育学家亲自动手来推进统计理论和改进统计工具。还有待于教育学家亲自动手来推进统计理论和改进统计工具。你现在浏览的是第五页,共79页教育统计学概念、发展历史、内容教育统计学概念、发展历史、内容 3 3、教育统计学的内容:、教育统计学的内容:教育统计学按应用分教育统计学按应用分为描述统计、推断统计、实验设计(多元统计)三部为描述统计、推断统计、实验设计(多元统计)三部分内容。分内容。(1)描述统计的主要作用就在于就所关心的教育现象进行全面调查和观测,然后将所得的大量数据)描述统计的主要作用就在于就所关心的教育现象进行全面调查和观测,然后将所得的大量数据加以整理、简缩、制成图表;或就这些数据的分布特征(如集中趋势、离散趋势、相关度等等)计算出加以整理、简缩、制成图表;或就这些数据的分布特征(如集中趋势、离散趋势、相关度等等)计算出具有概括性的数字作为标志。借助这些概括性的数字,我们就可以从杂乱无章的数据中取得有意义的信具有概括性的数字作为标志。借助这些概括性的数字,我们就可以从杂乱无章的数据中取得有意义的信息。息。(2)推断统计也叫抽样统计,它是在描述统计的基础上发展起来的。是用抽样的方法,)推断统计也叫抽样统计,它是在描述统计的基础上发展起来的。是用抽样的方法,根据部分数据来推断一般情况,即通过局部对全局的情况加以推断的一种方法。它可以根据部分数据来推断一般情况,即通过局部对全局的情况加以推断的一种方法。它可以帮我们透过现象看到本质,对客观现象作出本质性的判断帮我们透过现象看到本质,对客观现象作出本质性的判断,它是从样本的研究中得出统,它是从样本的研究中得出统计量。来推断总体的有关特征,以便作出具体的措施和决策。常用的方法有:计量。来推断总体的有关特征,以便作出具体的措施和决策。常用的方法有:u检验、检验、t检检验、卡方检验和非参数检验,还有多元分析中的主成份分析和因素分析等。验、卡方检验和非参数检验,还有多元分析中的主成份分析和因素分析等。(3)实验设计通常指实验程序的计划和安排。而实验程序的计划和安排离不开统计和检验。)实验设计通常指实验程序的计划和安排。而实验程序的计划和安排离不开统计和检验。你现在浏览的是第六页,共79页二、描述统计二、描述统计 第一章第一章 常用统计表、统计图及统计量常用统计表、统计图及统计量 (一)常用统计表 1、统计表的结构:由标题、项目(标目)、数据、线条、表注(数据来源)组成 1983年我国普通中学教师学历统计表 学 历 人 数 百分比(%)大学本科以上 300887 11.6 大专毕业 566863 21.8 中专毕业以下 1729750 66.6 合 计 2596900 100.0 注:引自中国教育成就统计资料,1984年人民教育出版社标题 项目 线条 数据 表注你现在浏览的是第七页,共79页二、描述统计二、描述统计 第一章第一章 常用统计表、图及统计量数常用统计表、图及统计量数2、制表的一般要求A、统计表的内容要简要,最好一个表说明一个中心内容。标题的措词要简明扼要,正确说明内容,使人一望便知。B、分项要准确,以能说明问题为主,分项的好坏是决定统计表质量的关键,切忌分项太细。C、数据是统计表的语言,说明内容,要求准确,书写整齐,一律用阿拉伯数字,单位要统一,位数对齐,有效数字要一致,表格内不能有空白。D、线条不要太多,表的上下端有顶线与底线,左右两边不要用线封死,纵项目用细线格开,横项目一律不画线条,合计项目用粗线条或双线与其它项目分开。你现在浏览的是第八页,共79页(二)常用统计图(二)常用统计图1、统计图结构:图题、图目、图尺、图例、图形、图注、统计图结构:图题、图目、图尺、图例、图形、图注人数 70 60 50 40 30 20 10 1980年 1985年 1991年某校近十年教师人数及性别变化图示男 女年份图图例例图图形形第一章第一章 常用统计表、统计图及统计量常用统计表、统计图及统计量图图目目图图尺尺(制制图图的的尺尺度度线线。点点、单单位位的的总总称称)图图题题你现在浏览的是第九页,共79页2、统计图的类型及绘制要求、统计图的类型及绘制要求绘制统计图的要求绘制统计图的要求A、根据数据和目的选择合适的图形、根据数据和目的选择合适的图形B、图形所表示的面积或距离要比例适当、图形所表示的面积或距离要比例适当C、表示不同的事物要用不同的颜色与线条、表示不同的事物要用不同的颜色与线条类型:类型:1 直条图直条图 2 圆形图圆形图 3 曲线图曲线图 4直方图直方图 讲师42.9%助教28.8%教授0.4%某大学教师职称图副教授21.9%某市7至18岁男女生身高比较图1.751.701.651.601.551.501.451.40岁7 8 9 10 11 12 13 14 15 16 17 18米某校某班某校某班50名学生家庭背景情况比较名学生家庭背景情况比较 20 15 10 5人数其他农工商企业职员公务与科教人员141615 5 20 15 10 5人数其他农工商企业职员公务与科教人员141615 5(二)常用统计图(二)常用统计图你现在浏览的是第十页,共79页 3、次数分布表与直方图、次数分布表与直方图 对一批数据按一定次序排列并加以分组、编成反映这群数据在各组上对一批数据按一定次序排列并加以分组、编成反映这群数据在各组上出现次数的统计表和图,就是次数分布表和直方图。出现次数的统计表和图,就是次数分布表和直方图。例:一次考试之后,某班48名学生的成绩如下:86,77,63,78,92,72,66,87,75,83,74,47,83,81,76,82,97,69,82,88,71,67,65,75,70,82,77,86,60,93,71,80,76,78,57,95,78,64,79,82,68,74,73,84,76,79,86,68 将该组数据整理成次数分布表与直方图(二)常用统计图(二)常用统计图你现在浏览的是第十一页,共79页 1求全距:求全距:R=maxxi-minxi用该组数据最大数减最小数用该组数据最大数减最小数 2定组数和组距定组数和组距:数据划分组数、每组上下限之间距离(全距除以组数):数据划分组数、每组上下限之间距离(全距除以组数)3列组限:从最高分至最低分以组距为单位依次分组列组限:从最高分至最低分以组距为单位依次分组 4归组划记:计算数据出现次数,并计算累积次数及相对次数归组划记:计算数据出现次数,并计算累积次数及相对次数 步骤:步骤:例:一次考试之后,某班48名学生的成绩如下:86,77,63,78,92,72,66,87,75,83,74,47,83,81,76,82,97,69,82,88,71,67,65,75,70,82,77,86,60,93,71,80,76,78,57,95,78,64,79,82,68,74,73,84,76,79,86,68 组限 组中值 划记 次数 f 累积次数f 相对次数Rf 累积相对次数Rf95 90 85 80 75 70 65 60 55 50 4599 94 89 84 79 74 69 64 59 54 49 2 2 5 9 12 7 6 3 1 0 1 2 4 9 18 30 37 43 46 47 47 48 0.040.040.100.190.250.150.130.060.0200.020.040.080.180.370.620.770.900.960.980.981.00正 正 正 正 正正合计 48 48 1.00次次 数数 分分 布布 表表 97 92 87 82 77 72 67 62 57 52 47K=1.87(n-1)2/5你现在浏览的是第十二页,共79页14 12 10 8 6 4 245 50 55 60 65 70 75 80 85 90 95 100次数分数 直方图你现在浏览的是第十三页,共79页(三)常用统计量集中量数(三)常用统计量集中量数1、集中量数:代表一组数据的集中趋势和典型特征 常用的有:平均数 中数 众数第一章第一章 常用统计表、统计图及统计量常用统计表、统计图及统计量 (1)平均数(算数平均数)X1、X=(X1+X2+-+Xn)/n=(1/n)Xi (原始数据公式)2、X=fxc/n (分组数据公式)xc:组中值 f:次数3、X=(n1 x1+n2x2+-+nkxk)/(n1+n2+-nk)(加权平均数公式)加权平均数公式)你现在浏览的是第十四页,共79页(2)中数(中位数中数(中位数):用用 Md表示,是在一组按大小顺序排列的数据中表示,是在一组按大小顺序排列的数据中位置居中的那个数。数据是奇数个时,正好是中间位置的数,即位置居中的那个数。数据是奇数个时,正好是中间位置的数,即第(第(N+1)/2 个那个数;数据是偶数个时,求中间位置两个数的个那个数;数据是偶数个时,求中间位置两个数的平均数。如:平均数。如:1 3 6 7 9 Md6;3 6 7 9 20 21 Md(7+9)/2=8(3)众数众数:用用 M0表示,是一组数据中次数出现最多的那个数。表示,是一组数据中次数出现最多的那个数。在众数不在众数不明显的情况下,一般可看众数段,即哪个分数段的次数多,就以该段中点明显的情况下,一般可看众数段,即哪个分数段的次数多,就以该段中点值作众数。值作众数。一般用观察法求得。一般用观察法求得。众中平 众中平 平中众 正态分布正态分布 正偏态分布正偏态分布 负偏态分布负偏态分布平均数、中数、众数在数据常态分布中的相对位置平均数、中数、众数在数据常态分布中的相对位置你现在浏览的是第十五页,共79页2、差异量数:全距、差异量数:全距 平均差平均差 标准差标准差 差异量数是描述次数分布中差异量数是描述次数分布中“离中趋势离中趋势”这一特征的统计量,简称这一特征的统计量,简称“差异差异量量”。一组数据,若离中趋势小,则集中量的代表性就大;反之,若离中趋。一组数据,若离中趋势小,则集中量的代表性就大;反之,若离中趋势大,则集中量的代表性就小。但是,仅考虑集中量数是不够的。要了解两势大,则集中量的代表性就小。但是,仅考虑集中量数是不够的。要了解两组学生成绩分布的全貌,还必须研究两个组的差异量数。最常用的差异量有组学生成绩分布的全貌,还必须研究两个组的差异量数。最常用的差异量有全距、平均差和标准差。全距、平均差和标准差。(1)全距全距(符号为符号为“R”),指一组数据中由最大量数到最小量数的距离。,指一组数据中由最大量数到最小量数的距离。R小说明离散程度小,比较整齐。小说明离散程度小,比较整齐。(2)平均差,指一组数据内的每个数与均数差的绝对值的算术平均数,通平均差,指一组数据内的每个数与均数差的绝对值的算术平均数,通常用常用AD表示。平均差的计算公式为:表示。平均差的计算公式为:常用统计量差异量数常用统计量差异量数AD=(1/n)Xi-X 或 AD=(1/n)Xi-Md你现在浏览的是第十六页,共79页差异量数方差与标准差差异量数方差与标准差 (3)、标准差标准差:指一组数据中每一个数值与它们的平均数之差的指一组数据中每一个数值与它们的平均数之差的平方的算术平均数的平方根,其符号为平方的算术平均数的平方根,其符号为S(样本标准差样本标准差)、总体标准、总体标准差用差用表示。表示。S的计算公式为:的计算公式为:S 越大表明离散程度越大,数据不均匀,集中量的代表性小。越大表明离散程度越大,数据不均匀,集中量的代表性小。方差与标准差除具有平均差的优点之外,还具有受抽样影响小方差与标准差除具有平均差的优点之外,还具有受抽样影响小和适于代数运算等优点,是最优良的差异量数。和适于代数运算等优点,是最优良的差异量数。()()()()nxxxxxxxxSn2232221-+-+-+-=X X1 X22S2表示样本方差表示样本方差 表示总体方差表示总体方差你现在浏览的是第十七页,共79页标准差的应用:变异系数、标准分数标准差的应用变异系数标准差的应用变异系数变异系数计算公式:变异系数计算公式:主要用于主要用于:同一团体不同观测值离散程度的比较;同一团体不同观测值离散程度的比较;对于水平相差较大,但进对于水平相差较大,但进行的是同一种观测的各种团体离散程度的比较。行的是同一种观测的各种团体离散程度的比较。例:已知某小学一年级学生的平均体重为例:已知某小学一年级学生的平均体重为25千克,标准差是千克,标准差是3.7千克,平均身千克,平均身高高110厘米,标准差为厘米,标准差为6.2厘米,问体重与身高的离散程度那个大?厘米,问体重与身高的离散程度那个大?解:解:CV体重体重3.7/2514.8 CV身高身高6.2/110=5.64答:通过比较差异系数可知,体重的分散程度比身高的分散程度大(答:通过比较差异系数可知,体重的分散程度比身高的分散程度大(14.85.64)。变异系数是一种相对差异量,常用变异系数是一种相对差异量,常用cv表示表示你现在浏览的是第十八页,共79页标准差的应用标准分标准差的应用标准分 标准分数标准分数(又称又称Z分数分数)。它是一种以平均数为参它是一种以平均数为参照点,以标准差为单位的,表示一个分数在团照点,以标准差为单位的,表示一个分数在团体分数中所处位置的量数,其计算方法为:由体分数中所处位置的量数,其计算方法为:由原始分数与平均分数的差除以标准差所得的量原始分数与平均分数的差除以标准差所得的量数,其符号为数,其符号为“Z”Z”,计算公式是:,计算公式是:标准分是以标准差为单位的,故称为标准分。它是一种相对地位分。标准分是以标准差为单位的,故称为标准分。它是一种相对地位分。标准分有正负之分,一般在标准分有正负之分,一般在-3,3中(几率为中(几率为99.74%),平均值为零。,平均值为零。标准分可比性根据在于标准正态分布。标准分可比性根据在于标准正态分布。T分数:分数:T=10Z+50 (一般一般20T80)E分数:分数:E=20Z+90 (一般一般30E150)你现在浏览的是第十九页,共79页例:有某生三次数学考试的成绩分别为例:有某生三次数学考试的成绩分别为70、57、45,三次考试,三次考试的班平均分为的班平均分为70、55、42,标准差分别为,标准差分别为8、4、5。如何看待。如何看待该生的三次考试成绩该生的三次考试成绩?答:如果仅从原始分数看,肯定认为第一次最好,其实不然,答:如果仅从原始分数看,肯定认为第一次最好,其实不然,要计算出各次的标准分数,才能说明问题。要计算出各次的标准分数,才能说明问题。根据公式得出:根据公式得出:Z1=(7070)/8=0 Z2=(5755)/4=0.5 Z3=(4542)/5=0.6 这说明,原始分数为这说明,原始分数为70,其位置正在平均线上,而原始分数,其位置正在平均线上,而原始分数为为57的,其位置在平均线上的,其位置在平均线上0.5处,而原始分数为处,而原始分数为45的,其位的,其位置在平均线上置在平均线上0.6处。很显然第三次成绩最好,第一次最差。处。很显然第三次成绩最好,第一次最差。标准差的应用标准分标准差的应用标准分你现在浏览的是第二十页,共79页标准分数:运用标准分比较不同运用标准分比较不同教育测验成绩总分的优教育测验成绩总分的优劣,更为合理。劣,更为合理。例:甲乙两学生五科考试成绩如下,例:甲乙两学生五科考试成绩如下,试分析哪名学生成绩好些?试分析哪名学生成绩好些?语文语文数学数学地理地理历史历史政治政治合计合计70.0 14.0 80 85 0.71 1.07 85.0 3.5 90 88 1.43 0.8655.0 4.0 57 51 0.50 1.0042.0 5.0 45 40 0.60 0.4070.0 8.0 70 90 0 2.50 342 354 3.24 3.03两考生总成绩标准分数计算表 甲生甲生 乙生乙生 甲生甲生 乙生乙生 科科 目目 X S X Z 如果按原始分数乙生总如果按原始分数乙生总分是分是354分优于甲生的分优于甲生的342分总分,但按标准分数则分总分,但按标准分数则甲生的甲生的3.24分优于乙生的分优于乙生的3.03分。分。标准差的应用标准分标准差的应用标准分你现在浏览的是第二十一页,共79页二、描述统计相关分析:相关分析:研究两自变量之间的关系紧密程度的过程,统计学上称为相关分析。事物的变研究两自变量之间的关系紧密程度的过程,统计学上称为相关分析。事物的变化总是伴随着一定的量的变化,有些是单变量,有些是双变量或多变量,也有些是复变量。化总是伴随着一定的量的变化,有些是单变量,有些是双变量或多变量,也有些是复变量。集中量数和差异量数反映的是单变量数据特征,相关分析主要研究双变量数据特征。集中量数和差异量数反映的是单变量数据特征,相关分析主要研究双变量数据特征。我们都知道事物现象间的相互关系,如果从数量关系的角度考察,可分为函数关系和相关关我们都知道事物现象间的相互关系,如果从数量关系的角度考察,可分为函数关系和相关关系两种类型。相关关系可分为正相关、负相关、直线相关、曲线相关、完全相关(函数关系)、系两种类型。相关关系可分为正相关、负相关、直线相关、曲线相关、完全相关(函数关系)、高度相关、低相关和零相关。高度相关、低相关和零相关。如:教育经费的投入与教育事业发展规模和速度之间的关系是正相关;如:教育经费的投入与教育事业发展规模和速度之间的关系是正相关;复习次数与遗忘量之间的关系是负相关。复习次数与遗忘量之间的关系是负相关。相关分析的方法有二:一是图示法,一为计算法。相关分析的方法有二:一是图示法,一为计算法。第二章第二章 相关分析相关分析图示法:将两组观测值标在坐标系中曲线相关直线相关你现在浏览的是第二十二页,共79页二、描述统计 相关系数:是描述两组数据之间相关程度的量数种类有:积差相关系数、等级相关、点二列相关和 相关积差相关系数(皮尔逊系数):是描述来自正态总体两个连续变量 之间线性相关程度的一种相关量数r=nxy-(x)(y)/nX 2-(X)2ny2-(y)2 相关系数的范围:-1 r1 当r是正值时为正相关;当r是负值时为负相关;r=0为零相关。通常1 r 0.70 为高度相关;0.70 r 0.40为较显著相关 0.40 r 0 为低相关。当然在下结论时还要进行显著性检验 第二章第二章 相关分析相关分析对相关系数的解释注意以下问题:对相关系数的解释注意以下问题:A在小样本中要做显著性检验;在小样本中要做显著性检验;B相关系数大小差异不是绝对的;相关系数大小差异不是绝对的;C相关系数不是等距的不能进行大小比较;相关系数不是等距的不能进行大小比较;D相关关系不一定是因果关系相关关系不一定是因果关系你现在浏览的是第二十三页,共79页第二章第二章 相关分析相关分析数学物理英语物理70757675606360638275657544605660525570559097859780894889r 0.91 r 0.26 例:数学与物理、物理与英语相关性比较例:数学与物理、物理与英语相关性比较你现在浏览的是第二十四页,共79页 第三章第三章 正态分布正态分布 在社会、教育现象中大多数随机变量都呈现是或近似正态分布的情形。正态分布是统计理论与统计应用中最重要应用最广泛的一种分布。正态曲线的特点1 1.5 2.5 3 4.5 6 X Y0.80.60.40.2 0=0.8,=1.5、2.5、4.5二、描述统计 一个正态分布是由总体的平均数和总体的方差所决定的。1、正态曲线及其特点正态曲线及其特点正态分布 x(,)的密度函数曲线2正态曲线位于正态曲线位于x轴上方,以轴上方,以x=为对称轴,以为对称轴,以x轴为渐近线轴为渐近线曲线的位置和形状取决于曲线的位置和形状取决于 值和值和值值,决定位置,决定位置,决定形决定形状。状。越大曲线越矮胖,越大曲线越矮胖,越小曲线越陡峭越小曲线越陡峭 x=时曲线处时曲线处于最高点,即当于最高点,即当x=时时f()1/2 为最大值为最大值,曲线呈中曲线呈中间高两边低的形态。间高两边低的形态。p正态曲线方程:正态曲线方程:f(x)=【1/(2 )】e-(x-)/2 22其中:是园周率;e是自然对数的底;x为随机变量的取值;为正态分布的均 值;为正态分布的方差。2pp你现在浏览的是第二十五页,共79页第三章第三章 正态分布正态分布2、正态分布曲线的重要性质:、正态分布曲线的重要性质:-3-2-0 2 3 68.26%95.46%99.73%从概率的角度而言:从概率的角度而言:观测数据落在(观测数据落在(+1)内的概率)内的概率为为68.26%;落在(;落在(+2)内的概)内的概率为率为95.46%;落在(;落在(+3)内的)内的概率为概率为99.73%。z=(x-)/标准正态分布 x(0,1)z、P的意义如如:z=1时时 P=0.3413 z=2时时 P=0.4772 z=2.5时时 P=0.4938 z=3时时 P=0.4987你现在浏览的是第二十六页,共79页3、正态曲线理论的应用(1)推求学生成绩中某些分数的人数 例:假定500个学生某科成绩近似正态分布,其X=70,=10,试问(1)75分以下有多少人(2)85分以上有多少人(3)75-85分之间有多少人。解:(1)z=(75-70)/10=0.5,查正态分布表中值为0.6915,因此75分以下的学生占69.15%,75分以下的人数是500X69.15%=346(人)(2)z=(85-70)/10=1.5,查正态分布表中值为0.93319,85分以下的学生占93.319%,因此85分以上的学生占100%-93.319%=6.681%,所以85分以上的人数是500X 6.681%=33(人)(3)75分至85分之间,实际上是75分以上至85分以下的范围,因此85分的百分率减去75分以下的百分率即为所求 93.319%-69.15%=24.169%500 x24.169%=121(人)-3-2-0 23 你现在浏览的是第二十七页,共79页正态曲线理论的应用(2)推求某一特定百分率的成绩界限 例:某县对初一年级学生1000名学生进行能力测验,其结果为X=75,=10,现拟根据此次结果选取25名学生作为“尖子班”培养,假定测验成绩近似正态分布,问多少分以上才能被选到“尖子班”学习。97.5%2.5%X 1.9675 94.6在正态分布表中查表中值0.975所对应的标准分数,z=1.96,既是说1000名学生中有97.5的人数在标准分数1.96以下,因此有2.5的人数在标准分1.96以上,再将标准分数1.96化为原始分数得:1.96X1075=94.6(分)答:分数在94.6分以上才能进“尖子班”。分析:“尖子班”的人数占全年级的百分比为:25/1000=2.5%用标准分计算更容易理解:xxZ-=Z1.96(x-75)/10X=1.96X1075=94.6(分)你现在浏览的是第二十八页,共79页正态曲线理论的应用(3)分析测验试题的难度例:某校学生在一次测验中,第一题的答对率为15%,第二题的答对率为25%,第三题的答对率为35%,假设这三题所测量的能力近似正态分布,问1、2、3题的难度值各为多少?各题之间的难度差异怎样?解:试题难度值比较表题号 答对率 答错率 难度值 难度差异 1 15%85%1.04 2 25%75%0.67 0.37 3 35%65%0.39 0.28在正态分布中,通常是根据答错率找出所对应的标准分数界限值,此值即为该题的难度比值。由左表可知虽然三题的答对率都相差10,但第二题与第三题的难度差异却比第一题与第二题的难度差异要小。x0 0.65 0.75 0.85 0.39 0.67 1.04你现在浏览的是第二十九页,共79页三、推断统计三、推断统计 教育现象和一切客观物质世界中的现象一样,教育现象和一切客观物质世界中的现象一样,不仅存在质的方面,同时也存在量的方面,而且不仅存在质的方面,同时也存在量的方面,而且这两方面是辩证统一的。教育统计学就是在教育这两方面是辩证统一的。教育统计学就是在教育现象的质与量中,专门研究其数量方面特征的重现象的质与量中,专门研究其数量方面特征的重要工具。在建立了以概率论和抽样方法为主要依要工具。在建立了以概率论和抽样方法为主要依据后,教育统计学便具有了以局部推知全体,以据后,教育统计学便具有了以局部推知全体,以样本资料推知总体性质的科学推断功能。样本资料推知总体性质的科学推断功能。根据样本信息对总体参数状况的推断有两种不根据样本信息对总体参数状况的推断有两种不同形式,既同形式,既总体参数估计总体参数估计和和假设检验假设检验,二者既有区别,二者既有区别也有联系。也有联系。你现在浏览的是第三十页,共79页三、推断统计三、推断统计 1、总体和样本、总体和样本 所要研究对象的全体叫做总体。其中每一个研究对象叫做个体。从所要研究对象的全体叫做总体。其中每一个研究对象叫做个体。从总体中抽取的一部分叫做总体的一个样本,样本中个体的数目叫做样本总体中抽取的一部分叫做总体的一个样本,样本中个体的数目叫做样本容量。容量。例例1:对家用电器质量抽查,确定次品率。不能采用全部检测的方法。:对家用电器质量抽查,确定次品率。不能采用全部检测的方法。例例2:全市要检查初中学生体育锻炼达标情况,对每名学生一一测试工:全市要检查初中学生体育锻炼达标情况,对每名学生一一测试工作量很大,不仅耗费人力、物力和时间,而且没有必要。有没有一种科学作量很大,不仅耗费人力、物力和时间,而且没有必要。有没有一种科学的方法只抽测一少部分学生,然后根据这部分学生的测试成绩去推知全市的方法只抽测一少部分学生,然后根据这部分学生的测试成绩去推知全市中学生的体育达标情况?中学生的体育达标情况?2、参数与统计量、参数与统计量 总体参数是指一切由观察测定总体的全部个体而得到的统计量数总体参数是指一切由观察测定总体的全部个体而得到的统计量数(,);样样本统计量是指为估计总体参数从样本所得的统计(本统计量是指为估计总体参数从样本所得的统计(,s)。)。第一章第一章 相关概念相关概念你现在浏览的是第三十一页,共79页推断统计推断统计4、抽样方法、抽样方法3、随机误差、随机误差样本统计量与总体参数之间的差距。样本统计量与总体参数之间的差距。从某市参加高考的从某市参加高考的1200名学生中抽取名学生中抽取200名试卷组成一个样本,计算这名试卷组成一个样本,计算这200份试卷的平均分和标准差,这份试卷的平均分和标准差,这200份试卷的平均分和标准差与份试卷的平均分和标准差与1200名考生的平名考生的平均分和标准差是有差距的,不同的抽取带来不同的差距,这种差距称之为随机误差。均分和标准差是有差距的,不同的抽取带来不同的差距,这种差距称之为随机误差。A、随机抽样(抽签法、随机数字法)、随机抽样(抽签法、随机数字法)B、机械抽样、机械抽样 C、分层抽样、分层抽样 D、整群抽样、整群抽样 抽取样本应遵循的原则。第一总体中每一个个体被抽中的机会均等,即抽中抽取样本应遵循的原则。第一总体中每一个个体被抽中的机会均等,即抽中与抽不中纯属偶然;第二任一个体与其它个体在抽取时无联带关系,即抽中的个与抽不中纯属偶然;第二任一个体与其它个体在抽取时无联带关系,即抽中的个体与抽不中的个体无关;第三在条件允许的情况下,尽量使样本容量大一些。体与抽不中的个体无关;第三在条件允许的情况下,尽量使样本容量大一些。5.小概率事小概率事 在随机事件中,概率很小的事件被称为小概率事件,习惯上约定在在随机事件中,概率很小的事件被称为小概率事件,习惯上约定在0.05以下,即当以下,即当P(A)5%时时,则则称称A为为小概率事件。在小概率事件。在统计统计推断中推断中认为认为,小概率事件在一次,小概率事件在一次试验试验或或观观察中是不可能察中是不可能发发生的。生的。你现在浏览的是第三十二页,共79页 第二章第二章 总体平均数的区间估计总体平均数的区间估计 (总体平均数的置信区间)(总体平均数的置信区间)推断统计的基本理论之一就是抽样理论,而推断统计的任务则是根据样本资料来推推断统计的基本理论之一就是抽样理论,而推断统计的任务则是根据样本资料来推断总体的特征,从而揭示总体的本质和规律。断总体的特征,从而揭示总体的本质和规律。抽样分布的几个重要定理(统计推断的理论依据)抽样分布的几个重要定理(统计推断的理论依据)1.从总体中随机抽出容量为从总体中随机抽出容量为n的一切可能样本的平均数的平均数等于总体的平均数。的一切可能样本的平均数的平均数等于总体的平均数。E(x)=2.容量为容量为n的平均数在抽样分布上的标准差,等于总体标准差除以的平均数在抽样分布上的标准差,等于总体标准差除以n的方根。的方根。x=n 3、从正态总体中,随机抽取的容量为、从正态总体中,随机抽取的容量为n的一切可能的样本平均数的分布也呈正态的一切可能的样本平均数的分布也呈正态分布。分布。4、虽然总体不呈正态分布,如果样本容量较大,反映总体、虽然总体不呈正态分布,如果样本容量较大,反映总体和和的样本平均数的抽样分布,的样本平均数的抽样分布,也接近于正态分布。也接近于正态分布。多个样本平均数呈正态分布 N(,)xn你现在浏览的是第三十三页,共79页 第二章第二章 总体平均数的区间估计总体平均数的区间估计 (总体平均数的置信区间)(总体平均数的置信区间)(一)、原总体的方差已知 样本平均数的总体分布,在样本容量很大时其分布近似于正态分布,样本平均数分布的标准差为/n,根据正态分布的性质U=(X-)/X 服从正态分布。对于给定的 值(01),则称(1-)为置信度,可求出满足P(UU)=1-。一般取=0.01或=0.05,对应的U0.05=1.96 U0.01=2.58。置信区间:=0.05 (x-1.96/n,x+1.96/n)为总体平均 数95%的置信区间 =0.01 (x-2.58/n,x+2.58/n)为总体平均数99%的置信区间根据样本平均数估计总体平均数的所在区间,称为总体平均数的区间估计。根据样本平均数估计总体平均数的所在区间,称为总体平均数的区间估计。基本原理:按一定概率要求,根据样本平均数估计总体平均数的所在区间基本原理:按一定概率要求,根据样本平均数估计总体平均数的所在区间。01/2 /2区间估计示意图区间估计示意图x-1.96/nx+1.96/n x+1.96/n 01/2 /2区间估计示意图区间估计示意图x-1.96/nx+1.96/n 01/2 /2区间估计示意图区间估计示意图x-1.96/nx+1.96/n 你现在浏览的是第三十四页,共79页(二)、原总体的方差未知(二)、原总体的方差未知 对于总体方差未知且容量n30,则用S代 相应的有置信区间为:=0.05 (x-1.96S/n,x+1.96S/n)为总体平均数95%的置信区间 =0.01 (x-2.58