《教育统计与测量》PPT课件.ppt
刘经兰刘经兰赣南师范学院教育科学学院赣南师范学院教育科学学院(学前教育1101、1102)三教407周二1、2节,周五双1、2节n教育统计与测量是一门应用性的学科,学习的过程也是应用的过程,从而提高本门课程的学习效果,更好实现课程的功能。n准备的学习用具:统计功能的计算器,练习本两本 教育统计篇教育测量篇教育统计篇教育统计篇n第一讲第一讲教育统计绪论教育统计绪论第一节第一节教育统计学概述教育统计学概述研究对象研究对象研究方法研究方法研究内容研究内容研究对象研究对象教育统计学:应用数理统计学的原理和方法研究教育问题。主要研究如何收集、整理、分析由教育调查和教育实验所获得的数据资料,并以此为依据进行科学推断,揭示教育现象所蕴涵的客观规律。研究方法n研究过程(三阶段)资料的收集资料的整理资料的分析研究方法调查实验实验全面调查重点调查典型调查抽样调查单组实验单组实验等组实验等组实验轮组实验轮组实验一组对象,若干处理相同条件对象,不同处理一组或多组对象,轮换处理抽样调查n单纯随机抽样从调查总体中完全随机地抽取调查单位或个人。n分层抽样将总体中每一个个体按照一定的规则分为不同的类型或层次,然后从各层次中按一定规则随机抽取若干样本。n整群抽样是抽取的对象以整群为单位而不是以个体不单位的抽样方法n机械抽样P4随机数的产生随机数的产生n大小为N的总体中产生样本量为n的随机样本的一个常用的方法是利用随机数(random number)。n利用随机数步骤为:(1)把总体的所有个体编号;(2)产生n个在0到N之间的随机数;(3)与如此产生的随机数中的数目相同的个体则形成了样本量为n的简单随机样本。n最原始的办法是掷一种正20面体的均匀材料制成的骰子,标有两套0到9的数字。每次产生一个0到9的数字。n另一种是查阅随机数表。在一些传统的统计教科书后可以找到随机数表;也有专门的随机数表的册子。n今天,多用计算机产生的伪随机数(pseudo-random number)来代替真正的随机数。研究内容n描述统计统计图表统计特征量n推断统计正态分布总体均数的估计假设检验方差分析n描述统计研究如何对客观现象的数量特征进行计量、观察、概括和表述。n用表和图表示,计算特征量(如平均值)等,所论不超出已有数据。n推断统计(统计推断)据数据所提供信息对数据所来自的总体(母体)的性质作推断,推断会有错误、误差,用概率论的术语和方法来描述和论证。误差的产生源于数据有误差。怎样尽可能减少推断的错误和误差,是统计推断的中心问题。描述统计与推断统计描述统计与推断统计n目的描述数据特征找出数据的基本规律n内容确定要研究的数量特征设计统计指标(说明这些数量特征的)搜集数据整理数据计算并显示指标数据描述统计0 0 0252525505050Q1Q1Q1 Q2Q2Q2 Q3Q3Q3 Q4Q4Q4x x x =30=30=30s s s2 22=105=105=105描述统计的主要方法描描描描述述述述统统统统计计计计方方方方法法法法集中量数集中量数:描述集中趋势描述集中趋势差异量数差异量数:描述离散程度描述离散程度相关系数相关系数:描述关系程度描述关系程度偏态系数偏态系数峰态系数峰态系数特征值特征值特征值特征值单向次数分布表单向次数分布表单向次数分布表单向次数分布表双向次数分布表双向次数分布表双向次数分布表双向次数分布表列联表列联表列联表列联表(交叉表交叉表交叉表交叉表)统计图统计图统计图统计图次数分布图次数分布图,如如直方图直方图发展趋势折线图发展趋势折线图相关散点图相关散点图描述数据的正态程度n目的:目的:对总体特征作出推断。n内容:内容:样样本本总总体体推断统计推推推推断断断断统统统统计计计计参数估计参数估计参数估计参数估计假设检验假设检验假设检验假设检验点估计点估计点估计点估计区间估计区间估计区间估计区间估计均数差异显著性检验均数差异显著性检验次数分布差异显著性检验次数分布差异显著性检验比例数差异显著性检验比例数差异显著性检验变量间关系显著性检验变量间关系显著性检验描述统计与推断统计的关系反映客观现反映客观现反映客观现反映客观现象的数据象的数据象的数据象的数据总体内在的数总体内在的数总体内在的数总体内在的数量规律性量规律性量规律性量规律性推断统计推断统计(利用样本信息对(利用样本信息对总体的数量特征进总体的数量特征进行估计和检验等)行估计和检验等)概率论概率论(包括分布理论、大数(包括分布理论、大数定律和中心极限定理等)定律和中心极限定理等)描述统计描述统计(统计数据的搜集、整(统计数据的搜集、整理、显示和分析等)理、显示和分析等)总体数据总体数据样本数据样本数据图图图图1-11-1统计学探索现象数量规律性的过程统计学探索现象数量规律性的过程统计学探索现象数量规律性的过程统计学探索现象数量规律性的过程第二节教育统计学的初步概念n被试n数据与变量n随机n误差n抽样与样本n定性研究和定量研究n统计量与参数n(一)随机变量n(二)总体、样本和个体n(三)次数、频率和概率n(四)误差n(五)统计量与参数n(六)定性研究与定量研究(一)随机变量随机变量n1、在相同条件下进行的实验或观察,其可能结果不止一个,事先无法确定,这类现象称为随机现象。具备以下三个条件:n第一,一次试验有多种可能结果,其所有可能结果是已知的;n第二,试验之前不能预料哪一种结果会出现;n第三,在相同的条件可以重复试验。n2、随机现象的每一种结果叫做一个随机事件。n3、我们把能表示随机现象各种结果的变量称为随机变量。用X、Y、X1、X24、随机变量的分类:n实验数据按由什么观测方法得来,可划分为两大类,n一类是计数数据计数数据,是指计算个数的数据,一般属性的调查获得的是此类数据,它具有独立的分类单位,如人口数、学校数等等,一般都取整数的形式。n另一类测量数据测量数据,是借助于一定的测量工具或一定的测量标准而获得的,如身高、体重、分数、各种感觉阈等等。4、随机变量的分类:n测量数据按其是否等距和有无绝对零点,又可细分为下述四种测量水平:(1)有相等单位又有绝对零点的数据称为比率变量,如身高、体重、反应时、各种感觉阈值的物理量。(2)有相等单位但无绝对零点的数据,称为等距变量,如温度、各种能力分数、智商等。(3)既无相等单位,也无绝对零点,仅表示顺序,不能指出其间的差别大小的数据,称为顺序变量。如等级评定、品质等级等等。(4)既无相等单位,也无绝对零点,仅表示其名称的变量,称为称名变量。如名字、学号等等。4、随机变量的分类:n测量数据按其是否具有连续性可划分为n连续变量与离散变量(二)总体、样本和个体n总体是指具有某种特征的一类事物的全体又称母体。构成总体的每个基本单元称为个体。从总体中抽取一部分个体,称为总体的一个样本。样样本本总总体体(三)次数、频率和概率n1、次数 次数是指某一事件在某一类别中出现的数目,又称为频数,一般用符号f表示。n2、频率 又称相对次数,即某一事件的次数被总的事件数目除,亦即某一数据出现的次数被这一组数据数目的总数除。频率常用比例来表达,有时也用百分数表示。f/Nn3、概率又称机率或然率,常用符号P表示。是指某事件在无限的观测中所能预料的相对出现的次数。概率常用比例表示。(四)误差n测定的观测值与真值之差称为误差.误差可分为随机误差、系统误差和抽样误差三种类别。n随机误差指由与研究目的无关的难以控制的偶然因素所引起的误差。n系统误差指由与研究目的无关的因素所引起的有规律性的误差。n抽样误差指由于抽样而产生的误差。抽样误差属于随机误差的范畴,由于它在统计中的重要地位,所以人们专门列条陈述。(五)(五)统计量与统计量与参数参数n统计量又称统计特征数,是根据科研实验所获得的一组观测值计算出来的一些量数,又称为样本统计量。n参数又称总体参数,是指描述一个总体情况的一些统计指标。n统计量和参数所用的名称基本相同,但符号是不一样的。(六)定性研究与定量研究n定性研究是对教育的研究内容进行质的分析,通过分类选取典型例证的方式对信息重新组织和在描述性的基础上得出结论。n定量研究是指对教育中所包含的信息采用一定的方法、技术进行量的分析。思考与练习题n1、何谓教育统计学?学习它有何意义?n2、什么是随机变量?教育科学实验所获得的数据是否属于随机变量?n3、怎样理解总体、样本与个体?n4、何谓次数、频率及概率?n5、统计量与参数之间有何区别和关系?6、下述一些数据,哪些是测量数据?哪些是计数数据?其数值意味什么?称名变量,顺序变量,等级变量,比率变量n(1)17.0千克 (2)89.85厘米n (3)199.2秒 (4)17人n (5)25本 (6)93.5分n(6)35号 (7)第一名,第二名n(8)3第二讲描述统计n第一节第一节 统计表与统计图统计表与统计图n第二节第二节 教育统计的特征量教育统计的特征量第一节 统计表与统计图n统计表n构成:统计表一般由标题、表号、标目、表注等构成。横标目的总标目(亦可空白)纵标目(一般设谓语)横标目数字表的标题?注脚:说明资料来源等XXX(顶线)(底线)统计表基本格式编制统计表的要求n()表的结构要简单明了,层次清楚。n()表的标题要简明扼要地、确切地反映表的内容,写在表的上端的中央位置。n()表的标目有横、纵标目之分。一般将统计表所要叙述的主要对象放在横标目n上,而将用以叙述的统计指标在纵标目上。n()表内数据排列要整齐,小数点位置要对齐,缺数据格或无数据格要划斜线。n()表的标题、标目或数字有未尽之意的地方,应加脚注说明,表中资料的来源应在底线下加以注明。简单表表2 重庆2中各年高考录取人数年份1993 19941995 1996 1997 合计高考录取人数101109110150190560复合表表2。4某高级中学各年级文理科男女学生人数科别文科理科总计男女男女男女高一12085180110305195高二11090170105280195高三14011019095340205总计3702855453109155954、频数分布表n对于一组大小不同的数据划出等距的分组区间称为组距(i),然后将数据按其数值大小列入各个相应的组别内,便可以出现一个有规律的表式。这种统计表又称之为次数分布表。编制次数分布表的步骤n(1)求全距。全距指最大数与最小数之间的差距。n(2)决定组数与组距。组距是指每一组的间距,用符号i表示 n(3)列出分组区间。分组区间又称为分组阶段。n列分组区间要注意以下几点:最高组区间内应能包含最大值的数据,最低组区间应能含最小值的数据。最高组或最低组的下限最好是组距的整数倍。分组区间可写为10一,20一,30一,40一等,但我们l必须明确,实际上各组的精确界限应是9.5一19.499。n(4)登记次数。依次将数据登记到各个相应的组别内,一般用划线记数或写正字的方法。n(5)计算次数(f)。各组的次数计算好后,还要计算总和即总次数。一是为了以后计算的需要,二是为了核对各组总和与数据总数(N)是否相等。n(5)抄录新表。登记核实后,重新制表。5.累积频数分布表及累积百分比分布表 表一表一 三(三(2 2)班)班3030名学生语文、数学、英语期末考试成绩名学生语文、数学、英语期末考试成绩 (三科成绩均服从正态分布)学号语数英学号语数英学号语数英018793851180727621676571026567741276818222807883037372801366707323848795049486821453576024867775058078761544525325616264067875651649504526687274077580761774818027726966086360581869707328788688095866671973747229828178107074742052435430767585表二:三(2)班30名学生语文成绩频数分布表分组区间组中值xc简单频数f相对次数f/N%累积频数FbFa累积百分比%90-9513.333013.3380-85723.3329826.6770-751033.3422186060-65723.33122583.3350-5531052893.3340-4526.67230100 x30n课堂练习:n三(2)班30名学生英语成绩频数分布表n利用计算机制表常用的计算机软件:Excel,SPSS制表n用Excel软件制表语文语文数学数学英语英语物理物理化学化学政治政治体育体育高三(1)75698976798384高三(2)82659065778976高三(3)72888789856789高三(4)67817981896963二、统计图n(一)统计图的功用(一)统计图的功用n所谓统计图就是依据数字资料,应用点、线、面、体、色彩导的描绘制成整齐而又规律,简明而又知其数量的图形。统计图一般采用直角坐标系,横坐标用来表示事物的组别或自变量X,纵坐标常用来表示事物出现的次数或因变量Y.(二)统计图的结构与制图要点(二)统计图的结构与制图要点n图号及图题 n图目n图形图形 n图注图注(三)统计图的种类(三)统计图的种类n统计图可按形状、数字性质、图的用途等标志分为多种类别。教育统计中常用的统计图可按形状划分为直条图、直方图、曲线图、圆形图、散点图等等。n统计图:由标题、图号标目、图注等项构成。单式条形图第一节统计表与统计图n复式条形图圆形图(饼图)圆形图(饼图)折线图4.线条图5.频数颁布直方图图.4中考化学统计成绩直方图6.累积频数图图.52004年中考化学抽样得分情况累积频数图102030405060708090100图2.6:高一语文7、面积图面积图n三(2)班30名学生语文成绩简单直方图、折线图、累积次数直方图、累积次数曲线表二:三(2)班30名学生语文成绩频数分布表分组区间组中值xc简单频数f相对次数f/N%累积频数FbFa累积百分比%90-9513.333013.3380-85723.3329826.6770-751033.3422186060-65723.33122583.3350-5531052893.3340-4526.67230100 x30n课堂练习:n三(2)班数学和英语成绩的次数分布表.相对次数分布表,累积次数分布表和次数直方图,次数多边图和累积次数曲线.n利用计算机制图常用的计算机软件:Excel,SPSS制图n用Excel软件制图第二节教育统计的特征量n最常用的统计量有三类:n一类是代表一组数据典型水平或集中趋势的量,即集中量;n另一类是反映一组数据的变异程度或离散程度的量,即差异量n第三类是反映数据的相关程度的量,即相关量。一、集中量n定义:代表一组数据典型水平或集中趋势的量。平均数n算术平均数原始数据法:频数分布表法n加权平均数原始数据法频数分布表法n集中量是代表一组数据典型水平或集中趋势的量。n常用的集中量有平均数、中位数和众数。一、平均数n1、算术平均数n2、加权平均数n1、算术平均数n简称为平均数或均数(Mean)。1、算术平均数n(1)未分组数据平均数的计算方法n(2)数据分组后计算平均数的方法n(3)平均数特点n(4)平均数的意义与应用(1)未分组数据平均数的计算方法(原始数据)n当一组数据未进行统计分类时,若想描述其典型情况,找出其代表值,可计算算术平均数,公式为:nn公式中Xi表示所有数据的和,即Xi=XI+X2+XNnN为数据的个数。.n例如,求某小组10个学生的数学测验分数78,79,62,84,90,71,76,83,98,77的平均数。表一表一三(三(2)班)班30名学生语文、数学、英语期末考试成绩名学生语文、数学、英语期末考试成绩(三科成绩均服从正态分布)学号语数 英学号语数英学号语数英018793851180727621676571026567741276818222807883037372801366707323848795049486821453576024867775058078761544525325616264067875651649504526687274077580761774818027726966086360581869707328788688095866671973747229828178107074742052435430767585(2)数据分组后计算平均数的方法(频数分布表)n公式为:n表二:三(2)班30名学生语文成绩频数分布表分组区间组中值xc简单频数f相对次数f/N%累积频数FbFa累积百分比%90-9513.333013.3380-85723.3329826.6770-751033.3422186060-65723.33122583.3350-5531052893.3340-4526.67230100 x30(3)(3)平均数的特点平均数的特点在一组数据中,每一个数据加上一个常数在一组数据中,每一个数据加上一个常数C C,则所得的平均数为原来的平均数加上常数则所得的平均数为原来的平均数加上常数C C。即:。即:在一组数据中,每一个数据乘上一个常数在一组数据中,每一个数据乘上一个常数C C,则,则所得的平均数为原来的平均数乘上常数所得的平均数为原来的平均数乘上常数C C。即:。即:离均差的和等于离均差的和等于0 0。即:。即:(4)平均数的意义与应用n算术平均数具备一个良好的集中量数应具备的一些条件:n反应灵敏。n确定严密。n简明易解。n计算简单。n符合代数方法进一步演算。n较少受抽变动的影响。n缺点:n易受极端数据的影响。n若出现模糊不清数据时,无法计算平均数。n此外,必要注意,凡不同质的数据不能计算平均数。2、加权平均数n(1)加权平均数的概念n加权平均数是不同比重数据(平均数),nW表示各观察值的权数;nX表示具有不同比重的观察值。(2)加权平均数的计算方法n例如,某年级各班的一次数学考试成绩如下:一班45人平均分为80;二班50人平均分为70;三班40人平均分为65;四班50人平均分为80;五班60人平均分为65,求全年级的总平均分。n例2:某校初一共有3个班,某次语文测验中,一班50人均分为68,二班45人均分为75,三班40人均分为80,问全校初一语文的平均成绩?不能用:(不能用:(68+75+80)/3=74.33二、中位数n中中数数,又称中点数,中位数。符号为Md中数是指位于一组数据中较大一半与较小一半中间位置的那个数。n中数的求法根据数据是 否分组,而有不同的方法。(一)未分组数据求中数的方法n例1有下列9个数,依大小排列为4、7、8、9、10、11、12、13、14(N=9)n(N+1)/2=5,序列第五的数据是10,则该组数据的中数是10。n例2有下列8个数,依大小排列为:n2、3、5、7、8、10、15、19(N=8)序列为N/2=4者是7,序列为N/2+1=5者为8,则其中数为(7+8)/2=7.5。n从以上两例可以看出,求中数不受极大值与极小值的影响,而决定中数的关键是居中的那几个数据的数值大小。.(二)次数分布表求中数的方法(了解)n其具体步骤如下:n第一步求N/2,并找到N/2所在的分组区间;n第二步求含有中数那一区间以下各区间的次数和记作Fb;n第三步求N/2与 Fb之差;n第四步求序列为第N/2那一点的值。求中数的公式如下:表二:三(2)班30名学生语文成绩频数分布表分组区间组中值xc简单频数f相对次数f/N%累积频数FbFa累积百分比%90-9513.333013.3380-85723.3329826.6770-751033.3422186060-65723.33122583.3350-5531052893.3340-4526.67230100 x30中数的意义与应用n优点:计算简单,容易理解,中数的概念简单明了。n缺点:它反应不够表敏;n计算中数时,受抽样的影响较大,不如平均数稳定;n中数乘以总数与数据的总和不相等;n中数不能作进一步代数运算等等。n在一些特殊情况下,它的应用受到重视。这些特殊情况是:当一组观测结果中出现两极端数目时。当次数分布的两端数据或个别数据不清楚时,只能取中数作为集中趋势的代表值。当需要快速估计一组数据的代表值是,也常用中数。三、众数的概念与求法三、众数的概念与求法n众数(Mode)又称为范数,密集数,通常数等,常用符号M0表示。众数是指在次数分布中出现次数最多的那个数的数值。n(一)直接观察求众数n(二)用公式法求众数n(三)众数的意义与应用n(一)直接观察求众数n只凭观察找出出现次数最多的数据就是众数。n5、8、9、8、4、3、8、1、8、4(二)用公式法求众数n1、皮尔逊的经验法(分数分布为正态分布)nMo=3Md-2M2、金氏插补法(了解)式中Lb为含众数这一区间的精确下限;fa不高于众数所在组一个组距那一分组区间的次数;fb不低于众数所在组一个组距那一分组区间的次数;I为组距 若fa=fb,则Mo不次数最多那一区间的组中值。这个公式适合次数分布比较偏斜的情况,当然,比较接近正态分布的出适用。众数的意义与应用n众数的概念简单明了,容易理解;n但它不稳定,受分组的影响,亦受样本变动的影响;n反应不够灵敏,观察众数,不严格计算而来,用计算方法所得众数亦是一个估计值。同时不能作进一步代数运算。n众数也不是一个优良的集中量数,应用也不广泛。n但在下述情况下也常有应用:当需要快速而粗略地寻求一组数据的典型情况时;当一组数据出现同质的情况时,可用众数表示;3、当次数分布中有两极端的数目时,有时也用众数(一般用中数);当粗略估计次数分布的形态时,有时用平均数与众数之差,表示次数分布是否偏态的指标。平均数、中数、众数之间的关系平均数、中数、众数之间的关系n在一个正态分布中,平均数、中数、众数三者相等,因此在数轴上三点重合。n在正偏态分布中MMdM。n在负偏态分布中MMdM。n平均数为一个平衡点,是一组数据的重心。它使数轴保持平衡,即支点两侧的力矩是相等的。n中数:只使其两侧的数据个数相同。n众数:是指次数出现最多的,即重量较大的那个数据。思考与练习题1、应用算术平均数表示集中趋势要注意什么问题?2、对于下列数据,使用何种集中量数表示集中趋势其代表性更好?并计算它们的值。(1)4 5 6 6 7 29(2)3 4 5 5 7 5(3)2 3 5 6 7 8 9 3、求下列次数分布的平均数、中数和众数分组f分组f65-135-3460-430-2155-625-1650-820-1145-1615-940-2410-74、求下列四个年级的总平均成绩年级一二三四90.5919294n236318215200第二节教育统计的特征量n二、差异量:代表一组数据离散程度、变异程度的量。(一)全距(R)n最大值与最小值之差(三)方差与标准差方差与标准差n方差(Varance)也称变异数、均方。作为统计量,常用符号S2,x2表示,作为总体参数,常用符号2表示。n标准差(Srandarddeviation)即方差的平方根,常用S或SDx表示。若用表示,则是指总体的标准差。1、方差与标准差的计算、方差与标准差的计算n问题1:某班甲乙两组在一次测验中的成绩分别为65,68,71,72,74(均分为70分)和30,50,86,90,94(均分为70分)。如何评价两组的学习情况?又如:某某研究者对实验班用计算机辅助教又如:某某研究者对实验班用计算机辅助教学,而对照班仍用传统的讲授方式进行教学,期学,而对照班仍用传统的讲授方式进行教学,期末进行统一测试,两班学生的成绩如下,试比较末进行统一测试,两班学生的成绩如下,试比较两种授课方式产生的效果有何不同?两种授课方式产生的效果有何不同?总平均数=81.81平均分标准差D方差和平方和实验班(45)83.765.471.9529.923853 324107对照班(46)79.826.361.9940.453592 288544表1:30名学生英语成绩频数分布表分数组中值XCfFb70-7223065-6752860-5292355-5781450-526630求平均数、标准差和方差2、方差与标准差的意义方差与标准差的意义n方差与标准差是表示一组数据离散程度的最好指标,其值越大,说明离散程度大,其值小,说明数据比较集中,它是统计描述与统计分析中最常应用的差异量数。n它基本具备一个良好的差异量数应具备的条件:(1)反应灵敏;(2)有一定的计算公式严密确定;(3)容易计算;(4)适合代数运算;(5)受抽样变动的影响小,即不同样本的标准差或方差比较稳定;(6)简单明了;(7)具有可加性。四、差异系数n当所观测的样本水平比较接近,而且是对同一个特质使用同一种测量工具进行测量时,要比较不同样本之间离散程度的大小,一般可直接比较标准差或方庆功的大小。标准差的单位与原数据的单位相同,有时称它为绝对差异量。n差异系数,又称变异系数、相对标准差等,通常用符号CV表示,其计算公式如下:n(1)同一团体不同观测值的离散程度的比较;(2)对于水平相差较大,但进行的是同一观测的各种团体,进行观测值离散程度的比较。n例题:某校期末考试语文平均成绩为69.3分,标准差为11.2分;英语平均成绩为94.8,标准差为13.8分。问哪一学科离散程度大?n例题:设某考区已录取高中学生语文平均分为69分,标准差为12.5分,而未录取高中的学生语文平均分为40分,标准差为12.5分。比较他们语文成绩的离散程度。CV1=12.5/69*100%=18.12%;CV2=12.5/40*100%=31.25%。未录取学生的离散程度大。n某市区入学男童(7岁组)体重的平均值为20.37kg,标准差为2.16kg;身高的平均值为113.64cm,标准差为4.04cm。问身高与体重那个差异大?由公式课堂练习:练习练习n1、分别用定义公式及原始数据计算、分别用定义公式及原始数据计算3,5,8,9,10的方差和标准的方差和标准差。差。n2、计算下列资料的方差和标准差。、计算下列资料的方差和标准差。分数分数50-55-60-65-70-75-80-85-90-95-总和总和频数频数246112437191294128n3、2002年测得我国年测得我国17岁学生岁学生400M跑成绩,男学生平均数为跑成绩,男学生平均数为92.5秒,秒,标准差为标准差为6.72秒,女学生平均数为秒,女学生平均数为117.0秒,标准差为秒,标准差为10.6秒,试比秒,试比较较17男女学生男女学生400M跑成绩的离散程度。跑成绩的离散程度。第二节教育统计的特征量n相关量:用于描述两个或多个变量间关联程度的量。相关关系相关系数相关系数:用来描述两个变量相互之间变化方向及密切程度的数字特征量称为相关系数。积差相关等级相关点二列相关相关数学与物理、物理与英语相关性比较数学物理英语物理170757675260636063382756575444605660552557055690978597780894889r0.91 0.26 相关系数与相关程度表一览表相关系数与相关程度表一览表|r|00.30.3|r|0.50.50.81.0 相关程度零相关微相关切实相关密切相关高度相关完全相关相关关系正相关相关关系零相关负相关积差相关系数n积差相关两组(N30)的正态、且呈线性关系的连续变量之间的相关。积差相关系数的定义公式:积差相关系数的定义公式:积差相关系数的定义n用原始数据计算:用特征量计算:例:P46back等级相关系数n等级相关系数以等级次序排列或以等级次序表示的变量之间的相关Spearman二列等级相关:N不一定必须大于30数学d1物理d2D1704753.50.5260563503822753.5-1.5444760615526557-16901971078038921例:10个学生数学和物理成绩的等级相关分析序号序号数学分数数学分数X X物理分数物理分数Y YX X等级等级Y Y等级等级D DD D2 21949311002909222.5-0.50.25386923.52.511486703.57-3.512.255728254116707665.50.50.257686579-248667685.52.56.25964689811106160101000N=10N=1026点二列相关n在来自总体的两个变量中,一个变量是连续变量,另一个变量是两分变量(男、女;对、错;及格、不及格),点二列相关研究这样两个变量之间的相关关系。相关系数p、q两类变量的平均值连续变量的标准差另一类别频数的比例一类别频数的比例性别男 男 男 男 女 男 男 女 女 女 男 女 女 男 男成绩86 91 90 66 58 99 74 88 72 89 62 65 78 67 85例:某班期末语文考试,从全体考生中随机抽取15名学生的考试成绩,见下表。问该次考试成绩是否与性别有关?P48例题:下表为某一测验中10名考生的卷面总分和一道选择题的得分,试求该选择题的区分度.(与部分的相关)考生ABCDEFGHIJ选择题得分1111001001卷面总分75 57 73 65 67 56 63 61 65 67相关n两个变量都是二分变量,或者可以人为地分为二分变量时,使用相关分析其相关程度。另一类数据合计及格不及格一类数据是aba+b否cdc+d合计a+cb+d例:从体育达标测验的学生中随机抽取60人,其中男、女达标情况见下表,问本次达标测验是否与性别有关?另一类数据合计达标未达标一类数据男201232女111728合计312960例题:从研究生入学考试中,随机抽取100人,其大学应届与历届毕业生录取情况如下表,问应届与历届大学毕业生同研究生录取与否的相关情况如何?0.23应届录取未录取历届录取301848未录取2032525050100练习练习n1、求以下几何(、求以下几何(X)与代数()与代数(Y)的积差相关系数。)的积差相关系数。X79757773797881767270Y80827677778481727075n2、校方寻某一个年级、校方寻某一个年级8位物理教师课堂教学效果位物理教师课堂教学效果所排列的名次所排列的名次(由低到高排),和这由低到高排),和这8个班级学生个班级学生物理统一测验的平均分数如下表,问教师课堂教物理统一测验的平均分数如下表,问教师课堂教学效果与学生测验成绩是否存在相关?学效果与学生测验成绩是否存在相关?课堂教师效果得分课堂教师效果得分42873615各班平均分数各班平均分数7254807263695169n3、高等教育自学考试已婚与未婚学员的高等数学成绩如下、高等教育自学考试已婚与未婚学员的高等数学成绩如下表,问婚否与成绩是否存在相关?表,问婚否与成绩是否存在相关?成绩成绩7281649367707883797177828076586672677478已婚已婚1未婚未婚0100001011100111111104、从研究生入学考试的学生中,随机抽取60人,其大学应届与历届毕业生录取情况如下表,问应届与历届大学毕业生同研究生录取与否的相关情况如何?应届合计录取未录取历届录取a20b1232未录取C11d1728合计302960n1、第三节利用计算机求特征量n利用计算机求集中量n利用计算机求差异量n利用计算机求相关量利用计算机求集中量(一)n计算算术平均值(AVERAGE)步骤:1.建立Excel工作表、点击fx、选择常用函数或点击统计、选择AVERAGE(算术平均值)、点击确定。2.点击数据组表格框、拖动表格、点击表格框、点击确定。例:利用计算机求集中量(二)n计算中值(MEDIAN)步骤:1.建立Excel工作表、点击fx、选择常用函数或点击统计、选择MEDIAN(中值)、点击确定。2.点击数据组表格框、拖动表格、点击表格框、点击确定。例:BackMODE(众数)的求法与MEDIAN的求法相似利用计算机求标准差n步骤:1.建立Excel工作表、点击fx、选择常用函数或点击统计、选择STDEV(标准偏差)、点击确定。2.点击数据组表格框、拖动表格、点击表格框、点击确定。例:back利用Excel求积差相关系数1.建立Excel工作表、点击fx、选择常用函数或点击统计、选择CORREL(积差相关系数)、点击确定。2.点击数据组表格框(1)、拖动所选数据表格、点击表格框(1),点击数据组表格框(2)、拖动所选数据表格、点击表格框(2)、点击确定。例:利用问卷收集数据正态负偏态正偏态第三讲推断统计n第一节正态分布n第二节总体平均数的估计n第三节几种常用统计检验方法n第四节方差分析概概率率n频率:随机事件频率:随机事件A在在n次试验中出现次试验中出现m次,次,m与与n的比值就是的比值就是随机事件随机事件A发生的频率。发生的频率。n公式:公式:P(A)=m/nn概率:随着试验次数概率:随着试验次数n的无限增大,随机事件的无限增大,随机事件A的频率稳定于的频率稳定于一个常数一个常数P,这个,这个P就是随机事件就是随机事件A出现的概率。可表示为:出现的概率。可表示为:nP(A)m/nn概率的性质:概率的性质:(1)0P(A)1(2)不可能事件的概率等于零。即)不可能事件的概率等于零。即P(v)=0(3)必然事件的概率等于)必然事件的概率等于1。即。即P(u)=1第一节正态分布和正态曲线n最为常见一种概率分布形态,在理论和实践中均有广泛的应用。n(一)密度函数n简记n特征:单峰、对称标准正态分布(standard normal distribution)的两个参数为:=0,=1 记为 N(0,1)一般正态分布为一个分布族:N(m,s2);标准正态分布只有一个 N(0,1);这样简化了应用u-0.00.10.20.30.40.5-4-3-2-101234zf(X)正态曲线(normal curve)图形特点:1.钟型2.中间高3.两头低4.左右对称5.最高处对应于X轴的值就是均数6.曲线下面积为17.标准差决定曲线的形状X Xf f(X X)m m正态分布的特征n1、正态分布的形式是对称的,(但对称的不一定是正态分布),它的对称轴是过平均数点的垂线。正态分布中,平均数、中数、众数三者相等,此点y值最大(0.3989)。n2、正态分布的中央点(即平均数点)最高,然后逐渐向两侧下降,曲线的形式是先向内弯,然后向外弯,拐点位于正负1个标准差处,曲线两端向靠近基线处无限延伸,但终不能与基线相交。012-1-2xy-33=0=1n3、正态曲线下的面积为1,由于它在平均数处左右对称,故过平均数点的垂线将正态曲线下的面积划分为相等的两部分,即各为0.50。0.5二、正态分布表的编制与使用n依据正态分布的密度函数,编制方法:从Z=O开始,逐渐变化Z分数,计算从Z=0至某一定值之间的概率。012-1-2zy-33=0P=1zYn正态表一般包括以下三栏:n第一栏表明Z分数单位,在平均数这一点上Z=0,在平均数以上(即曲线右侧)Z分数为正值,在平均数以下(即曲线左侧)Z分数为负值。一般正态表上z分数列到3.99,更详细的列到5.00。n第二栏为y(即密度函数或比率数)值,即某一Z分数点上的曲线纵坐标的高度,标准正态曲线下y=0.3989,它是Z=0。这一点上曲线纵坐标具有的最大值或说概率密度值。n第三栏为概率值(常标以P)即不同z分数点与平均数之间的面积与总面积之比。(一)依据Z分数求概率。即已知差度(Z),求面积(P)n1.某Z分数值与平均数(Z=0)之间的概率。nP(0z1)=0.34134=p(-1z0)nP(0z2)=0.47725=p(-2z0)nP(0z3)=0.49865=p(-3z3)=0.5-0.49865=0.00135nP(z1)=0.5+0.34134=0.84134012-1-2zy-33=0P?z3.求两个Z分数之间的概率。n11夹中间面积为夹中间面积为68.26%68.26%,n 即即 P P(1 1Z Z1 1)=68.26%=68.26%;n22夹中间面积为夹中间面积为95.46%95.46%,n 即即 P P(2 2Z Z2 2)=95.46%=95.46%;