课题研究数据整理与分析-统计理论部分.ppt
课题研究数据整理与分析-统计理论部分周海波湖南师范大学心理系课程目标、内容v 目标:掌握课题研究的一些基本思路、选取方法、统计分析方法v 内容 统计概论Excel 与课题研究SPSS 与课题研究引言课题研究v 案例双手交叉 与性别的关系 与文理科的关系 与性格气质类型的关系 如果描述上述结果?v 课题研究一般过程 选择课题 实施方案 实验研究 整理结果一统计概论v 统计学:是一门关于用科学方法收集、整理、汇总、描述和分析数据咨询,并在此基础上进行推断和决策的科学。v 统计 统计资料 统计工作 统计学v 教育统计学心理与教育统计学的研究内容描述统计推论统计实验设计心理与教育统计学1.1 描述统计v 定义:主要研究如何整理心理与教育科学实验或调查得来的大量数据,描述一组数据的全貌,表达一件事物的性质.v 内容:数据如何分组:使用统计图表描述 怎样计算一组数据的特征值,从而描述数据全貌 表示一一事物两种或两种以上属性间相互关系的描述及各种相关系数的计算及应用条件,描述数据分布特征的峰度偏度系数的计算方法推论统计v 定义:研究如何通过局部数据所提供的信息,推论总体的情形,目的在于根据 已知 已知的情况,在一定概率的意义上估计、推测 未知 未知的情况。v 内容 假设检验,大样本(Z 检验);小样本(t 检验);计算资料(百分数检验,X2 检验),变异数分析(F 检验),回归分析方法 总体参数特征值估计方法 非参数的统计方法实验设计v 目的:研究如何更加合理、有效地获得观察资料,如何更正确、更经济、更有效的达到目的实验目的,以提示实验中各种变量关系的实验计划。v 内容:选择怎样的抽样方式;如何计算样本容量;确定怎样的实验对照形式;如何实现实验组和对照组的等组化;如何安排实验因素和如何控制无关因素;用什么统计方法处理及分析实验结果,心理与教育统计学基础知识1、数据类型分类数据等级数据等距数据比率数据计数数据离散型数据测量数据连续型数据变量、随机变量、观测值v 变量是可以取不同值的量。统计观察的指标都是具有变异的指标指标。当我们用一个量表示这个指标的观察结果时,这个指标是一个变量。v 用来表示随机现象的变量,称为随机变量随机变量。一般用大写的或表示随机变量。v 随机变量所取得的值,称为观测值观测值。一个随机变量可以有许多个观测值。总体、个体和样本v需要研究的同质对象的全体,称为总体。v v每一个具体研究对象,称为一个个体。v从总体中抽出的用以推测总体的部分对象的集合称为样本。v样本中包含的个体数,称为样本的容量n。一般把容量n 30的样本称为大样本;而n 30的样本称为小样本。统计量和参数统计指标统计量参数平均数标准差S 相关系数r 回归系数b 次数、比率、频率与概率v 次数/频数:某一事件在某一类别中出现的数目v 比率:两个数的比v 频率:某一事件发生的次数被总的事件数目除v 概率:某一事件在无限的观测中所能预料的相对出现的次数,即某一事物或某种情况在某一总体中出现的比率。统计误差v 误差是测得值与真值之间的差值。v 测得值真值误差v 统计误差归纳起来可分为两类:测量误差与抽样误差。v 由于使用的仪器、测量方法、读数方法等问题造成的测得值与真值之间的误差,称为测量误差。v 由于随机抽样造成的样本统计量与总体参数间的差别,称为抽样误差。抽样原理及其方法v 原则:随机化,在进行抽样中,总体中每一个体是否被抽取,并不由研究者主观决定,而是每一个体按照概率原理被抽取的可能性是相等v 抽样方法 简单随机抽样:抽签法,随机数字法 等距抽样:排序,隔若干个抽取一个 分层随机抽样:将总体分层,每层中随机抽样 两阶段随机抽样:分为两阶段v v缺失缺失:指数据不全或缺项未填;例如一份资料中未回答的问题占10以上,或者缺少关键性资料。v v可疑可疑:指难以辨认或怀疑其真实性的数据;例如,有的被试填答的问卷全部选同一个选项(如全选A或全选B);有的被试填答的结果可以看到是一种规则的排列方式(如A B C D E D B C A B C D E)。v v失误失误:指存在明确差错的数据或答案。v 对于个别极端数据是否该剔除,应遵循三个标准差三个标准差法则。1.2 统计表v 统计表是用来表达研究变量与被说明的事物之间数量关系的表格。它可以将大量数据的分类结果清晰、概括、一目了然地表达出来,便于分析、比较和计算。统计表的构成 横标目的总标目 纵标目 横标目 数字表21 统计表的格式顶线底线表线表号 标题标目 标目表注注:例:表2-2 北京市四街道智力落后患者分布街道 检查人数 病人数患病率()甲51841 159 3.1乙76030 263 3.5丙49508 190 3.8丁51788 170 3.3总计229168 782 3.4资料来源:见心理学报1979年第1期103页,选部分引用统计表的种类vv简单表:只按研究现象(或变量)的名称、地点、时序等列出数据的统计表。vv分组表:只按一个标志分组的统计表称为分组表。vv复合表:按两个或两个以上标志分组的统计表称为复合表。简单表表2-3 各校学生数一览表学校 校 校 校 校人数985 762 893 1051分组表v 表2-4 上海市区男幼儿20米跑步用时年龄组3岁 4岁 5岁 6岁平均用时(秒)7.71 7.16 6.04 5.53资料来源:引自华东师范大学学报,1985年第2期第30页复合表v 表2-5 某年级操行评定结果班别甲 乙 丙 丁合计男 女 男 女 男 女 男 女一班6 5 8 8 6 4 2 1 40二班5 5 9 10 3 3 1 1 37三班7 6 9 8 4 3 0 1 38合计18 16 26 26 13 10 3 3 115例:表26 中学生心理烦恼调查被试分布1.3、统计图v 统计图是整理和呈现数据的另一种方法,它把研究变量与被说明事物之间的数量关系用图形表现,直观、形象地表达出事物的全貌及其数据的分布特征,使人一目了然,便于理解和记忆,印象深刻。统计图的构成v统计图一般由图号、标题、标目、图形、图注等几部分构成。v统计图中的标目由基线和尺度线构成。对于有纵、横轴的统计图,一般以基线表示被观察的现象,而尺度线则表示其数量。统计图的分类v v条形图:用直条的长短来表示统计项目数值大小的图形,主要是用来比较性质相似的间断型资料。v v圆形图:是用于表示间断型资料比例的图形。圆形的面积表示一组数据的整体,圆中扇形的面积表示各组成部分所占的比例。各部分的比例一般用百分比表示。单式条形图图21 某年级操行评定结果条形图 基线尺度线图形复式条形图图22 某年级操行评定结果条形图例:图2-3 三项影响较大的SARS信息对不同文化程度民众的影响 圆形图图24 某年级操行评定结果圆形图基线尺度线绘制圆形图的步骤v求出各组成部分所占的百分比v求出各部分的中心角度v以顺时针方向画出扇形v标出不同颜色及百分比线形图 v线形图用来表示连续型资料。它能表示两个变量之间的函数关系;一种事物随另一种事物变化的情况;某种事物随时间推移的发展趋势等。v基于线形图,既可对有关统计变量进行数量比较,又可分析发展的趋势。例如:对有意义的词汇,小学一年级至初中三年级学生视觉、听觉记忆再现率的情况。图25 有意义的材料再现率比较线形图1.4 集中量数v 集中趋势:数据分布中大量数据向某方向集中的程度v 算数平均数v 中数v 众数v 加权平均数v 几何平均数v 调和平均数差异量数v 离中趋势:数据分布中彼此分散的程度,差异量越大,表明数据越分散、不集中;差异量越小,表明数据越集中,变动范围越小。v 全距v 百分位数v 四分位数v 平均差v 方差v 标准差二、平均差平均差(average deviation 或者 mean deviation)是指一组数据中,每一个数据与该组数据的平均数离差的绝对值的算术平均数,通常用AD或MD表示。本书中均以AD表示。三、方差和标准差方差(又称为变异数、均方)。是表示一组数据离散程度的统计指标。一般样本的方差用 表示,总体的方差用 表示。标准差(standard deviation)是方差的算术平方根。一般样本的标准差用 S 表示,总体的标准差用 表示。标准差和方差是描述数据离散程度的最常用的差异量。表5-1 52名学生数学成绩方差和标准差计算表成绩组中值Xc频数fF*Xc F*XC2计 算9597.5 2 195 19012.59092.5 2 185 17112.58587.5 3 262.5 22968.758082.5 5 412.5 34031.257577.5 8 620 480507072.5 11 797.5 57818.756567.5 9 607.5 41006.256062.5 5 312.5 19531.255557.5 4 230 132255052.5 2 105 5512.54547.5 1 47.5 2256.25合计 52 3775 2805255方差和标准差的意义v方差与标准差是表示一组数据离散程度的最好指标,是统计分析中最常用的差异量。v标准差具备一个良好的差异量应具备的条件,如:反应灵敏,有公式严密确定,简明易懂,适合代数运算等等。v应用方差和标准差表示一组数据的离散程度,须注意必须是同一类数据(即同一种测量工具的测量结果),而且被比较样本的水平比较接近。1.4 标准分数v 标准分数(standard score),又称为基分数或分数(Z score),是以标准差为单位表示一个原始分数在团体中所处位置的相对位置量数。v 标准分数从分数对平均数的相对地位、该组分数的离中趋势两个方面来表示原始分数的地位。v分数可以表明原始分数在团体中的相对位置,因此称为相对位置量数。v把原始分数转换成分数,就把单位不等距的和缺乏明确参照点的分数转换成以标准差为单位、以平均数为参照点的分数。2.标准分数的性质v 分数无实际单位,是以平均数为参照点、以标准差为单位的相对量。v 一组原始分数得到的分数既有正值,也有负值,所有原始分数的分数之和为零。v 一组原始数据中,各个分数的标准差为。v 标准正态分布的平均值为,标准差为。3.标准分数的优点 v v可比性:标准分数以团体的平均数为基准,以标准差为单位,因而具有可比性。v v可加性:标准分数使不同的原始分数具有相同的参照点,因而具有可加性。v v明确性:标准分数较原始分数的意义更为明确。v v合理性:标准分数保证了不同性质的分数在总分数中的权重相同,使分数更合理地反映事实。4、标准分数的应用v 用于比较几个分属性质不同的观测值在各自数据分布中相对位置的高低。v 计算不同质的观测值的总和或平均值,以表示在团体中的相对位置。当研究需要合成不同质的数据时,如果已知这些不同质的观测值的次数分布为正态,这时可采用分数来计算不同质的观测值的总和或平均值。v可以看到,在平均数上下各三个标准差的范围内,分布着全部数据的99.73%,反言之,在三个标准差之外的数据不足0.27%,因此常把“三个标准差”做为判断可疑值取舍的依据。2.区间估计v以样本统计量的抽样分布(概率分布)为理论依据,按一定概率的要求,由样本统计量的值估计总体参数值的所在范围,称为总体参数的区间估计。v对总体参数值进行区间估计,就是要在一定可靠度上求出总体参数的置信区间的上下限。v 要知道与所要估计的参数相对应的样本统计量的值,以及样本统计量的理论分布;v 要求出该种统计量的标准误;v 要确定在多大的可靠度上对总体参数作估计,再通过某种理论概率分布表,找出与某种可靠度相对应的该分布横轴上记分的临界值,才能计算出总体参数的置信区间的上下限。置信区间v置信度,即置信概率,是作出某种推断时正确的可能性(概率)。vv置信区间,也称置信间距(confidence interval,CI)是指在某一置信度时,总体参数所在的区域距离或区域长度。置信区间是带有置信概率的取值区间。显著性水平v对总体平均数进行区间估计时,置信概率表示做出正确推断的可能性,但这种估计还是会有犯错误的可能。显著性水平(significance level)就是指估计总体参数落在某一区间时,可能犯错误的概率,用符号表示。P-v例题1:某小学10岁全体女童身高历年来标准差为6.25厘米,现从该校随机抽27名10岁女童,测得平均身高为134.2厘米,试估计该校10岁全体女童平均身高的95和99置信区间。v解:10岁女童的身高假定是从正态总体中抽出的随机样本,并已知总体标准差为=6.25。无论样本容量大小,一切样本平均数的标准分数呈正态分布。于是可用正态分布来估计该校10岁女童身高总体平均数95和99的置信区间。其标准误为当0.95时,1.96因此,该校10岁女童平均身高95的置信区间为:当0.99时,2.58因此,该校10岁女童平均身高99的置信区间为:v 例题2:从某小学三年级随机抽取12名学生,其阅读能力得分为28,32,36,22,34,30,33,25,31,33,29,26。试估计该校三年级学生阅读能力总体平均数95和99的置信区间。v解:12名学生阅读能力的得分假定是从正态总体中抽出的随机样本,而总体标准差未知,样本的容量较小(=1230),在此条件下,样本平均数与总体平均数离差统计量服从呈t分布。v于是需用t分布来估计该校三年级学生阅读能力总体平均数95和99的置信区间。由原始数据计算出样本统计量为当0.95 时,因此,该校三年级学生阅读能力得分95的置信区间为:当0.99 时,因此,该校三年级学生阅读能力得分99的置信区间为:1.5 平均数差异检验v例:某小学历届毕业生汉语拼音测验平均分数为66分,标准差为11.7。现以同样的试题测验应届毕业生(假定应届与历届毕业生条件基本相同),并从中随机抽18份试卷,算得平均分为69分,问该校应届与历届毕业生汉语拼音测验成绩是否一样?总体平均数的显著性检验v总体平均数的显著性检验是指对样本平均数与总体平均数之间的差异进行的显著性检验。若检验的结果差异显著,可以认为该样本不是来自当前的总体,而来自另一个、与当前总体存在显著差异的总体。即,该样本与当前的总体不一致。1总体平均数显著性检验的原理检验的思路是:假定研究样本是从平均数为的总体随机抽取的,而目标总体的平均数为0,检验与0之间是否存在差异。如果差异显著,可以认为研究样本的总体不是平均数为0的总体,也就是说,研究样本不是来自平均数为0的总体。2总体平均数显著性检验的步骤v一个完整的假设检验过程,一般经过四个主要步骤:提出假设选择检验统计量并计算统计量的值确定显著性水平做出统计结论检验步骤v.提出假设 H0:0,H1:0或 H0:66,H1:66v.选择检验统计量并计算统计量的值学生汉语拼音成绩可以假定是从正态总体中抽出的随机样本。总体标准差已知,样本统计量的抽样分布服从正态,以Z为检验统计量v计算v.确定显著性水平和检验形式显著性水平为=0.05,双侧检验v.做出统计结论v查表得Z=1.96,而计算得到的Z=1.09v|Z|,则概率P0.05v差异不显著,应在0.05显著性水平接受零假设v结论:该校应届毕业生与历届毕业生汉语拼音测验成绩一致,没有显著差异。表101 双侧Z检验统计决断规则Z 与临界值比较 P值 显著性 检验结果 Z 1.96 P0.05不显著保留H0,拒绝H11.96 Z 2.580.05P0.01显著在0.05显著性水平拒绝H0,接受H1Z 2.58 P0.01极其显著在0.01显著性水平拒绝H0,接受H1表102 单侧Z检验统计决断规则Z 与临界值比较 P值 显著性 检验结果 Z 1.65 P0.05不显著保留H0,拒绝H11.65 Z 2.330.05P0.01显著在0.05显著性水平拒绝H0,接受H1Z 2.33 P0.01极其显著在0.01显著性水平拒绝H0,接受H1v:从高二年级随机抽取两个小组,在化学教学中实验组采用启发探究法,对照组采用传统讲授法教学。后期统一测试,结果为:实验组10人平均成绩为59.9,标准差为6.640;对照组9人平均成绩为50.3,标准差为7.272。问两种教学方法是否有显著性差异?(根据已有的经验,启发探究法优于传统讲授法)解题过程:v 1提出假设H0:12 H1:12 v 2选择检验统计量并计算两组化学测验分数假定是从两个正态总体中随机抽出的独立样本,两总体标准差未知,经方差齐性检验两总体方差齐性,两样本容量小于30。因此平均数之差的抽样分布服从t分布,应以t为检验统计量,选用公式(11.7)计算。计算1.6 方差分析方差分析又称为变异分析(analysis of variance,ANOVA),是由斯内德克(George Waddel Snedecor)提出的一种方法。方差分析通过对多组平均数的差异进行显著性检验,分析实验数据中不同来源的变异对总变异影响的大小。1方差分析的逻辑v方差分析作为一种统计方法,是把实验数据的总变异分解为若干个不同来源的分量。因而它所依据的基本原理是变异的可加性。v在统计分析中,一般用方差来描述变量的变异性。v 方差分析是将总平方和分解为几个不同来源的平方和(实验数据与平均数离差的平方和)。然后分别计算不同来源的方差,并计算方差的比值即值。根据值是否显著对几组数据的差异是否显著作出判断。4方差分析中的几个概念v 实验中的自变量称为因素。只有一个自变量的实验称为单因素实验,两个或两个以上称为多因素实验。v 某一因素的不同情况称为因素的“水平”。v 水平包括量差或质别两类情况,按各个“水平”条件进行的重复实验称为各种实验处理。Fmax检验统计决断规则Fmax与临界值比较 P值 显著性 检验结果 Fmax Fmax(df)0.05 P0.05不显著保留H0,拒绝H1Fmax(df)0.05 Fmax Fmax(df)0.010.05P0.01显著在0.05显著性水平拒绝H0,接受H1Fmax Fmax(df)0.01 P0.01极其显著在0.01显著性水平拒绝H0,接受H12方差分析的基本过程v 提出假设v 选择检验统计量并计算 分解平方和SS 分解自由度df 计算方差MS 计算F值v 作出统计结论并列方差分析表【例】某水产研究所为了比较四种不同配合饲料对鱼的饲喂效果,选取了条件基本相同的鱼20尾,随机分成四组,投喂不同饲料,经一个月试验以后,各组鱼的增重结果列于下表。下一张 主 页 退 出 上一张 表6-2 饲喂不同饲料的鱼的增重(单位:10g)下一张 主 页 退 出 上一张 这是一个单因素试验,处理数k=4,重复数n=5。各项平方和及自由度计算如下:矫正数 总平方和 下一张 主 页 退 出 上一张 处理间平方和处理内平方和 总自由度 处理间自由度 处理内自由度 用SSt、SSe分别除以dft和dfe便得到处理间均方MSt及处理内均方MSe。因为方差分析中不涉及总均方的数值,所以不必计算之。下一张 主 页 退 出 上一张 对于【例】:因为 F=MSt/MSe=38.09/5.34=7.13*;根据 df1=dft=3,df2=dfe=16 查附表4,得F0.01(3,16);因为 FF0.01(3,16)=5.29,P0.01 表明四种不同饲料对鱼的增重效果差异极显著,用不同的饲料饲喂,增重是不同的。表6-3 表6-2资料方差分析表 在方差分析中,通常将变异来源、平方和、自由度、均方和F值归纳成一张方差分析表,见表6-3。