现代心理与教育统计学复习资料.pdf
《现代心理与教育统计学复习资料.pdf》由会员分享,可在线阅读,更多相关《现代心理与教育统计学复习资料.pdf(30页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第一章 1、数据类型 称名数据 计数数据 离散型数据 顺序数据 等距数据 测量数据 连续型数据 等比数据 2、变量:是可以取不同值的量。统计观察的指标都是具有变异的指标。当我们用一个量表示这个指标的观察结果时,这个指标是一个变量。用来表示随机现象的变量,称为随机变量。一般用大写的或表示随机变量。随机变量所取得的值,称为观测值。一个随机变量可以有许多个观测值。、需要研究的同质对象的全体,称为总体。每一个具体研究对象,称为一个个体。从总体中抽出的用以推测总体的部分对象的集合称为样本。样本中包含的个体数,称为样本的容量 n。一般把容量 n 30 的样本称为大样本;而 n 30 的样本称为小样本。、统
2、计量和参数 统计指标 统计量 参数 平均数 M 标准差 S 相关系数 r 回归系数 b 5、统计误差 误差是测得值与真值之间的差值。测得值真值误差 统计误差归纳起来可分为两类:测量误差与抽样误差。由于使用的仪器、测量方法、读数方法等问题造成的测得值与真值之间的误差,称为测量误差。由于随机抽样造成的样本统计量与总体参数间的差别,称为抽样误差 第二章 一、数据的整理 在进行整理时,如果没有充足的理由证明某数据是由实验中的过失造成的,就不能轻易将其排除。对于个别极端数据是否该剔除,应遵循三个标准差法则。二、次数分布表(一)简单次(频)数分布表(二)相对次数分布表 将次数分布表中各组的实际次数转化为相
3、对次数,即用频数比率(fN)或百分比()来表示次数,就可以制成相对次数分布表(三)累加次数分布表(四)双列次数分布表 双列次数分布表又称相关次数分布表,是对有联系的两列变量用同一个表表示其次数分布。所谓有联系的两列变量,一般是指同一组被试中每个被试两种心理能力的分数或两种心理特点的指标,或同一组被试在两种实验条件下获得的结果。三、次数分布图 使一组数据特征更加直观和概括,而且还可以对数据的分布情况和变动趋势作粗略的分析。%100Nf简单次(频)数分布图直方图、次数多边形图 累加次数分布图累加直方图、累加曲线(一)简单次数分布图直方图(二)简单次数分布图次数多边图 次数分布多边形图是一种表示连续
4、性随机变量次数分布的线形图,属于次数分布图。凡是等距分组的可以用直方图表示的数据,都可用次数多边图来表示。绘制方法:以各分组区间的组中值为横坐标,以各组的频数为纵坐标,描点;将各点以直线连接即构成多边图形。(三)累加次数分布图累加直方图(四)累加次数分布图累加曲线 四、其他统计图表 条形图:用直条的长短来表示统计项目数值大小的图形,主要是用来比较性质相似的间断型资料。圆形图:是用于表示间断型资料比例的图形。圆形的面积表示一组数据的整体,圆中扇形的面积表示各组成部分所占的比例。各部分的比例一般用百分比表示。线形图用来表示连续型资料。它能表示两个变量之间的函数关系;一种事物随另一种事物变化的情况;
5、某种事物随时间推移的发展趋势等。基于线形图,既可对有关统计变量进行数量比较,又可分析发展的趋势。散点图是用相同大小圆点的多少或梳密表示统计资料量大小以及变化趋势的图。第三章 集中量数用来表现数据资料的典型水平或集中趋势。常用的集中量包括算术平均数、加权平均数、中位数和众数等等。一、算术平均数 算术平均数 一般简称为平均数 或均数、均值。一般用,或者用 表示。算术平均数是最常用的集中量 X(一)算术平均数的计算公式 (二)算术平均数的意义 算术平均数是应用最普遍的一种集中量。它是“真值”(true score)的最佳估计值。真值是反映某种现象的真实水平的分数。由于测量过程中的各种偶然因素的影响,
6、真值往往很难得到。在实际测量中,往往采用“多次测量,取平均数”的方法,用平均数去估计真值。(三)算术平均数的优缺点 优点:反应灵敏、有公式严密确定、简明易懂、适合代数运算 缺点:容易受两极端数值的影响;一组数据中有模糊不清的数值时无法计算。(四)计算和应用算术平均数的原则 同质性原则:算术平均数只能用于表示同类数据的集中趋势。平均数与个体数值相结合的原则:在解释个体特征时,既要看平均数,也要结合个体的数据。平均数与标准差、方差相结合原则:描述一组数据时既要分析其集中趋势,也要分析离散程度。二、中位数 中位数 又称为中数,是按顺序排列的一组数据中位于中间位置的数。中位数是常用集中量的一种。一般用
7、 Md 或 Mdn 表示(一)中位数的计算方法 1、原始数据计算法 一组数据中无重复数值的情况 首先将一组数据按顺序排列 ininXnnXXXX1211XnX12,122nnXXMdn则为偶数若 2、次数分布表计算法 公式中:Lb 为中位数所在组的精确下限 fb 为中位数所在组下限以下的累积频数 n 为数据总和 fMd 为中位数所在组的频数 i 为组距 三众数 众数 用 Mo 表示,有两种定义:次数分布表中,频数最多那一组数据的组中值,即为众数。四、算术平均数、中位数、众数三者的关系 在正态分布中:在正偏态分布中:在负偏态分布中:五、其它集中量数(一)加权平均数 加权平均数是不同比重数据(或平
8、均数)的平均数,一般用 表示。其计算公式有两种:(二)几何平均数 几何平均数(geometric mean)是 n 个数值连乘积的 n 次方根,用 或 表示。计算公式为:当数据的分布呈偏态时,可用几何平均数表示该组数据的集中趋势。几何平均数的变式 两边取对数,得 个数为第则为奇数若21,nMdnMdbbfifnLMd2OMMdXOMMdXOMMdXwXiiiwWXWXiiwnXnXgMgXnngXXXM 2111112312 nnnnngXXXXXXXXM1lglg11lgXXnMng注意:几何平均数计算的是平均的变化情况,如果要计算平均增长率,需要从几何平均数中减去基数 1。2.应用几何平均
9、数的变式计算 按一定 比例变化 的一列数据,一般用来求 平均变化率 如 平均增长率.(三)调和平均数 调和平均数(harmonic mean),用符号 MH 表示 公式为:调和平均数的应用 学习速度方面的问题.调和平均数在描述速度方面的集中趋势时,优于其他集中量 第四章 描述数据离散程度的统计量称为差异量。差异量越大,表明数据越分散、不集中;差异量越小,表明数据越集中,变动范围越小。一、全距、四分位距和百分位距(一)全距 R 全距是一组数据中的 最大值 与该组数据中 最小值 之差,又称极差。RXmaxXmin(二)百分位差(百分位距)百分位差是指两个百分位数之差。(三)四分位距 四分位距是第一
10、个四分位数与第三个四分位数之差的一半,计算公式为(四)平均差 平均差 是指一组数据中,每一个数据与该组数据的平均数离差的绝对值的算术平均数,通常用 AD 或 MD 表示。原始数据计算公式 (五)方差和标准差 iHXNM1213QQQnXXAD方差(又称为变异数、均方)。是表示一组数据离散程度的统计指标。一般样本的方差用 表示,总体的方差用 表示。标准差是方差的算术平方根。一般样本的标准差用 S 表示,总体的标准差用 表示。标准差和方差是描述数据离散程度的最常用的差异量。1、样本方差及标准差定义公式 2、总体方差及标准差的定义公式 是总体的无偏估计 3、原始数据的方差与标准差计算 4、总标准差的
11、合成 方差具有可加性的特点。当已知几个小组数据的方差或标准差时,可以计算几个小组联合在一起的总的方差或标准差。计算公式 公式中:为总方差,为总标准差 Si 为各小组标准差 ni 为各小组数据个数 5、方差和标准差的性质 方差是对一组数据中各种变异的总和的测量,具有可加性和可分解性特点。标准差是一组数据方差的算术平方根,它不可以进行代数计算,但有以下特性:如果 则 nXXS22nXXS2NX22NX212nXXS2S2222 nXnXS22 nXnXSiiTiiiTnXXnSnS222iiTiiiTnXXnSnS222TSTSiTiXXdCXYXYSS 如果 则 7、标准差的应用 差异系数 差异
12、系数 是指标准差与其算术平均数的百分比,它是没有单位的相对数。常以 CV 表示,其计算公式为:差异系数的作用:比较不同单位资料的差异程度 比较单位相同而平均数相差较大的两组资料的差异程度 可判断特殊差异情况 8、标准差的应用标准分数 Z 分数,是以标准差为单位表示一个原始分数在团体中所处位置的相对位置量数。(1)标准分数的计算公式及其性质 没有实际单位;可正可负,可为零;一组原始数据中,各个 Z 分数的标准差为 1;正态分布的原始数据,转换得到的 Z 分数是标准的正态分布(0,1)。(2)Z 分数的作用 分数可以表明原始分数在团体中的相对位置,因此称为相对位置量数。把原始分数转换成分数,就把单
13、位不等距的和缺乏明确参照点的分数转换成以标准差为单位、以平均数为参照点的分数。(3)标准分数的优点 可比性:标准分数以团体的平均数为基准,以标准差为单位,因而具有可比性。可加性:标准分数使不同的原始分数具有相同的参照点,因而具有可加性。明确性:标准分数较原始分数的意义更为明确。合理性:标准分数保证了不同性质的分数在总分数中的权重相同,使分数更合理地 反映事实。第五章 一、相关系数 XCYXYSCS%100XSCVsXXZ用来描述两个变量相互之间变化方向及密切程度的统计指标称为相关系数,一般样本的相关系数用 r 表示,总体的相关系数用表示。相关系数的取值:-1 r+1 0r1 相关系数的符号:“
14、”表示正相关,“”表示负相关。相关系数不是由相等单位度量而来的,因此只能比较大小,不能做任何加、减、乘、除运算。二、积差相关(一)积差相关及其适用条件 皮尔逊积差相关 积差相关适用于:1、两个变量都是连续数据;两变量总体都为正态分布;两变量之间为线性关系。2、成对数据,样本容量要大。积差相关条件的判断方法:连续变量:根据得到数据的方式判断,测量数据。正态分布:一般情况下,正常人群的身高、体重、智力水平、心理与教育测验的结果,都可按总体正态分布对待;如果要求比较高,则需要对数据进行正态性检验。线性关系:根据相关散布图可判断两个变量之间是否线性关系。(二)相关系数的等距转换及其合并 相关系数不是等
15、距数据,更不是比率数据,它只能比较相对大小,不能进行加减乘除运算。但我们常会遇到需要将取自同一总体的几个样本的相关系数合成、求平均的相关系数这一问题。这时,可以先将相关系数 r 转换成具有等距单位的 Zr 值。三、斯皮尔曼等级相关 等级相关 是指以等级次序排列或以等级次序表示的变量之间的相关。(一)斯皮尔曼等级相关的概念及适用条件 斯皮尔曼等级相关是等级相关的一种。它适用于两个以等级次序表示的变量,并不要求两个变量总体呈正态分布,也不要求样本的容量必须大于 30。当连续数据不能满足计算积差相关的条件时,可以转换成等级数据从而计算斯皮尔曼等级相关系数。五、质与量的相关 (一)点二列相关适用条件
16、一个变量为正态、连续变量,另一个变量为真正的二分名义变量,这两个变量之间的相关,称为点二列相关。有时一个变量并非真正的二分变量,而是双峰分布的变量,也可以用点二列相关来表示。多用于评价是非类测验题目组成的测验内部一致性。(二)二列相关 两个变量都是正态连续变量,其中一个变量被人为地划分成二分变量,表示这两个变量之间的相关,称为二列相关。将连续变量人为划分为二分变量时,应注意尽量使分界点接近平均数。教育或心理测验中问答题的区分度指标。六、品质相关 两个变量都是按性质划分成几种类别,表示这两个变量之间的相关称为品质相关。品质相关处理的一般是计数数据而不是连续数据,变量划分为不同的品质类别,主要用于
17、双向表或称为列联表(RC 表)。品质相关的方法有多种,最常用的是四分相关、相关和列联表相关。第六章 一、概率的定义 概率:表明随机事件可能性大小的客观指标。概率的两种定义:后验概率和先验概率。后验概率(或统计概率):随机事件的频率:当 n 无限增大时,随机事件 A 的频率会稳定在一个常数 P,这个常数就是随机事件 A 的概率。先验概率(古典概率):古典概率模型要求满足两个条件:试验的所有可能结果是有限的;每一种可能结果出现的可能性相等。(二)概率的公理系统 1任何随机事件的概率都是在 0 与 1 之间的正数,即 0 P(A)1 2不可能事件的概率等于零,即 P(A)=0 nmWA)(nmPA)
18、(3必然事件的概率等于 1,即 P(A)=1 (三)概率分布类型 概率分布 是指对随机变量取不同值时的概率的描述,一般用概率分布函数进行描述。依不同的标准,对概率分布可作不同的分类。、离散型分布与连续型分布 依随机变量的类型,可将概率分布分为离散型概率分布与连续型概率分布。心理与教育统计学中最常用的离散型分布是二项分布,最常用的连续型分布是正态分布。、经验分布与理论分布 依分布函数的来源,可将概率分布分为经验分布与理论分布。经验分布:是指根据观察或实验所获得的数据而编制的次数分布或相对频率分布。理论分布:是按某种数学模型计算出的概率分布。、基本随机变量分布与抽样分布 依所描述的数据的样本特性,
19、可将概率分布分为基本随机变量分布与抽样分布。基本随机变量分布是随机变量各种不同取值情况的概率分布,抽样分布是从同一总体内抽取的不同样本的统计量的概率分布。二、概率分布正态分布(一)正态分布特征 正态分布,是连续型随机变量概率分布的一种 1正态分布曲线函数 正态分布曲线函数又称概率密度函数,其一般公式为:公式所描述的正态曲线,由和两个参数决定。2、正态分布的性质 正态分布是以 为中心的对称分配。正态分布有 2 个参数:M(平均数)以及 s(标准差),其决定了分配的位置及形状。正态分布曲线下面的面积总和等于 1。正态分布 在 时有一转折点。正态分布曲线的两尾无限延伸。2222XeNY)(xfX 正
20、态分布是一族曲线,标准正态分布是一条曲线。3、标准正态分布曲线 将标准分数代入正态曲线函数,并且,令1,则公式变换为标准正态分布函数:标准正态分布曲线的特点 曲线在处达到最高点 曲线以处为中心,双侧对称 曲线从最高点向左右缓慢下降,向两侧无限延伸,但永不与基线相交。标准正态分布曲线的平均数为,标准差为。从3 至3 之间几乎分布着全部数据。曲线的拐点为正负一个标准差处。4、正态分布表的使用 已知 Z 值求概率 求0 至某一值之间的概率:直接查表 求两个值之间的概率 两值符号相同:PZ1Z2PZ2PZ1 两值符号相反:PZ1Z2PZ2PZ1 求某一 Z 值以上的概率 Z0 时,PZPZ Z0 时,
21、PZPZ 求某一 Z 值以下的概率 Z0 时,PZPZ Z0 时,PZPZ 已知面积(概率)求 Z 值 求 Z0 以上或以下某一面积对应的 Z 值:直接查表 求与正态曲线上端或下端某一面积 P 相对应的 Z 值:先用PZ,再查表 求与正态曲线下中央部位某一面积相对应的 Z 值:先计算 P2,再查表 已知概率或 Z 值,求概率密度 Y 22221XeY2221ZeY直接查正态分布表就能得到相应的概率密度值。如果由概率求值,要注意区分已知概率是位于正态曲线的中间部分,还是两尾端部分,才能通过查表求得正确的概率密度。三、概率分布二项分布(一)二项试验与二项分布 二项分布是一种具有广泛用途的离散型随机
22、变量的概率分布 1二项试验 满足以下条件的试验称为二项试验:一次试验只有两种可能的结果,即成功和失败;共有 n 次试验,并且 n 是预先给定的任一正整数;各次试验相互独立,即各次试验之间互不影响;各次试验中成功的概率相等,失败的概率也相等。2二项分布函数 二项分布是一种离散型随机变量的概率分布。用 n 次方的二项展开式来表达在 n 次二项试验中成功事件出现的不同次数(X0,1)的概率分布,叫做二项分布函数。二项展开式的通式(即二项分布函数):3、二项分布的平均数和标准差 如果二项分布满足 pq 且 nq5(或者 pq 且 np5 时,二项分布接近于正态分布。可用下面的方法计算二项分布的平均数和
23、标准差。二项分布的平均数为:二项分布的标准差为:四、概率分布样本分布(一)、抽样分布 区分三种不同性质的分布:总体分布:总体内个体数值的频数分布 XnXXnqpCpnxb),(npnpq 样本分布:样本内个体数值的频数分布 抽样分布:某一种统计量的概率分布 1.抽样分布的概念 抽样分布是从同一总体内抽取的不同样本的统计量的概率分布。抽样分布是一个理论的概率分布,是统计推断的依据。2平均数抽样分布的几个定理 从总体中随机抽出容量为 n 的一切可能样本的平均数之平均数等于总体的平均数。容量为 n 的平均数在抽样分布上的标准差(即平均数的标准误),等于总体标准差除以n 的平方根。从正态总体中,随机抽
24、取的容量为 n 的一切可能样本平均数的分布也呈正态分布。虽然总体不呈正态分布,如果样本容量较大,反映总体和的样本平均数的抽样分布,也接近于正态分布。(二)标准误 某种统计量在抽样分布上的标准差,称为标准误。标准误用来衡量抽样误差。标准误越小,表明样本统计量与总体参数的值越接近,样本对总体越有代表性,用样本统计量推断总体参数的可靠度越大。因此,标准误是统计推断可靠性的指标。平均数标准误的计算 1总体正态,已知(不管样本容量大小),或总体非正态,已知,大样本 平均数的标准误为:2总体正态,未知(不管样本容量大小),或总体非正态,未知,大样本 平均数标准误的估计值为:(三)平均数离差统计量的分布 1
25、总体正态,已知(不管样本容量大小),或总体非正态,已知,大样本 平均数离差的的抽样分布呈正态分布 正态总体,样本平均数的抽样分布 )(XEnXnX1nSXnXXZXXnX222总体正态,未知(不管样本容量大小),或总体非正态,未知,大样本 平均数离差的的抽样分布呈 t 分布 t 分布的特点 形状与正态分布曲线相似 t 分布曲线随自由度不同而有一簇曲线 自由度的计算:自由度是指能够独立变化的数据个数。查 t 分布表时,需根据自由度及相应的显著性水平,并要注意是单侧数据还是双侧。3总体未知,大样本时的近似处理 样本容量增大后,平均数的抽样分布接近于正态分布,可用正态分布近似处理:第七章 一、点估计
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 现代 心理 教育 统计学 复习资料
限制150内