心理学统计总结.doc
《心理学统计总结.doc》由会员分享,可在线阅读,更多相关《心理学统计总结.doc(18页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、心理与教育学统计第一章 绪论一 统计方法在心理和教育科学研究中的研究1.心理与教育统计的定义与性质(1)定义:是专门研究如何运用统计学原理和方法,搜集、整理、分析心理与教育科学研究中获得的随机性数据资料,并根据这些数据资料传递的信息,进行科学推论找出心理与教育活动规律的一门学科。(2)数理统计学:分析这种随机变量的规律性,它的理论基础是专门研究随机现象的科学概率论,侧重于基本原理与方法的科学证明。 心理与教育统计:侧重于数理统计方法如何在心理和教育科学研究中的应用,是心理与教育科学研究中最广泛应用的,也是最基本的一种定量化工具。2.数据特点:多以数字形式呈现、随机性、规律性、研究目的是通过部分
2、数据来推测总体特征。二 心理与教育统计学的内容1.描述统计:主要研究如何整理心理与教育科学实验或调查得来的大量数据,描述一组数据的全貌,表达一件事物的性质。 具体内容:数据如何分组(统计图表)、计算一组数据的特征值(集中量数、差异量数)、表示一事物两种或两种以上属性间相关关系的描述。2.推论统计:研究如何透过局部数据所提供的信息,推论总体的情形。 推论统计的原理和理论包括:抽样理论、估计理论、统计检验理论。3.实验设计三 心理与教育统计学基础概念1.数据类型:(测量方法和来源):计数数据和计量数据(测量水平)称名数据、顺序数据、等距数据、等比数据。(连续性)离散数据:任何两个数据点之间所取得数
3、值的个数是有限的。 连续数据:任何两个数据点之间都可以细分出无限多个大小不同的数值。进一步细分,取决于:测量技术所允许的精确程度、测量所需要的精确程度。2.变量、观测值、随机变量变量:在心理与教育实验、观察、调查中想要获得的数据,即为一个可以取不同数值的物体的属性或事件,其数值具有不确定性。观测值:一旦确定了某个值,就称这个值为某一变量的观测值,也就是具体数据。随机变量:在统计上,把取值之前不能预料到取什么值的变量,就称为随机变量。2.总体、样本3.次数、比率、频率、概率次数:指某一事件在某一类别中出现的数目,又称为频数。(f)4.参数、统计量。第二章 统计图表一 数据的初步整理(排序和统计分
4、组)1.统计图和统计表就是对数据进行初步整理,以简化的形式加以表现的两种最简单的方式。2.在对数据进行统计分类以后,得到的各种数据结果成为统计指标。把统计指标和被说明的事物之间的关系用表格的形式表示就成为统计表。统计图是一句数据资料,应用点线面体色等描绘而成。二 次数分布表1.(所显示的次数如何产生)简单次数分布表、分组次数分布表、相对次数分布表、累加次数分布表。2.分组次数分布表的步骤:(1)求全距:指最大数与最小数两个数值之间的距离。(2)决定组距与组数:K=1.87(N1)25 ,i=全距K(3)列出分组区间:即一个组的起点值和终点值之间的距离,又称组限。表述组限和精确组限。注:在列出的
5、分组区间内,最高区组应包含最大的数据,最低组应包含最小的数据;最高组或最低组的下限正好是组距i的整数倍。(4)登记次数。(5)计算次数。3.分组次数分布表的栏目:第一列:分组区间。第二列:各分组区间的组中值。第三列:次数。4.归组效应:由于用分组数据编制次数分布表时,假设各区组的数据均匀分布,并用各组的组中值代表原始数据,而不管数据原来的情况所造成的误差。三 次数分布图1.直方图(等距直方图):是以矩形的面积表示连续性随机变量次数分布的图形。2.次数多边形图:一种表示连续性随机变量次数分布的线性图,以每个分组区间的组中值为横坐标,以各组的次数为纵坐标标点,连接各点,就成为一条折线。3.累加次数
6、分布图:累加直方图和累加曲线图。累加曲线图又称递加线,它的画法同次数多边形基本相同,不同是横坐标为每分组区间的精确上限或精确下限,纵坐标是各分组的累加次数。正偏态(上枝长于下枝):说明大数端各组次数偏少,且组数较多,各组的次数变化小。负偏态(下枝长于上枝):说明小数端各组次数偏少,且组数较多,各组的次数变化小。正态:相同。四 其它类型统计图表1.其他常用的统计表:(1)简单表:只列出名称、地点时序或统计指标名称的统计表。(2)分组表:只有一个分类标志的统计表,也称单向表。(3)复合表:统计分类的标志有两个或两个以上的因素。2.其他常用的统计图:(1)条形图(直条图):主要用于表示离散型数据资料
7、,即计数资料。它以条形的长短表示各事物数量的大小与数量间的差异情况。(简单条形图、分组条形图、分段条形图)与直方图的差别:描述的数据类型不同。表示数据多少的方式不同。坐标轴上的标尺分点意义不同。图形直观形状不同,条形图之间有间隔。(2)圆形图:主要用于描述间断性资料,目的是为了显示各部分在整体中所占的比重大小,以及各部分之间的比较。(3)线性图:更多用于连续性资料,凡欲表示两个变量间的函数关系,或描述某种现象在时间上的发展趋势,或一种现象通过另一种现象变化的情形,用线性图表示是最好的方法。(4)散点图第三章 集中量数一 算术平均数(M)1.平均数的计算方法:(1)未分组: (2)分组:2.特点
8、:(1)在一组数据,每个变量与平均数之差(离均差)的总和等于零。(2)在一组数据中,每一个数都加上常数C,则所得的平均数为原来的平均数加常数C。(3)在一组数据中,每一个数都乘以常数C,则所得的平均数为原来的平均数乘以常数C。3.意义:算术平均数是应用最普遍的一种集中量数,它是“真值”渐进、最佳的估计值。4.优缺点:(1)优点:反应灵敏。计算严密。计算简单。简明易懂。适合用进一步代数方法演算。较少受抽样变动的影响。(2)缺点:易受极端数据的影响。若出现模糊不清的数据时,无法计算平均数。(3)在书写平均数时,习惯上平均数保留的小数位数要比原来的测量数据多一位数字。5.计算和应用平均数原则:(1)
9、同质性原则:所谓同质性数据是指使用同一个观测手段,采用相同的观测指标,能反映某一问题的同一方面特质的数据。(2)平均数与个体数值相结合的原则。(3)平均数与标准差、方差相结合的原则。二 中数(Md、Mdn)1.定义:又称中点数、中位数、中值。中数是按顺序排列在一起的数据中居于中间位置的数,即在这组数据中,有一半的数据比它大,有一半的数据比它小。2.计算;(1)未分组:无重复数据。有重复数据。(2)分组:3.优缺点:(1)优点:是根据观测数据计算来的,不是凭主观臆断,计算简单,容易理解,概念简单明白。(2)缺点:中数的计算不是每个数据都加入,其大小不受制于全体数据。反应不够灵敏,极端值的变化对中
10、数不产生影响。中数受抽样影响较大,不如平均数稳定。计算时需要对数据先排列大小。中数乘以总数与数据的总和不相等。中数不能做进一步代数运算。4.一般情况下,中数不被普遍应用,但在一些特殊情况下,它的应用应受到重视:(1)当一组观测结果中出现的两个极端数目时。(2)当次数分布的两极端数据或个别数据不清楚时,只能取中数作为集中趋势的代表值。(3)当需要快速估计一组数据的代表值,也常用中数。三 众数(Mo)1.定义:又称范数、密集数、通用数等。中数指次数分布中出现次数最多的那个数的值。2.计算:直接观察求中数。数据整理成次数分布表后,观察次数最多的那个分组区间的组中值为众数。公式:Mo=3Md-2M(皮
11、尔逊经验法)3.优缺点:(1)优点:概念简单明了、容易理解。(2)缺点:不稳定,受分组影响,亦受样本变动影响。计算式不需要每一个数据都加入,较少受极端数值影响,反应不够灵敏。用观察法得到的众数,不经过严格计算而来;用公式计算得来的众数亦只是一个估计值。众数不能做进一步代数运算。4.运用:(1)当需要快速而粗略地寻求一组数据的代表值。(2)当一组数据出现不同质的情况时,可用众数表示典型情况。(3)当次数分布中有两极端数目时,除了一般用中数外,有时也用众数。(4)当粗略估计次数分布的形态时,有时用平均数与众数之差,作为表示次数分布是否偏态的指标。第四章 差异量数一 全距与百分位差1.全距(R):又
12、称两极差。R=Xmax-Xmin ,最简单最易理解的差异量数。2.百分位差:(1)百分位数(百分位点):它是指量尺上的一个点,在此点一下,包括数据分布中全部数据个数的一定百分比。第P百分位数就是指其值为P的数据之下,包括分布中全部数据的百分之p,其符号为Pp。(2)利用百分位数的计算公式也可以计算出任意分数在整个分数分布中所处的百分位置,成为该分数的百分等级。百分等级是一种相对位置量数,它是百分位数的逆运算。PR=80,意味着比79%的人要好,比20%的人要差。3.四分位差(Q)四分位差也可视为百分位差的一种,只在一次次数分配中,中间50%的次数的距离的一半,P25到P75距离的二分之一。四分
13、位差的计算基于两个百分位数,即P25和P75,这两个点值与中数一起把整个数据的次数等分为四部分,因此称它们为四分值,或四分位数。P25是第一四分位数,P50为第二四分位数,P75为第三四分位数。四分位差是第三四分位数与第一四分位数差的一半。二 平均数、方差与标准差1.平均差(A.D.或M.D.)离均差表示了一个观测值与平均数的距离大小,正负号说明了重量施与什么方向,离均差的总和为零,标志着完全平衡,有时称为偏差或离差。平均差的优缺点:优点:是根据分布中每一个观测值计算得到的,它较好地代表了数据分布的离散程度。 缺点:要对离均差取绝对值,不利于进一步做统计分析,低效差异量数。2.方差与标准差(1
14、)方差,也称变异数、均方。(2)计算:未分组数据。分组数据。(3)总标准差的合成只有在应用同一种观测手段,测量的是同一种特质,只有样本不同时,才能应用上面的公式合成方差和标准差。(4)性质与意义:性质:方差是对一组数据中各种变异的总和的测量,具有可加性和可分解性特点,统计实践中利用方差的可加性去分解和确定属于不同来源的变异性(组内、组间等),并进一步说明各种变异对总结果的影响。标准差是一组数据方差的平方根,特性:每一个观测值都加一个相同常数C,计算得到的标准差等于原标准差。若乘以C,则等于原标准差乘以C。意义:方差与标准差是表示一组数据离散程度的最好指标,它们是统计描述和统计推断分析中最常用的
15、差异量数。在描述统计统计中,只需要标准差就足以说明一组数据的离中趋势。优点:具备一个良好的差异量数应具备的条件:反应灵敏、计算严密、容易计算、适合代数运算、受抽样变动影响小、简单明了。注:切比雪夫定理指出,随机变量落在平均值附近的概率与标准差有一定的数量关系,对于任何一个数据集合,至少有(1-1h2)的数据落在平均数的h个标准差之内。 如果数据成正态,则数据将以更大的百分数落在平均数两侧三 标准差的应用1.差异系数(1)绝对差异量:标准差的单位与原数据的单位相同。相对差异量:最常用的有差异系数,又称变异系数、相对标准差等。(CV)注:在下列情况中,不能直接比较标准差:两个或两个以上样本所使用的
16、观测工具不同,所测的特质不同。两个或两个以上样本使用的是同一观测工具,所测的特质相同,单样本间的水平相差很大(从平均数大小明显不同确定)(2)差异系数:CV=sX100%应用于:同一团体不同观测值离散程度的比较。对于水平相差较大,但进行的是同一种观测的各种团体,进行观测值离散程度的比较。应用差异系数比较相对差异大小,一般应注意:测量的数据要保证具有等距尺度。观测工具应具备绝对零。差异系数只能用于一般的相对差异量的描述,至今尚无有效的假设检验方法,因此对差异系数不能做统计推论。2.标准分数:又称Z分数或基分数,是以标准差为单位表示一个原始分数在团体中所处位置的相对位置量数。0为平均数,1为标准差
17、。(1)标准分数的性质:Z分数无实际单位,是以平均数为参照点,以标准差为单位的一个相对量。一组原始分数转换得到的Z分数可以是正值,也可以是负值,平均数为0。一组原始分数中,Z分数的标准差为1.若原始分数成正态分布,则转换的Z分数为均值为0,标准差为1的标准正态分布。(2)优点:可比性、可加性、明确性、稳定性。 缺点:计算繁杂、有负值和零、有小数。第五章 相关关系一 相关、相关系数与散点图1.相关系数:两列变量间相关程度的数字表现形式,或者说是用来表现相关关系强度的指标。相关系数取值的大小表示相关的强弱程度,绝对值靠近1.00端,一般为相关程度密切,接近0端,一般为关系不够密切。在判断相关是否密
18、切时,要把样本量大小与相关系数取值大小综合起来考虑,一般要通过统计检验方法,来确定变量之间是否存在显著的相关。若是非线性相关关系,而且用直线相关计算r值可能非常小,但不能说两变量关系不密切。3.散点图:散点图通过点的散布形状和疏密程度来显示两个变量的相关趋势和相关程度,能够对原始数据的关系做出直观而有效的预测和解释。是确定变量之间是否存在相关关系以及关系紧密程度的简单而又直观的方法。二 积差相关(皮尔逊相关、积矩相关)1.是一种运用较为普遍的计算相关系数的方法,也是解释两个变量线性相关方向和程度最常用和最基本的方法。2.条件:成对测量数据,且不少于三是对。正态双变量。连续变量。线性关系。3.基
19、本公式:4.相关系数的合并:Z-r转换法。注:必须保证各样本接近,研究的两事物相同,使用的测量工具也应相同。及要求各样本同质性,同质性检验是合并相关系数的前提。三 等级相关 搜集到的数据不是等距或等比的测量数据,而是具有等级顺序的测量数据。 等距或等比,但其分布不是正态分布,不能满足积差相关的要求。注:对总体变量的分布不作要求,故又称这种相关法为非参数的相关方法。1. 斯皮尔曼等级相关(rR、rS)(1)适用资料:两列属于等级变量性质的具有线性关系的资料。等距等比资料,不考虑正态。(2)公式及校正公式2.肯德尔等级相关(1)W系数(和谐系数)(评分者信度)适用资料:是表示多列等级变量相关程度的
20、一种方法,适用于两列以上的等级变量。W是每一评价对象实际得到的等级总和的变异与被评价对象最大可能变化的等级总和的变异的比值。公式及校正公式(2)U系数(一致性系数)公式 U的取值:若完全一致则U=1.若对角线上下格子中出现的择优分数相同,则一致性最小,但其值不是零。K为奇数(U=1K)。K为偶数U=1(K1)一致性系数U的取值与其他相关系数的取值不同,可见,一致性系数U的取值“+”和“”并不表示相一致的方向,这点与一般的相关系数不同。四 质与量相关一列为等比或等距的测量数据,另一列为按性质划分的类别。二列变量:按事物的某一性质划分的只有两类结果的变量。(真正的二分变量、人为的二分变量)1.点二
21、列相关适用资料:有一列为等距或等比测量数据,而且其分布为正态分布,另一列为二分称名变量。点二列相关法就是考察两列观测值,一个为连续变量(点数据),另一个为二分称名变量(二分数据)之间相关程度的统计方法。多用于评价由是非测验题目组成的测验的内部一致性问题。公式2.二列相关适用资料:两列数据都属于正态分布,其中一列为等距或等比的测量数据,另一列变量是人为划分的二分变量。公式五 品质相关用于表示RC(行列)表的两个变量之间的关联程度,在编制心理测验,进行项目分析时,它是常用的相关方法。品质相关处理的数据类型一般是计数数据而非测量数据。1.四分相关适用资料:适合于计算两个变量都是连续变量,且每一个变量
22、的变化都被人为地分为两种类型这样的测量数据之间的相关。计算四分相关的资料会整理成四格表。四格表的二因素都是连续的正态分布。公式2. 相关(列联表系数)适用资料:两个相互关联的变量分布是真正的二分变量,在这两个分布中间各有一个真正的缺口公式相关系数的大小,表示两因素之间的关联程度。当小于0.3时,表示相关较弱,当大于0.6时,表示相关较强。关于其相关方向,一般由表中的ad、bc的大小来说明,负值表示一次测量中的是多于另一次测量中的非。完全正相关的,全体个案落于ad两格中;完全负相关的,落于bc格中;零相关时,全体个案均匀落在四格之中。但在应用相关时,一般不指出相关方向,只能说明相关程度非常显著。
23、对于四格表(独立样本)相关程度的描述,除了使用相关外,有时还使用其他方法,例如尤尔的关联系数Q或归结系数r第六章 概率分布一 概率分布的基本概念1.概率:表示随机事件出现可能性大小的客观指标。2.先验概率 后验概率:在对随机事件进行n次观测时,其中某一事件出现的次数m与观测次数n的比值。当n趋向无穷大,它将稳定在一定的常数上,这一常数被称作概率。3.基本性质:(1)概率的公理系统:任何一个随机事件A的概率都是非负的。在一定条件下必然发生的必然事件的概率为1。在一定条件下必然不发生的事件,即不可能事件的概率为0.注:公理的逆定理不成立,即概率等于1的某个事件,并不能被断定为必然事件,只能说它出现
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 心理学 统计 总结
限制150内