2015GG心理学背诵宝典(心理统计学)(共29页).doc
-
资源ID:16667902
资源大小:646.50KB
全文页数:29页
- 资源格式: DOC
下载积分:20金币
快捷下载
会员登录下载
微信登录下载
三方登录下载:
微信扫一扫登录
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
|
2015GG心理学背诵宝典(心理统计学)(共29页).doc
精选优质文档-倾情为你奉上心理统计学这门课占35分,结构一般是(9个单选+1个多选+1个简答或综合),不过每年可能不一样,分值权重感觉比测量要大一些,特别是大题,不过大致差不多。心理统计学在心理学中的重要性不言而喻,如果说实验心理学的建立让心理学成为一门独立的科学,那么心理统计学可谓是最大的功臣。没有心理统计学提供强有力的科学数据。心理学的理论就仅仅是个理论,上不了台面。世界上只有一个东西不会撒谎,那就是数据,一个理论如果没有强大的数据支持,那么这个理论的可信度也就大打折扣了。所以心理统计学就承担了这么一个工作,为你的理论在数学上提供可靠的科学依据。众所周知,高等数学是心理学本科的必修课之一,很多人认为心理统计学难学和数学不好有关,虽说心理统计和数学都是和数字打交道。不过,他们确真没多大联系。打个比方,学心理统计学就好比是学电脑,会使用就行(office的使用)。学数学就好比学编程,掌握程序的来龙去脉(编写office的程序)。心理统计学对于心理学是一种工具。学好这个是为了将来运用SPSS这些统计软件做准备的。 (当然,如果你追求更高层次的数理统计,硬要搞清楚这些公式怎么来的,也好,不过最好等考上了,再慢慢研究也不迟)本宝典也好比是心理统计学这个工具的使用手册,不过还需两件神器:智力正常的人脑+按键正常的计算器(带统计功能)这部分参考书目如下:心理学专业基础综合考试大纲(2014年版)教育部考试中心心理学专业基础综合考试大纲解析(2014年版)高教现代心理与教育统计学 张厚粲 徐建平 北师大出版社(2004年版)心理与教育统计学 邵志芳 上海科学普及出版社 (2004年版)心理学统考重难点手册 2014第三版MJ心理大纲详解(小白修订版) 白云子心理统计常用公式总结开始一、描述统计所谓描述统计,就是研究如何整理实验或调查得来的大量数据,描述一组数据的全貌。(包括统计图表及各类统计指标,集中趋势,离中趋势,相关关系),也是推论统计的基础。(一)统计图表统计表和统计图简单明确、生动直观地表达数量关系,具有一目了然、整洁美观、容易理解等特点。它们是对数据进行初步整理,以简化的形式加以表现的两种最简单的方式。在制定统计图表之前,一般首先要对数据进行以下两种初步整理:数据排序:按照某种标准,对收集到的杂乱无章的数据按照一定顺序标准进行排列统计分组:根据被研究对象的特征,将所得到数据划分到各个组别中去1、统计图统计图一般采用直角坐标系,通常横轴表示自变量(类别),称为分类轴。纵轴表示因变量(次数),称为数值轴。统计图一般由下面几个部分组成:(这个书上有图,一看便知)【张奶奶P29】图号及图题;图目;图尺;图形;图例;图注次数分布图根据次数分布表绘制的图,更为直观。直方图矩形面积表示连续性随机变量次数分布的图性。没画矩形叫组织图。横轴为数据等距分组点,即各分组区间的上下限或组中值;纵轴从0开始,数据的频数。次数多边形图是一种表示连续性随机变量次数分布的线形图累加次数分布图根据累加次数分布表绘制而成,分为累加直方图和累加曲线图(正态,正偏和负偏)2、统计表统计表一般由下面几个部分组成:(这个书上有图,一看便知)张奶奶P28表号;名称;标目;数字;表注次数分布表简单次数分布表(数据个数和分布范围比较小的时候用)依据每一个分数值在一列数据中出现的次数或总计数资料编制成的统计表。分组次数分布表(数据个数和分布范围比较大的时候用)数据量很大时,应该把所有的数据先划分在若干组区间,然后按其数值大小划分到相应区域的组别内,分别统计各个组别中包括的数据的个数,再用列表的形式呈现出来。编制步骤:1、求全距,就是最大数和最小数之间的差距。2、决定组距和组数,组距(i),任意一组的起点和终点的距离,根据全距来定。全距大,组距也可以大一些,一般取2、3、4、5、10、20等。便于计算。如果先确定了组数,那么全距除以组数后取整也可以。组数(K),分组数目,要根据数目的多少来确定,如果数据在100个以上,一般分1020组。分组最优关系公式(总体正态):(N为数据个数,K为近似取整)3、列出分组区间就是组限,一组起点和终点之间的距离。组限有表述上下限(1019;2029)和精确上下限(9.519.499;19.529.499),一般书写时按照表述上下限,计算和分组时按照精确上下限。4、登记次数(将数据登记到相应的组别内)5、计算次数(计算各组次数和总次数并核对,然后写出组中值、次数、频数和百分次数)相对次数分布表:用频数比率或百分数来表示次数累加次数分布表:把各组的次数由下而上,或由上而下加在一起。最后一组的累加次数等于总次数。双列次数分布表:即相关次数分布表,是对有联系的两列变量用同一个表表示其次数分布。不等距次数分布表:工资级别,年龄分组其它的统计图表简单表只列出统计指标名称分组表只有一个分类标志的统计表也叫单向表复合表分组标志有两个以上条形图也叫直条图,主要用于表示离散型数据资料,即计数数据,用直线长短表示数量的大小。绘制要点:(1)尺度需从0开始,等距分点,一般不能分开;(2)条宽与间隔的比例要恰当。条形图是以条形的长短表明数量的多少。宽度与数量大小无关。(3)直条的排列顺序可按时间序列,数量多少,以及相比较事物的固有序列。圆形图也叫饼图,用于表示间断性资料,表百分比,即表示各部分在整体中所占比重的大小。线形图更多用于表示连续性资料,表示两个变量之间的函数关系,或描述某种现象在时间上的发展趋势,或一种现象随另一种现象变化的情形。散点图又称点图,或散布图,用相同大小圆点的多少和分布疏密来表示两个变量的相关关系。(二)集中量数集中量数用于描述数据分布中大量数据朝某个方向集中的程度的统计量。1、 算术平均数(数据总和除以数据个数,或称平均数,均数)平均数的特点:(1)在一组数据中每个变量与平均数之差(离均差)的总和等于0,即;(2)在一组数据中,每一个数都加上一个常数C,则所得平均数为原来的平均数加常数C;(3)在一组数据中,每一个数都乘以一个常数C,所得的平均数为原来平均数乘以常数C, 平均数的意义:算术平均数是应用最普遍的集中量数,它在大多情况下是“真值”最佳的估计值。所谓真值就是观测事物真实的值。当观测次数趋于无穷时,算术平均数趋于真值。平均数的优缺点:优点:1、反应灵敏(任何一个值变动,都能反应出来)2、计算严密(有确定的公式)3、计算简单(简单的四则运算)4、简明易解(概念容易理解)5、较少受抽样变动的影响(观测样本的大小或个体大小的变化,对计算的影响很小)6、适合进一步做代数运算。缺点:1、易受极端数据的影响(正因为反应灵敏,所以受极端数据影响大,可以通过剔除极端值的方法解决)2、若出现模糊不清的数据时,无法计算平均数(如果缺少数据,一般采用中数代替)3、数据分布偏度较大时,对总体代表性差。书写时,注意比原来测量的数据多一位数字计算和运用平均数的原则同质性原则(不同质的数据不能算)平均数与个体数值相结合的原则(不要忘记结合个体数值给予参考)平均数与标准差、方差相结合原则(标准差小,平均数的代表性好)2、中数中数符号是以Md或Mdn,表示按顺序排列在一起的一组数据中居于中间位置的数,在这组数据中,有一半数据比它大,一半数据比它小,等价于百分位数是50的那个数。(可能是某一个,也可能不是原有的数据)计算方法:一组数据中有重复数值的情况(算法不一样)【我用SPSS算过,其实还是直接算的】重复数列不在中间时,没关系重复的数列在中间时,有点难算,我总结了一种方法,保证做对。无论是奇数偶数都适合,叫画线法,首先将数列排序,然后再中数的位置画一条线,奇数的会穿过数字,偶数的会划在两个数字之间,然后对这个数取精确上下限。标出下限所在的位置和上限所在的位置。 最后中数就是精确下限加上这条线分隔的位置的比例(画线位置占了全距的几分之几)。就可以了。(偶数)举个例子:11,11,11,11,13 !13,13,17,17,18线划在感叹号那,13的精确下限是12.5,叹号的位置是第一个三分之一处,所以就是12.5+0.33=12.83中数的优缺点:优点:(1)计算简单,容易理解;(2)不受极端值影响;(3)能在有模糊数据的情况下使用;(4)中数概念简单明白,可在顺序型数据时使用。缺点:(1)不是每个数据都参与计算,不能反映全体,即代表性低。(2)反应不够灵敏,极端值的变化对中数不产生影响。(3)中数受抽样影响较大,不如平均数稳定。(4)需要对数据进行排序。(5) 中数不能进一步做代数运算。使用条件:出现极端数据;分布两端数据或个别数据不清楚;需要快速估计时3、众数在次数分布中出现次数最多的那个数的数值。掩盖的信息比揭示的多,一般应用不广泛。(可有一个或多个或无)在正偏态分布时,平均数最靠近尾端,中数位于其与众数之间。计算方法:(皮尔逊公式需要接近正态,金式公式适合偏态)众数的优缺点:优点:概念简单明了;计算简单,容易理解;不受极端数值的影响;可在数据不同质时使用。缺点:不稳定,受样本变动的影响;代表性差;反应不够灵敏;不能做进一步的代数运算。使用条件:(1)数据类型为类别或顺序数据时;(2)快速粗略的寻找一组数据的代表值;(3)当一组数据出现不同质情况时;(4)次数分布中有极端数值时,除了用中数还可以用众数;(5)当粗略估计次数分布形态时,有时用平均数与众数之差。平均数,中数,众数三者的关系正态分布中:平均数,中数,众数相等正偏态分布:Mo < Mdn < M负偏态分布:M < Mdn < Mo(记住众数最高就行)(三)差异量数差异量数用于描述数据分布中大量数据彼此分散的程度的统计量,就是对一组数据的变异性,即离中趋势特点进行度量和描述的统计量,也称为离散量数。1、离差与平均差离差就是离均差,是某一数据与平均数的差,表示每一个观测值与平均数距离的大小,正负号说明了偏差的方向,所以观测值离差的总和总是为0。平均差就是次数分布中所有离差绝对值的平均值。平均差充分考虑了每个数值的离中情况,完整的反应了全部数值的分散程度,在反应离中趋势方面比较灵敏,计算方法也比较简单。计算公式:2、 方差和标准差和方:每一个离差值平方求和。由于离差正负值互相抵消无法代表离中趋势我们引入和方的概念方差也叫变异数,均方。作为样本统计量用符号s2表示,作为总体参数用符号2表示,是离均差平方后的平均数。标准差是方差的平方根。作为样本统计量用符号s表示,作为总体参数用符号表示。计算方法: 方差:标准差:总标准差的合成, 其中 方差和标准差的性质和意义性质:方差是对一组数据中各种变异的总和的测量,具有可加性和可分解性特点。方差分析就是利用方差的这个特点。并进一步说明各种变异对总结果的影响标准差是方差的平方根,不可以进行代数运算,但有如下特点:(1)每一个观测值都加一个相同的常数C之后,计算得到的标准差等于原来的标准差。(2)每一个观测值都乘以一个相同的常数C,所得到的标准差等于原标准差乘以这个常数。(3)如果先乘以一个常数,再加上一个常数,所得到的标准差等于原标准差乘以这个常数。意义:方差与标准差是表示一组数据离散程度的最好指标,其值越大,说明次数分布的离散程度越大。它们是统计描述与统计推断分析中最常用的差异量数。标准差的特点:优点:反应灵敏;公式严密,计算严谨;计算容易;适合代数运算;受抽样变动影响小;意义简单明了。确点:易受极端数据影响样本的变异性往往比它来自的总体的变异性要小。为了校正样本数据带来的偏差,在计算样本方差时,我们用自由度来矫正样本误差,从而有利于对总体参数更好的无偏估计。 3、变异系数变异系数又称差异系数,标准差对平均数的百分比。一种最常用的相对差异量。适用条件:(1)两个或两个以上样本所使用的观测工具不同,所测的特质不同。(2)两个或两个以上样本使用的是同种观测工具,所测特质相同,但样本间水平差异较大。计算方法:使用须知:测量数据必须等距;测量工具具备绝对零;由于尚无有效的检验方法,目前不能进行推理统计。(四)相对量数1、百分位数百分位数是指量尺上的一个点,在此点以下,包括数据分布中全部数据个数的一定百分比。第P个百分位数就是指在其值P的数据以下,包括分布中全部数据的百分之p。2、百分等级百分等级指一个分数在整个数据分布中所处的百分位置,称为该分数的百分等级。一个分数被它的百分等级确认时,这个分数称为百分位数,也就是与百分等级相对应的分数。【百分位数和百分等级是同一操作定义的两端。当我们求累计次数占总体的百分比是,所对应的分数和百分比的值分别为百分位数和百分等级。】百分等级一定要对应分数区间的精确上限。百分等级和百分位数都可以由已知数据用差值法求解。3、标准分数标准分数(Z分数):以标准差为单位表示一个原始分数在团体中所处位置的相对位置量数,离平均数有多远,表示原始分数在平均数以上或以下几个标准差的位置,从而明确该分数在团体中的相对位置。简而言之,标准差解决了一个大问题,分数经过标准化就可以放在一起比较了。高考分数就是经过标准化以后,所以可以直接相加。计算方法:,其中 X 为原始数据, 为平均数, S 为标准差把原始分数转换成标准分数,就是把单位不等距和缺乏明确参照点的分数转换为以标准差为单位,以平均数为参照点的分数。标准分数的性质:(1)标准分数无单位,以标准差为单位,以平均数为参照点的一个相对量数;(2)转换得到的标准分数可以是正值也可以是负值,所有原始分数的Z分数之和为0;(3)将原始分数转换为标准分数,是线性转换,不改变原有分数的性质和分布。标准分数的形态和原分布相同。(4)若原始分数呈正态分布,则转换得到的均值为0,标准差为1的标准正态分布。标准分数的优点:可比性:不同性质的成绩,一经转换为标准分数,就可在同一背景下比较;可加性:不同性质的原始数据具有相同的参照点,因此可相加;明确性:知道了标准分数,利用分布函数表就能知道其百分等级;稳定性:转换成标准分数后,规定了标准差为1,保证了不同性质分数在总分数中权重一样。标准分数的应用:(1)比较几个分属性质不同的观测值在各自数据分布中的相对位置;(2)计算不同质的观测值的总和或平均值,以表示在团体中的相对位置(3)表示标准测验分数,若标准分数中有小数、负数等不易被人接受的问题,可通过 Z'=aZ+b 的线性公式将其转化成新的分数(如韦氏成人智力量表);(4)异常值的取舍(正负3个标准差以外的数据)常用变式:T分数:T=10*Z+50 平均数:50 ;标准差:10CEEB分数:CEEB=100*Z+500平均数:500 ;标准差:100智商:IQ=15*Z+100(韦氏智力量表)平均数:100 ;标准差:15(五)相关量数前面讲的都是单变量数据资料的分布特征,相关则是用于描述双变量数据相互之间的关系。相关就是变量间的不精确,不稳定的相互关系。相关系数:相关关系强度的指标。作为样本的统计量用r表示,作为总体参数一般用表示。是和平均数,标准差一样应用广泛的统计量。取值范围是-1,1。我们这里讲的相关是线性相关。当然即使是线性相关为0仍可能存在曲线相关。正相关:两列变量变动方向相同。负相关:两列变量中有一列变量变动时,另一列变量呈现出与前一列变量方向相反的变动。零相关:两列变量之间没有关系,各自按照自己的规律或无规律变化。1、积差相关使用条件:两个呈线性关系的正态连续变量(双变量,成对;大样本;正态;连续;线性)计算方法:,其中 N 为成对数据的数目, S x 、 S y 分别为 X 和 Y 的标准差 (变式)原始数据:计算积差相关系数的差法公式r也就等于X和Y共同变化的程度除以X和Y各自变化的程度。关于平均数估计的方法,因为计算机的普及,这种方法已不再使用,考试应该也不会考2、等级相关使用条件:这是非参数相关方法;要求两个变量线性关系,至少有一个是顺序水平。也就是积差相关不满足的,您就用这个。但是注意,凡符合积差相关的不用等级相关。这个精度低些。计算方法:等级差数法和等级序数法,其中 D 为各对数据等级之差 。等级序数法: ,其中 R X 、 R Y 分别为二变量各等级数 。有相同等级时:3、肯德尔等级相关当要同时研究三个或三个以上变量的一致性或相关性时,可以使用肯德尔和谐系数W:考察评定者的评价一致性如何(0<W<1)使用条件:至少是顺序水平,即顺序性数据。(原始数据资料的获得一般采用等级评定法)形式:多个评定者(K)对一组被试(N)评定等级;同一个评定者对同一组被试多次评定。其原理是评价者评价的一致性除以最大变异可能性。计算方法:有相同等级: 肯德尔U系数适用于对K个评价者的一致性进行统计分析,处理的问题和W系数是一样的,只是所处理的资料不一样。还记得实验心理学的对偶比较法么,就是用该方法来计算相关系数。即将N件事物两两配对分别进行比较。计算方法:完全一致:U=1;完全不一致,U=-1/k(k为奇数)或U=-1/(K-1)(K为偶数)4、点二列相关与二列相关当两列变量,一列是等比或等距数据;另一列是类别变量。求这样的相关就需用到两种方法所谓二分变量指取值只有两种的变量。包括客观二分变量和人为二分变量客观二分变量:如性别,只有男女两种。人为的二分变量:如考试成绩分为及格和不及格。如果及格线是65分,有些人的成绩就会由及格变为不及格。所以说这种变量是人为的。(1)点二列相关使用条件:一列总体正态,至少等距数据,另一列是客观的离散型二分变量.。计算方法:,其中 是两个二分变量对应的连续变量的平均数, p 、 q 是二分变量各自所占的比率, p+q=1 ,St 是连续变量的标准差 。(2)二列相关使用条件:一列总体正态,至少等距数据,另一列是人为的正态二分变量 ,其中 St 与 是连续变量的标准差与平均数, y 为 P 的正态曲线的高度 区别:二者的主要区别是二分变量是否为正态分布。总的原则是,如果不十分明确观测数据的分布形态,那么不管观测数据是真正的二分变量还是人为的二分变量,就用点二列相关。当确认数据分布为正态时,都应选用二列相关。只要有疑问,选点二列相关是较好的选择。5、相关适用条件:当两个互相关联着的变量分布都是真正的二分变量时计算方法:其中a、b、c、d分别为四格表中左上、右上、左下、右下的数据。后记描述统计是推论统计的基础,所以必须认真看,认真背。有人问,要不要背公式,我认为基础公式必须牢记于心,就好像你上战场打仗,枪很好,但是却没子弹一般尴尬。掌握了统计原理,还怕背几个公式。其实也不多的。统计一旦考大题那可是30分那,所以千万不可掉以轻心。介绍:弗兰西斯·高尔顿(Francis Galton,1822年2月16日1911年1月17日),查尔斯·达尔文的表亲(高尔顿为达尔文的表兄),是一名英格兰维多利亚时代的文艺复兴人、人类学家、优生学家、热带探险家、地理学家、发明家、气象学家、统计学家、心理学家和基因学家。 高尔顿一生中发表了超过340篇的报告和书籍,他在1909年被授予爵士。他在1883年率先使用优生学(eugenics)一词。在他于1869年的著作遗传的天才(Hereditary Genius)中,高尔顿主张人类的才能是能够透过遗传延续的。此外,他在统计学方面也有贡献,高尔顿在1877年发表的关于种子的研究结果中指出了回归到平均值(regression toward the mean)现象的存在,这个概念与现代统计学中的“回归”并不相同,但是却是回归一词的起源。在此后的研究中高尔顿第一次使用了相关系数(correlation coefficient)的概念。他使用字母“r”来表示相关系数,这个传统一直延续至今。同时他也发表了关于指纹的论文和书籍,被认为对于现代利用指纹进行犯罪搜查方面有很大的贡献。二、推断统计(核心)推论统计就是指运用一系列的数学方法,将从样本数据中获得的结果推广到样本所在的总体。进行推论统计的关键在于所抽取的样本要能够尽量接近所要研究的总体。科学研究的目的是,通过对样本数据的研究来推测总体,并对推断的正确性如何进行概率检验。他的基础是概率论。(一)推断统计的数学基础1、概率概率:表明随机事件出现可能性大小的客观指标。后验概率:对随机事件进行n次观察,某一事件A出现的概率与观测次数n的比值,在n趋近无穷时所稳定在的一个常数P,也叫统计概率。先验概率:在满足试验可能结果数有限且每一种结果出现的可能性相等的条件下,随机事件包含的结果数除以结果总数。直接计算的比值,是真实的概率,而不是估计值,也叫古典概率。【经过多次观测时,后验概率基本接近先验概率概率的基本性质:任何一个随机事件的概率都是非负的;在一定条件下必然发生的必然事件的概率为1;在一定条件下,不可能事件的概率为0。概率的加法定理:互不相容事件之和等于两个事件概率之和。概率的乘法定理:两个独立事件发生的概率等于两事件概率的乘积。概率分布的种类:(1)根据是否具有连续性可分为离散分布(二项分布、泊松分布、超几何分布)和连续分布(正态分布、负指数分布、威布尔分布);(2)根据函数来源可分为经验分布(次数分布)和理论分布(数学模型);(3)根据数据类型可分为基本随机变量分布(二项分布、正态分布)和抽样分布(即随机变量函数分布,样本平均数、样本平均数之差、方差、标准差、比例、相关系数、回归系数等)2、正态分布:也称常态分布或常态分配,是连续随机变量概率分布的一种,是理论和实际应用中占有重要地位的一种理论分布。图形特征:正态曲线的形状像一口挂钟,呈对称分布,其平均数、中数、众数三者相等,且过对称轴;原始分数大都集中分布在均值附近,极端值较少(正态分布呈倒挂钟形,两头小,中间大);正态分布的中央点最高,然后逐渐向两侧下降,曲线的形式是先向内弯,然后向外弯,两端无限延伸,与基线不相交;曲线下面积为1,左右各位0.5;是一簇分布(即形状不固定),平均数和标准差决定着曲线的位置和形状:越大,曲线越是“低阔”;越小,曲线越是“高狭”,平均数改变中心位置,方差改变分布的形状;正态分布曲线下,概率(面积)与标准差(S)有一定的数量关系;正态分布的原始分数按照Z分数公式转化为标准正态分布,均值为0,方差为1.,z分数与零点对应曲线下面积固定。标准正态分布:平均数为0,标准差为1的正态分布,就是标准正态分布。标准正态分布表的使用:已知概率可查Z分数,即从面积求标准分数值;已知Z分数可查概率,即已知标准分数求面积;已知概率或Z分数可查密度值、函数值,即正态曲线的高;已知Z分数求原始分数。正态分布理论在测验研究中的应用化等级评定为测量数据:如果评定的心理量是正态的,可将等级评定通过率转化为等距的测量数据;确定测验题目的难易程度:难易度一般用通过的百分率表示,但百分率不是等距量表,要比较不同项目的难度距离,通常需要将难易百分数根据正态分布概率转化为难度分数;在能力分组或等级评定时确定人数:若假定能力是正态分布,如果将能力分组,各组人数应是多少,才能使分组或评定等级构成等距量表;测验分数的正态化:可将非正态原始分数转换成正态分布,T分数(T=10Z+50)3、二项分布二项分布是对于一个事件有两种可能A和B,但我们对这一事件观察n次,事件A发生的总次数的概率分布就是二项分布。(重复进行n次二项试验后不同成功次数所对应的概率分布称为二项分布。)二次试验满足的条件:相同条件下,有n次重复试验;每次试验结果只有两个可能;每次试验中两个可能的概率相同;各次试验相互独立。二项分布的形态:离散型分布,概率直方图为跃阶式;p=q的时候,对称,否则出现偏态;一般认为,当pq,np5(或pq,nq5),二项分布接近正态。二项分布的平均数: ;方差:;标准差:应用:解决含有随机性质的问题。4、 2分布2分布从正态分布的总体中随机抽取无限多个数量为n的随机变量,这无限多个n个随机变量平方和或Z分数的平方和的分布。(n个独立的标准正态随机变量的平方和构成一个自由度为n的2分布)特点:是一个正偏态分布,n或n-1越小,分布越偏斜;df趋于无穷大时,分布为正态。(可见卡方分布为一簇分布,正态分布为其特例);卡方值都是正值;2分布的和也为2分布(可加性);df>2时,2 =df=n, 2 =2df=2n; ;2分布为连续型分布。5、 t分布t分布:若Z服从标准正态分布,Y服从自由度为n的2分布,则t= 服从自由度为n的t分布。(t分布是一种与方差无关而与自由度有关的分布,很类似正态分布,我们可以将正态分布看作t分布当自由度为正无穷时的特例。)当样本平均数满足:总体正态或非正态,n>30,方差未知时,可近似t分布。自由度:任何变量中可以自有变化的数目,是t分布密度函数中的参数v,代表t分布中独立随机变量的数目。特点:均值为0,左右对称的分布,左侧t<0,右侧t>0;变量取值为 当样本容量趋于无穷时,t分布为正态分布,且方差为1。 当n-1>30时,t分布为接近正态分布,方差大于1,且随df增大,方差渐趋于1。 当n>45时,t分布与正态分布没有多大差异。 当n-1<30时,t分布与正态分布相差较大,随df减小,方差(离散程度)变大,分布中间变低,尾部变高。在小样本n<30时,t分布具有重要作用。样本平均数的分布总体分布为正态,方差未知时,样本平均数的分布为t分布。总体分布非正态,其方差又未知时,如果n30,认为是近似t分布。6、F分布F分布:从两个正态分布的总体中随机抽取容量为n1、n2两个样本,各自计算出2,每个2随机变量除以对应的自由度df1,df2之比,称为F比率,这无限多个F值的分布即F分布。 若两样本取自同一总体(方差齐性检验)特点:(1)正偏态分布,他的分布曲线随分子、分母的自由度不同而不同,当两个自由度都趋近于无穷时,F分布趋于正态分布;(2)F总为正值,因为是两个方差的比率;(3)当分子自由度为df1=1时,F值与分母自由度(df2)相同概率的t值的平方相等;(4)F分布常用于有关方差的研究当中。7、样本分布(样本统计量的分布,正态或接近正态)当总体分布为正态,方差已知,样本平均数和方差的分布为正态分布 样本平均数分布的平均数和方差与母体的平均数和方差有如下关系:,当总体分布为非正态,方差已知,n>30时,样本平均数的分布为渐近正态分布 从正态分布总体抽取容量为n的样本,当n足够大时(n>30),样本的方差及标准差的分布也渐趋于正态分布,其分布的平均数与标准差和总体有如下关系: ; ; ; 8、抽样原理与抽样方法我们都说通过样本来推测总体,那什么样的样本才能推测出总体呢,当然是具有代表性的样本喽,怎么找到具有代表性的样本呢,那就需要运用抽样原理与抽样方法。抽样原理:随机化是抽样研究的基本原则,随机抽样可以控制掉大多数额外变量。目的:保证样本对总体的代表性,可以对抽样误差的范围进行预测和控制。前提:每个个体被选取的概率相等;进行返回抽样,以保证每个个体每次被抽取的概率不变。.抽样调查的特点和作用:节省人力、物力;节省时间,提高效率;保证结果的准确性。抽样方法:简单随机抽样(适合总体数目较小,个体差异较小时用)抽取时,总体的每个个体应有独立的、等概率被抽取的可能。比如抽签法和随机数字法。优点:最符合随机原则,分析抽样误差比较简明缺点:总体很大时,操作困难。忽略总体已有的信息,降低样本代表性。等距抽样(机械抽样,总体数目庞大时用)也叫系统抽样,是在简单随机抽样中,每隔一段取一个。优点:简便易行缺点:如果总体具有周期性变化,则不能用。分层随机抽样(个体差异较大时用)按照总体已有的某些特征,将总体分成几个不同部分,在分别在每一部分中随机抽样。优点:充分利用了总体的信息,样本代表性及推论的精确性更好分阶段抽样(整群取样,如两阶段随机取样,总体容量很大时用)如果总体很大,样本很小,中间层次有较多单位,但并无过大区别,也可采取分阶段的方法。(二)参数估计(在研究中获得一组样本数据后,如何通过这组数据,对总体特征进行估计)1、点估计、区间估计与标准误点估计:是用样本统计量来估计总体参数,因为样本统计量为数轴上的一点值,估计的结果也以一个点的数值表示,所以称为点估计。良好估计量的标准无偏性:即用多个样本的统计量作为总体参数的估计值,其偏差的平均数为0。有效性:当总体参数的无偏估计不止一个统计量时,无偏估计变异小者有效性高,变异大者有效性低,即方差越小越好。一致性:当样本容量无限增大时,估计值应能够越来越接近它所估计的总体参数,估计值越来越精确,逐渐趋近于真值。充分性:当一个容量为n的样本统计量,是否充分地反映了全部n个数据所反映总体的信息。区间估计:就是根据估计量以一定可靠程度推断总体参数所在区间范围,他是用数轴上一段距离表示未知参数可能落入的范围,它虽不具体指出总体参数等于什么,但能指出未知总体参数落入某一区间的概率有多大。这个区间就叫做置信区间,相应的概率成为置信度,这两个量是共通变化的,置信区间越大,置信度越高。置信区间:置信间距,在某一置信度时,总体参数所在的区域距离或区域长度。影响因素:样本容量(n越大,标准误越小,置信区间越窄);置信水平(置信水平越高,置信区间越宽);样本方差(样本数据变异性越大,对于相同置信度,所需置信区间越宽)显著性水平:指估计总体参数落在某一区间时,可能犯错误的概率。区间估计的原理:样本分布理论标准误:反映样本均数之间的变异,是多个样本平均数分布的标准差。用来衡量抽样误差,标准误越小,样本对总体就越有代表性。推断总体也就越可靠。平均数分布的标准误:(总体方差已知时) 2、总体平均数的估计总体平均数的估计方法大致有三种,对比如下:(小白修订版整理)正态法(Z)t分布法近似正态法(Z)条件已知未知总体正态,n不论大小;或总体非正态,n30总体不论正态与否,n30标准误求得置信区间* 注: 未知,n<30时,必需用t分布法3、标准差与方差的区间估计(1)标准差分布的区间估计根据抽样分布理论,n30时,样本标准差分布近似正态分布,且,则有:(2)方差分布的区间估计由于样本方差与总体方差之比的分布呈2分布,因此有:(df=n-1)在对标准差的总体进行估计时,可先对其方差进行估计(用2),求得方差置信区间后,再开平方。其正平方根,便是标准差的相当于方差置信水平的置信区间。(三)假设检验1、假设检验的原理在统计学,通过样本统计量得出的差异做出一般性结论,判断总体参数之间是否存在差异,这种推论过程称作假设检验。假设检验包括参数检验(总体分布已知)和非参数检验(总体分布未知)。假设检验的基本思想是概率性质的反证法:尝试拒绝虚无假设的方法优于证明备择假设。小概率原理:小概率事件在一次试验中几乎是不可能发生的。两类假设备则假设:因变量的变化、差异却是是由于自变量的作用。 往往是我们对研究结果的预期,用H1表示。虚无假设:实际上什么也没有发生,我们所预计的改变、差异、处理效果都不存在, 观察到的差异只是随机误差在起作用,用H0表示。假设检验的过程简而言之就是:据问题要求,提出虚无假设和备择假设;选择适当的检验统计量;确定检验的方向性并规定显著性水平;计算检验统计量的值;将统计量的值与临界值对比做决策费舍曾说过:每一实验的存在,仅仅是为了给事实一个反驳虚无假设的机会。注意:假设检验是依据小概率原理来推翻原假设的,也就是在统计学上成立。是百分之99或百分之95的情况下成立的。假设检验的两类错误(后来应用于信息论的信号检测论)击中率+漏报率=100%虚报率+正确否定率=100%反应(注意:在这里H0是无信号,H1是有信号)接受H1(拒绝H0)接受H0(拒绝H1)输入有信号(H1)击中漏报(错误)噪音(H0)虚报(错误)正确拒绝其实很简单,我们用反证法进行假设检验的时候,所做出的推断不可能百分之一百正确,那么我们就可能犯错误。一项研究,如果我们的一项研究其实是假的,但是检验出来是真的,那么虚报了,犯了I类错误(拒绝了真的虚无假设H0),如果是真的,但是检验出来是假的,那么就是漏报了,犯了II类错误(接受了假的虚无假设H0)那么看着上图我们来看看和的关系(1)是两个前提下的概率,+1;(2)其他条件不变时(样本容量n固定),和,一个增加,另一个必然减少;(3)样本容量n增大,则他们同时变小。我们需要的是在样本容量一定的情况下,同时减少两种错误。一般我们控制I类错误,所以就将犯I类错误的概率称为假设检验的显著性水平。单侧检验(既强调大小又强调方向,显著性的百分等级为)与双侧检验(强调差异不强调方向,显著性百分等级为/2)对于同样的显著性标准,在某一方向上,单侧检验的临界区域要大于双侧检验,因此如果差异发生在该方向,单侧检验犯错误的概率较小,我们也说它的检验效力更高。2、样本与总体平均数差异的检验(表格来自小白修订版,已经完美了!)检验方法总体情况标准误检验值Z检验正 态已知t检验未知Z检验非正态且n30已知未知3、两样本平均数差异的检验既然是两个样本的话,那么就存在独立(样本彼此间无关,往往是组间的),相关(样本彼此间存在关联,往往是组内的)两个总体都是正态分布,两个总体方差都已知独立样本的平均数差异检验用Z检验: , 相关样本间平均数差异的检验也是Z检验 , 两个总体都是正态分布,两总体方差未知方差齐性,独立样本的平均数差异检验用独立样本t检验(求联合方差);()方差不齐性,独立样本的平均数差异检验用柯兰克-柯克斯t检验(了解就好)相关系数未知的相关样本的平均数差异检验用t检验 其中D为每一对对应数据之差(,n为对子数)相关系数已知的相关样本的平均数差异检验用t检验