现代心理与教育统计学的复习重点.pdf
《现代心理与教育统计学的复习重点.pdf》由会员分享,可在线阅读,更多相关《现代心理与教育统计学的复习重点.pdf(11页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、一二章、绪论现代统计学之父:皮尔逊描述统计与推断统计描述统计主要研究如何整理、描述数据的特征。推断统计主要研究如何通过局部数据所提供的信息推论总体特征。变量类型定类变量:如,性别、学号、颜色类别、教学方法。特征:没有绝对零点, 没有测量单位。 变量值之间有 “相等”和“不等”的关系,但没有大小之分,不能比较大小,更不能进行加、减、乘、除四则运算。定序变量:程度、等级和水平。如,比赛名次、品质等级、喜爱程度特征:既无零点、 又无测量单位。 变量的值之间具有 “等于”或“不等于”关系、序关系 (优于、先于、劣于、后于等),四则运算没有意义。定比变量 :除了可以说出名称和排出大小,还能算出差异大小量
2、的变量。如温度、测验成绩、智商。特征:有相等的测量单位,无绝对零点。考试成绩为零不表示没有一点知识。可进行加减运算,乘除运算则无意义。定距变量:如身高、重量、学生人数。既有测量单位,又有绝对零点,可进行计算。降低偏差:利用随机抽样降低变异性:用大一点的样本三、描述统计一、频数:某一事件在某一类别中出现的次数。频数分布类型:正态,正(负)偏态,正(反)J形,U 形分布。分布性质 ;集中(分散)程度,偏度和峰度不同。偏态系数:数据的对称性峰态系数:数据的峰度二、集中量数 :包括算术平均数 M 、中位数dM、众数0M(用众数代表一组数据,可靠性较差,不过,众数不受极端数据的影响,并且求法简便)、加权
3、平均数WM、几何平均数gM 、调和平均数HM。组数据中有少数数据偏大或偏小,数据的分布呈偏态时,应用几何平均数。算数平均数的 性质(算法必须会):(1)每一个变量加减或乘除一个数之后,均值也相应增加。(2)变量值与均值的离均差之和为零。(3)变量值与均值的离均差平方和为最小值。三、离散量数 :全距 R、四分位差 Q、平均差 A.D、方差( 样本统计量,2S总体参数2) 、标准差 (s 或者 SD)、百分位差全距:全部数据中的最大值与最小值的差,描述了数据分布的范围。四分位差( Q) :样本中间 50%的人的全距的一半。是一个距离,Q 越大,表示样本中各样品越不整齐 . 平均差:全部数据与均值绝
4、对离均差的均值。方差:各个数据偏离中心的程度。方差越大,数据波动越大。标准差:方差的算术平方根。自由度:自由度是指当以样本的统计量来估计总体的参数时,样本中独立或能自由变化的数据的个数。标准分数 :以标准差为单位表示一个原始分数在团体中所处的相对位置,即原始分数在均值以上或以下几个标准差的位置。性质:标准分数的均值为0,标准差为 1。没有实际单位。应用:(1) 、 比较不同性质的观测值在各自数据分布中相对位置的高低。如身高与体重。(2)计算不同质的观测值的总和或者均值,以表示在团体中的相对位置。如高考的标准分。(3)做线性转换后,表示标准测验分数。如IQ。图表条形图,用于定性数据。直方图与多边
5、图:用于定量数据时序图:反映事物变化趋势饼图:定性数据的多少或构成比例散点图 :两个变量的变化关系和变化方向。茎叶图:保留小样本连续变量的原貌。三线表的组成要素包括:表序、表题、项目栏、表体、表注五、随机变量分布正态分布),(2NX- 样本均值的分布正态分布曲线下的面积:曲线高度是频数(Y) ,曲线下面积则是累积频数P(也视作随机变量出现的概率) 。X 轴上的截距为 Z。其中, 决定曲线的位置,决定曲线的“胖瘦”。无论各分布的均值与标准差的值是多少,x 取值以下特定区域的概率 (面积)是确定的,即:正负一个标准差,占68.27%,两个 95.45% ,三个 99.73% 标准正态分布:均值为0
6、,标准差为 1. 总体服从正态分布 N (,2)时,来自该总体的所有容量为n 的样本的 均值X 也服从正态分布,X 的期望为,方差为 2/n。即XN(,n2) 平均数的标准误NX标准误衡量了抽样误差 (sampling error)的大小。所谓抽样误差是指由抽样引起的样本统计量与总体参数间的差异。标准误越小 ,统计量与参数越接近, 样本对总体越有代表性, 用统计量推断参数的可靠度越大 ,所以,标准误是推断统计可靠性的重要指标。卡方分布:变量相互独立,且服从)1 ,0(N分布的随机变量。称随机变量服从自由度为为 n 的卡方分布。记做)(22nxx,niixx122卡方分布 :样本方差的分布(样本
7、方差的分布)T 分布:随机变量 X 服从 N(0,1),Y 服从)(2nx,且相互独立,则随机变量服从自由度为 n 的 t 分布,记做 t t(n).nYXt. 来自一个正态总体 :1)(),1()(2NXXSNtNSXt其中,来自两个正态总体2) 1() 1(),2()()(212222112121212121NNSNSNSNNtNNNNSXXtPP其中,PS为两样本的混合标准差。T 分布的均值为 0,方差为 n/(n-2). t 统计量是参数估计与假设检验的基础。特点:当样本容量趋于,t 分布为正态分布,方差为1,随自由度的减少,离散程度(方差)增大,分布中间变低,尾部变高。F 分布:)1
8、, 1(212221NNFSSF- 两样本方差的比F 统计量主要用于方差分析、协方差分析、回归分析等。六、参数估计参数估计 :当在研究中从样本获得一组数据后,如何通过这组信息, 对总体特征进行估计, 也就是如何从局部结果推论总体的情况,称为总体参数估计。 总体参数估计问题可以分为点估计与区间估计。点估计 :用某一样本统计量的值来估计相应总体参数的值。优良的估计量具有的性质:无偏性、有效性、一致性。区间估计 :按一定概率要求,由样本统计量的值估计总体参数值的所在范围。原理:抽样分布理论。抽样分布的标准误的大小决定置信区间的长度。置信区间 :指在某一置信度时,总体参数所在的区域长度。置信度:是作出
9、某种推断时正确的可能性(概率)。通常用 (1a)表示。显著性水平:即a,是指估计总体参数落在某一区间时可能犯错误的概率。两个要素:可靠性(置信水平的高低)和精确度(区间长度)。置信水平为 95%的置信区间的确切含义 :重复抽样 N 次,所得到的 N 个置信区间中有 95%个包含了总体参数。影响区间估计精确度的因素:(1)置信度 (1a)(反比)(2)样本容量(正比)(3)总体数据的变异程度(反比)0.95 的置信区间:个标准误96.1X单总体均值的区间估计:方差已知,正态分布;) 1 ,0(NnXZ方差未知, t 分布。两总体均值差异的区间估计:T 分布。相关样本与独立样本都为T 分布。其中,
10、独立样本时用很长很长的那个公式。总体均值的区间估计:卡方分布)1(1222NxSN七、假设检验假设检验(显著性检验) :事先对总体参数或分布形式作出某种假设,然后利用样本信息来判断原假设是否成立。类型:参数检验和非参数检验(包括分布检验和独立性检验)。假设检验的原理:(1) 逻辑上为反证法(假设检验首先假定虚无假设0H 为真,通过否定0H ,来检验备择假设1H的真实性)(2) 统计上为小概率事件(小概率事件在一次实验或观测中,几乎是不可能发生的。在一次试验中小概率事件一旦发生,我们就有理由拒绝原假设。小概率由研究者事先确定,如0.05, 0.01, 0.001等) 。假设检验的步骤:(1)提出
11、原假设和备择假设(2) 确定适当的检验统计量, 检验统计量(方差已知)的基本形式为:nxz0(3)规定显著性水平( 0.05 或 0.01)(4)计算检验统计量的值(5)作出统计决策拒绝域:拒绝原假设的概率。两类错误 : 拒真错误型错误;取伪错误型错误。统计效力(统计检验力)1。两类错误的关系 :(1)不一定等于 1. (2)其他条件不变,两者不能同时增大或者减小。(3)两者地位不一样。我们应尽量避免第一类错误。(4)影响错误的因素有总体标准差(正比)和样本容量(反比)。单侧检验与双侧检验单侧检验:强调方向性。双侧检验:只强调差异,不强调方向性。单总体均值的假设检验:方差已知,正态分布;) 1
12、 ,0(NnXZ。用这个统计公式,然后查表。方差未知, t 分布。1)(),1()(2NXXSNtNSXt其中,两总体均值差异的显著性检验:(1)相关样本,使用t 分布统计量(2)独立样本,方差已知,使用正态分布统计量;2221212121)()(NNXXZ(3)独立样本,方差未知,但是齐性,使用t 分布统计量2) 1() 1(),2()()(212222112121212121NNSNSNSNNtNNNNSXXtPP其中,总体分布的假设检验(属于非参数检验) :卡方检验设有 N 个被试,按变量 X 的取值可以分成k 类,第 i 类有 Oi 个观测值 ,则检验统计量为:)1()(2122KxE
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 现代 心理 教育 统计学 复习 重点
限制150内