统计学重点部分归纳(共63页).doc
《统计学重点部分归纳(共63页).doc》由会员分享,可在线阅读,更多相关《统计学重点部分归纳(共63页).doc(63页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选优质文档-倾情为你奉上第三章全距也称极差,是一组数据的最大值与最小值之差。 R=最大值-最小值组距分组数据可根据最高组上限 -最低组下限计算。四分位数:数据按大小顺序排序后把分割成四等分的三个分割点上的数值 。 SPSS中四分位数的位置为(n+1)/4, 2(n+1)/4, 3 (n+1)/4。 Excel中四分位数的位置分别为(n+3)/4, 2(n+1)/4,(3 n+1)/4。 如果四分位数的位置不是整数,则四分位数等于前后两个数的加权平均。四分位距等于上四分位数与下四分位数之差IQR=Q3-Q1 反映了中间50%数据的离散程度,数值越小说明中间的数据越集中。不受极端值的影响。可以用
2、于衡量中位数的代表性。方差是一组数据中各数值与其算术平均数离差平方的平均数,标准差是方差正的平方根。是反映定量数据离散程度的最常用的指标。离散系数:标准差与其相应的均值之比,表示为百分数。特点:(1)反映了相对于均值的相对离散程度;(2)可用于比较计量单位不同的数据的离散程度;(3)计量单位相同时,如果两组数据的均值相差悬殊,离散系数可能比标准差等绝对指标更有意义数据分布的不对称性称作偏态。偏态系数就是对数据分布的不对称性(即偏斜程度)的测度。峰度:数据分布的扁平或尖峰程度。峰度系数:数据分布峰度的度量值,对数据分布尖峰或扁平程度的测度,一般用K表示。箱线图用于描述数据分布特征的一种图形。最简
3、单的箱线图可以根据数据的最大值、最小值和三个四分位数绘制的:先根据三个四分位数Q1、Q2、Q3画出中间的盒子,然后由盒子两端分别向最大、最小值连线。在SPSS中标准的箱线图一般是这样绘制的:先根据三个四分位数Q1、Q2、Q3画出中间的盒子;由Q3至Q3+1.5*IQR区间内的最大值向盒子的顶端连线,由Q1至Q1-1.5*IQR区间内的最小值向盒子的底部连线;处于Q3+1.5*IQR至Q3+3*IQR或者 Q1-1.5*IQR至Q1-3*IQR范围内的数据用圆圈标出;大于Q3+3*IQR或者小于Q1-3*IQR的用星号标出。例子:数据的 Z值也称标准化值,等于变量值与其平均数的离差除以标准差,用
4、Z表示。 Z值的均值等于0,标准差等于1。是对某一个值在一组数据中相对位置的度量。z0说明观测值大于均值。 z0说明观测值小于均值。z=1.2说明观测值比均值大1.2倍的标准差第四章假设检验 推断统计:在搜集、整理观测样本数据的基础上,对有关总体作出推断 特点:随机性的观测样本数据以及问题的条件和假定,对未知事物作出以概率形式表述的推断参数估计(1)基本概念: 点估计:用估计量的数值作为总体参数的估计值。一个总体参数的估计量可以有多个。 例如,在估计总体方差时, 和都可作为估计量。 点估计量常用的评价准则: a无偏性:估计量的数学期望与总体待估参数的真值相等: b有效性:在两个无偏估计量中方差
5、较小的估计量较为有效。 c一致性:指随着样本容量的增大,估计量越来越接近被估计的总体参数。 精确量越高,样本容量越大区间估计:根据事先确定的置信度1-给出总体参数的一个估计范围。 置信度1-的含义 置信度1-的含义是:在同样的方法得到的所有置信区间中,有100(1-)% 的区间包含总体参数。 置信是什么? 抽样分布 抽样分布:区间估计的理论基础。 从总体中抽取一个样本量为n的随机样本,我们可以计算出统计量的一个值。 如果从总体中重复抽取样本量为n的样本,就可以得到统计量的多个值。 统计量的抽样分布就是这一统计量所有可能值的概率分布。 抽样分布的要点: 抽样分布是统计量的分布而不是总体或样本的分
6、布。 在统计推断中总体的分布一般是未知的,不可观测的(常常被假设为正态分布)。 样本数据的统计分布是可以直接观测的,最直观的方式是直方图,可以用来对总体分布进行检验。 抽样分布一般利用概率统计的理论推导得出,在应用中也是不能直接观测的。其形状和参数可能完全不同 于总体或样本数据的分布。 . 样本均值的均值(数学期望)等于总体均值 . 样本均值的方差等于总体方差的1/n样本均值抽样分布结论:一般的,当总体服从 N(,2 )时,来自该总体的容量为n的样本的均值也服从 正态分布,X 的期望为,方差为2/n。即N(,2/n)。 2=10/4=2.5中心极限定理:从均值为,方差为的一个任意总体中抽取容量
7、为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为、方差为/n的正态分布。简单随机抽样、重复抽样时,样本均值抽样分布的标准差 标准差等于,这个指标在统计上称为标准误。统计软件在对变量进行描述统计时一般会输出这一结果。简单随机抽样、不重复抽样时,样本均值抽样分布的方差略小于重复抽样的方差,等于,称为有限总体校正系数,当抽样比(n/N)=0.05,所以不能拒绝两个总体均值的比较:检验统计量的选择两个总体均值的比较:检验统计量的选择 两个总体方差相等和不相等时,t统计量的计算公式不同。因此,检验两个总体的均值是否相等时,需要先检验两个总体的方差是否相等! 例:某农业研究所研制出一种新的化肥,
8、现要研究施肥土地的小麦产量是否比不施肥土地的小麦产量有显著提高,随机抽取几块土地进行试验。选10快试验田不施肥,结果最后的每亩产量数据为(单位:公斤):172、158、186、214、224、228、196、190、202、170。另选8块试验田施肥,结果最后的每亩产量数据为:252、204、234、246、222、210、244、212。试检验施肥和不施肥的平均亩产量有无显著差异(=0.05) p值=0.5820.05,不能拒绝方差相等的原假设。在方差相等时下面一行的输出结果无效。在方差不相等时上面一行的输出结果无效。p值=0.0040.05,拒绝均值相等的原假设。两个总体均值差异的检验(匹
9、配样本) 如果两个样本是非独立的匹配样本,即两个样本中的数据是一一对应的,这时对两个总体的均值的比较,就是对两个样本对应数据之差的检验。第5章 方差分析方差分析:主要目的是通过对方差的比较来检验多个均值之间差异的显著性(可看作t检验的扩展,只比较两个均值时与t检验等价),主要用于研究一个定量因变量与一个或多个定性自变量的关系。 基本原理:方差分析原理1.比较两类误差,以检验均值是否相等2.比较的基础是方差比 1.比较两类误差,以检验均值是否相等 2.比较的基础是方差比 3.如果系统(处理)误差显著地不同于随机误差,则均值就是不相等的;反之,均值就是相等的 4.误差是由各部分的误差占总误差的比例
10、来测度的随机误差因素的同一水平(总体)下,样本各观察值之间的差异。比如,同一专业下不同毕业生的起薪是不同的。这种差异可以看成是随机因素的影响,称为随机误差 系统误差因素的不同水平(不同总体)下,各观察值之间的差异。比如,不同专业之间的毕业生的起薪之间的差异这种差异可能是由于抽样的随机性所造成的,也可能是由于专业所造成的,后者所形成的误差是由系统性因素造成的,称为系统误差组内方差(within groups):因素的同一水平(同一个总体)下样本数据的方差;比如,专业一的毕业生的起薪的方差;组内方差只包含随机误差组间方差(between groups):因素的不同水平(不同总体)下各样本之间的方差
11、;比如,四个专业的毕业生的起薪的方差;组间方差既包括随机误差,也包括系统误差方差分析中的基本假设(1)每个总体都应服从正态分布(2)各个总体的方差必须相同(3)观察值是独立的。(比如,每个专业毕业生的起薪与其他专业毕业生的起薪相互独立)单因素方差分析:一个自变量(因素)和一个因变量。 张三的起薪 =专业1的平均起薪+随机因素带来的影响 =总平均起薪+专业1的平均值与总平均值之差 + 随机因素带来的影响 各离差平方和的大小与观察值的多少有关,为了消除观察值多少对离差平方和大小的影响,需将其平均,即均方。计算方法是用离差平方和除以相应的自由度三个平方和的自由度分别是三个平方和的自由度分别是SST
12、的自由度为n-1,n为全部观察值的个数SSA的自由度为r-1,其中r为因素水平的个数SSE 的自由度为n-r组间方差组内方差若因素A的不同水平对结果没有影响,那么在组间方差中只包含有随机误差,两个方差的比值会接近1;反之,该比值就会大于1;当这个比值大到某种程度时,就可以说因素A对结果有显著影响。 F(r-1,n-r)F检验当H0为真时,二者的比值服从分子自由度为k-1、分母自由度为 n-k 的 F 分布,即 上面公式方差分析的步骤1.检验数据是否符合方差分析的假设条件。2.提出零假设和备择假设: 零假设:各总体的均值之间没有显著差异,即 备择假设:至少有两个均值不相等,即 3.根据样本计算F
13、统计量的值。 4.确定决策规则,根据p值与的比较得出检验结论。在零假设成立时组间方差与组内方差的比值服从服从自由度为(r-1, n-r) 的 F 分布。 临界值拒绝域p-值实际值 F检验的临界值和拒绝域 拒绝原假设 正态检验Qq图 事后检验:在方差分析中,当零假设被拒绝时我们可以确定至少有两个总体的均值有显著差异。但要进一步检验哪些均值之间有显著差异还需要采用多重比较的方法进行分析。用LSD法进行多重比较的步骤(注意有木有“0”) 第6章 非参数检验也称与总体分布无关的检验特点:(1)非参数检验不需要严格假设条件,因而比参数检验适用范围广。 (2)非参数检验几乎可以处理包括定类数据和定序数据在
14、内的所有类型的数据,而参数检验 通常只能用于定量数据的分析。 (3)非参数检验的功效要低于参数检验方法(前提:参数检验和非参数检验都适用)以下情况首选非参数方法:以下情况首选非参数方法: (1)参数检验中的假设条件不满足,从而无法应用。例如总体分布为偏态或分布形式未知,且样本为小样本时。 (2)检验中涉及的数据为定类或定序数据。 (3)所涉及的问题中并不包含参数,如判断某样本是否为随机样本,判断某样本是否来自正态分布等。 (4)对各种资料的初步分析。拟合优度检验:在总体分布未知时,根据来自总体的样本,检验关于总体分布的假设的一种检验方法。 df为自由度,为卡方特别说明: (1)大样本、每个单元
15、中的期望频数大于等于5时可以使用c2分布。 (2)小样本时应该按照精确方法计算得到的 p 值得出结论。 (3)c2检验也可以按照同样的思想对正态分布或者任何其他分布进行检验,但主要用于对定性变量的检验。(4)c2检验也可以用于对两个总体分布的比较。单样本 K-S 检验Kolmogorov Smirnov 通过对两个分布差异的分析确定能否认为样本的观察值来自所设定的理论分布总体定义:若对每一个x值来说,如果经验分布函数与特定分布函数的拟合程度很高,则有理由认为样本数据来自具有该理论分布的总体。 检验统计量:根据检验统计量的精确分布或渐近分布,我们可以计算出假设检验的 p 值,从而得出检验的结论。
16、例子结果分析:在 K-S 检验中如果使用的是小样本,则根据渐近分布计算 p 值的误差会增大。单样本中位数的符号检验在数据呈偏态分布的情况下,我们可能对总体的中位数更感兴趣,希望对总体的中位数作出推断,这时可以使用符号检验(sign test)的方法。在非正态总体小样本的情况下,如果要对总体分布的位置进行推断,由于 t 检验不适用,也可使用符号检验的方法。例子:在某地区随机调查了60个家庭的月收入(数据文件:家庭月收入.sav)。根据样本数据能否认为总体中家庭月收入的中位数等于5000元(显著性水a=0.05)? 步骤:每个数据都减去零假设中的中位数,记录其差值的符号。计算正、负符号的个数(差值
17、为0的不计算在任何一个中),当原假设为真时二者应该很接近;若两者相差太远,就有理由拒绝原假设。 当正号和负号个数之和大于25时,可以按照正态分布进行近似计算。 匹配样本的非参数检验 如果 t 检验的假设条件不满足,t 检验就不适用了。可以用符号检验或 Wilcoxon 符号秩检验替代。匹配样本数据为 用对应的数据相减得到新的序列 :零假设:差值总体的中位数=0;备择假设:差值总体的中位数0。对于差值序列中正数的个数和负数的个数,按照符号检验的方法进行假设检验。Wilcoxon 符号秩检验Wilcoxon 符号秩检验步骤:(1)计算差值绝对值的秩 (2)将差值绝对值从小到大排序,其位次就是的秩(
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 重点 部分 归纳 63
限制150内