十三章检验与方差分析.ppt
《十三章检验与方差分析.ppt》由会员分享,可在线阅读,更多相关《十三章检验与方差分析.ppt(62页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、十三章检验与方差分析 Still waters run deep.流静水深流静水深,人静心深人静心深 Where there is life,there is hope。有生命必有希望。有生命必有希望第一节第一节 拟合优度检验拟合优度检验 运用运用Z检验、检验、t检验等讨论假设检验的问题,一般要求总体服从检验等讨论假设检验的问题,一般要求总体服从正态分布,或者在大样本条件下可以利用渐近正态分布理论来描述正态分布,或者在大样本条件下可以利用渐近正态分布理论来描述抽样分布。也就是说,我们都要直接或间接地假定对象总体具有已抽样分布。也就是说,我们都要直接或间接地假定对象总体具有已知的分布形式,然后对
2、总体的未知参数进行假设检验。如果不知道知的分布形式,然后对总体的未知参数进行假设检验。如果不知道总体的分布形式,就无法运用总体的分布形式,就无法运用t检验法等对总体参数进行假设检验。检验法等对总体参数进行假设检验。于是,这里有一个前面留下来的尚未讨论的问题很重要,就是怎样于是,这里有一个前面留下来的尚未讨论的问题很重要,就是怎样检定总体是否具有正态或其他分布形式?拟合优度检验正是就这一检定总体是否具有正态或其他分布形式?拟合优度检验正是就这一问题而言的检验方法。问题而言的检验方法。n n 第十一章最后一节,我们将累计频数检验用于经验分布与理第十一章最后一节,我们将累计频数检验用于经验分布与理第
3、十一章最后一节,我们将累计频数检验用于经验分布与理第十一章最后一节,我们将累计频数检验用于经验分布与理论分布的比较,实际已经提供了拟合优度检验的一种方法。论分布的比较,实际已经提供了拟合优度检验的一种方法。论分布的比较,实际已经提供了拟合优度检验的一种方法。论分布的比较,实际已经提供了拟合优度检验的一种方法。拟拟拟拟合优度检验与累计频数拟合优度检验相对应,在评估从经验上得合优度检验与累计频数拟合优度检验相对应,在评估从经验上得合优度检验与累计频数拟合优度检验相对应,在评估从经验上得合优度检验与累计频数拟合优度检验相对应,在评估从经验上得到的频数和在一组特定的理论假设下期望得到的频数之间是否存到
4、的频数和在一组特定的理论假设下期望得到的频数之间是否存到的频数和在一组特定的理论假设下期望得到的频数之间是否存到的频数和在一组特定的理论假设下期望得到的频数之间是否存在显著差异时,是一种更普遍的检验方法。在显著差异时,是一种更普遍的检验方法。在显著差异时,是一种更普遍的检验方法。在显著差异时,是一种更普遍的检验方法。n n 现在我们再来看看第七章提到的著名的孟德尔豌豆试验。根现在我们再来看看第七章提到的著名的孟德尔豌豆试验。根现在我们再来看看第七章提到的著名的孟德尔豌豆试验。根现在我们再来看看第七章提到的著名的孟德尔豌豆试验。根据孟德尔提出的分离规律,纯种豌豆杂交后的子二代出现分化,据孟德尔提
5、出的分离规律,纯种豌豆杂交后的子二代出现分化,据孟德尔提出的分离规律,纯种豌豆杂交后的子二代出现分化,据孟德尔提出的分离规律,纯种豌豆杂交后的子二代出现分化,红花植株与白花植株的数目应为红花植株与白花植株的数目应为红花植株与白花植株的数目应为红花植株与白花植株的数目应为3 3 1 1。但由于随机性。但由于随机性。但由于随机性。但由于随机性,观察结果与观察结果与观察结果与观察结果与3 3 1 1理论值总有些差距。因此有必要去考察某一大小的差距是否理论值总有些差距。因此有必要去考察某一大小的差距是否理论值总有些差距。因此有必要去考察某一大小的差距是否理论值总有些差距。因此有必要去考察某一大小的差距
6、是否已构成否定已构成否定已构成否定已构成否定3 3 l l理论的充分根据。这正是我们所讨论的拟合优度理论的充分根据。这正是我们所讨论的拟合优度理论的充分根据。这正是我们所讨论的拟合优度理论的充分根据。这正是我们所讨论的拟合优度检验的问题。解决这类问题的工具,是卡检验的问题。解决这类问题的工具,是卡检验的问题。解决这类问题的工具,是卡检验的问题。解决这类问题的工具,是卡 皮尔逊在皮尔逊在皮尔逊在皮尔逊在19001900年发表年发表年发表年发表的的的的一篇文章中引进的所谓一篇文章中引进的所谓一篇文章中引进的所谓一篇文章中引进的所谓 检验法。检验法。检验法。检验法。1 1问题的导出问题的导出n n
7、首先把问题表述成一般模式。设一总体包含首先把问题表述成一般模式。设一总体包含c c种可区别的个体。根据某种可区别的个体。根据某种理论或纯粹的假设,第种理论或纯粹的假设,第i i 种个体出现的概率应为某个已知的数种个体出现的概率应为某个已知的数P Pi i (i i1 1,2 2,c c),),有有P Pi i 0 0,1 1。这一组概率。这一组概率(P P1 1 ,P P2 2 ,P Pc c)就构成了我就构成了我们的理论分布。现在在该总体中随机地抽取一个容量为们的理论分布。现在在该总体中随机地抽取一个容量为n n的样本,发现其中的样本,发现其中第第 i i 种个体的数目为种个体的数目为f f
8、i i(i i 1 1,2 2,c c),并有,并有 n n。我们要据此检。我们要据此检验理论分布。验理论分布。n n 用概率论的语言可以这样说,设对象总体中随机变量用概率论的语言可以这样说,设对象总体中随机变量X X有有c c种取值。当种取值。当X X的的取值是取值是x xi i 时,按零假设,其总体分布等于理论分布,即时,按零假设,其总体分布等于理论分布,即P P()()P Pi i (i i1 1,2 2,c c)例如,就孟德尔的例如,就孟德尔的3131理论来说,理论来说,c c 2 2,P(xP(x1 1)3/43/4,P(xP(x2 2)1/41/4。现。现在从该总体中随机地抽取一个
9、容量为在从该总体中随机地抽取一个容量为n n的样本,发现其中的样本,发现其中x xi i(i i1 1,22,c c)出出现的次数为现的次数为f fi i(i i 1 1,2 2,c c),并有,并有 n n。知道了频数也就知道了。知道了频数也就知道了频频率,即:率,即:出出现现的的频频率率为为 ,并有,并有 1 1。现在我们就是要据此经验分布来检验总体分布等于理论分布的零假设。现在我们就是要据此经验分布来检验总体分布等于理论分布的零假设。2 2拟合优度检验拟合优度检验(比率拟合检验比率拟合检验)拟合优度检验如何进行拟合优度检验如何进行?关键是确定合适的检验统计量以及该统计量所服从的概率分布。
10、这里不可避免地要引进某种人为因素,即人们设计出下面这样的综合性可比指标:其中k1,k2,kc 是适当选取的常数。仔细观察不难 发现,L值大,意味着经验分布与理论分布偏离大;L值小,意味着经验分布与理论分布偏离小。当在某个选定的水平上,经验分布显著偏离理论分布,那么对象总体具有某种分布形式的零假设便被否定。结论:结论:n n 用用用用 作为检定作为检定作为检定作为检定HHo o成立的检验统计量,理论证明,当成立的检验统计量,理论证明,当成立的检验统计量,理论证明,当成立的检验统计量,理论证明,当n n足够大足够大足够大足够大 时,该统计量时,该统计量时,该统计量时,该统计量 服从服从服从服从 分
11、布,它是一种具有已知的并制成表的概率分布,它是一种具有已知的并制成表的概率分布,它是一种具有已知的并制成表的概率分布,它是一种具有已知的并制成表的概率 分布,因此对给定的显著性水平分布,因此对给定的显著性水平分布,因此对给定的显著性水平分布,因此对给定的显著性水平,可求得临界值,可求得临界值,可求得临界值,可求得临界值 ,与,与,与,与 比比比比 较,进而作出检验结论。较,进而作出检验结论。较,进而作出检验结论。较,进而作出检验结论。n n 显而易见,理论频数显而易见,理论频数显而易见,理论频数显而易见,理论频数 fe fe 与观测频数与观测频数与观测频数与观测频数 fo fo 越接近,越接近
12、,越接近,越接近,统计值越小,统计值越小,统计值越小,统计值越小,经验分布与理论分布拟合程度越好。反之,经验分布与理论分布拟合程度越好。反之,经验分布与理论分布拟合程度越好。反之,经验分布与理论分布拟合程度越好。反之,fe fe 与与与与 fo fo 差距越大,差距越大,差距越大,差距越大,值越大,经验分布与理论分布拟合程度越差,拟合优度检验由此值越大,经验分布与理论分布拟合程度越差,拟合优度检验由此值越大,经验分布与理论分布拟合程度越差,拟合优度检验由此值越大,经验分布与理论分布拟合程度越差,拟合优度检验由此得名。得名。得名。得名。例例 孟德尔遗传定律表明:在纯种红花豌豆与白花豌豆杂交后孟德
13、尔遗传定律表明:在纯种红花豌豆与白花豌豆杂交后所生的子二代豌豆中,红花对白花之比为所生的子二代豌豆中,红花对白花之比为3 3:1 1。某次种植试验的结果。某次种植试验的结果为;红花豌豆为;红花豌豆176176株,白花豌豆株,白花豌豆4848株。试在株。试在 0 00505的显著性水平上,的显著性水平上,对孟德尔定律作拟合优度检验。(参见下表)对孟德尔定律作拟合优度检验。(参见下表)应用举例应用举例 3 3正态拟合检验正态拟合检验 例例例例 试对下表所给男青年身高分布的数据作正态拟合检验,选取试对下表所给男青年身高分布的数据作正态拟合检验,选取试对下表所给男青年身高分布的数据作正态拟合检验,选取
14、试对下表所给男青年身高分布的数据作正态拟合检验,选取 0 00505。解解解解 检验的另一个重要应用是对交互分类资料的独立性检验,检验的另一个重要应用是对交互分类资料的独立性检验,即列联表检验。在上一章,我们曾多次提到过性别与收入高低有无即列联表检验。在上一章,我们曾多次提到过性别与收入高低有无关联的问题,在实际中类似的问题很多。例如受教育程度与投票行关联的问题,在实际中类似的问题很多。例如受教育程度与投票行为有无关联为有无关联?吸烟与寿命长短有无关联吸烟与寿命长短有无关联?家庭小孩多少与收入多少有家庭小孩多少与收入多少有无关联无关联?受教育时间长短与收入多少有无关联受教育时间长短与收入多少有
15、无关联?血型与某种性格上的血型与某种性格上的差异有无关联差异有无关联?等等,把这类问题上升到一般,就是在列联表的基等等,把这类问题上升到一般,就是在列联表的基础上考察变量础上考察变量X X与与Y Y有无关联。由于列联表一般是按品质标志把两个有无关联。由于列联表一般是按品质标志把两个变量的频数进行交互分类的,所以:变量的频数进行交互分类的,所以:检验法用于对交互分类资料的独立性检验,有其它方法检验法用于对交互分类资料的独立性检验,有其它方法无法比拟的优点;无法比拟的优点;如何求得列联表中的理论频数就成了独立性检验的关键。如何求得列联表中的理论频数就成了独立性检验的关键。第二节第二节 无关联性检验
16、无关联性检验 1 1、独立性、理论频数及自由度、独立性、理论频数及自由度、独立性、理论频数及自由度、独立性、理论频数及自由度应用此式,不必计算理论频数应用此式,不必计算理论频数计算与计算与 这个检验统计量相这个检验统计量相联系的自由度联系的自由度算出算出 统计量之值并定出其自由度后,就可以依前述的方法,在给定了显著统计量之值并定出其自由度后,就可以依前述的方法,在给定了显著性水平之后,来对性水平之后,来对X,Y属性无关联的零假设进行检验了。属性无关联的零假设进行检验了。应用举例应用举例 检验也适用于定类变量和定类变量的相关统计,即可检验也适用于定类变量和定类变量的相关统计,即可以用它检定以用它
17、检定和和系数是否显著。就下表所示资料,试以系数是否显著。就下表所示资料,试以 检验检定性别与收入之间的相关程度是否显著检验检定性别与收入之间的相关程度是否显著(取取0 0001)001)。解解解解 故拒绝故拒绝故拒绝故拒绝HH0 0,即认为总体上性别与收入高低之间不独立,有,即认为总体上性别与收入高低之间不独立,有,即认为总体上性别与收入高低之间不独立,有,即认为总体上性别与收入高低之间不独立,有显著相关关系。显著相关关系。显著相关关系。显著相关关系。例例 在某种流行病流行的时候,共有在某种流行病流行的时候,共有120120个病人进行了治疗,其中个病人进行了治疗,其中4040个个病人按标准剂量
18、服用某种新药,另有病人按标准剂量服用某种新药,另有4040个病人按标准剂量的个病人按标准剂量的2 2倍服用了这种倍服用了这种新药,其余新药,其余4040个病人只按病状治疗个病人只按病状治疗(而不是按病因治疗而不是按病因治疗),治疗结果按迅速痊,治疗结果按迅速痊愈、缓慢痊愈、未痊愈分为三类,最后交叉分类的情况列于下表,试问这愈、缓慢痊愈、未痊愈分为三类,最后交叉分类的情况列于下表,试问这三种疗法之间有没有差别三种疗法之间有没有差别(取取0 005)05)。解解解解 HH0 0:这三种疗法之间没有差别:这三种疗法之间没有差别:这三种疗法之间没有差别:这三种疗法之间没有差别 HH1 1:这三种疗法之
19、间有差别:这三种疗法之间有差别:这三种疗法之间有差别:这三种疗法之间有差别 由于由于由于由于 0 00505;自由度;自由度;自由度;自由度k k(c cl)(l)(r r l)l)22224 4,查查查查 分布表得临界值:分布表得临界值:分布表得临界值:分布表得临界值:在零假设下,计算检验统计量,计算过程参见后表。在零假设下,计算检验统计量,计算过程参见后表。在零假设下,计算检验统计量,计算过程参见后表。在零假设下,计算检验统计量,计算过程参见后表。因此因此因此因此 ,故拒绝零假设,即三种疗法之间有,故拒绝零假设,即三种疗法之间有,故拒绝零假设,即三种疗法之间有,故拒绝零假设,即三种疗法之间
20、有显著差别。显著差别。显著差别。显著差别。第三节第三节 方差分析方差分析 方差分析,是一种很重要的分析方法,它可以检验两个以方差分析,是一种很重要的分析方法,它可以检验两个以上样本均值之差。方差分析是均值差检验的推广,一般用于上样本均值之差。方差分析是均值差检验的推广,一般用于处理自变量是一个(或多个)定类变量和因变量是一个定距处理自变量是一个(或多个)定类变量和因变量是一个定距变量之间的关系。方差分析所包含的假定与均值差检验所包变量之间的关系。方差分析所包含的假定与均值差检验所包含的假定差不多,例如正态分布、独立随机样本、等方差性含的假定差不多,例如正态分布、独立随机样本、等方差性等,但检验
21、本身却很不相同。方差分析直接涉及的是方差而等,但检验本身却很不相同。方差分析直接涉及的是方差而不是均值和标准差。同时,比较也不取两种估计量之差,而不是均值和标准差。同时,比较也不取两种估计量之差,而是取两种估计量的比率。在两种估计量彼此独立的前提下,是取两种估计量的比率。在两种估计量彼此独立的前提下,两种估计量之比率两种估计量之比率F具有已知的抽样分布,因而可进行很简单具有已知的抽样分布,因而可进行很简单的检验。的检验。1总变差及其分解总变差及其分解 总变差总变差总变差总变差:在方差分析中记作在方差分析中记作在方差分析中记作在方差分析中记作SSSST T,它表示,它表示,它表示,它表示 对于总
22、均值对于总均值对于总均值对于总均值 的偏差之的偏差之的偏差之的偏差之平方和平方和平方和平方和。即:即:即:即:SST 式中式中式中式中:n n n ni i是第是第是第是第i i个样本的容量个样本的容量个样本的容量个样本的容量,n n n n 为什么会形成总变差这个散布度呢?为什么会形成总变差这个散布度呢?为什么会形成总变差这个散布度呢?为什么会形成总变差这个散布度呢?一是三个样本可能不同,这使全部数据一是三个样本可能不同,这使全部数据一是三个样本可能不同,这使全部数据一是三个样本可能不同,这使全部数据 有三个有三个有三个有三个“中心中心中心中心”;二是随机抽样误差的影响,使数据在每个中心附近
23、有散布。二是随机抽样误差的影响,使数据在每个中心附近有散布。二是随机抽样误差的影响,使数据在每个中心附近有散布。二是随机抽样误差的影响,使数据在每个中心附近有散布。总变差分解总变差分解总变差分解总变差分解 可以看出,总变差分解成两部分:可以看出,总变差分解成两部分:可以看出,总变差分解成两部分:可以看出,总变差分解成两部分:n n 第一部分是各观测值第一部分是各观测值第一部分是各观测值第一部分是各观测值 对其所属类别均值对其所属类别均值对其所属类别均值对其所属类别均值 的偏差的偏差的偏差的偏差的平方和,称为的平方和,称为的平方和,称为的平方和,称为组内变差组内变差组内变差组内变差(Within
24、-groups Sum of(Within-groups Sum of(Within-groups Sum of(Within-groups Sum of Squares)Squares)Squares)Squares),记作,记作,记作,记作SSSSWW。组内变差反映了数据围绕各。组内变差反映了数据围绕各。组内变差反映了数据围绕各。组内变差反映了数据围绕各“中心中心中心中心”的散布程度,即反映了的散布程度,即反映了的散布程度,即反映了的散布程度,即反映了 因随机波动所产生的变异,因随机波动所产生的变异,因随机波动所产生的变异,因随机波动所产生的变异,与自变量因素无关。换言之与自变量因素无关。
25、换言之与自变量因素无关。换言之与自变量因素无关。换言之,SSSSWW是自变量因素所没有解是自变量因素所没有解是自变量因素所没有解是自变量因素所没有解释的释的释的释的 的变异。因此,又称之为的变异。因此,又称之为的变异。因此,又称之为的变异。因此,又称之为残差残差残差残差。n n 第二部分是第二部分是第二部分是第二部分是组间平方和组间平方和组间平方和组间平方和(Between-groups Sum of (Between-groups Sum of (Between-groups Sum of (Between-groups Sum of Squares)Squares)Squares)Squa
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 十三 检验 方差分析
限制150内