非参数统计学讲义(第五章)讲稿.doc
《非参数统计学讲义(第五章)讲稿.doc》由会员分享,可在线阅读,更多相关《非参数统计学讲义(第五章)讲稿.doc(15页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第五章 相关和回归1 引言所谓相关,是指两组或两组以上观察结果之间的连带性或联系。换句话说,也就是各组观察结果所反映的特性之间有关系。如几个亲生兄弟间的智商与出生顺序有关系,受教育程度与性别有关系,出生率X和文盲率Y之间的关系等等。在实际问题的研究中,人们常常想知道两组或两组以上的观察结果是否有联系,同时也想知道联系的程度如何。前面的统计检验能够在一定的显著性水平上,确定各组观察值的关系是否存在。相关方法被用来度量两个或更多变量之间的线性关系的强度,是回归分析的基础。在数理统计学中,我们使用相关系数定义变量X和变量Y之间的相关性。 度量了总体样本点在标准差线周围的聚集程度,详见笔记P38。 (
2、0.1)对于样本,来说,Pearson相关系数为 (0.2)如果在这个样本中的n个观察值独立,则r是的渐近无偏估计;如果它又是二元正态分布,则r是的ML估计。为了检验,可以选取统计量结论:Pearson相关系数度量的是一种线性关系,而我们所要介绍的非参数的Spearman秩相关系数和Kendall 相关系数实际上度量的是一种形式的相依联系,或是更广义的单调关系。因此相关的概念被推广,不仅指线性相关,而泛指相依或联系。2 两个样本的相关分析一、 等级相关等级相关(Rank Correlation)也称作级序相关,用于两个至少是定序尺度测量的样本问相关程度的测定研究背景1 基本方法两个样本X、Y,
3、其观察数据可以配对为,。将排序后评秩,其秩记作U,与相对应的秩为;同样,排序后评秩,秩记作V,与相对应的秩为。这样得到的n对秩,可能每一对完全相等,也可能不等。由于每一样本都是n个数据评秩,因此与的取值都是从1到n。X、Y的秩可能完全一致,即对于所有的i来说,有,表51是完全一致的评秩结果。X、Y的秩可能完全相反,表52是完全相反的评秩结果。如果X、Y完全相关,应该对于所有的i有,即0。因此,与之差可以用来度量X、Y的相关程度。定义表5-1 完全一致的评秩X的秩Y的秩1122n1n1nn表5-2 完全相反的评秩X的秩Y的秩1n2n1n12n1则两组秩完全相关时,(i1,2,n)应该为零。越大,
4、X、Y之间的相关越不完全。但由于可正可负,直接用测度相关,会出现正负抵消,而不能真实反映与差值的大小,所以宜采用,即 (0.3)(5.3)式的这个秩差值平方和的大小既受到n的多少的影响,又受到两组秩不一致程度的影响,因此,采用相对的测量指标有利于说明X、Y的相关程度。因为的最大值反映X、Y完全不相关的情况,所以,用(5.3)式除以的最大值,可用来评价X、Y之间秩的差值是否与完全不相关时接近。若实际计算的与X、Y完全不相关情况下的接近,那么两个样本的相关程度较低,若实际计算的与最大值的比越小,则两个样本的相关程度越高。的最大值即X、Y间完全不相关情况下的秩差值平方和,可以根据表52所列的数据计算
5、。因为这是X、Y完全不相关的评秩结果。的最大值为 (0.4)(5.4)式的中括号内最后一项,当n为奇数时是22;n为偶数时是12。(5.3)式除以(5.4)式得到 (0.5)(5.5)式的取值从0到1。根据表5-1中的数据计算(5.5)式值为0,表5-2中的数据计算的(5.5)式值为1,即X、Y的秩完全一致时,(5.5)式的值为0,X、Y的秩完全不一致时,(5.5)式的值为1。测度两个样本等级相关程度可以象参数方法一样,定义等级相关系数作为标准。斯皮尔曼的等级相关系数(Spearman coefficient of rank correlation)是测定两个样本相关强度的重要指标。其计算公式
6、为 (0.6)斯皮尔曼相关系数也写为,在有下标注以s是为表明这个相关系数r不是积矩相关的简单相关系数,而是等级相关的Spearman相关系数。注:由于(5.6)式与(5.5)式不同,所以,R的取值从一1到十1,表明X、Y完全相关,R十l为完全正相关,R一1为完全负相关。越接近于l,表明相关程度越高,反之,越接近于零,表明相关程度越低,R0为完全不相关。R0为正相关,R0为负相关。通常认为为相关程度较高。Spearman秩相关系数检验临界值查表可得,P198。存在打结时,Spearman统计量要作相应修正。在大样本时,可用正态近似作检验。2 应用【例5-1】经济发展水平和卫生水平之间的相关分析对
7、某地区12个街道进行调查,并对经济发展水平和卫生水平按规定的标准打分,评定结果如表54。表5-4 某地区经济水平与卫生水平得分街道号经济水平卫生水平街道号经济水平卫生水平182867848028778878773606598075498881094965756411858568990126870分析:将表54中定距尺度测量的分数,按从小到大的顺序排等级,得到表55的结果。对两个定序尺度测量的样本进行相关分析,可以采用等级相关系数测定。必要的计算过程如表55所列。根据(56)式可得由于R0888l08,所以该地区的经济发展水平和卫生水平存在着正相关关系,相关程度较高,为8881。表5-5 某地区
8、经济水平与卫生水平得分街道号经济水平(U)卫生水平(V)D=U-VD2169-3929639312-1141210245312461011-1177700845-1195411101112-111188001223-11合 计323 同分处理当观察值是评的分数时,可能在同一个样本中出现相同的评分,如成绩都是80等等。同分的秩仍旧是等于几个同分值应有秩的平均值。如果同分的比例不大,它们对秩相关系数及的影响可以忽略。但若同分的比例较大,则计算只时应加入一个校正因子。对于X的同分校正因子为,Y的同分校正因子为。于是斯皮尔曼秩相关系数的计算公式为: (0.7)式中,u是X中同分的观察值数目,v是Y中同
9、分的观察值数目。【例5-2】经济发展水平和卫生水平之间的相关分析某地区对24个区县进行调查,并对经济发展水平和卫生水平按规定标准评分,结果如表56。分析:将表56的评分转换为秩次,从高往低排序,同分的秩取平均值,结果见表57。根据公式5.6计算由于经济水平和卫生水平的评分中均有同分,应采用校正因子修正。利用5.7式计算修正的R为对比两个R值可知,由于同分的观察值数目占观察值总数目的比例不是很大,因而校正后的R与校正前的R变化不大。但是,校正前的只略大于校正后的R,这说明同分对只的影响虽然很小,但同分的影响是夸大R值。因此。在X、Y中至少有一个存在大量同分时,应进行校正。表5-6 经济水平与卫生
10、水平评分区县编号经济水平(X)卫生水平(Y)区县编号经济水平(X)卫生水平(Y)192561368552907014676639071156559487761664585816917615068068186054779621959438777020554597664214634107663224232117454233930126865243831表5-7 经济水平与卫生水平的秩次区县编号X的秩次(U)Y的秩次(V)D=U-VD21114-1316922.53.5-1132.520.50.254413955500666007711-416883.54.520.2599.590.50.25109
11、.510-0.50.25111116.5-5.530.251212.584.520.251312.515-2.56.25141477491515123916161339171718-11181816.51.52.25191920-11202019112121210022222200232324-1124242311合计347.004 R的显著性检验利用相关系数及其修正的公式计算的R值,是抽自两个总体的样本数据计算的结果,从这一相关系数的大小,可猜测总体的秩相关系数是否与零有显著差异,但是否为真,应进行假设检验。对R的显著性检验正是为了回答这一问题。检验可以仅研究两个总体是否存在相关,也可以分别
12、研究相关的方向,即是正相关,还是负相关。针对研究问题的不同,可以建立不同的假设组。双侧检验H0:不相关H1:存在相关单侧检验H0:不相关 H0:不相关H+:正相关 H:负相关为对假设作出判定,所需数据至少是定序尺度测量的。根据前式计算出R值。当时,在附表中,依据n和R查找相应的概率P。表58是判定指导表。表5-8 R显著性检验判定指导表备 择 假 设P-值H+:正相关R的右尾概率H:负相关R的左尾概率H1:存在相关R的较小概率的2倍若,则按(58)式计算Z。Z统计量近似服从正态分布,可在正态分布表中查找相应的P值。 (0.8)【例5-3】对例53作显著性检验分析:由于例53中未指明相关的方向,
13、只需检验是否相关,因而建立双侧备择:H0:不相关H1:存在相关利用提供的数据计算的R值为08491,每个样本数据n为24。在附表中n24时;双侧检验的概率为0002。显然,R0849l。因此,概率P0002,数据拒绝H0,表明经济水平和卫生水平确实存在相关关系。二、 Kendall 相关检验Kendall秩相关即肯德尔秩相关,与等级相关一样,也是用于两个样本相关程度的测量,要求数据至少是定序尺度的。它也是利用两组秩次测定两个样本问相关程度的一种非参数统计方法。1 基本概率协同(concordant,一致):在样本和样本中,如果,则对子与协同;如果,则对子与不协同。2 基本方法n个配对数据,分别
14、抽选自X、Y,X、Y都至少是可以用定序尺度测量的。将X的n个数据的秩按自然顺序排列,则Y的n个秩也相应地发生变动。例如,X、Y的秩分别为X24351Y34152将x的秩按自然顺序排列后,X、Y的秩则为下面的形式X12345Y23145由于X的秩次已经按自然顺序由小到大排列,因此,X的观察值每两个之间都是一致对。考察Y的秩次情况,第一个秩为2,第二个为3,因为2小于3,是按自然顺序增加,因此,这是一个一致对。再考察2和1,因为2大于1,不是按自然顺序增加排列,所以这是一个非一致对。依次考察下去,凡一致对记作十l,非一致对记作一1。考察结果如表59所示。表5-9 R显著性检验判定指导表Y的数对分
15、数总 和2,318个2,1-12个2,412,513,1-13,413,511,411,514,51在X的秩评定完全按自然顺序排列时,Y的秩对所能给予的最大的评分,应是也完全按自然顺序排列的秩对的评分,即每一数对的评分均为十1。这样,在X、Y的评秩完全一致的情况下,最大可能的评分总数应是一个组合,如在上例中是,即从5个里选2个的组合数。一般情况,n个观察值对两两秩对之间评分,最大可能的总分为。以实际的评分与最大可能总分相比,可以测定两组秩之间的相关程度。若以U表示Y的一致对数目,V表示Y的非一致对数目,则一致对评分与最大可能总分之比为 (0.9)非一致对评分与最大可能总分之比为 (0.10)当
16、Y的秩对完全按自然顺序排列时,(5.9)式的值为1,(5.10)式的值为0;而当Y的秩对全部为非一致对时,(5.10)式的值为1,(5.9)式的值为0。为测定两组秩之间的相关程度,定义的相关系数从一1到十1,因此,Kendall秩相关系数为 (0.11) (0.12)若记SU一V,则Kendall秩相关系数为 (0.13)这里的Kendall秩相关系数T是Tau的缩写,也常写作。Tl,表明两组秩次完全正相关;T一1,表明两组秩次间完全负相关。一般,可以为相关程度较高。NOTE:该定义式实质为概率,;详见笔记P40S和T等价;S的计算;小样本时,可以查表;大样本时,可以作正态近似:。存在打结时,
17、进行同分的处理。3 应用【例5-4】利用例5-2的数据资料分析经济水平和卫生水平的相关程度分析:根据表55的评秩结果进行秩次重新排列,将经济水平的秩次按自然顺序排列,得表510的结果。由表可以计算得到2、3、1、5、4、9、7、8、6、11的一致对数目根据(511)式计算有由表可以计算出非一致对的数目V为V1十1十1十3十1十1十1十1=10根据(512)式计算有若根据(513)式计算,也可以得到同样的结论。T0697008,表明经济水平与卫生水平相关程度不够高。Kendall秩相关系数也可以用于定距尺度测量的数据,数据不必评秩,而直接比较大小得到一致对或非一致对的数目。表5-10 经济水平和
18、卫生水平秩的排序街道编号经济水平的秩卫生水平的秩街道编号经济水平的秩卫生水平的秩312777122311885312968456101195410111216941210注:也可以按照原始资料进行排序,比较大小,从而进行判定。4 同分的处理当两个样本中无论哪一个或者两个均有同分观察值时,仍采用通常的办法,将每一个同分观察值的秩记作其应有秩的平均值。由于同分的影响,也需要对了计算公式中的分母进行校正。在同分情况下,(5.13)式应变为 (0.14)式中,u是X中同分观察值的数目,u是X中同分观察值的数目。u,v仍分别表示X、Y的每一同分组中同分观察值的数目。表5-11 两个裁判员的秩的评分X的数
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 参数 统计学 讲义 第五 讲稿
限制150内