2022年非参数统计学讲义相关与回归 .pdf
《2022年非参数统计学讲义相关与回归 .pdf》由会员分享,可在线阅读,更多相关《2022年非参数统计学讲义相关与回归 .pdf(21页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、个人资料整理仅限学习使用非参数统计学讲义主讲:统计系袁靖第五章相关和回归1 引言所谓 相关 ,是指两组或两组以上观察结果之间的连带性或联系。换句话说,也就是各组观察结果所反映的特性之间有关系。如几个亲生兄弟间的智商与出生顺序有关系,受教育程度与性别有关系,出生率 X 和文盲率Y 之间的关系等等。在实际问题的研究中,人们常常想知道两组或两组以上的观察结果是否有联系,同时也想知道联系的程度如何。前面的统计检验能够在一定的显著性水平上,确定各组观察值的关系是否存在。相关方法被用来度量两个或更多变量之间的线性关系的强度,是回归分析的基础。在数理统计学中,我们使用相关系数定义变量X 和变量 Y 之间的相
2、关性。)var()var(),cov(),(YXYXYXcorr1(0.1对于样本),(11YX,),(22YX,),(nnYX来说, Pearson相关系数为222211)()()()()()(YYXXYYXXYYXXYYXXriiiiiiniin(0.2如果在这个样本中的n 个观察值独立,则r 是的渐近无偏估计;如果它又是二元正态分布,则r 是的 ML 估计。为了检验0:0H,0:1H,可以选取统计量)2(122ntrnrt结论: Pearson相关系数度量的是一种线性关系,而我们所要介绍的非参数的Spearman秩相关系数sr和 Kendall 相关系数实际上度量的是一种形式的相依联系,
3、或是更广义的单调关系。因此相关的概念被推广,不仅指线性相关,而泛指相依或联系。2 两个样本的相关分析一、 等级相关等级相关 (Rank Correlation 也称作级序相关,用于两个至少是定序尺度测量的样本问相关程度的测定研究背景1度量了总体样本点在标准差线周围的聚集程度,详见笔记P38。精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 1 页,共 21 页个人资料整理仅限学习使用1基本方法两个样本X、Y,其观察数据可以配对为),(11YX,),(22YX,),(nnYX。将nxxx,21排序后评秩,其秩记作U,与ix相对应的秩为),2, 1(ni
4、Ui;同样,nyyy,21排序后评秩,秩记作V,与iy相对应的秩为), 2, 1(niVi。这样得到的n 对秩),(11VU,),(22VU,),(nnVU可能每一对完全相等,也可能不等。由于每一样本都是n 个数据评秩,因此iU与iV的取值都是从1到 n。X、Y 的秩可能完全一致,即对于所有的i 来说,有iUiV,表 51 是完全一致的评秩结果。X、Y 的秩可能完全相反,表 52 是完全相反的评秩结果。如果X、Y 完全相关,应该对于所有的i 有iUiV,即iUiV0。因此,iU与iV之差可以用来度量X、Y 的相关程度。定义iiiVUD表 5-1 完全一致的评秩X的秩Y的秩1 1 2 2 n 1
5、 n1 n n 表 5-2 完全相反的评秩X的秩Y的秩1 n 2 n1 n 1 2 n 1 则两组秩完全相关时,iD5.3)式的这个秩差值平方和的大小既受到n 的多少的影响,又受到两组秩不一致程度的影响,因此,采用相对的测量指标有利于说明X、Y 的相关程度。因为2iD的最大值反映X、Y 完全不相关的情况,所以,用5.4)式的中括号内最后一项,当n 为奇数时是22;n 为偶数时是12。5.3)式除以 5.5)式的取值从0 到 1。根据表5-1 中的数据计算5.5)式值为0,表 5-2 中的数据计算的5.5)式值为 1,即 X、Y 的秩完全一致时,5.5)式的值为0,X、Y 的秩完全不一致时, 是
6、测定两个样本相关强度的重要指标。其计算公式为)1(6122nnDRi(0.6斯皮尔曼相关系数也写为sr,在有下标注以s 是为表明这个相关系数r 不是积矩相关的简单相关系数,而是等级相关的Spearman相关系数。注:由于 5.6)式与 5.5)式不同,所以,R 的取值从一1 到十 1,1R表明 X、Y 完全相关, R十l 为完全正相关,R一1 为完全负相关。R 越接近于l,表明相关程度越高,反之,R 越接近于零,表明相关程度越低,R0 为完全不相关。R0 为正相关, R0 为负相关。通常认为8.0R为相关程度较高。Spearman秩相关系数检验临界值查表可得,P198。存在打结时,Spearm
7、an统计量要作相应修正。在大样本时,可用正态近似作检验。)1 , 0(1NnnrZs2应用【例 5-1】经济发展水平和卫生水平之间的相关分析对某地区12 个街道进行调查,并对经济发展水平和卫生水平按规定的标准打分,评定结果如表54。表 5-4 某地区经济水平与卫生水平得分街道号经济水平卫生水平街道号经济水平卫生水平182 86 7 84 80 287 78 8 78 77 360 65 9 80 75 精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 3 页,共 21 页个人资料整理仅限学习使用498 88 10 94 96 575 64 11 85
8、 85 689 90 12 68 70 分析:将表54 中定距尺度测量的分数,按从小到大的顺序排等级,得到表55 的结果。对两个定序尺度测量的样本进行相关分析,可以采用等级相关系数测定。必要的计算过程如表5 5 所列。根据56)式可得8881.01119. 01)112(123261)1(61222nnDRi由于R0 888l 08,所以该地区的经济发展水平和卫生水平存在着正相关关系,相关程度较高,为 88 81。表 5-5 某地区经济水平与卫生水平得分街道号经济水平 U)卫生水平 式中, u 是 X 中同分的观察值数目,v 是 Y 中同分的观察值数目。【例 5-2】经济发展水平和卫生水平之间
9、的相关分析某地区对24 个区县进行调查,并对经济发展水平和卫生水平按规定标准评分,结果如表56。分析:将表56 的评分转换为秩次,从高往低排序,同分的秩取平均值,结果见表57。根据公式5.6 计算精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 4 页,共 21 页个人资料整理仅限学习使用8491.01509.01) 124(2434761)1(61222nnDRi由于经济水平和卫生水平的评分中均有同分,应采用校正因子修正。利用5.7 式计算修正的R 为8490. 012)575(2416)575(24)1216(2/1)347(6)575(2412
10、)1(12)1()(66)1(2222vnnunnvuDnnRi对比两个R 值可知,由于同分的观察值数目占观察值总数目的比例不是很大,因而校正后的R 与校正前的R 变化不大。但是,校正前的只略大于校正后的R,这说明同分对只的影响虽然很小,但同分的影响是夸大R 值。因此。在X、Y 中至少有一个存在大量同分时,应进行校正。表 5-6 经济水平与卫生水平评分区县编号经济水平 X)卫生水平 Y)区县编号经济水平 X)卫生水平 Y)192 56 13 68 55 290 70 14 67 66 390 71 15 65 59 487 76 16 64 58 581 69 17 61 50 680 68
11、18 60 54 779 62 19 59 43 877 70 20 55 45 976 64 21 46 34 1076 63 22 42 32 1174 54 23 39 30 1268 65 24 38 31 表 5-7 经济水平与卫生水平的秩次区县编号X的秩次 U)Y的秩次 V)D=U-V D2 11 14 -13 169 22.5 3.5 -1 1 32.5 2 0.5 0.25 44 1 3 9 55 5 0 0 66 6 0 0 77 11 -4 16 88 3.5 4.5 20.25 99.5 9 0.5 0.25 109.5 10 -0.5 0.25 1111 16.5 -5
12、.5 30.25 1212.5 8 4.5 20.25 1312.5 15 -2.5 6.25 1414 7 7 49 1515 12 3 9 1616 13 3 9 1717 18 -1 1 精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 5 页,共 21 页个人资料整理仅限学习使用1818 16.5 1.5 2.25 1919 20 -1 1 2020 19 1 1 2121 21 0 0 2222 22 0 0 2323 24 -1 1 2424 23 1 1 合计347.00 4R 的显著性检验利用相关系数及其修正的公式计算的R 值,是抽自
13、两个总体的样本数据计算的结果,从这一相关系数的大小,可猜测总体的秩相关系数是否与零有显著差异,但是否为真,应进行假设检验。对R 的显著性检验正是为了回答这一问题。检验可以仅研究两个总体是否存在相关,也可以分别研究相关的方向,即是正相关,还是负相关。针对研究问题的不同,可以建立不同的假设组。双侧检验H0:不相关H1:存在相关单侧检验H0:不相关 H0:不相关H+ :正相关 H:负相关为对假设作出判定,所需数据至少是定序尺度测量的。根据前式计算出R 值。当30n时,在附表中,依据 n 和 R 查找相应的概率P。表 58 是判定指导表。表 5-8 R 显著性检验判定指导表备 择 假 设P-值H+:正
14、相关R的右尾概率H:负相关R的左尾概率H1:存在相关R的较小概率的2 倍若30n,则按 【例 5-3】对例 53 作显著性检验分析:由于例53 中未指明相关的方向,只需检验是否相关,因而建立双侧备择:H0:不相关H1:存在相关精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 6 页,共 21 页个人资料整理仅限学习使用利用提供的数据计算的R 值为0 8491,每个样本数据n 为 24。在附表中n 24 时;双侧检验608.0R的概率为0 002。显然, R0 849l608.0R。因此,概率P0002,数据拒绝H0,表明经济水平和卫生水平确实存在相关
15、关系。二、 Kendall 相关检验Kendall 秩相关即肯德尔秩相关,与等级相关一样,也是用于两个样本相关程度的测量,要求数据至少是定序尺度的。它也是利用两组秩次测定两个样本问相关程度的一种非参数统计方法。1基本概率协 同 非一致对评分与最大可能总分之比为)1(22nnVCVn(0.10当 Y 的秩对完全按自然顺序排列时,5.9)式的值为1,5.10)式的值为0;而当Y 的秩对全部为非一致对时,5.10)式的值为1,)1(41nnVT(0.12若记 SU 一 V,则 Kendall 秩相关系数为)1(2nnST(0.13这里的Kendall 秩相关系数T 是 Tau 的缩写,也常写作。Tl
16、,表明两组秩次完全正相关;T一1,表明两组秩次间完全负相关。一般8. 0T,可以为相关程度较高。NOTE :该定义式实质为概率,11T;详见笔记P40 S和 T 等价;S的计算;小样本时,可以查表;大样本时,可以作正态近似:)1 , 0()52)(1(18NnnnkZ。存在打结时,进行同分的处理。3应用【例 5-4】利用例5-2 的数据资料分析经济水平和卫生水平的相关程度分析:根据表55 的评秩结果进行秩次重新排列,将经济水平的秩次按自然顺序排列,得表510的结果。由表可以计算得到2、3、1、5、 4、9、7、8、6、11 的一致对数目精选学习资料 - - - - - - - - - 名师归纳
17、总结 - - - - - - -第 8 页,共 21 页个人资料整理仅限学习使用5613343779910U根据 5 11)式计算有6970.01) 112(125641)1(4nnUT由表可以计算出非一致对的数目V 为V1 十 1 十 1 十 3十 1 十 1 十 1 十 1=10 根据 5 12)式计算有6970. 03030.01)112(121041)1(41nnVT若根据 513)式计算,也可以得到同样的结论。T0 697008,表明经济水平与卫生水平相关程度不够高。Kendall 秩相关系数也可以用于定距尺度测量的数据,数据不必评秩,而直接比较大小得到一致对或非一致对的数目。表 5
18、-10 经济水平和卫生水平秩的排序街道编号经济水平的秩卫生水平的秩街道编号经济水平的秩卫生水平的秩3 1 2 7 7 7 12 2 3 11 8 8 5 3 1 2 9 6 8 4 5 6 10 11 9 5 4 10 11 12 1 6 9 4 12 10 注:也可以按照原始资料进行排序,比较大小,从而进行判定。4同分的处理当两个样本中无论哪一个或者两个均有同分观察值时,仍采用通常的办法,将每一个同分观察值的秩记作其应有秩的平均值。由于同分的影响,也需要对了计算公式中的分母进行校正。在同分情况下,式中,2uCu, u是 X 中同分观察值的数目,2vCv, u 是 X 中同分观察值的数目。u,
19、v 仍分别表示 X、Y 的每一同分组中同分观察值的数目。表 5-11 两个裁判员的秩的评分X的数对Y的数对分数总和1,2.5 2,3.5 1 5 个加1,2.5 2,3.5 1 3 个减1,4.5 2,1 -1 1,4.5 2,5 1 2.5 ,2.5 3.5 ,3.5 0 精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 9 页,共 21 页个人资料整理仅限学习使用2.5 ,4.5 3.5 ,1 -1 2.5 ,4.5 3.5 ,5 1 2.5 ,4.5 3.5 ,1 -1 2.5 ,4.5 3.5 ,5 1 4.5 ,4.5 1,5 0 5T 的
20、显著性检验与 Spearman秩相关系数R 一样, Kendall 秩相关系数T 的显著性也应进行检验。这一检验实际上是检验两个总体的相关是否真实存在,是正相关或是负相关,从而说明以T 的大小反映相关程度的高低是可信。如果研究关心的是相关是否确实存在,而不考虑相关的方向,则应建立双侧备择,假设组为H0:不相关H1:存在相关若关心的是相关的方向,则应建立单侧备择,假设组为H0:不相关 H0:不相关H+ :正相关 H:负相关为对假设作出判定,所需数据至少是定序尺度测量的。通过对数据求出一致对或非一致对数目,可以按照计算公式算出Kendall 秩相关系数T。1)小样本时)30(n,可以查表给出尾概率
21、,T 的抽样分布中附表中给出。表 5-12 T 显著性检验判定指导表备 择 假 设P-值H+:正相关T 的右尾概率H:负相关T 的左尾概率H1:存在相关T 的较小概率的2 倍由于 Z近似正态分布,故可以查标准正态分布表找到相应的尾概率。三、 等级相关系数 R 和 Kendall 秩相关系数 T 的比较1相同点两个相关系数的检验都要求数据至少是在定序尺度上测量;都是计算秩相关系数,用以测度两个相关样本之间的相关程度;它们的取值都是在1 到 1之间;2不同点R 和 T 的数值即使对于同一组数据也是不同的,多数情况下,R 的绝对值大于T 的绝对值;虽然R 和 T 都使用了资料中同量的信息,但由于两者
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年非参数统计学讲义相关与回归 2022 参数 统计学 讲义 相关 回归
限制150内