2022年非参数统计学讲义相关与回归.docx
《2022年非参数统计学讲义相关与回归.docx》由会员分享,可在线阅读,更多相关《2022年非参数统计学讲义相关与回归.docx(33页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选学习资料 - - - - - - - - - 个人资料整理 仅限学习使用非参数统计学讲义主讲:统计系 袁靖第五章 相关和回来 1 引言所谓 相关 ,是指两组或两组以上观看结果之间的连带性或联系;换句话说,也就是各组观看结果所反映的特性之间有关系;如几个亲生兄弟间的智商与诞生次序有关系,受训练程度与性别有关系,诞生率 X 和文盲率 Y 之间的关系等等;在实际问题的讨论中,人们经常想知道两组或两组以上的观看结果是否有联系,同时也想知道联系的程度如何;前面的统计检验能够在肯定的显著性水平上,确定各组观看值的关系是否存在;相关方法被用来度量两个或更多变量之间的线性关系的强度,是回来分析的基础;在数
2、理统计学中,我们使用相关系数定义变量X 和变量 Y 之间的相关性;对于样本X1Y 1,corrX,YcovX,Y10.1r 是varXvar YX2Y2, ,XnY n来说, Pearson相关系数为r11XiXXY iYY2XiXXY iY20.2nXi2YXi2 Y iYn假如在这个样本中的n 个观看值独立,就r 是的渐近无偏估量;假如它又是二元正态分布,就的 ML 估量;为了检验H0:0,H1:0,可以选取统计量trnr2tn2 Spearman秩相关系数rs12结论: Pearson相关系数度量的是一种线性关系,而我们所要介绍的非参数的和 Kendall 相关系数实际上度量的是一种形式
3、的相依联系,或是更广义的单调关系;因此相关的概念被推广,不仅指线性相关,而泛指相依或联系; 2 两个样本的相关分析一、 等级相关等级相关 Rank Correlation 也称作级序相关 讨论背景,用于两个至少是定序尺度测量的样本问相关程度的测定名师归纳总结 1度量了总体样本点在标准差线四周的集合程度,详见笔记P38;第 1 页,共 21 页- - - - - - -精选学习资料 - - - - - - - - - 1基本方法个人资料整理仅限学习使用两个样本 X、Y,其观看数据可以配对为 X 1Y 1 , X 2Y 2 , , X nY n ;将 x 1 , x 2 , , x n 排序后评秩
4、,其秩记作 U,与 ix 相对应的秩为 U i i ,1 2 , , n ;同样,y 1 , y 2 , , y n 排序后评秩,秩记作 V ,与y 相对应的秩为 i V i i ,1 ,2 , n ;这样得到的 n 对秩 U 1V 1 , U 2V 2 , , U nV n 可能每一对完全相等,也可能不等;由于每一样本都是 n 个数据评秩,因此 U 与 i V 的取值都是从 i 1 到 n;X、Y 的秩可能完全一样,即对于全部的 i 来说,有 U V ,表 51 是完全一样的评秩结果;X、Y 的秩可能完全相反,表 52 是完全相反的评秩结果;假如 X、Y 完全相关,应当对于全部的 i 有 U
5、 V ,即 U V 0;因此,U 与 V 之差可以用来度量 X、Y 的相关程度;定义D i U i V i表 5-1 完全一样的评秩X的秩 Y 的秩1 1 2 2 n 1 n1 n n 表 5-2 完全相反的评秩就两组秩完全相关时,inX的秩Y 的秩1 n 2 n1 n 1 2 n 1 D 115.3)式的这个秩差值平方和的大小既受到n 的多少的影响,又受到两组秩不一样程度的影响,因名师归纳总结 此,采纳相对的测量指标有利于说明X、Y 的相关程度;由于D2 i的最大值反映X 、Y 完全不相关的情第 2 页,共 21 页况,所以,用 5.4)式的中括号内最终一项,当 n 为奇数时是 2 2;n
6、为偶数时是 1 2;5.3)式除以 n n 1 / 3 n n 1 5.5)式的取值从 0 到 1;依据表 5-1 中的数据运算 5.5)式值为 0,表 5-2 中的数据运算的 5.5)式值为 1,即 X 、Y 的秩完全一样时,5.5)式的值为 0,X、Y 的秩完全不一样时, 是测定两个样本相关强度的重要指标;其运算公式为2R 1 62 D i0.6n n 1 斯皮尔曼相关系数也写为 sr ,在有下标注以 s 是为说明这个相关系数 r 不是积矩相关的简洁相关系数,而是等级相关的 Spearman相关系数;注:由于 5.6)式与 5.5)式不同,所以,R 的取值从一 1 到十 1,R 1 说明
7、X、Y 完全相关, R十 l 为完全正相关,R一 1 为完全负相关;R 越接近于 l,说明相关程度越高,反之,R 越接近于零,说明相关程度越低,R0 为完全不相关;R0 为正相关, R0 为负相关;通常认为 R 0 . 8 为相关程度较高;Spearman秩相关系数检验临界值查表可得,P198;存在打结时,Spearman统计量要作相应修正;在大样本时,可用正态近似作检验;2Zrsn1nN1,0应用【例 5-1】经济进展水平和卫生水平之间的相关分析对某地区12 个街道进行调查,并对经济进展水平和卫生水平按规定的标准打分,评定结果如表54;表 5-4 某地区经济水平与卫生水平得分名师归纳总结 1
8、街道号经济水平卫生水平街道号经济水平卫生水平第 3 页,共 21 页82 86 7 84 80 287 78 8 78 77 360 65 9 80 75 - - - - - - -精选学习资料 - - - - - - - - - 498 88 个人资料整理仅限学习使用96 10 94 5 75 64 11 85 85 6 89 90 12 68 70 分析:将表 54 中定距尺度测量的分数,按从小到大的次序排等级,得到表 55 的结果;对两个定序尺度测量的样本进行相关分析,可以采纳等级相关系数测定;必要的运算过程如表 5 5 所列;依据56)式可得由于R16n2D2 i11263211.01
9、1190.8881n12 12R0 888l 08,所以该地区的经济进展水平和卫生水平存在着正相关关系,相关程度较高,为 88 81;表 5-5 某地区经济水平与卫生水平得分街道号经济水平 U)卫生水平 n n2112 un21 12 v式中, u 是 X 中同分的观看值数目,v 是 Y 中同分的观看值数目;【例 5-2】经济进展水平和卫生水平之间的相关分析某地区对 24 个区县进行调查,并对经济进展水平和卫生水平按规定标准评分,结果如表 56;分析:将表 56 的评分转换为秩次,从高往低排序,同分的秩取平均值,结果见表 57;依据公式5.6 运算名师归纳总结 - - - - - - -第 4
10、 页,共 21 页精选学习资料 - - - - - - - - - 个人资料整理 仅限学习使用2R 1 62 D i 1 6 3472 1 0 . 1509 0 . 8491n n 1 24 24 1由于经济水平和卫生水平的评分中均有同分,应采纳校正因子修正;利用 5.7 式运算修正的 R 为2 2n n 1 6 D i 6 u v 24 575 6 347 1 / 2 16 12 R .0 8490n n 21 12 u n n 21 12 v 24 575 16 24 575 12对比两个 R 值可知,由于同分的观看值数目占观看值总数目的比例不是很大,因而校正后的 R 与校正前的 R 变化
11、不大;但是,校正前的只略大于校正后的 R,这说明同分对只的影响虽然很小,但同分的影响是夸大 R 值;因此;在 X 、Y 中至少有一个存在大量同分时,应进行校正;表 5-6 经济水平与卫生水平评分区县编号经济水平 X)卫生水平 Y)区县编号经济水平 X)卫生水平 Y)192 56 13 68 55 290 70 14 67 66 390 71 15 65 59 487 76 16 64 58 581 69 17 61 50 680 68 18 60 54 779 62 19 59 43 877 70 20 55 45 976 64 21 46 34 1076 63 22 42 32 1174 5
12、4 23 39 30 1268 65 24 38 31 表 5-7 经济水平与卫生水平的秩次名师归纳总结 区县编号X的秩次 U)Y的秩次 V)D=U-V 2 D第 5 页,共 21 页11 14 -13 169 22.5 3.5 -1 1 32.5 2 0.5 0.25 44 1 3 9 55 5 0 0 66 6 0 0 77 11 -4 16 88 3.5 4.5 20.25 99.5 9 0.5 0.25 109.5 10 -0.5 0.25 1111 16.5 -5.5 30.25 1212.5 8 4.5 20.25 1312.5 15 -2.5 6.25 1414 7 7 49 1
13、515 12 3 9 1616 13 3 9 1717 18 -1 1 - - - - - - -精选学习资料 - - - - - - - - - 41818 个人资料整理仅限学习使用16.5 1.5 2.25 1919 20 -1 1 2020 19 1 1 2121 21 0 0 2222 22 0 0 2323 24 -1 1 2424 23 1 1 合计347.00 R 的显著性检验利用相关系数及其修正的公式运算的R 值,是抽自两个总体的样本数据运算的结果,从这一相关系数的大小,可推测总体的秩相关系数是否与零有显著差异,但是否为真,应进行假设检验;对 R 的显著性检验正是为了回答这一问
14、题;检验可以仅讨论两个总体是否存在相关,也可以分别讨论相关的方向,即是正相关,仍是负相关;针对讨论问题的不同,可以建立不同的假设组;双侧检验H 0:不相关H 1:存在相关单侧检验H0:不相关 H0:不相关H+ :正相关 H:负相关为对假设作出判定,所需数据至少是定序尺度测量的;依据前式运算出R 值;当n30时,在附表中,依据 n 和 R 查找相应的概率P;表 58 是判定指导表;表 5-8 R 显著性检验判定指导表如n30备 择 假 设P-值PH+:正相关R的右尾概率H:负相关R的左尾概率H1:存在相关R的较小概率的2 倍,就按 【例 5-3】对例 53 作显著性检验分析:由于例 53 中未指
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022 参数 统计学 讲义 相关 回归
限制150内