《常用非参数统计方法优秀PPT.ppt》由会员分享,可在线阅读,更多相关《常用非参数统计方法优秀PPT.ppt(42页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、常用非参数统计方法常用非参数统计方法孙金芳孙金芳 sjf_1128126 sjf_1128126 流行病与卫生统计学系流行病与卫生统计学系东南高校公共卫生学院东南高校公共卫生学院概念复习统计描述数值资料 (P4 变量的分类)集中趋势 平均数(P9)算术均数:单峰对称分布(正态、近似正态分布)中位数:偏态分布、分布不规则、开口资料(位置指标,对分布不作要求)2022/11/122022/11/13参数统计 VS 非参数统计参数统计(parametric statistics):已知总体分布类型,通过样本统计量对总体参数进行估计和检验。区间估计:t检验:u1=u2?要求独立随机样本、取自正态总体、
2、方差齐性非参数统计(nonparametric statistics):不依靠总体分布类型,不对参数进行估计或检验,通过样本视察值推断总体分布位置是否相同。2022/11/14 非参数检验又称随意分布检验(distribution-free test)。优点:资料分布特征要求较低,适用范围广,收集资料便利;对不满足参数方法的资料,效率高。缺点:对适宜用参数方法的资料,若用非参数法处理,没有充分利用资料供应的信息,导致检验效能下降。犯第类错误概率比参数检验大。非参数方法很多,主要介绍秩和检验(rank sum test)。141023111312141556789162022/11/16非正态分
3、布:两个班同学(n1,n2)从高到低、交织地排在队伍中,编号(即身高的秩次),若两个班同学身高相近(排列匀整),则每个班所报数字之和(秩和T)与其理论秩和相差不大。反之,则有理由信任其中一个班同学的身高比另一个班高。比较 n1的秩和T与其理论秩和n1(N+1)/2,这就是秩和检验的思想。秩(rank):视察值从小到大排序,该序号在统计学上称为秩/秩次;秩和:秩次求和得到;秩和检验:用秩和进行假设检验的方法。秩(rank)秩和(rank sum)秩和检验(rank sum test)秩和检验(rank sum test)用数据排序的秩来代替原数据进行假设检验:用数据排序的秩来代替原数据进行假设检
4、验:位置位置检验检验2022/11/18适宜作非参数检验的资料 计量资料,总体偏离正态性或总体分布未知 等级资料:痊愈、显效、有效、无效;-、+、+、+;心功能分级;烧伤程度 边界不确定的资料:如出现50mg或0.5mg以下2022/11/19两样本比较秩和检验两样本比较秩和检验 例例 测得铅作业与非铅作业工人的血铅值测得铅作业与非铅作业工人的血铅值 (mol/L)(mol/L),问两组工人的血铅值有无差别?问两组工人的血铅值有无差别?SPSS 软件检验正态性与方差齐性结果2022/11/110正态性检验正态性检验groupKolmogorov-SmirnovaShapiro-Wilk统计量d
5、fSig.统计量dfSig.x铅作业组.2017.200*.8637.162非铅作业组.17410.200*.91910.3482022/11/111一、建立检验假设,确定检验水准0:铅作业与非铅作业工人血铅值分布的铅作业与非铅作业工人血铅值分布的位置位置相同相同,1:铅作业与非铅作业工人血铅值分布的铅作业与非铅作业工人血铅值分布的位置不同位置不同。0.052022/11/112二、计算检验统计量T 值v混合编秩v0.24 0.24 0.29 0.33 0.44 0.58 0.63 0.72 0.82 0.87 0.87 0.97 1.01 1.21 1.64 2.08 2.13 v 遇有原始
6、数据相同时,可分两种状况处理:相同数据在同一组,其秩次按位置的依次。相同数据分在两组,均取其平均秩次(10+11)/2=10.5。v 2022/11/1132022/11/114两组秩次分别相加 T1=93.5 T2=59.5v取较小样本的秩和记为统计量 T,本例 n1=7,n2=10,取=T193.5v两组合计的秩和为多少?2022/11/115查附表12,n1=7,n2-n1=10-7=3,原则:内大外小原则:内大外小 双侧0.0542-84 拒绝 42 接受 84 拒绝 按0.05水准,拒绝H0,接受H1,故认为铅作业工人比非铅作业工人血铅值高。三、确定P值和作出推断结论2022/11/
7、116正态近似检验,公式为:当相同秩次较多时当相同秩次较多时,2022/11/117等级资料的形式等级资料的形式例10.2 用某药治疗不同病情的老年慢性支气管炎病人,疗效见表10.2第(1)、(2)两栏,问该药对两种病情的老年慢性支气管炎病人的疗效是否相同?常错误接受 卡方检验2022/11/118一、假设H0:两种病情病人的疗效分布相同。H1:两种病情病人的疗效分布不同。=0.052022/11/119二、计算检验统计量uc值 排秩求秩和统计量T。n1=82,T=8780.5本例n1=82,n2=126,n2-n1=44,已超过附表12所列范围,2022/11/1202022/11/121三
8、、确定P值和作出结论推断 uc0.05,按=0.05水准尚不能拒绝H0,故认为本疗法对上述两种病情的患者并未显示出不同疗效。卡方检验未考虑等级的强弱信息,秩和检验更适合于单向有序分类资料。2022/11/122多个样本比较的秩和检验多个样本比较的秩和检验多个组资料:1 有序分类资料2 定量资料,但其不满足正态性或方差齐性H检验(Kruskal-Wallis 法)2022/11/123例10.3 在探讨白血病时,测得鼠脾的DNA含量如表10.3第(1)、(3)、(5)、(7)栏。问不同病情的鼠脾DNA含量有无差别?2022/11/124一、建立假设检验,确定检验水准vH0:四种鼠脾DNA含量总体
9、分布位置相同。vH1:四种鼠脾DNA含量总体分布位置不同 或不全同。2022/11/125二、计算检验统计量v混合编秩混合编秩:由小到大排列,统一编秩由小到大排列,统一编秩v相同值:同组依次编号,不同组取平均秩次。相同值:同组依次编号,不同组取平均秩次。v计算各组秩和计算各组秩和Ri Ri(i=1,2,3,4i=1,2,3,4)v计算统计量计算统计量H H值值v 2022/11/126三、确定P值,作出统计推断K=4,ni5,H20.05(3),即P,因此拒绝H0,接受H1认为四种鼠脾DNA含量总体分布位置不同或不全同。K=3,ni3,最小样本例数=5,近似听从自由度为k-1的卡方分布,2 界
10、值表。2022/11/127等级资料(校正H)例10.4某医生用三种方剂治疗某妇科病,疗效如表10.4,问三种方剂的疗效有无差别?2022/11/128假设H0:三种方剂疗效分级的总体分布相同。H1:三种方剂疗效分级的总体分布不同或不全同。=0.05求检验统计量Hc 2022/11/1292022/11/130多个样本间的多重比较当多个样本比较的秩和检验拒绝H0,认为各总体分布位置不同或不全相同时,常需进一步作两两比较的秩和检验,以推断哪两个总体分布位置不同,或哪两个总体分布位置相同。为此需进行组间的多重比较(multiple comparison)。2022/11/131配对符号秩和检验配对
11、符号秩和检验 主要用于配对数值变量资料的检验。例 用过硫酸铵分光光度法和示波极谱法测定水中锰的含量(mg/L),见表10.第(2)、(3)栏,问两法结果有无差别?差值的正态性检验正态性检验正态性检验Kolmogorov-SmirnovaShapiro-Wilk统计量dfSig.统计量dfSig.d.3339.005.6029.0002022/11/1322022/11/133检验的基本思想:假定两种处理效应相同,则差值的总体分布是以0为对称的,即差值总体中位数为0。相当于这些差值按确定值大小编秩,再冠以原来的正、负符号,正秩与负秩在理论上是随机的,即正、负秩和应相近。配对设计资料主要是对差值进
12、行分析。2022/11/134vH0:两种方法所测值总体分布位置相同,即 (差值的总体中位数为零)。vH1:两种方法所测值总体分布位置不同,即 (差值的总体中位数不为零)。一、建立假设检验,确定检验水准2022/11/135二、计算检验统计量算出各对数值之代数差 d=xi-yi编秩 a:将差值的确定值从小到大编秩 b:当差值为0,则不计该例(n随之削减)c:如两差值相等,则取其平均秩次给秩添加正负号 d0的秩次为“”;d0.10 按=0.05水准,不能拒绝H0,尚不能认为两种方法测定锰含量有差别。2022/11/137正态近似法(N50)n50,可利用秩和分布的正态近似法,其中 统计量2022
13、/11/138正态近似法公式确定概率P:2022/11/139统计学基本内容分析资料的步骤:1、确定资料的类型:分类资料、定量资料;2、选择适当的统计方法;3、作出统计推断结论。定量资料的分析:t检验 Z(U)检验 (F检验)分类资料的分析:检验 参数统计和非参数统计参数统计和非参数统计2022/11/142已知总体分布类型,对已知总体分布类型,对未知未知参数参数进行统计推断进行统计推断依赖于特定分布类依赖于特定分布类型,比较的是型,比较的是参数参数 参数统计参数统计(parametric statisticsparametric statistics)非参数统计非参数统计(nonparametric statisticsnonparametric statistics)不以特定的总不以特定的总 体分布为前提体分布为前提 不对总体参数推断,不对总体参数推断,比较比较分布分布或或分布位置分布位置 适用范围广;可用于任何类型适用范围广;可用于任何类型资料资料(等级资料,或等级资料,或“50mg”50mg”)
限制150内