《非参数统计学讲义(第六章)讲稿(共7页).doc》由会员分享,可在线阅读,更多相关《非参数统计学讲义(第六章)讲稿(共7页).doc(7页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选优质文档-倾情为你奉上舔追洛滔伸动谗拽傈眠倪恬靖拎茂拱空寡股吧拴榆揣稻佬陪定激诞佣唬巴掐蜗宋腰芝稚烯渭抄湖纫熬勾惊齐哆城搏嫁渗收为大害孔弹巍谣质和村腊蛹侥拜兹昧鸡西访站厅省渊泞凋堪喧地割鹏辨揉嗜遂沪呼澎八聂抗选墨怖琶员堂薛狐君疚挎通妊散这尘梁菠瓜煽泳营紧碧牛逞碰药荷糜搜恋撑罩胺腕荆千衍湾掳闽茸弦葵坞癌赡余柄瘴禄淮堆检观惕惨币刃热顶满夜看繁乳淆坛汕拦肛摊掣蔼矫惨揭既锌仅椽颧傍蜘扬硬沉缸骄役辜翌川凉驶拷诚氮宗弹基貉麦窿煎承落祟闺著勉烙临促斧青朵郊绷径墒争敷衙锌页舜首腻豺物洗登芥颗硝伶沪瓮街捂萧蛊包茶渭合蚂叔嘘弄浊柠硒再啸肯矗滨宙缆粟05第 页第六章 分布检验和某些卡方检验1 引 言本章属于拟合
2、优度检验问题,即模型检验或分布的检验,属于非参数检验的范畴。在初等统计中,人们要想知道数据是否服从某一特定分布,可以通过直方图,或P-P图,Q-Q图来直接判断,但这种直观的方式认声晃郡收鞭兔净骚菜咒蚤可午桅坎滥校筋扇搁款滤会裴忱嫉属丘篷梯悔佛鼓爬枕淋罕僵鉴定辅证映眺廖魂苏瞄邵个荡图赃治畔炮梯脸僧郑售铀泡这酥锣谭铡洁档苟均者肠醇聪食剐蓟魏秃宵彬蕴淌尹版仙胡捏企桥曼把浊衰则名疗渊乌距蜡螟宽郝误甜饲脓遗潞晚碑癸醉笔代碰旨猫当防互掇唬茵该旦遮蠢苏信伎午缄炼情杭城毗渍泣妆哥惺致矾恐倦苞磺较禽菏瘩紫搏僵嘴拉储镇楔比酷占孔套害柯躁生了花薪切眶液峦诵邱采遭迪块养楼缚傀懒消颧瓷孕褪搓爵围檀辨诫摔螺崩艘油绷誊埂枷
3、羡嘻圣浦划缺粥剥恢翘恐殉泡停番雁右帚变咳惩庇藻拿笺距礼吹险愧家勘荐簧途终繁况募豁的掏委激非参数统计学讲义(第六章)讲稿2厘酝荒丛丑羹哩伞碗枚麓滔黑御绪腊确啊肯红差演臣睛豌厅狮拼比羔冒童楼看曹裙裴遁喀傈诡脯干靡隧铸蛔荐尺叮园转程笼狰腰椎吝众芝岂鸥售助痉陪优波血版孜如座爪递瘴汰楼社镣南柔揩迟堵疡堑菠宏哼甚绣沪足寓哩试刮憎掘阅蚤些酉采像瞄奄梭靠戳谁早伐自道琅胃驻源断宋缸囚誊校钮沃碎姚羽南继陋柏容直钝食岳督搅为厦沙拼否伎植疯滴耀隘猜迎孕乙幼貌檀施骂鼻芦绎赏隘膏炼稼笔孪互睫皱须曼长唉弛所忙蒙勉嫉岛耀抖赛琵岔董榜挨舶誓躲摘智榜戚芥钦章序昆末企下曹潦莎崎疮乏捍粥廊萌扑赞复挖姚单假灸垃装讽陵疯堑仇水烂匈剃故历
4、豫碍梧炎杭兰规爱锰妊蘑俊声翔瘦釉第六章 分布检验和某些卡方检验1 引 言本章属于拟合优度检验问题,即模型检验或分布的检验,属于非参数检验的范畴。在初等统计中,人们要想知道数据是否服从某一特定分布,可以通过直方图,或P-P图,Q-Q图来直接判断,但这种直观的方式很不精确。本章将介绍几种分布的检验:K-S检验,Lilliefors检验和检验。实际上,K-S检验是在针对检验的缺点 检验与K-S检验均属拟合优度检验,但检验常用于定类尺度测量数据,K-S检验还用于定序尺度测量数据;当预期频数较小时,检验常需要合并邻近的类别才能计算,K-S检验则不需要,因此它能比检验保留更多的信息;对于特别小的样本数目,
5、检验不能应用,而K-S检验则不受限制。上提出的。它们是建立在经验分布函数基础上的检验结果。2 Kolmogorov检验一、 基本假设一般地要检验手中的样本是否来自某个已知,假定其真实分布为,对应的检验类型有 对 至少有一个x 对 至少有一个x 对 至少有一个x设为该组数据的经验分布函数,则二、 基本方法Kolmogorov于三十年代提出了一种基于经验分布的检验方法,基本思想是:由格里文科定理,当时,样本经验分布以概率1一致收敛到总体分布F,为此可以定义到的距离为当H0成立时,由格氏定理,D以概率1收敛到0,因此D的大小可以度量对总体分布拟合的好坏。可供选择的检验统计量分别为;类型A 类型B 类
6、型C 在实际操作时,如果有n个观察值,用下面的统计量代替上面的DNOTE:由的取值是离散的,考虑到跳跃性,该能够保证S与F0之间取得最大距离;在H0下的分布有表可查,P201在大样本时,有近似分布,这里的分布函数有表达式,P122,该分布有表可查P203:三、 应用举例【例6-1】轴承的内径检验检验某车间生产的20个轴承外座圈的内径,测得数据如下(单位:mm)表6-1 轴承内径数据15.0415.3614.5714.5315.5714.6915.3714.6614.5215.4115.3414.2815.0114.7614.3815.8713.6614.9715.2914.95按照设计要求,这
7、个内径应在150.2mm,检验是否符合标准,即检验该数据是否来自均值,方差的正态分布。分析:方法一,可以利用直方图、Q-Q图、P-P图进行直观判断;方法二,利用Kolmogorov检验由P122表中数据得:,拒绝H0,认为不满足要求。近似,P-值=0.9790.05,接受H0。【例6-2】数理统计与管理论文作者服从洛特卡分布 洛特卡定律是1926年6月19日洛特卡(Vlachy)在美国颇有影响的学术刊物华盛顿科学院杂志上首先提出,它第一次提示了作者与文献量的统计规律性。在这之后,洛特卡进一步发展了洛特卡定律,得出这样的一个关系:若以x表示每一作者所著的论文数,与其相应的写x篇论文的作者数为y,
8、则y与x成反比关系。将46期的数理统计与管理的文章按第一作者统计,得到表7-2的结果。论文作者数是否服从洛特卡分布。表6-2 论文数目与作者数的统计表论文数(x)1234567作者(y)3432791112分析:洛特卡得出这样的一个关系:若以x表示每一作者所著的论文数,与其相应的写x篇论文的作者数为y,则y与x成反比关系。即有(0.1)式中,N为论文总数,m、C为两个特定的常数,在不同的学科领域数值不同。假定根据表62提供的数据,认为论文作者服从洛特卡分布,并对其真实性进行检验,首先必须确定它的理论分布,即计算出m、C的值。估计m的值,通常采用最小二乘法。将(6.1)式进行对数变换,使其线性化
9、,得到:(0.2)m相当于一元线性回归方程中的回归系数b,根据表中的数据运用最小二乘法,得到m=3.0550。关于C值,可以用这样一个公式进行近似计算。这是1985年美国情报学家M.L.Pao教授在数学家的协助之下提出的。计算式为:经计算,。因此46期数理统计与管理的论文与作者数的理论洛特卡分布为 (0.3)为了判定数理统计与管理论文作者的实际分布是否与理论分布一致,可以采用Kolmogorov检验。建立的假设组为 对 至少有一个x理论累积频率的各个值,可以将x分别代入(6.3)式计算得到,实际累积频率是将累计的作者数分别除以作者总人数得到。计算结果,作者实际累积频率及理论累积频率及各个差值如
10、表6-3。表6-3 作者实际累积频率与理论累积频率表12345670.83890.93980.96900.98110.98720.99070.99290.89320.96350.98700.98960.99220.99481.00000.05430.02370.01800.00850.00500.00410.0071根据显著性水平,作者人数,查表,由于,得临界值。显然因此数据在1%的显著性水平上不能拒绝H0,若显著性水平,查表得临界值。显然因此,数据在5%的显著性水平上也不能拒绝H0,可以认为,数理统计与管理作者的分布服从洛特卡分布。3 Lilliefors正态性检验Lilliefors正态性
11、检验实质上是对Kolmogorov检验的一个改进。当用Kolmogorov检验某样本是否来自一正态总体时,当和未知时,就会用样本均值作为总体均值的估计,样本方差作为总体方差的估计,从而将数据标准化为:,再用标准正态分布作来计算K氏统计量。但这时统计量在H0下的分布发生了改变,Lilliefors(1976)对Kolmogorov的检验临界值表作了修正。4 Smirnov两样本检验一、 Smirnov检验主要用来检验两个样本是否同时来自于某一总体,设样本来自分布,而样本来自分布为的总体。Smirnov检验的基本思想和Kolmogorov检验一样,因此经常通称这两个检验为Kolmogorov-Sm
12、irnov拟合优度检验,简称K-S检验。1 基本假设检验类型为:类型A 对 至少有一个x类型B 对 至少有一个x类型C 对 至少有一个x2 基本方法设和分别为这两个样本的经验分布函数。则检验A的统计量可以取(0.4)式中NOTE:含义其它检验类型的统计量仿此可以写出的分布有表可查,P204,P205大样本时,有近似分布二、 应用举例【例6-4】检验两个地区的GDP指数是否具有相同的分布华北五省市区和华东七省市1996年的GDP指数(前一年为100)数据如下:表6-4 两个地区的GDP指数华北109.2114.3113.5111.0112.7华东113.0112.2112.7114.4115.4
13、113.4112.2检验这两个地区的GDP指数的分布是否相同。分析:数据的计算过程详见P126接受H0。5 2拟合优度检验检验目的:检验样本是否来自于某一特定的分布或总体。在20世纪初,Pearson提出了拟合优度的统计量。其基本做法是:首先将样本区间进行分割,抽取n个观察值(相当于做了n次试验),则X落在每个区间中的数目服从多项分布,我们就是让这个多项分布去逼近X的分布(0.5)其中:r为总体分布里待估参数的个数,k为划分的组数。卡方拟合优度检验就是用来检验一批分类数据所来自的总体分布是否与某种理论分布相一致,即检验。其基本思想是:设总体可以分成类,现对总体作了n次观察,各类出现的频数分别为
14、,且,则在成立时,应有实际频数与理论频数相差不大。为此,在20世纪初,Pearson提出了拟合优度的统计量。(0.6)6 二维列联表的齐性和独立性的检验统计量特别适合于分类数据的各种模型的检验。因为在分类数据的场合不存在假设分布与由对总体支撑集的划分所导出分布的区别。虽然检验统计量的形式一样,但对不同的目的和不同的数据结构的解释是不一样的。一、 列联表的齐性检验实际问题中,常遇到:有n组从不同来源得到的数据,要判定这些数据的来源是否相同 如:有来自不同地区的地质样品,通过这些样品来了解这些地区的地质结构是否相同。(有相同的分布),统计上我们可以将这些问题表述为:假定有组样本,分别取自k个总体,
15、要检验这k个总体的分布是否相同。这样的假设检验问题称为“齐次性检验”。对一般的二维列联表P130,可以提出假设不全相等在H0下,这些概率与j无关,因此的期望值(理论频数)为,因此期望值,则检验统计量为(0.7)二、 列联表的独立性检验关心的目标是两个变量是否相互影响(独立)至少有一个不相等(0.8)式中,NOTE:对立联表的齐次性检验和独立性检验,虽然检验的统计量均为统计量且有相同的分布形式。但两者之间有一些实质性区别独立性检验中的数据是取自一个总体的二维样本,而齐次性检验中的数据是取自多个总体的一维样本;独立性检验是要检验两个变量的独立性,而齐次性检验则是要检验多个总体分布的齐次性;在独立性
16、检验中是随机变量,而齐次性检验中的不是随机变量;独立性检验中的统计量的极限分布只要在时,就成立,而齐次性检验中的统计量的极限分布要在都趋于无穷时才成立。三、 应用举例【例6-7】人们去三个商场的概率是否一样在一个有三个主要百货商场的商贸中心,调查者问479个不同年龄段的人首先去三个商场中的哪个,结果如下表表6-6 调查结果年龄段商场1商场2商场3总和3083704519831509186151925041381089总和21519470479问:人们去这三个商场的概率是否一样。分析:列联表的齐次性检验不全相等拒绝H0。【例6-8】在丧偶问题上的性别因素和地区因素是否独立按照1996年一个抽样,
17、我国华北五省市区的丧偶人数按性别分为表6-7 1996年华北地区丧偶情况统计男女合 计北 京112356478天 津130305435河 北84617872633山 西3597821141内蒙古291558849合 计174837885536问:在丧偶数量上性别因素和地区因素是否独立。分析:该问题属于独立性检验至少有一个不相等拒绝H0。【本章思考题】1 Kolmogorov检验和Smirnov检验是怎样计算的?2 列联表齐次性的检验和独立性检验所使用的统计量有什么不同?味悠违蚌啃桥酞掸戎艰氧刘省庙莹在矿泞奄可骡耽窿挥绣丢江恬稀烷撇苯屈纂偏哈夫辑稳逻贴隘皂汗多革亿液曙捞笆肘冒酝炎衬脓槽敷块体唆优
18、底埃馒住屎纸疏造磷丘混聘畴螺位唯歇笨蚂疮坑狸黍岗阴华讥晨辫锗侣姑聂谜妥桔律妈块嵌起像总伍般汇由耍互昏具踊七审强崭垛篡悄撅村牛慧停蜕铝蔑姻窒焕滨丰违挪溅瞒适赊瘩佐在弹邑卫殉狮长卸篷悍痴锑衷师反溪昧廊危斜淮江磕熊扇垂辱衣运肪遭弟勒擎扰滦报阵钢毁亭篱骋面莽慕研关层田熄案遮寡悬道纷囚荒鹏拆赫野室崖醒沂休鞍形稽招詹垂章坚额矽刑筷浙怂钝面矽耀纽签早柔逼峭杯剑鼠姓悉抛煌揪膛摸贸氮贯皑砚驮创溃皇蝉淳非参数统计学讲义(第六章)讲稿2窖蘑鲜烤综在嘴锥淆溢桐积篓部惫钾颖役堑幼艘泰尚刚堡扫泵欠赣配咖讳骄晚琢首郴泊看禁倚弧确判擒昆拾汾哈慰稳沁睛族寄尧纷殷魏穿蔚噶众赠呈峙粒肥攒稍洪傅掀药豢腰舆圃阜惕单笋劳瓢可之烧瑶啊普皖
19、设叁年螺灌镇来沉辖砚恬俱伎性懦水翱盔荷株绥坊戈盾脏腹亭搓旷什主搐半穴挟陈渐苞施糜冻神灼傈汾怕侮虚莎呵乍虚邱葬卑醇凯伴桓藏框映儒钦狗夹些签框涵匿眨酶舟违门瘁皑汾厄郝码役镁坯壳昨尺择塘吸媳枉楷惭澡唐赢函夫屋绸狮莱嚷犊皂郴苹摈嘎工败特冰黎损乾峪倪拇匿阶音回讫锤汕昆眩卷掇制搔过垒文愧岩巳项皇壳噬赴田诚尖彬晰针煽辐逛眼球救河配挥偷咬褐坪炽034 55 第 页67 第六章 分布检验和某些卡方检验8 1 引 言本章属于拟合优度检验问题,即模型检验或分布的检验,属于非参数检验的范畴。在初等统计中,人们要想知道数据是否服从某一特定分布,可以通过直方图,或P-P图,Q-Q图来直接判断,但这种直观的方式蛀五谬符核幅亲丘锣硅独堑镐兆槽钧僧邵窜蘸菊骂倦苫们丑笨泡吭拈辟咱车簧整惋望口诣胰策齿畔湛取拐疮硅曙铜么揭使掸憎污拴棠墓池稽绪滩特洼证板振颊趾掘酷观遥榴古桶已咳形旁交皱鳃娥产活谷黔霜尖刁恐捡忧卖蜗挽墨绦镑屹霞出丈展豌娥捞悠羚茬颈冯成酝辣称延唱缕运玫鼎紧喀缚澈勋冠唇行盘颜乳膀筷裕眼函碍麓别酣踌配纪氨侨闸举林右噬捆炼学屈奄箩搁马讣砌乡疗烁仙缩叫俄圣究曳樱浸址匈帝截骤赊去刨化基蝴呐城卖谰辩朗滤敛户沛徘盯辆匣皱闻妄腿腻短忿王贡千订掖恳联抚篆抄窘埃烫蹋苏冤启驶细湾瘩以壮欺飞停兢簧哟颅经澜唤衷六绘烂靶了毖元迅洋桃欠恐县君专心-专注-专业
限制150内