定型数据分析习题答案(共35页).doc
《定型数据分析习题答案(共35页).doc》由会员分享,可在线阅读,更多相关《定型数据分析习题答案(共35页).doc(35页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选优质文档-倾情为你奉上作业中的一些错误情况1:解题过程不完整,没有明确指出所检验的假设和检验统计量。2:算错检验统计量的值,或算错检验的p值。(P27Ex2)解法一:总体总共分3类,要检验顾客是否对这三种肉食的喜好程度相同,这是一个分布的拟合优度检验问题。(1)要检验的原假设为 :顾客对这三种肉食的喜好程度相同,即要检验:顾客对这三种肉食的喜好程度的分布为,(2)取检验统计量,检验分布为; (3)题中,则检验统计量的值为(计算过程略)(4)计算P值为: ,故在水平下拒绝,即调查数据不符合该均匀分布.解法二(采用似然比检验+p值形式)(1)要检验的原假设为 :顾客对这三种肉食的喜好程度相同,
2、即要检验:顾客对这三种肉食的喜好程度的分布为,(2)选取似然比检验统计量,检验分布为;(3)题中,则检验统计量的值为(计算过程略)(4)计算P值为: ,故在水平下拒绝,即顾客对这三种肉食的喜好程度的分布不是均匀分布.注:若显著性水平取,则临界值为。(P27Ex3)解法一:总体总共分10类,这是一个分布的拟合优度检验问题。(1)要检验的原假设为:学生对这十门课的选择没有倾向性,即要检验:学生选择这十门课的人数分布为,(2)取检验统计量,检验分布为; (3)题中,则检验统计量的值为(计算过程略)(4)计算P值为: ,故在水平下不能拒绝,即认为学生对这十门课的选择没有倾向性.解法二(采用似然比检验+
3、 p值形式)(1)要检验的原假设为:学生对这十门课的选择没有倾向性,即要检验:学生选择这十门课的人数分布为。(2)选取似然比检验统计量,检验分布为; (3)题中,则检验统计量的值为(计算过程略)(4)计算P值为: ,故在水平下不能拒绝,即认为学生对这十门课的选择没有倾向性.注:若采用拒绝域法,临界值为。(P27Ex4)解法一:(采用卡方拟合优度检验法+拒绝域形式)(一)总体总共分3类,这是一个不含未知参数的分布检验问题。(1)要检验的原假设为:股票投资的盈亏分布为,统计得到的频数分别为1697,1780,2129。(2)取检验统计量,拒绝域为,(3)对显著性水平,临界值为,(4)题中,则检验统
4、计量的值为故在水平下拒绝,即调查数据不符合该偏好分布.(二)总体总共分3类,这是一个不含未知参数的分布检验问题。(1)要检验的原假设仍为:股票投资的盈亏分布为,统计得到的频数分别为151+122,240,517+240。(2)取检验统计量,拒绝域为,(3)对显著性水平,临界值为,(4)题中,则检验统计量的值为故在水平下拒绝,即调查数据不符合该偏好分布.解法二:(采用似然比检验法+拒绝域形式) (一)总体总共分3类,这是一个不含未知参数的分布检验问题。(1)要检验的原假设为:股票投资的盈亏分布为,统计得到的频数分别为1697,1780,2129。(2)选取似然比检验统计量,检验分布为,拒绝域为(
5、3)对显著性水平,临界值为,(4)题中,则检验统计量的值为故在水平下拒绝,即调查数据不符合该偏好分布.(二)总体总共分3类,这是一个不含未知参数的分布检验问题。(1)要检验的原假设仍为:股票投资的盈亏分布为,统计得到的频数分别为273,240,757。(2)选取似然比检验统计量,检验分布为,拒绝域为(3)对显著性水平,临界值为,(4)题中,则检验统计量的值为故在水平下拒绝,即调查数据不符合该偏好分布.注1:有同学混淆了两种解法(卡方拟合优度检验法与似然比检验法)的记号与称呼。注2:本题中两种方法得到的检验统计量的值相差很大。(P28Ex5)解法一:(卡方拟合优度检验)总体总共分3类,分布中有1
6、个未知参数,这是一个含参数的分布检验问题。(1)要检验的原假设为:红、白、粉红色花的分布为,其中。(2)先在为真时,似然函数为取对数得求关于的导数,并令之为0得对数似然方程为:解得的极大似然估计值为(3)算出的分布列中的极大似然估计值;。(4)取检验统计量,拒绝域为,(5)对显著性水平,临界值为,(6)题中,则检验统计量的值为故在水平下不能拒绝,即调查数据符合该偏好分布.注:有同学误认为检验的临界值为。解法二:(采用似然比检验)(1) (2) (3)步骤同上。(4)算出无假定条件下诸的极大似然估计:,(5)选取似然比检验统计量,拒绝域为,(6)对显著性水平,临界值为,(7)则检验统计量的值为故
7、在水平下不能拒绝,即调查数据符合该偏好分布.注:p值(P28Ex6)解法一:(卡方拟合优度检验)总体总共分4类,分布中有2个参数,这是一个含参数的分布拟合检验问题。(1)要检验的原假设为:人的血型分布为,其中(2)先在为真时,算出似然函数在约束条件下,取,化似然函数为无约束二元函数:取对数得注意到用微分法很难求出极大似然估计值的精确解,我们考虑近似计算。首先由“O”型和“B”型两类的矩估计算出参数向量的初始估计:然后参照课本25页利用EXCEL算得的极大似然估计值(3)算出诸的极大似然估计值;且在为真时,对数似然函数的最大值为。(4)取检验统计量,拒绝域为,(5)对显著性水平,临界值为,(6)
8、题中,则检验统计量的值为(计算过程略)故在水平下不能拒绝,即调查数据符合该偏好分布.解法二:(采用似然比检验)(1) (2) (3)步骤同上。(4)算出无假定条件下诸的极大似然估计:,(5)选取似然比检验统计量,拒绝域为,(6)对显著性水平,临界值为,(7)题中,则检验统计量的值为(计算过程略)故在水平下不能拒绝,即调查数据符合该偏好分布.注1:本题中极大似然估计值的精确解很难得到,采用迭代法进行近似计算,计算量大,要使用软件进行计算,而且要确定未知参数向量的迭代初始值。由于实际未知参数只有两个,需要建立两个方程用于给出迭代初始值。一个很自然的考虑是利用诸的矩估计(也就是无假定条件下诸的极大似
9、然估计)可建立四个方程:为方便,关键是选择哪两个变量,和选择哪两个方程来建立方程组,计算用于迭代的初始值。本题中,我们选择了变量,选择了方程。注2: 无假定条件下似然函数对数似然函数的最大值为注:p值(P68Ex1)解:(本题是单边检验,采用四格表的U检验法)(1)建立四格表正常数病例数合计人数处理组57对照组142合计199(2)记概率P(正常|处理组),P(正常|对照组),疫苗有效是指,所以本题是要检验假设 ,(3)取检验统计量,拒绝域为,(4)对显著性水平,临界值,(5)由题中数据算得检验统计量的值为故在水平下拒绝,即疫苗有效.注1:假设检验的第一步是建立假设,要正确建立原假设,并且要正
10、确建立备择假设!对于备择假设,具体场合下要能正确区分 “双边检验”与“单边检验”。(P68Ex3)解法一:(本题是单边检验,采用四格表的U检验法)(1)建立四格表长势良好长势不好合计A种肥料5347100B种肥料783117900合计8361641000(2)记概率P(长势良好|施A种肥料), P(长势良好|施B种肥料),B种肥料效果显著的好是指,所以本题是要检验假设 ,(3)取检验统计量,拒绝域为,(4)对显著性水平,临界值,(5)由题中数据算得检验统计量的值为故在水平下拒绝,即B种肥料效果显著的好.解法二:(本题是单边检验,采用修正的四格表的U检验法)(1)建立四格表长势良好长势不好合计A
11、种肥料5347100B种肥料783117900合计8361641000(2)记概率P(长势良好|施A种肥料), P(长势良好|施B种肥料),B种肥料效果显著的好是指,所以本题是要检验假设 ,(3)取检验统计量,拒绝域为,(4)对显著性水平,临界值,(5)由题中数据算得检验统计量的值为故在水平下拒绝,即B种肥料效果显著的好.注1:本题中的样本量比较大,故是否使用连续性修正,和似乎差异不大。一般样本容量比较大时不必使用连续性修正。注2:本题应采用单边检验,所以不能使用卡方检验!(P68Ex4)解法一:(本题是双边检验,采用四格表的U检验法)(1)建立四格表有自杀情绪无自杀情绪合计精神病患者3222
12、5神经病患者91625合计123850(2)记精神病患者有自杀情绪的比例,神经病患者有自杀情绪的比例,本题要检验两比例是否相等,即要检验假设 ,(3)取检验统计量,拒绝域为,(4)对显著性水平,临界值,(5)由题中数据算得检验统计量的值为因为,故在水平下拒绝,即两比例不相等.解法二:(本题是双边检验,采用四格表的卡方检验法)(1)建立四格表有自杀情绪无自杀情绪合计精神病患者32225神经病患者91625合计123850(2)记精神病患者有自杀情绪的比例,神经病患者有自杀情绪的比例,本题要检验两比例是否相等,即要检验假设 ,(3)取检验统计量,拒绝域为,(4)对显著性水平,临界值,(5)由题中数
13、据算得检验统计量的值为故在水平下拒绝,即两比例不相等.解法三:(本题是双边检验,采用四格表的似然比检验法)(1)建立四格表有自杀情绪无自杀情绪合计精神病患者32225神经病患者91625合计123850(2)记精神病患者有自杀情绪的比例,神经病患者有自杀情绪的比例,本题要检验两比例是否相等,即要检验假设 ,(3)取检验统计量,拒绝域为,(4)对显著性水平,临界值,(5)由题中数据算得检验统计量的值为故在水平下拒绝,即两比例不相等.注1:拒绝域要与假设配套,主要看备择假设!本题是双边检验,U检验的拒绝域也应是双边形式的,不能再象P68ex1那样用单边形式的拒绝域!具体场合下要能正确区分 “双边检
14、验”与“单边检验”。注2:考虑到本题中的样本量比较小,特别有的格子里的值为3(都小于5了!),故使用连续性修正似乎更好些。采用四格表的修正的卡方检验法(解法四),则(3)取检验统计量,拒绝域为,(4)对显著性水平,临界值,(5)由题中数据算得检验统计量的值为故在水平下不能拒绝,即两比例相等.有意思的是,这时候得出了相反的结论!注3:SPSS软件能很方便地计算四格表独立性双边检验的几种检验统计量和p值,下列为本题的SPSS卡方检验的程序输出。卡方检验值df渐进 Sig. (双侧)精确 Sig.(双侧)精确 Sig.(单侧)Pearson 卡方3.947a1.047连续校正b2.7411.098似
15、然比4.0911.043Fisher 的精确检验.095.048有效案例中的 N50a. 0 单元格(.0%) 的期望计数少于 5。最小期望计数为 6.00。b. 仅对 2x2 表计算(P71Ex12)本题是一个著名的心理学实验。解:(本题不妨取单边检验,采用四格表的U检验法)分两方面进行分析:种口味是否比6种口味更能吸引顾客试吃?种口味是否比6种口味更能吸引顾客购买?另外,数据计算上注意到:,。(一)种口味是否比6种口味更能吸引顾客试吃?(1)建立四格表顾客试吃顾客未试吃合计种口味145972426种口味104156260合计249253502(2)记概率P(顾客试吃|种口味),P(顾客试吃
16、|6种口味),现在要检验假设 ,(3)取检验统计量,拒绝域为,(4)对显著性水平,临界值,(5)由题中数据算得检验统计量的值为故在水平下拒绝,即种口味比6种口味更能吸引顾客试吃.(二)种口味是否比6种口味更能吸引顾客购买?(1)建立四格表顾客购买顾客未购买合计种口味42382426种口味31229260合计35467502(2)记概率P(顾客购买|种口味),P(顾客购买|6种口味),现在要检验假设 ,(3)取检验统计量,拒绝域为,(4)对显著性水平,临界值,(5)由题中数据算得检验统计量的值为故在水平下接受,即种口味没能比6种口味更能吸引顾客购买.(三)进一步考察种口味是否比6种口味更能吸引顾
17、客购买?考虑改成要检验假设 ,(3)取检验统计量,拒绝域为,(4)对显著性水平,临界值,(5)由题中数据算得检验统计量的值为故在水平下拒绝,即种口味吸引顾客购买的比例竟然显著低于6种口味吸引顾客购买的比例.这似乎有点奇怪,不过仔细想来,符合生活中的实际情况。注1:关于本题的背景:果酱实验选择不是越多越好?有选择比没选择好,选择多比选择少好,这几乎成了人们生活中的常识。但实际情况并非如此。纽约哥伦比亚大学的研究人员希娜延加开展自己的实验,研究发现,如果让消费者选择在6种还是24种果酱中挑选一种时,人们都愿意有更多的选择。可是真正决定购买的时候,在6种果酱中选择的人们作出的购买决定,是在24种果酱
18、中选择的人作出购买决定的10倍。实验是在加州斯坦福大学附近的一个以食品种类繁多而闻名的超市中进行的。工作人员在超市里设置了两个试吃摊位,一个有种口味的果酱,另一个有种口味的果酱。结果显示有种口味的摊位吸引的顾客较多:242位经过的客人中,60会停下来试吃,而260个经过种口味的摊位的客人中,停下来试吃的只有40。不过最终的结果却出乎人们的意料:在有种口味的摊位前停下的顾客中有30的人都至少买了一瓶果酱,而在有种口味的摊位前停下试吃者中只有3的人购买了果酱。看来过多选项也不见得是一件好事,它会使人们陷入游移不定的状态。注2:考察种口味是否比6种口味更能吸引顾客购买时,有同学采用的假设检验如下:记
19、概率P(顾客购买|试吃种口味),P(顾客购买|试吃6种口味),现在要检验假设 (P69Ex5)分析:记左半球中有良性肿瘤的比例,右半球中有良性肿瘤的比例,本题要检验假设注意到四个格子中有三个格子的频数小于5,显然这是一个小样本的场合,所以题目要求采用Fisher精确检验法进行检验。解:(Fisher精确检验法)(1)记左半球中有良性肿瘤的比例,右半球中有良性肿瘤的比例,本题要检验假设(2)采用Fisher精确检验法,即取超几何分布为检验分布,检验的p值为,(3)题中,并注意到题中,故检验的p值为因为,故在水平下不能拒绝,即认为两比例相等.注1:有同学未按照题目要求解题,题目要求采用Fisher
20、精确检验法,但仍有同学采用单边的U检验法甚至采用双边的卡方检验。注2:在计算出p值后,有不少同学给出的检验结论是错误的。P值是要和检验水平比较的:当P值小时,不能拒绝原假设,即认为两比例相等.注3:计算P(HG(N,M,n)=k),可调用Excel中的函数HYPGEOMDIST(sample_s,number_sample,population_s,number_population)=HYPGEOMDIST(k;n,M,N)注4:下表中有其他几种方法的检验结果,由于是小样本,可以看到,连续性校正的效果与精确检验一致。又问为何下表中精确检验的双侧p值与单侧p值差不多? 卡方检验值df渐进 Si
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 定型 数据 分析 习题 答案 35
限制150内