数学实验-11:统计推断(共6页).doc
精选优质文档-倾情为你奉上实验 11:统计推断习题2:据说某地汽油的价格是115美分/gal,为了验证这种说法,一位司机开车随机择了一些加油站,得到某年1月和2月的数据如下(不完整):1月1191171151161091091182月1181191151221261181251)分别用两个月的数据检验这种说法的可靠性;2)分别给出1月和2月汽油价格的置信区间(=0.05)3)如何给出1月和2月汽油价格差的置信区间(=0.05)1 模型建立本题中应该假设两个月该地区加油站的油价整体符合正态分布,可以进行正态性检验。随后进行假设检验:为价格平均值,由此可以得到1月和2月汽油价格的置信区间;对于两个月的价格差的区间估计问题,应该分两种情况进行讨论,一种是认为两个月的数据对应行是来自同一个加油站,则首先应求得两个月差价的20组数据,然后在显著性水平下确定的置信区间:如果认为两个月的数据是完全随机的,就不能采用1、2月对应数据的差作为新的数据,应采用两总体的t分布检验,可以利用假设检验的命令实现区间估计。2 程序设计问题1和问题2:1)对1月和2月的数据分别进行正态性检验:x1=119 117 115 116 112 121 115 122 116 118 109 112 119 112 117 113 114 109 109 118;x2=118 119 115 122 118 121 120 122 128 116 120 123 121 119 117 119 128 126 118 125;mu=115;%原始数据h1,p1,lstat1,cv1=lillietest(x1)h2,p2,lstat2,cv2=lillietest(x2)%进行Lilliefors检验,适用于一般的正态性检验,即Ho:总体服从正态分布,其中,为样本均值和方差估计。2)对1和2月的数据分别进行假设检验,并得到置信区间,由于总体方差未知,所以采用t检验法:mean(x1),mean(x2)%输出均值h1,sig1,ci1,z1=ttest(x1,mu,0.05) h2,sig2,ci2,z2=ttest(x2,mu,0.05)3)针对数据的两种可能采用不同的方法对两个月的数据进行区估计,仍采用假设检验的命令:%假设两个月的数据是对应的:mean(x1-x2)h3,sig3,ci3,z3=ttest(x2-x1,0,0.05);%假设两个月的数据是完全随机的:h4,sig4,ci4=ttest2(x1,x2,0.05);%两个总体的均值的假设检验3 运行结果和分析1)对1月和2月的数据分别进行正态性检验:h1 = 0p1 = 0.0000lstat1= 0.1105cv1 = 0.0000h2 = 0p2 = 0.1399lstat2= 0.4013cv2 = 0.0000接受1、2月数据负总正态分布的假设,可以进行假设检验。2)对1月和2月的数据分别进行假设检验 1.0000e+002 % mean(x1) 1.0000e+002 % mean(x2)h1 = 0%接受1月汽油价格为115美分/gal的假设sig1 = 0.9275% ci1 = 1.0e+002 * 1.9442 1.0558 %1月汽油价格的置信区间,可以看到115在区间内。z1 = tstat: 0.3442%统计量 df: 19 sd: 3.7756h2 = 1 %拒绝接受2月汽油价格为115美分/gal的假设sig2 = 1.8971e-006ci2 = 1.0e+002 * 1.5904 1.4096%2月汽油价格的置信区间,可以看到115不在区间内z2 = tstat: 6.7383 df: 19 sd: 3.0572 结果:接受1月份价格为115美分/gal的假设,其置信区间为113.3388,116.9612;不接受2月份价格为115美分/gal的假设,其置信区间为119.0129,122.48713)针对数据的两种可能采用不同的方法对两个月的数据进行区估计,仍采用假设检验的命令:u 假设两组数据来自同一个加油站 x1-x2=1 -2 0 -6 -6 0 -5 0 -12 2 -11 -11 -2 -7 0 -6 -14 -17 -9 -7;mean(x1-x2)=-5.6;h3 = 1%拒绝x1-x2=0(、月份价格不变)的假设,实际上这一问是做区间估计,假设检验的结果无所谓sig3 = 2.5117e-004ci3 = 3.2156 8.7844%x1-x2的置信区间z3 = tstat: 4.4384 df: 19 sd: 5.3948结果:,即、月份汽油价格差在.03938.1607区间内的概率是。u 假设两组数据完全独立h4 = 1拒绝、月份价格不变的假设sig4 = 3.9776e-005ci4 = -8.3219 -3.6770置信区间结果:,即、月份汽油价格差在3.17278.0274区间内的概率是。两种计算得到的结果略有不同。4 SIG参数的意义进行假设检验时得到的参数,其意义为,可以自编程序实现对的重现:t=(mean(x2)-mu)/(std(x2)/sqrt(20)%统计量(月)tt=tcdf(t,19);%,ttt=tpdf(t,19);%值对应的概率密度函数值 sig22=2*(1-tt)%x=-5:0.01:5;plot(x,tpdf(x,19),t,ttt,'r*'); %绘制()分布的图形,并标记出统计%量的位置结果:t = 6.7383sig22 = 1.8579e-006同之前直接利用ttest命令得到的结果相同(蓝色标注)。可以看到统计量的位置已经大大超过了的范围,sig 的值是上图中红点和其关于点对称的绿点外侧对应的概率,根据其求解过程,可以将其定义为:在一组统计数据下,错误的否定正确的Ho假设的概率。这是建立在假设Ho恒成立的基本前提下的一种判别方法,事实上体现了假设检验的基本思想。对1月数据进行同样的处理:t = 6.7383sig11 = 0.9275习题8:20名学生参加了某课程进行的、考察同样知识的两次测验,成绩如下表,根据这些数据判断两次检验的难度是否相同。表:20名学生的两次测验成绩(每列是同一名学生的两次成绩)第一次938579 90838385第二次888986858888901. 程序设计1)本题的两个样本不是独立的。首先应该检验两次测验成绩的差是否符合总体正态分布,如果符合,可以对差进行假设检验的方法进行处理。x=93 85 79 90 78 76 81 85 88 68 92 73 88 84 90 70 69 83 83 85;. 88 89 86 85 87 88 75 93 88 78 86 86 80 89 85 79 78 88 88 90;h0,p0=lillietest(x(1,:)- x(2,:)2)在正态检验合格的前提下,对两组数据的差,进行假设检验,其中,Ho: x1-x2=0:mean(x(1,:)-x(2,:)mu=0;alpha=0.05;h1,sig1,ci1,z1=ttest(x(1,:)-x(2,:),mu,alpha)2.运行结果和分析1) 正态性检验的结果:p0 = 0.57060.050.0350.0360.037h01011根据参数的意义,p0表示:x(1,:)-x(2,:),即成绩之差符合正态分布但是被错误决绝的概率;作为显著性水平,其越小允许错误筛去符合正态的数据的概率越小。对于默认的=0.05,不能接受数据为正态的假设,但是只要略微放宽约束,=0.35,即如果成绩之差的确为正态,仅有3.5%的概率被筛去,此时可以接受成绩之差符合正态分布的假设。由于值仍然不是太小,所以可以接受并继续运算。2) 假设检验的结果:h1 = 1%拒绝接受两次考试成绩相同(难度相同)的假设 sig1 = 0.9514%考试难度相同但被错认为难度不同的概率,小于=0.05ci1 = -6.2554 -0.7446%置信区间,因考试难度是不能完全的用成绩差的数字大小衡量,所以此指标实际意义不大 z1 = tstat: -2.1117 df: 19 sd: 6.7500总之,不能接受前后两次考试难度一样的假设。专心-专注-专业