《数学模型数学建模 第七次作业 数理统计实验.docx》由会员分享,可在线阅读,更多相关《数学模型数学建模 第七次作业 数理统计实验.docx(22页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数学模型 第七次作业 数理统计实验7.1实验目的与要求l 学会对数据的参数进行估计和作相应的假设检验l 学会对分布进行检验和数据的秩检验l 建立相应的统计模型,并用R软件求解7.2 基本实验1. 区间估计已知某种灯泡寿命服从正态分布,在某星期所生产的该灯泡中随机抽取10只,测得其寿命(单位:小时)为1067 919 1196 785 1126 936 918 1156 920 948(1) 试问这批灯泡中大约95%的灯泡至少使用多少小时;(2) 求这批灯泡能够使用1000小时以上的概率。解:(1)根据题意,使用R软件求解,编辑程序如下: X t.test(X,al=g)得到如下结果:One S
2、ample t-testdata: X t = 23.9693, df = 9, p-value = 9.148e-10alternative hypothesis: true mean is greater than 0 95 percent confidence interval: 920.8443 Inf sample estimates:mean of x 997.1由此知道这批灯泡中大约95%的灯泡至少使用920.8443小时。(2) x x1 1067 919 1196 785 1126 936 918 1156 920 948 pnorm(1000,mean(x),sd(x)1
3、0.由此知道求这批灯泡能够使用1000小时以上的概率为50.87941%2. 假设检验I正常男子血小板计数均值为225109/L,今测得20名男性油漆作业工人的血小板计数值(单位:109/L)220 188 162 230 145 160 238 188 247 113126 245 164 231 256 183 190 158 224 175问油漆工人的血小板计数与正常成年男子有无差异,并说明油漆作业对人体血小板计数是否有影响。解:根据题意,设原假设为H0:与正常男子血小板计数无差异,对立假设H1:与正常男子血小板计数有差异。可以使用R软件求解此问题, x t.test(x,mu=225,
4、alternative=less)得到如下结果:One Sample t-testdata: x t = -3.4783, df = 19, p-value = 0.alternative hypothesis: true mean is less than 225 95 percent confidence interval: -Inf 208.4806 sample estimates:mean of x 192.15做出原假设:油漆工人的血小板计数与正常成年男子无差异;做出备择假设:油漆工人的血小板计数与正常成年男子有差异。此时的P-值为0.小于0.05,拒绝原假设,因此认为油漆工人的血
5、小板计数与正常成年男子有差异。3.假设检验II为研究国产四类新药阿卡波糖胶囊效果,某医院用40名II型糖尿病病人进行同期随机对照试验。试验者将这些病人随机等分到试验组(阿卡波糖胶囊组)和对照组(拜唐苹胶囊),分别测得试验开始前和8周后的空腹血糖,算得空腹血糖下降值如表下:试验组 -0.70 -5.60 2.00 2.80 0.70 3.50 4.00 5.80 7.10 -0.50 2.50 -1.60 1.70 3.00 0.40 4.50 4.60 2.50 6.00 -1.40 对照组 3.70 6.50 5.00 5.20 0.80 0.20 0.60 3.40 6.60 -1.10
6、6.00 3.80 2.00 1.60 2.00 2.20 1.20 3.10 1.70 -2.00(1)假设数据服从正态分布,试用t检验(讨论方差相同和方差不同两种情况)和成对t检验来判断:国产四类新药阿卡波糖胶囊拜唐苹胶囊对空腹血糖的降糖效果是否相同?并分析三种检验方法各自的优越性。(2)检验试验组和对照组的数据的方差是否相同?解:(1)根据题意:建立检验假设,确定检验水准:H0:m1=m2 即阿卡波糖胶囊组与拜糖平胶囊组空腹血糖下降值总体均数相等;H1:m1m2即阿卡波糖胶囊组与拜糖平胶囊组空腹血糖下降值总体均数不相等;a=0.05。使用t检验,若两组数据方差相同时,编辑R软件程序如下:
7、xy t.test(x,y,var.equal=TRUE)得到如下结果:Two Sample t-testdata: x and y t = -0.6419, df = 38, p-value = 0.5248alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -2. 1. sample estimates:mean of x mean of y 2.065 2.625分析结果,p-value=0.52480.05,所以接受原假设H0,即试验组与对照
8、组没有显著差异。根据题意,若两组数据方差不同时,利用R软件进行t检验: t.test(x,y)得到如下结果Welch Two Sample t-testdata: x and y t = -0.6419, df = 36.086, p-value = 0.525alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -2.32926 1.20926 sample estimates:mean of x mean of y 2.065 2.625因此试验组
9、与对照组的没有显著差异。进行成对t检验: t.test(x,y,paired=TRUE)得到如下结果:Paired t-testdata: x and y t = -0.6464, df = 19, p-value = 0.5257alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -2. 1. sample estimates:mean of the differences -0.56即试验组与对照组的结果也没有显著差异。故三中检验的结果都显示两组
10、数据均值无差异。对比三种检验方式,如果两个样本是成对的,应该使用成对的t检验,如果不使用成对t检验,t值会变小,p值会变大,准确性差了很多。(2)方差检验: var.test(x,y)得到如下结果:F test to compare two variancesdata: x and y F = 1.5984, num df = 19, denom df = 19, p-value = 0.3153alternative hypothesis: true ratio of variances is not equal to 1 95 percent confidence interval: 0.
11、 4. sample estimates:ratio of variances 1.故两组数据方差相同。4. 假设检验III某医院研究乳腺癌家族史对于乳腺癌发病率的影响。假设调查了10000名50-54岁的妇女,她们的母亲曾患有乳腺癌。发现她们在那个生存期的某个时刻有400例乳腺癌,而全国在该年龄段的妇女乳腺癌的患病率为2%,这组数据能否说明乳腺癌的患病率与家族遗传有关。解:根据题意提出假设:建立检验假设,确定检验水准:H0:p=p0=2% 即患病率相符;H1:pp0即患病率不符;a=0.05。使用R软件进行校验: binom.test(400,10000,p=0.002)得到如下结果:Exa
12、ct binomial testdata: 400 and 10000 number of successes = 400, number of trials = 10000, p-value 2.2e-16alternative hypothesis: true probability of success is not equal to 0.002 95 percent confidence interval: 0. 0. sample estimates:probability of success 0.04检验出P-值 chisq.test(c(315,101,108,32),p=c(
13、9,3,3,1)/16)得到如下结果: Chi-squared test for given probabilitiesdata: c(315, 101, 108, 32) X-squared = 0.47, df = 3, p-value = 0.9254分析结果结果p-值为0.92540.05,所以接受原假设,即此结果符合自由组合规律。6. 分布检验II观察每分钟进入某商店的人数X,任取200分钟,所得数据表7.1所示。试分析,能否认为每分钟顾客数X服从Poisson分布(=0.1).解:根据题意提出假设:建立检验假设,确定检验水准:H0:每分钟顾客数X服从Poisson分布;H1:每分钟
14、顾客数X不服从Poisson分布;a=0.1。使用R软件进行校验:首先利用pearson卡方检验是否符合泊松分布: X-0:5;Y q n p p1 pn for (i in 2:(n-1)+ pi chisq.test(Y,p=p)得到如下结果:Chi-squared test for given probabilitiesdata: Y X-squared = 2.1596, df = 5, p-value = 0.8267警告信息:In chisq.test(Y, p = p) : Chi-squared近似算法有可能不准得到警告,因为Pearson 2检验要求在分组后,至少要大于等于5
15、,而后两组中出现的顾客数是1,0,均小于5,重新分组,合并频数小于5的组: Z n-length(Z); p-p1:n-1; pn chisq.test(Z,p=p)得到如下结果:Chi-squared test for given probabilitiesdata: Z X-squared = 0.9113, df = 3, p-value = 0.8227分析结果,p-值为0.82270.1,因此,接受原假设,即每分钟顾客数X服从Poisson分布。7. 分布检验III一般认为长途电话通过电话总机的过程是一个随机过程,其间打进电话的时间间隔服从指数分布,某个星期下午1:00以后最先打进的
16、10个电话的时间为1:06 1:08 1:16 1:22 1:23 1:34 1:44 1:47 1:51 1:57试用Kolmogorov-Smirnov检验分析打进电话的时间间隔是否服从指数分布。解:根据打进的电话时间算出时间间隔:1:001:061:081:161:221:231:341:441:471:511:57628611110346建立检验假设,确定检验水准:H0:打进电话的时间间隔服从指数分布;H1:打进电话的时间间隔不服从指数分布;a=0.05。假设指数分布的参数为110=0.1,利用R软件进行检验:x0.05,因此接受原假设,即打进电话的时间间隔是否服从指数分布。8. 列联
17、表检验I向120名女性和120名男性做调查,了解他们关于给谁买节日礼物最难的看法,调查结果如表7.2所示。试分析:女性和男性在关于给谁买节日礼物最难的看法上有没有显著差异。解:根据题意,利用R软件输入数据,使用chisq.test()作检验。 compare chisq.test(compare, correct=TRUE)得到如下结果:Pearsons Chi-squared testdata: compare X-squared = 12.4666, df = 5, p-value = 0.02892由于p-值为0.02892 x fisher.test(x)得到如下结果: Fishers
18、 Exact Test for Count Datadata: x p-value = 0.1181alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0. 521. sample estimates:odds ratio 7.63506由此计算出的p-值=0.11810.05,并且区间估计得到的区间包含有1,因此说明两个变量是独立的,即认为左右半球恶性肿瘤的发病率并无显著差异。10. Wilcoxon秩和检验I(1)为了了解新的数学教学方法的效果是否比原来方法的效果
19、有所提高,从水平相当的10名学生中随机地各选5名接受新方法和原方法的教学试验。专家对10名学生的数学能力予以综合评估,并按其数学能力由弱到强排序如下对= 0.05,检验新方法是否比原方法显著地提高了教学效果。(2)若新方法与原方法得到排序结果改为能否说明新方法比原方法显著提高了教学效果?解:(1) 因为Wilcoxon秩和检验本质只需排出样本的秩次,而且题目中的数据本身就是一个排序,因此可直接使用,编写R程序如下: x y wilcox.test(x, y, alternative=greater)得到如下结果:Wilcoxon rank sum testdata: x and y W = 1
20、9, p-value = 0.1111alternative hypothesis: true location shift is greater than 0得到的p-值为0.11110.05,因此接受原假设,即并不能认为新的教学效果显著优于原方法。(2) 同第一问,编写R程序如下: x y wilcox.test(x, y, alternative=greater)得到如下结果:Wilcoxon rank sum testdata: x and y W = 21, p-value = 0.04762alternative hypothesis: true location shift is
21、 greater than 0 得到的p-值为0.0.04762 x y wilcox.test(x,y,exact=F)得到如下结果:Wilcoxon rank sum test with continuity correctiondata: x and y W = 266, p-value = 0.05509alternative hypothesis: true location shift is not equal to 0 由计算结果知道p-的值为0.05509大于0.05,不能拒绝原假设,尚不能认为新方法的疗效显著优于原疗法。7.3 加分实验(产品装箱问题)A厂把加工好的螺母封装成
22、盒,标准为200个盒。封装好的产品卖给用户。如果盒中的螺母个数少于200,会造成用户的生产线停顿,用户会因此向该厂索赔。(1)封装生产线采用称重计数的方式。已知螺母的重量XN(100,4)(单位:克),封装时电脑自动称量盒中螺母的重量,并由此估计螺母的个数,显示在屏幕上。控制人员通过终端设定每盒中应该装填的螺母数,就可以开动由电脑控制的封装线了。为了尽量避免出现不足的情况,控制人员设定的装填个数一般比200大一些。假定盒子及其误差可以忽略不计,电子称称量重量为克的物体所得读数服从均值为,标准差为3的正态分布。(i)试问:设定的个数至少为多少时,才能保证盒中实际螺母数少于200的概率不大于0.0
23、001?(ii)设每个螺母成本为1元钱,用户每天需要200盒螺母,用户的生产线每停顿一次损失5000元,这些损失全部由A厂承担。问设置数为多少时该厂的平均损失最少?(2)若螺母重量分布的方差未知,采用下列方法:开始时放5个在盒中并从控制终端输入盒中个数为5,如此直至盒中有20个。在此过程中,电脑会自动称量盒中螺母并记录下每5个螺母的重量。然后,可以开始上述的封装过程。此时,试回答上述两个问题。解:(1)使用Matlab和R软件两种方法求解(两种思路)(i)第一问使用两种方法求解(Matlab和R软件)使用Matlab求解:对题目意思的理解说明:1)题目中的正态分布N(100, 4)中的4看做标
24、准差,若为方差,可以在程序中将sigma改为2即可。2)电脑根据称重情况T判断是否符合设定个数n的原则:round(T/100)=n就表示满足要求。应用MC方法对系统进行模拟,系统模拟封装100万盒螺母,源程序如下: function y=test2(n)% 该程序计算一直终端控制个数时,求P(m200),即实际个数小于200的个数% 采用MC算法% 输入参数:n 表示终端控制个数,输出为概率ymax=210;mu=100;sigma=4;T=0;all=;out=0;D=tril(ones(max,max),0); % 下三角矩阵for t=1:all if mod(t,all/100)=0
25、 disp(正在计算次数,num2str(t),剩余次数,num2str(all-t), 请等待.); end T0 = normrnd(mu,sigma,max,1); % 生成一批螺母 T0=D*T0; % 累加螺母重量 T=normrnd(T0,3); % 机器称重 T=round(T/100); % 机器估算个数 if find(T=n)= N*100的时候装盒结束,N为电脑设置的。盒子中实际的螺母数量是随机的,可能比N大也可能比N小。目的是当W刚好大于 N*100的时候,实际螺母数量= N*100的概率小于0.0001。W_199等于 199个螺母重量加上秤的误差,所以分布为 N(1
26、99*100, sqrt( 199*42+32)从N=200开始增加,直到 P(W_199=N*100) 小于 0.0001编程如下: sim - function(n) simfun - function (aaaa) x - rnorm(300, 100, 4) x = rnorm(300, 100*n, 3)1 y - sapply(1:, simfun) sum(y sim(200)1 0. sim(201)1 0. sim(202)1 0由R软件得到的结果为将设定数目设定为202个。(2)设终端设置为个时,每盒螺母少于200个的概率为,则用户需要200盒螺母,生产线停工的次数服从,平
27、均停工次数为。计算平均损失可以计算为:超过200个的成本 + 因停工造成的损失。因此平均损失利用Matlab代入上表数值计算得:设定个数平均损失(元)2000.17672010.003638002025.00E-064052030600经比较发现,设定个数为202时,平均损失最小。若使用R软件,在1(i)的基础上,1(ii)就很直接了,假设停工的概率为 p, 那么平均停工 200*p 次那么成本为 200*N + p*200*5000编程如下: cost - function(N) p cost(200:205)得到如下结果1 78388.26 40400.51 40400.06 40600.00 40800.00 41000.00所以 202个的时候总cost最小(2) 设螺母个数为,第个螺母的重量,其中未知,且各螺母的重量相互独立,则一盒螺母的重量电子称称量结果记为,则当已知时,的条件分布为,根据条件方差的公式,可以计算出的无条件方差为:根据条件,无条件方差可以根据前20个螺母的称重情况进行估计:设五次的称重读数为:,则无条件方差的估计量其中是的算术平均值。那么:每个螺母的标准差估计值为:有了估计值,代入问题1的程序就可以同样计算了。由于没有的实际数据,没有给出相应的计算结果。
限制150内