应用数理统计复习题及答案(共20页).doc
精选优质文档-倾情为你奉上应用数理统计复习题(2010)一 填空题1设是总体的一个样本,。当常数C= 1/3 时,服从分布。2 设统计量,则 F(1,n) , F(n,1) 。3 设是总体的一个样本,当常数C= 1/2(n-1) 时,为的无偏估计。4 设,为观测数据。对于固定的,则 。 5设总体X 服从参数为的泊松分布,1.9,2,2,2.1, 2.5为样本,则的矩估计值为 2.1 。6设总体为样本,、2 未知,则2的置信度为1的置信区间为 。7设X服从二维正态分布,其中令Y,则Y的分布为 。8某试验的极差分析结果如下表(设指标越大越好):表1 因素水平表因素水平ABCDE130020200甲80232030250乙100表2 极差分析数据表列号试验号A1B23C4D5E67数据yi(产率)1111111183.42111222284.03122112287.34122221184.85212121287.36212212188.07221122192.38221211290.4j339.5342.7350.1350.3348.4351.6348.5T=j358.0354.8347.4347.2349.1345.9349.0697.5Rj18.512.12.73.10.75.70.5Sj42.78118.3010.9111.2010.0614.0610.031ST=63.347则(1)较好工艺条件应为 。 (2)方差分析中总离差平方和的自由度为 7 。 (3)上表中的第三列表示 交互作用 。9为了估计山上积雪溶化后对河流下游灌溉的影响,在山上建立观测站,测得连续10年的观测数据如下表(见表3)。 表3 最大积雪深度与灌溉面积的10年观测数据年 份最大积雪深度x(米)灌溉面积y(千亩)计算值残 差di197115.228.6231.04817.96434.7229.913-1.313197210.419.3108.16372.49200.7221.211-1.911197321.240.5449.441640.25858.6040.790-0.290197418.635.6345.961267.36662.1636.077-0.477197526.448.9696.962391.211290.9650.218-1.318197623.445.0547.562025.001053.0044.7790.221197713.529.2182.25852.64394.2026.8312.369197816.734.1278.891162.81569.4732.6321.468197924.046.7576.002180.891120.8045.8670.833198019.137.4364.811398.76714.3436.9830.417188.5365.33781.0714109.377298.97则y关于x的线性回归模型为 10设总体为样本,则的矩估计量为 ,极大似然估计量为 maxX1,X2,Xn 。12设总体X在区间上服从均匀分布,则的矩估计 ; 1/12n 。 13设是来自正态总体的样本,均未知,. 则的置信度为的置信区间为 ;若为已知常数,则检验假设(已知),的拒绝域为 。14设X服从维正态分布,X的样本,则的最小方差无偏估计量 ;服从 分布。15设(X1,Xn)为来自正态总体的一个样本,已知。对给定的检验水平为,检验假设,(已知)的统计量为,拒绝域为。二 计算及证明题1 设是来自总体的一个样本。(1)证明, 相互独立(2)假设,求的分布 即 2 设是总体的一个样本,求统计量的抽样分布。3 设总体(指数分布),是总体的一个样本,证明4 设总体(泊淞分布),是总体的一个样本,为样本均值和样本方差,试求(1)的联合分布律(2)5设是总体的一个样本,试求下列总体的矩估计量和极大似然估计量。(1)总体的分布律是,其中未知参数。(2)的密度函数为(为待估计参数)6 设总体(方差已知),问需抽取容量多大时,才能使得总体均值的置信度为的置信区间的长度不大于L?解: 7 为了检验某种自来水消毒设备的效果,现从消毒后的水中随机取50L,化验每升水中大肠杆菌的个数(一升水中大肠杆菌的个数服从Poisson分布),化验结果如下:试问平均每升水中大肠杆菌个数为多少时才能使得上述情况发生的概率最大?8 某系中喜欢参加体育运动的60名男生平均身高为172.6cm,标准差为6.04cm,而对运动不感兴趣的55名男生的平均身高为171.1cm,标准差为7.10cm。试检验该系中喜欢参加运动的男生平均身高是否比其他男生高些。()9 设有线性模型,其中且相互独立,试求(1)的最小二乘估计(2)给出的分布并证明他们的独立性(3)导出检验的检验统计量 (1)根据线性最小二乘法定义:设函数只需要是此函数最小解(1)(2)得,估计值:10 若总体服从正态分布,样本来自总体,要使样本均值满足不等式,求样本容量最少应取多少?11有一种新安眠剂,据说在一定剂量下能比某种旧安眠剂平均增加睡眠时间3小时,为了检验新安眠剂的这种说法是否正确,收集到一组使用新安眠剂的睡眠时间(单位:小时):26.7,22.0,24.1,21.0,27.2,25.0,23.4.根据资料用某种旧安眠剂时平均睡眠时间为20.8小时,假设用安眠剂后睡眠时间服从正态分布,试问这组数据能否说明新安眠剂的疗效?11.设总体X的概率密度为,其中>0是未知参数,>0是已知常数,为样本,求的矩估计和极大似然估计。(1)矩估计:根据矩估计的定义E(X)=根据分部积分法:带入(1)式,得:而代入(2)得以此类推,最后可得(2)极大似然估计:似然函数12. 设总体X的概率密度为,其中>0是未知参数, 为样本,求1)极大似然估计,2)总体均值的极大似然估计。(1)已知密度函数:则构造似然函数取对数而则 13. 设总体X的概率密度为,其中>0是未知参数, 为样本。1)证明:都是的无偏估计。2)比较的有效性。 14. 设总体X服从参数为的泊松分布,对于假设,的拒绝域为,试求此检验问题犯第一类错误(弃真)及犯第二类错误(取伪)的概率。15.考虑一元线性回归模型: ,其中相互独立且服从分布,求参数的极大似然估计,并证明它们是无偏估计。16. 考虑一元线性回归模型:,其中相互独立且服从分布,记,求A中使得最小的17. 某种产品在生产时产生的有害物质的重量(单位:克)Y与它的燃料消耗量(单位:千克)x之间存在某种相关关系.由以往的生产记录得到如下数据.xi289298316327329329331250yi43.542.942.139.138.538.038.037.0 求经验线性回归方程; 试进行线性回归的显著性检验(); 试求x0=340时Y0的预测区间().若要求有害物质的重量在250280um之间,问燃料消耗量应如何控制?() 18在某锌矿的南北两支矿脉中,各抽取样本容量分别为10与9的样本分析后,算得其样本含锌(%)平均值及方差如下:南支:=0.252,=0.140,=10北支:=0.281,=0.182,=9若南北两支锌含量均服从正态分布,且两样本相互独立,在=0.05的条件下,问南北两支矿脉含锌量的平均值是否有显著差异?已知:,19 X设总体的密度函数为 , 的先验分布为, 为来自总体X的样本。在平方损失下求的贝叶斯估计。20设有三台机器A、B、C制造同一种产品。对每台机器观察5天的日产量。记录如下(单位:件)A : 41,48, 41, 57, 49 B : 65,57, 54 ,72, 64C : 45,51, 48, 56, 48 试问:在日产量上各台机器之间是否有显著差异?(),已知:21设满足线性模型 , ,诸相互独立。试求(1)参数的最小二乘估计;(2)的方差;(3)的无偏估计。22单因素方差分析的数学模型为 ,。诸相互独立。(1)试导出检验假设中至少由两个不相等的统计量。(2)求的一个无偏估计量。(3)设,求常数C使统计量 为的无偏估计.23车间里有5名工人,3台不同型号的机器生产同一种产品,现在让每个工人轮流在3台机器上操作,记录其日产量结果如下: 工人机器12345116131521182151416182031816181921试问这5位工人技术之间和不同型号机器之间对产量有无显著影响?24设有线性模型其中相互独立且同服从正态分布,(1)试求乘估计量;(2)试求的概率分布。25某数理统计教师随机地选取18名学生把他们分为3组,每一组各采用一种特殊的教学方法,期末进行统考,各组成绩如下:教学方法成绩 甲75,62,71,56,73,78,85 乙81,85,62,92,94,96 丙60,73,79,75,83假设学生成绩服从正态分布,试问:在显著水平下这三种教学方法的教学效果有无显著差异?哪种教学效果最好?注:三、简述题(14分)1.检验的显著性水平及检验的p值。小概率事件的值记为 ,称为显著水平 。它是检验犯第一次错误的概率(即弃真错误的概率)检验的P值是指统计量落入某个区域内的概率,这里某个区域是个拒绝域。2.参数的点估计的类型、方法、评价方法。(1)点估计(2)区间估计点估计法:a,矩估计法。基本思想:由于样品来源于总体,样品矩在一定程度上反映了总体矩,而且由于大数定律可知,样品矩依概率收敛于总体矩。因此,只要总体x的k阶原点矩存在,就可以用样本矩作为相应总体矩的估计量,用样本矩的函数作为总体矩的函数的估计量。b,极大似然估计法。基本思想:设总体分布的函数形式已知,但有未知参数,可以取很多值,有的一切可能取值中选一个使样品观测值出现概率最大的值作为的估计量,记作,并称为的极大似然估计值,这叫极大似然估计法。3.假设检验的思想、推理依据及参数假设检验的步骤。先假设总体具有某种特征,然后再通过对样品的加工,即构造统计量推断出假设的结论是否合理。假设检验是带有概率性质的反证法。推理依据:第一,假设检验采用的逻辑方法是反证法;第二,合理与否,依据是小概率事件实际不可能发生的原理。参数假设检验的步骤:(1)提出原假设和备择假设;(2)选择适当的统计量,并确定其分布形式。(3)选择显著性水平,确定其临界值;(4)作出结论。4.方差分析的目的及思想(结合单因素)。目的:通过分析,判定某一因子是否显著,当因子显著时,我们可以绘出每一水平下指标均值的估计,以便找出最好的水平。方差分析是对多个总体均值是否相等这一假设进行检验。思想:检验= 是通过方差的比较来确定的,即要考虑均值之间的差异,差异产生来自两个方面,一是由因数中不同水平造成的,称为系统性差异;二是由随机性产生的差异。两方面的差异用两个方差来计量,一个称水平之间的方差(既包括系统因数,又包括随机性因数);一个称为水平内部方差(仅包括随机因数)。如果不同的水平对结果没有影响,两个方差的比值会接近于1;反之,则两个方差的比值会显著地大于1很多,认为HO不真,可作出判断,说明不同水平之间存在着显著性差异。 如果方差分析只对一个因数进行单因数方差分析,单因数方差分析所讨论的是在一个总体标准差皆相等的条件下,解决一个总体平均数是否相等的问题。5.简述正交实验设计中的数据分析方法方法:极差分析法和方差分析法。极差分析法步骤:(1)定指标,确定因数,选水平(2)选用适当的正交表,表头设计,确定实验方案;(3)严格按要求做实验,并记录实验结果;(4)计算i个因数的每个水平的实验结果和极差(同一因数不同水平的差异),其反映了该因数对实验结果的影响大小;(5)按级差大小排列因数主次;(6)选取较优生产条件(7)进行实验性试验,做进一步分析。方差分析法:思想:将数据的总偏差平方和分解为因数的偏差平方和与随机误差的平方和之和,用各因数的偏差平方和与误差平方和相比,做一下检验,即可判断引述的作用是否显著,这里用方差分析的思想来处理有正交表安排的多因数实验的实验结果,分析各因数是否存在显著影响。6主成分分析的基本思想。主成分分析是从总体的多个指标中构造出很少几个互不相关的综合指标,且使这几个综合指标尽可能充分的反映原来各个指标的信息。即主成分分析是一种把原来多个指标化为少数几个互不相关的综合指标的一种统计方法。它的目的是力求数据信息丢失最少的原则下,对高维变量空间进行降维处理。即用原来变量的少数几个线性组合(称为综合变量)来代替原变量,以达到简化数据,揭示变量之间关系和进行统计解释的目的。7、典型相关分析答:考虑X的综合指标(X的线性函数)与y的综合指标之间的相关性程度来刻画X与Y的相关性,即把两组变量的相关变为两个新变量(线性函数)之间的相关来进行讨论,同时又尽量保留原来变量的信息,或者说,找X的线性函数和Y的线性函数,使这两个函数具有最大的相关性。称这种相关为典型相关,称形式的两个线性函数即两个新的变量为典型变量,继而还可以分别找出X与Y的第二对线性函数,使其与第一对典型变量不相关,而这两个线性函数之间又具有最大的相关性,如此继续进行下去,直到两组变量X与Y之间的相关性被提取完毕为止,这就是典型相关分析的基本思想。总之,典型相关分析是揭示两个因素“集团”之间内部联系的一种数学方法。8、贝叶斯判别法答:贝叶斯判别是根据先验信息使得误判所造成的平均损失达到最小的判别法。假定对研究对象已有一定的认识,常用先验概率分布来描述这种认识,然后我们取得一个样本,用样本来修正已有的认识(先验概率分布)得到后验概率分布,各种统计推断通过后验概率分布来进行,将贝叶斯思想用于判别分析就得到贝叶斯分布。9、聚类,分类答:聚类分析是研究对样品或指标进行分类的一种多元统计方法,分类是将一个观测对象指定到某一类(组)。分类问题可分为两种:一是将一些未知类别的个体正确地归属于另外一些已知类中的某一类,另一种是事先不知道研究的问题应该分为几类,而是根据统计分析建立一种分类方法,并按接近程度对观测对象给出合理的分类,这一类问题即是聚类分析所要解决的问题。聚类分析根据分类对象的不同分为R型和Q型两大类。R型是对变量(指标)进行分类,Q型是对样品进行分类;R型聚类分析的目的是(1)可以了解变量间及变量组合间的亲疏关系。(2)对变量进行分类。(3)根据分类结果及它们之间的关系,在每一类中选择有代表性的变量作为重要变量,利用少数几个重要变量进一步作分析计算;Q型聚类分析的目的主要是对样品进行分类。10、线性回归分析的主要内容及应用中应注意的问题答:线性回归分析根据预报变量的多少可分为一元线性回归、多元线性回归。主要研究内容包括如何确定响应变量和预报变量之间的回归模型,如何根据样本观测值进行参数估计并检验回归方程和回归系数的显著性;从众多的预报变量中,判断哪些变量对响应变量的影响时显著的,哪些变量的影响是不显著的;根据预报变量的已知值或给定值来估计和预测响应变量的平均值并给出预测精度。怎样选择自变量,即能使回归方程有高的精确性,又不含非显著因子,这是线性回归分析在应用中应注意的问题。(1)要从全部因子的所有可能的组合组成的回归方程中,挑选平均残差平方和小,负相关系数大,自变量个数较少的方程,作为方程。(2)采用逐步回归法。11、系统聚类法的算法思想及步骤答:算法思想:(1)首先将每个样品各视为一类,定义类与类之间的距离,将距离最短的两类合并为一个新类(2)再计算新类与其他类之间的距离,将距离最短的两类再合并为一个新类。如此进行下去,直到所有样品全部合并为一个大类为止,最后再根据事先给定的分类临界值,确定分类,一般步骤为:(1)计算样品两两之间的距离;(2)将每个样品各作为一类;(3)将距离最近的两类合并为一个新类;(4)若类的个数等于1,则转向步骤5,否则转向步骤3;(5)记录下全部合并过程,画类聚图;(6)根据给定的分类临界值,确定最终分类结果。12、如何看待多元统计分析方法在实际数据处理中的作用和地位答:多元统计分析方法在实际数据处理中有着重要的作用。它不仅可以通过观察值对总体进行参数估计和假设检验,还可以通过相应的方法达到数据化简,分类和研究变量间依赖关系的目的,并能预测变量间关系,提出检验假设等目的。目前在医学、教育学、社会学、地质学、考古学、环境保护等各个领域有极其广泛的作用。专心-专注-专业