《第2章 统计数据的描述.doc》由会员分享,可在线阅读,更多相关《第2章 统计数据的描述.doc(42页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、【精品文档】如有侵权,请联系网站删除,仅供学习与交流第2章 统计数据的描述.精品文档.第2章 统计数据的描述练习题1.为评价家电行业售后服务的质量,随机抽取了由100家庭构成的一个样本。服务质量的等级分别表示为:A.好;B.较好;C.一般;D.差;E.较差。调查结果如下:BECCADCBAEDACBCDECEEADBCCAEDCBBACDEABDDCCBCEDBCCBCDACBCDECEBBECCADCBAEBACDEABDDCADBCCAEDCBCBCEDBCCBC(1) 指出上面的数据属于什么类型;(2) 用Excel制作一张频数分布表;(3) 绘制一张条形图,反映评价等级的分布。解:(1
2、)由于表2.21中的数据为服务质量的等级,可以进行优劣等级比较,但不能计算差异大小,属于顺序数据。(2)频数分布表如下:服务质量等级评价的频数分布服务质量等级家庭数(频数)频率%A1414B2121C3232D1818E1515合计100100 (3)条形图的制作:将上表(包含总标题,去掉合计栏)复制到Excel表中,点击:图表向导条形图选择子图表类型完成(见Excel练习题2.1)。即得到如下的条形图:2.为了确定灯泡的使用寿命(小时),在一批灯泡中随机抽取100只进行测试,所得结果如下:7007167287196857096916847057187067157127226917086906
3、92707701708729694681695685706661735665668710693697674658698666696698706692691747699682698700710722694690736689696651673749708727688689683685702741698713676702701671718707683717733712683692693697664681721720677679695691713699725726704729703696717688(1)利用计算机对上面的数据进行排序;(2)以组距为10进行等距分组,整理成频数分布表,并绘制直方图;(
4、3)绘制茎叶图,并与直方图作比较。解:(1)排序:将全部数据复制到Excel中,并移动到同一列,点击:数据排序确定,即完成数据排序的工作。(见Excel练习题2.4)(2)按题目要求,利用已排序的Excel表数据进行分组及统计,得到频数分布表如下:(见Excel练习题2.4) 100只灯泡使用寿命非频数分布按使用寿命分组(小时)灯泡个数(只)频率(%)650660226606705567068066680690141469070026267007101818710720131372073010107307403374075033合计100100制作直方图:将上表(包含总标题,去掉合计栏)复制到
5、Excel表中,选择全表后,点击:图表向导柱形图选择子图表类型完成。即得到如下的直方图:(见Excel练习题2.4)(3)制作茎叶图:以十位以上数作为茎,填入表格的首列,将百、十位数相同的数据的个位数按由小到大的顺序填入相应行中,即成为叶,得到茎叶图如下:651866145686713467968112333455588996900111122233445566677888899700011223456667788897100223356778897201225678997335674147将直方图与茎叶图对比,可见两图十分相似。第5章 参数估计1.某快餐店想要估计每位顾客午餐的平均花费金额,
6、在为期3周的时间里选取49名顾客组成了一个简单随机样本。(1) 假定总体标准差为15元,求样本均值的抽样标准误差;(2) 在95%的置信水平下,求允许误差;(3) 如果样本均值为120元,求总体均值95%的置信区间。解:(1)已假定总体标准差为=15元, 则样本均值的抽样标准误差为 =2.1429(2)已知置信水平1=95%,得 =1.96,于是,允许误差是E =1.962.1429=4.2000。(3)已知样本均值为=120元,置信水平1=95%,得 =1.96, 这时总体均值的置信区间为 =1204.2=(1)假定总体标准差为15元,求样本均值的抽样标准误差。=2.143(2)在95的置信
7、水平下,求边际误差。 ,由于是大样本抽样,因此样本均值服从正态分布,因此概率度t= 因此,=1.962.143=4.2(3)如果样本均值为120元,求总体均值 的95的置信区间。 置信区间为: =(115.8,124.2)可知,如果样本均值为120元,总体均值95%的置信区间为(115.8,124.2)元。5.2利用下面的信息,构建总体均值的置信区间:1) 总体服从正态分布,且已知 = 500,n = 15, =8900,置信水平为95%。解: N=15,为小样本正态分布,但已知。则1-a95%,。其置信区间公式为 置信区间为:89001.9650015=(8646.7 , 9153.2)2)
8、 总体不服从正态分布,且已知 = 500,n = 35, =8900,置信水平为95%。解:为大样本总体非正态分布,但已知。则1-a95%,。其置信区间公式为 置信区间为:89001.9650035=(8733.9 9066.1)3) 总体不服从正态分布,未知,n = 35, =8900,s =500,置信水平为90%。解:为大样本总体非正态分布,且未知,1-a90%,1.65。 其置信区间为: 89001.6550035=(8761 9039)4) 总体不服从正态分布,未知,n = 35, =8900,s =500,置信水平为99%。解:为大样本总体非正态分布,且未知,1-a99%,2.58
9、。其置信区间为:89002.5850035=(8681.9 9118.1)3.某大学为了解学生每天上网的时间,在全校7500名学生中采取不重复抽样方法随机抽取36人,调查他们每天上网的时间,得到下面的数据(单位:小时): 3.33.16.25.82.34.15.44.53.24.42.05.42.66.41.83.55.72.32.11.91.25.14.34.23.60.81.54.71.41.22.93.52.40.53.62.5 求该校大学生平均上网时间的置信区间,置信水平分别为90%、95%和99%。解:计算样本均值:将上表数据复制到Excel表中,并整理成一列,点击最后数据下面空格,
10、选择自动求平均值,回车,得到=3.316667,计算样本方差s:删除Excel表中的平均值,点击自动求值其它函数STDEV选定计算数据列确定确定,得到s=1.6093 也可以利用Excel进行列表计算:选定整理成一列的第一行数据的邻列的单元格,输入“(a7-3.316667)2”,回车,即得到各数据的离差平方,在最下行求总和,得到: =90.65再对总和除以n-1=35后,求平方根,即为样本方差的值s=1.6093。计算样本均值的抽样标准误差: 已知样本容量 n=36,为大样本,得样本均值的抽样标准误差为 =0.2682分别按三个置信水平计算总体均值的置信区间: 置信水平为90%时:由双侧正态
11、分布的置信水平1=90%,通过21=0.9换算为单侧正态分布的置信水平=0.95,查单侧正态分布表得 =1.64, 计算得此时总体均值的置信区间为=3.31671.640.2682= 可知,当置信水平为90%时,该校大学生平均上网时间的置信区间为(2.87,3.76)小时; 置信水平为95%时:由双侧正态分布的置信水平1=95%,得 =1.96, 计算得此时总体均值的置信区间为=3.31671.960.2682= 可知,当置信水平为95%时,该校大学生平均上网时间的置信区间为(2.79,3.84)小时; 置信水平为99%时:若双侧正态分布的置信水平1=99%,通过21=0.99换算为单侧正态分
12、布的置信水平=0.995,查单侧正态分布表得 =2.58, 计算得此时总体均值的置信区间为=3.31672.580.2682= 可知,当置信水平为99%时,该校大学生平均上网时间的置信区间为(2.62,4.01)小时。4.某居民小区共有居民500户,小区管理者准备采取一项新的供水设施,想了解居民是否赞成。采取重复抽样方法随机抽取了50户,其中有32户赞成,18户反对。(1)求总体中赞成该项改革的户数比率的置信区间,置信水平为95%;(2)如果小区管理者预计赞成的比率能达到80%,应抽取多少户进行调查?解: 已知总体单位数N=500,重复抽样,样本容量n =50,为大样本,样本中,赞成的人数为n
13、1=32,得到赞成的比率为 p = =64%(1)赞成比率的抽样标准误差为 =6.788%由双侧正态分布的置信水平1=95%,得 =1.96, 计算得此时总体户数中赞成该项改革的户数比率的置信区间为 = 64%1.966.788%=可知,置信水平为95%时,总体中赞成该项改革的户数比率的置信区间为(50.70%,77.30%)。(2)如预计赞成的比率能达到80%,即 p=80%, 由 =6.788%,即=6.788% 得样本容量为 n = 34.72 取整为35,即可得,如果小区管理者预计赞成的比率能达到80%,应抽取35户进行调查。5.顾客到银行办理业务时往往需要等待一段时间,而等待时间的长
14、短与许多因素有关,比如,银行业务员办理业务的速度,顾客等待排队的方式等。为此,某银行准备采取两种排队方式进行试验,第一种排队方式是:所有顾客都进入一个等待队列;第二种排队方式是:顾客在三个业务窗口处列队等待。为比较哪种排队方式使顾客等待的时间更短,银行各随机抽取10名顾客,他们在业务办理时所等待的时间(单位:分钟)如下:方式16.56.66.76.87.17.37.47.77.77.7方式24.25.45.86.26.77.77.78.59.310.0要求:(1) 构建第一种排队方式等待时间标准差的95%的置信区间(2) 构建第二种排队方式等待时间标准差的95%的知心区间(3) 根据(1)和(
15、2)的结果,你认为哪种排队方式更好?卷面解答过程:解:已知n=10(1) 根据抽样结果计算得=7.150s=0.477又=0.05,由单方差得总体标准差的95%的置信区间为(6.809, 7.491);(2) 根据抽样结果计算得=7.150s=1.822又=0.05,由单方差得总体标准差的95%的置信区间为(5.847, 8.453)。(3) 根据上面两道题目的答案可知,第一种排队方式所需等待的时间较为稳定,更为可取。MINITAB操作步骤:(1) 输入数据统计基本统计量单样本t选择数据选项:95%MINITAB显示:单样本 T: C1 平均值变量 N 平均值 标准差 标准误 95% 置信区间
16、C1 10 7.150 0.477 0.151 (6.809, 7.491)(2) 同上6.从两个正态总体中分别抽取两个独立的随机样本,它们的均值和标准差如下表:来自总体1的样本来自总体2的样本(1) 求90%的置信区间;(2) 求95%的置信区间。解:(1.86,17.74);(0.19,19.41)。 7.一家人才测评机构对随机抽取的10名小企业的经理人采用两种方法进行自信心测试,得到的自信心测试分数如下:人员编号方法1方法217871726646203736310489845591741764951-27685513876601698577810553916试构建两种分方法自信心平均得分
17、之差95%的置信区间。解:因此,均值之差的0.95的置信区间为:即:8.从两个总体中各抽取一个的独立随机样本,来自总体1的样本比率为,来自总体2的样本比率为。(1)构造90%的置信区间;(2)构造95%的置信区间。解:(1)10%6.98%;(2)10%8.32%。725 从两个总体中各抽取一个250的独立随机样本,来自总体1的样本比例为40,来自总体2的样本比例为30。要求:(1)构造的90的置信区间。(2)构造的95的置信区间。解:总体比率差的估计大样本,总体方差未知,用z统计量样本比率p1=0.4,p2=0.3置信区间:=0.90,=1.645=(3.02%,16.98%)=0.95,=
18、1.96=(1.68%,18.32%)9、生产工序的方差是工序质量的一个重要度量。当方差较大时,需要对工序进行改进以减小方差。两部机器生产的袋茶重量(单位:g)的数据如下:机器13.453.203.223.502.953.163.203.222.983.753.383.453.483.183.903.703.283.353.203.123.25机器23.223.383.303.303.343.283.303.283.193.203.293.353.163.343.353.303.053.333.273.283.25。构造两个总体方差比的95%的置信区间。答案:已知, =3.33,=0.06,=
19、3.27,=0.006, 根据自由度n1 =21-1=20和n2=21-1=20,当置信区间为95%时,查F分布表得:Fa/2(20)= F0.025(20)=2.12,根据公式得,F1-a/2(20)=1/2.12=0.47。再根据公式 得:4.7221.28,即两部机器生产的袋茶重量的总体方差比的95%的置信区间为(4.72,21.28)。10.某超市想要估计每个顾客平均每次购物花费的金额。根据过去的经验,标准差大约为120元,现要求以95%的置信水平估计每个购物金额的置信区间,并要求允许误差不超过20元,应抽取多少个顾客作为样本?解:已知总体标准差=120,由置信水平1-=95%,得置信
20、度=1.96,允许误差E 20即由允许误差公式 E=整理得到样本容量n的计算公式: n=138.2976由于计算结果大于47,故为保证使“”成立,至少应取139个顾客作为样本。 解:,=0.95,=1.96, =138.3,取n=139或者140,或者150。11.假定两个总体的标准差分别为:,若要求误差范围不超过5,相应的置信水平为95%,假定,估计两个总体均值之差时所需的样本容量为多大? 解: 57。 n1=n2=,=0.95,=1.96, n1=n2= =56.7,取n=5712. 假定,允许误差,相应的置信水平为95%,估计两个总体比率之差时所需的样本容量为多大?解:n1=n2=,=0
21、.95,=1.96,取p1=p2=0.5, n1=n2= =768.3,取n=769,或者780或800。解: 769。第六章 假设检验1. 依题意提出的假设Ho:6.07,H1:6.07检验统计量(7.25-6.70)2.5(200)2.5p值=1-0.994=0.006p,拒绝原假设所以,这个调查能证明“如今每个家庭每天收看电视的平均时间增加了”。第6章假设检验6.1 一项包括了200个家庭的调查显示,每个家庭每天看电视的平均时间为7.25小时,标准差为2.5小时。据报道,10年前每天每个家庭看电视的平均时间是6.70小时。取显著性水平 ,这个调查能否证明“如今每个家庭每天收看电视的平均时
22、间增加了”?详细答案: , 3.11,拒绝 ,如今每个家庭每天收看电视的平均时间显著地增加了。 6.2 为监测空气质量,某城市环保部门每隔几周对空气烟尘质量进行一次随机测试。已知该城市过去每立方米空气中悬浮颗粒的平均值是82微克。在最近一段时间的检测中,每立方米空气中悬浮颗粒的数值如下(单位:微克): 81.686.680.085.878.658.368.773.296.674.983.066.668.670.971.771.677.376.192.272.461.775.685.572.574.082.587.073.288.586.994.983.0根据最近的测量数据,当显著性水平 时,能
23、否认为该城市空气中悬浮颗粒的平均值显著低于过去的平均值? 详细答案: , -2.39, ,拒绝 ,该城市空气中悬浮颗粒的平均值显著低于过去的平均值。 6.3 安装在一种联合收割机的金属板的平均重量为25公斤。对某企业生产的20块金属板进行测量,得到的重量数据如下: 22.626.623.123.527.025.328.624.526.230.427.424.925.823.226.926.122.228.124.223.6 假设金属板的重量服从正态分布,在显著性水平下,检验该企业生产的金属板是否符合要求?详细答案: , , ,不拒绝 ,没有证据表明该企业生产的金属板不符合要求。 6.4 在对消
24、费者的一项调查表明,17%的人早餐饮料是牛奶。某城市的牛奶生产商认为,该城市的人早餐饮用牛奶的比例更高。为验证这一说法,生产商随机抽取550人的一个随机样本,其中115人早餐饮用牛奶。在 显著性水平下,检验该生产商的说法是否属实?详细答案: , , ,拒绝,该生产商的说法属实。 6.5 某生产线是按照两种操作平均装配时间之差为5分钟而设计的,两种装配操作的独立样本产生如下结果: 操作A操作B=100=50=14.8=10.4 =0.8=0.6对 0.02,检验平均装配时间之差是否等于5分钟。详细答案: , -5.145, ,拒绝 ,两种装配操作的平均装配时间之差不等于5分钟。 6.6 某市场研
25、究机构用一组被调查者样本来给某特定商品的潜在购买力打分。样本中每个人都分别在看过该产品的新的电视广告之前与之后打分。潜在购买力的分值为010分,分值越高表示潜在购买力越高。原假设认为“看后”平均得分小于或等于“看前”平均得分,拒绝该假设就表明广告提高了平均潜在购买力得分。对 0.05的显著性水平,用下列数据检验该假设,并对该广告给予评价。 购买力得分 购买力得分 个体 看后 看前 个体 看后 看前 165535264698377775443866详细答案: 设 , 。 , 1.36, ,不拒绝 ,广告提高了平均潜在购买力得分。 6.7 某企业为比较两种方法对员工进行培训的效果,采用方法1对15
26、名员工进行培训,采用方法2 对12名员工进行培训。培训后的测试分数如下: 方法1方法2565145595753475243525665425352535553504248546457474444两种方法培训得分的总体方差未知且不相等。在 显著性水平下,检验两种方法的培训效果是否有显著差异?详细答案: , , ,拒绝 ,两种方法的培训效果是有显著差异。 6.8 为研究小企业经理们是否认为他们获得了成功,在随机抽取 100个小企业的女性经理中,认为自己成功的人数为24人;而在对95个男性经理的调查中,认为自己成功的人数为39人。在 的显著性水平下,检验男女经理认为自己成功的人数比例是否有显著差异?
27、详细答案: 设 , 。 , , ,拒绝 ,男女经理认为自己成功的人数比例有显著差异。 6.9 为比较新旧两种肥料对产量的影响,以便决定是否采用新肥料。研究者选择了面积相等、土壤等条件相同的40块田地,分别施用新旧两种肥料,得到的产量数据如下: 旧肥料 新肥料 10910197981001051091101181099898949910411311111199112103881081021061061179910711997105102104101110111103110119取显著性水平 ,检验:(1)新肥料获得的平均产量是否显著地高于旧肥料?假定条件为: 两种肥料产量的方差未但相等,即 。
28、两种肥料产量的方差未且不相等,即 。(2)两种肥料产量的方差是否有显著差异?详细答案: (1)设 , 。 , , ,拒绝 ,新肥料获得的平均产量显著地高于旧肥料。 (2) ,拒绝 ,新肥料获得的平均产量显著地高于旧肥料。 (3) , 。 , ,两种肥料产量的方差有显著差异。 6.10 生产工序中的方差是工序质量的一个重要测度,通常较大的方差就意味着要通过寻找减小工序方差的途径来改进工序。某杂志上刊载了关于两部机器生产的袋茶重量的数据(单位:克)如下,检验这两部机器生产的袋茶重量的方差是否存在显著差异(0.05)。 机器12.953.453.503.753.483.263.333.203.163
29、.203.223.383.903.363.253.283.203.222.983.453.703.343.183.353.12机器23.223.303.343.283.293.253.303.273.383.343.353.193.353.053.363.283.303.283.303.203.163.33详细答案: , 。 8.28, ,拒绝 ,两部机器生产的袋茶重量的方差存在显著差异。 第八章 方差分析与实验设计 练习题答案8.1表8.1-1填装量主体间效应的检验(单因素方差分析表)因变量: 填装量 源III 型平方和df均方FSig.偏 Eta 方非中心 参数观测到的幂b校正模型.007
30、a3.00210.098.001.66930.295.919截距295.7791295.7791266416.430.0001.0001266416.4301.000机器.0073.00210.098.001.66930.295.919误差.00415.000总计304.17119校正的总计.01118a. R 方 = .669(调整 R 方 = .603)b. 使用 alpha 的计算结果 = .01由表8.1-1得:p=0.0010.01,拒绝原假设,8.2表8.2-1满意度评分主体间效应的检验(单因素方差分析表)因变量: 评分 源III 型平方和df均方FSig.校正模型29.610a2
31、14.80511.756.001截距975.1561975.156774.324.000管理者29.610214.80511.756.001误差18.890151.259总计1061.00018校正的总计48.50017a. R 方 = .611(调整 R 方 = .559)由表8.2-1得:p=0.0010.05,拒绝原假设,8.3表8.3-1电池寿命主体间效应的检验(单因素方差分析表)因变量: 电池寿命 源III 型平方和df均方FSig.偏 Eta 方非中心 参数观测到的幂b校正模型615.600a2307.80017.068.000.74034.137.997截距22815.00012
32、2815.0001265.157.000.9911265.1571.000企业615.6002307.80017.068.000.74034.137.997误差216.4001218.033总计23647.00015校正的总计832.00014a. R 方 = .740(调整 R 方 = .697)b. 使用 alpha 的计算结果 = .05由表8.2-1得:p=0.0010.05,故不决绝原假设,无证据表明三种方法组装的产品数量之间有显著差异。8.5表8.5-1收获量主体间效应的检验(双因素方差分析表)因变量: 收获量 源III 型平方和df均方FSig.偏 Eta 方非中心 参数观测到的
33、幂b校正模型37.249a75.3218.082.001.82556.573.995截距2930.62012930.6204451.012.000.9974451.0121.000品种19.06744.7677.240.003.70728.959.958施肥方案18.18236.0619.205.002.69727.614.972误差7.90112.658总计2975.77020校正的总计45.15019a. R 方 = .825(调整 R 方 = .723)b. 使用 alpha 的计算结果 = .05由表8.5-1得,P1=0.0030.05,P2=0.0020.05,故拒绝原假设,表明不
34、同品种和施肥方案对收获量的影响显著。8.6表8.6-1行车时间主体间效应的检验(双因素方差分析表)因变量: 行车时间 源III 型平方和df均方FSig.偏 Eta 方非中心 参数观测到的幂b校正模型468.839a593.76822.875.000.827114.3741.000截距28078.561128078.5616849.822.000.9976849.8221.000时段288.3001288.30070.331.000.74670.3311.000路段180.515290.25722.018.000.64744.0371.000时段 * 路段.0242.012.003.997.0
35、00.006.050误差98.380244.099总计28645.78030校正的总计567.21929a. R 方 = .827(调整 R 方 = .790)b. 使用 alpha 的计算结果 = .05表8.6-2行车时间参数估计因变量: 行车时间 参数B标准 误差tSig.95% 置信区间偏 Eta 方非中心 参数观测到的幂b下限上限截距34.440.90538.036.00032.57136.309.98438.0361.000时段=非高峰期-6.1601.280-4.811.000-8.803-3.517.4914.811.996时段=高峰期0a.路段=路段11.8401.2801.437.164-.8034.483.0791.437.281路段=路段2-4.0801.280-3.186.004-6.723-1.437.2973.186.864路段=路段30a.时段=非高峰期 * 路段=路段1-.1201.811-.066.948-3.8573.617.000.066.050时段=非高峰期 * 路段=路段2-1.468E-0131.811.0001.000-3.7373.737.000.000.050时段=非高峰期 * 路段=路段30a.时段=高峰期 * 路段=路段10a.时段=高峰期 * 路段=路段20a.时段=高峰期 * 路段=路段30a.
限制150内