统计学原理与实务徐静霞34270.pdf
《统计学原理与实务徐静霞34270.pdf》由会员分享,可在线阅读,更多相关《统计学原理与实务徐静霞34270.pdf(37页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、思考与练习 一、思考题 1、分类数据的图示方法,其中包括条形图、Pareto 图、对比条形图和饼图等。顺序数据除了上文提到的条形图、pareto 图、对比条形图、饼图之外还可以借助累积频数分布图和环形图来进行描述。2、条形图、饼图、环形图、累积分布图、直方图、茎叶图、箱形图、散点图、线图、三维散点图、气泡图、雷达图等。3、数据分组按照分组标志的不同可以分为单变量值分组和组距分组两种。根据组距不同还可以分为等距分组和不等距分组。4、分组和编制频数分布表的具体步骤如下:第 1 步:排序。将变量按照一定的大小顺序进行排序,通常是由小至大的递增顺序,使用计算机软件进行整理时此步可以忽略。第 2 步:确
2、定组数。一般与数据本身的特点及数据的多少有关。由于分组的目的之一是为了观察数据分布的特征,因此组数的多少应适中。如组数太少,数据的分布就会过于集中,组数太多,数据的分布就会过于分散,这都不便于观察数据分布的特征和规律。组数的确定应以能够显示数据的分布特征和规律为目的。一般情况下,一组数据所分的组数 K 不应少于 5 组且不多于 15 组,即 5 K15。在实际分组时,也可以借助经验公式来确定组数 K,2lglg1nK 其中 n 为数据的个数,对结果四舍五入取整数即为组数。第 3 步:确定各组的组距。在组距分组中,一个组的最小值称为下限(low limit);一个组的最大值称为上限(upper
3、limit),组距(class width)是一个组的上限与下限的差。组距可根据全部数据的最大值和最小值及所分的组数来确定,即,组距=(最大值最小值)组数 。5、饼图是用圆形及圆内扇形的角度来表示数值大小的图形,它主要用于表示一个样本(或总体)中各组成部分的数据占全部数据的比例,对于研究结构性问题十分有用。环形图中间有一个“空洞”,样本或总体中的每一部分数据用环中的一段表示。饼图只能显示一个总体和样本各部分所占的比例,而环形图则可以同时绘制多个总体或样本的数据系列,每一个总体或样本的数据系列为一个环。因此环形图可显示多个总体或样本各部分所占的相应比例,从而有利于进行比较研究。6、直方图与条形图
4、是不同的,首先,条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的;直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或频率,宽度则表示各组的组距,因此其高度与宽度均有意义。其次,由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列。最后,条形图主要用于展示分类数据,而直方图则主要用于展示数值型数据。7、茎叶图类似于横置的直方图,与直方图相比,茎叶图既能给出数据的分布状况,又能给出每一个原始数值,即保留了原始数据的信息。而直方图虽然能很好地显示数据的分布,但不能保留原始的数值。在应用方面,直方图通常适用于大批量数据,茎叶图通常适用于
5、小批量数据。8、统计图一般由下面几个部分构成:(1)标题,即图的名称,简明扼要说明资料的中心内容,必要时注明时间和地点,一般写在图的正下方位置,同时将图形的编号写在标题的前面。(2)标目,分为纵标目与横标目,分别表示纵轴与横轴数字刻度的意义,一般注明度量衡单位。(3)点线条面,借以用来显示数据的元素,这是图形的主体部分,用于显示数据和展示数据的规律和关系。(4)刻度,指在纵轴或横轴上的坐标。(5)图例,其目的是为了使读者能区分统计图中各种图形的意义。9、一般用“图优性(Graphical excellency)”来描述一个好的统计图。“图优性”是指图形能够在最短的时间内,用最少的笔墨,在最小的
6、空间里,给观众最多的思想。一张好的图形应包括如下基本特性:显示数据,集中反映图形的内容,避免歪曲,数据之间可进行有效比较,目的明确且唯一,统计描述和文字说明清晰。10、常见的统计表一般由 4 个主要部分组成,即表头、行标题、列标题和数据,此外,必要时可以在统计表的下方加上表外附加说明。11、在具体编制统计表时,应当遵循以下几点规则:(1)统计表的结构要合理,内容要简练,形式要美观。比如行标题、列标题、数字资料的位置应安排合理。如果有合计一项,一般放在最后一行或最后一列。有时,由于强调的问题不同,行标题和列标题可以互换,但应使统计表的横竖长度比例适当,避免出现过高或过长的表格形式。(2)统计表一
7、般使用“三线表”的形式,如表 324 所示,表的上下两端横线一般用粗线条绘制,用细线把行标题和数字资料进行分离,统计表的左右两端不封口。这样使人看起来清楚、醒目、美观。如果数据关系复杂,单靠三条线是不够的,在这种情况下,数据资料也可用横线或竖线对数据资料进行分开,以表明数据的隶属关系,但必须用细线,总之表中尽量少用横竖线。(3)表头一般应包括表号、总标题和表中数据的单位等内容。总标题应简明确切地概括出统计表的内容,一般需要表明统计数据的时间(When)、地点(Where)以及何种数据(What),即标题内容应满足 3W 要求。如果表中的全部数据都是同一计量单位,可放在表的右上角标明,若各变量的
8、计量单位不同,则应放在每个变量后或单列出一列标明。(4)表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一。当数字因小可略而不计时,可写上“0”;当缺某项数字资料时,可用符号“”表示;不应有数字时用符号“一”表示,一张填好的统计表不应出现空白单元格。(5)在绘制统计表时,为保证统计资料的科学性与严肃性,在统计表下,应注明资料来源,以表明表中数据的可靠性,或是方便读者查阅使用。必要时,也可在统计表下添加注解,以对变量或数据进行必要的解释和文字说明。二、单项选择题 1-5 C A C C D 6-10 C B B B C 11-15C D D B C 16-20C D D B
9、 B 21-25BB B C B 26-30A C A B D 三、练习题 1、(1)属于顺序数据(2)计数项:成绩 成绩 汇总 A B C D E 8 25 26 15 6 总计 80 (3)成绩 人数 累计 频率 A 8 8 0.1 B 25 33 0.4125 C 26 59 0.7375 D 15 74 0.925 E 6 80 1 总计 80 80 1 (4)汇总ABCDE051015202530ABCDE汇总汇总2、(1)(2)正态分布 3、(1)接收 频率 累积%接收 频率 累积%49 5 10.00 79 15 30.00 59 5 20.00 89 11 52.00 69 1
10、0 40.00 69 10 72.00 79 15 70.00 49 5 82.00 89 11 92.00 59 5 92.00 99 4 100.00 99 4 100.00 合计 0-合计 0-(2)(3)02468101214161820优良中及格不及格甲班乙班4、(2)(3)接收 频率%累积%接收 频率 累积%69 4 4.00 99 11 22.00%79 12 16.00 109 9 40.00%89 16 32.00 89 8 56.00%99 18 54.00 119 7 70.00%109 16 72.00 79 6 82.00%119 14 86.00 129 4 90.
11、00%129 8 94.00 69 2 94.00%139 4 98.00 139 2 98.00%149 2 100.00 其他 1 100.00%100 5、(1)6、(1)计数项:时间 时间 汇总 7:00 3 7:30 4 8:00 4 8:30 7 9:00 2 总计 20 (2)0123456787:007:308:008:309:00汇总汇总 7、(1)、(2)050010001500200025003000350040004500台式机笔记本联想戴尔惠普华硕苹果索尼宏基海尔三星神州联想戴尔惠普华硕苹果索尼宏基海尔汇总7:007:308:008:309:00 8、(1)(2)(3
12、)050000100000150000200000250000300000050000 100000 150000 200000全社会固定资产投资全社会固定资产投资01000002000003000004000005000002006 2007 2008 2009 2010国内生产总值全社会固定资产投资社会零售品消费总额01000002000003000000100000200000全社会固定资产投资全社会固定资产投资 9、(1)接收 频率%累积%接收 频率%累积%29 10 10.00 20-30 5 10.00 39 16 26.00 30-40 8 26.00 49 12 38.00 4
13、0-50 6 38.00 59 16 64.00 50-60 13 64.00 69 20 84.00 60-70 10 84.00 79 12 96.00 70-80 6 96.00 89 4 100.00 80-90 2 100.00 合计 100-合计 100-(2)(3)010000020000030000040000020062007200820092010国内生产总值全社会固定资产投资社会零售品消费总额 10、(1)(2)0100020003000400050006000700080009000050100150降雨量(mm)降雨量(mm)11、(1)(2)(3)第四章 二、单项选
14、择题 1-5CADBD 6-10BCBDD 11-15BACCC 16-20BBBCD 21-25CDACC 26-28DAA 三、计算分析题 4.1(1)首先将数据由小到大进行排列,中位数的位置为7211321n,即排在第 7位的数值为中位数,即民生银行的营业收入为中位数,eM350.17 亿元。平均数亿元809.14621384.10604.12337.402904.49001nxxnii(2)25.34134nQL的位置 即LQ在第 3 个数值(145.13)和第 4 个数值(176.11)之间 0.25 的位置上,因此 875.15225.0)13.14511.176(13.145LQ
15、(亿元)5.79413343nQU的位置 即UQ在第 9 个数值(1295.31)和第 10 个数值(3340.37)之间 0.75 的位置上,因此 105.282975.0)31.129537.3340(31.1295UQ(亿元)(3)百分位数的位置 9.3131003013100Pi 由于i不是整数,百分位数的位置就是第1i个位置的数据的整数部分,则第 30 个百分位数是第 4 个数,即华夏银行的营业收入 176.11 亿元为第 30 个百分数。(4)112nxxsnii=1786.559(亿元),亿元809.1462x 65.0-599.1786809.1462-15.297sxxzii
16、 4.2 通常情况下,这种比赛对选手的打分是计算切尾均值,即同时集中平均数和中位数两种统计量的优点,且考虑到歌手 B 的得分中存在极端高分,故用切尾均值比较合适。首先将歌手 A 的分数按升序整理为顺序统计量,得到 1x,2x,3x,4x,5x,6x,7x,8x,9x 7.9,8.1,8.2,8.3,8.5,8.6,8.6,8.7,8.9 因为极端高分只有一个,因此去掉一个最高分,去掉一个最低分,取91。则歌手 A 的最后得分为:43.877.82.81.8299192983291992919191991xxxxxxx 歌手 B 的最后得分为:37.877.82.81.8299192983291
17、992919191991xxxxxxx 由以上计算结果,可知歌手 A 的分数略高于歌手 B。4.3 若按单利计算:设本金为 V,则该笔本金 12 年应得的利息总和=V(0.033+0.051+0.082+0.13+0.151)=0.75V 则平均年利率%5.71075.0VVfxfx 若按复利计算:则平均年利率%43.7115.011.0108.0105.0103.0110323x 4.4 已知20000M(元),1850eM(元),则17752200018503230MMxe(元)因为0MMxe,因此该公司职工月工资收入呈左偏分布。4.5(1)众数0M72 和 74.3 中位数的位置为5.1
18、5213021n 则中位数为排序后处于 15 位和 16 位的两个数值的平均数,即7425.745.73eM 平均数为82.7330687.698.783.741nxxnii(2)5.74304nQL的位置 即LQ在第 7 个数值(71.2)和第 8 个数值(71.2)之间 0.5 的位置上,因此 2.715.0)2.712.71(2.71LQ(g/L)5.22430343nQU的位置 即UQ在第 22 个数值(75.8)和第 23 个数值(75.9)之间 0.5 的位置上,因此 85.755.0)8.759.75(8.75UQ(g/L)(3)众数 72 和 74.3 的频数均为 4,故两种情
19、况下异众比率均为%67.8630411imimirfffffV 极差为 5.15655.80minmaxiixxR 标准差91.313082.736882.733.7412212nxxsnii(4)用 Excel 求得偏态系数为-0.013,峰态系数为-0.446。(5)由于众数与平均数非常接近,可知数据分布应较为对称,又由于标准差数值较小,可知数据离散程度应不大。这一点同时可由偏态系数-0.013 和峰态系数-0.446 得到印证,即女大学生血清总蛋白含量数据属轻微的左偏分布,同时略有扁平。4.6 已知29x,4s,根据经验法则,有 95.45%的年份里二氧化硫超标的天数在 2137天之间,
20、有 2.275%的年份里超标天数大于 37 天,有 0.00135%的年份里超标天数大于 41 天,有 15.865%的年份里超标天数少于 25 天。4.7 22.1623267433400fxfxA(元/人)25.52626796.74056237)(2ffxxsA(元/人)%42.3222.162325.526AAAxsv 1664ffxxB(元/人)17.546298304)(2ffxxsB(元/人)%82.32166417.546BBBxsv 由以上计算可得:(1)B 企业的平均工资高于 A 企业的平均工资。(2)由于ABvv,所以 A 企业的平均工资更具有代表性。4.8(1)2008
21、 年粗钢产量的平均数37.901nxxnii(百万吨)2008年 粗 钢 产 量 的 中 位 数 的 位 置 为5.6211221n,故 中 位 数7.4926.538.45eM(百万吨)(2)2009 年粗钢产量的四分位数为 34124nQL的位置 即LQ为第 3 个数值,即3.25LQ(百万吨)9412343nQU的位置 即UQ为第 9 个数值,即60UQ(百万吨)则 2009 年粗钢产量的四分位差为7.343.2560LUdQQQ(百万吨)2009 年粗钢产量的平均数25.861nxxnii(百万吨)因此 2009 年粗钢产量的标准差为 16.15311225.869.1525.868.
22、56712212nxxsnii(百万吨)(3)2008 年粗钢产量的标准差为 23.13211237.909.1937.903.50012212nxxsnii(百万吨)因此 2008 年中国、印度、俄罗斯和巴西的z值分别为:1.323.13237.90-3.500sxxz中国中国 25.023.13237.90-8.57sxxz印度印度 17.023.13237.90-5.68sxxz俄罗斯俄罗斯 43.023.13237.90-7.33sxxz巴西巴西 2009 年中国、印度、俄罗斯和巴西的z值分别为:14.316.15325.86-8.567sxxz中国中国 15.0-16.15325.8
23、6-8.62sxxz印度印度-0.1716.15325.86-60sxxz俄罗斯俄罗斯-0.3916.15325.86-5.26sxxz巴西巴西 由以上计算结果可知,中国、俄罗斯、巴西三国的标准分数变数不大,而印度则有明显提高,因此印度粗钢产量的排名也由 2008 年的第 5 位上升到 2009 年的第 3 位。4.9(1)由 20-30 岁年龄组的分数计算离散系数为%73.2211025111xsv 由 60-64 岁年龄组的分数计算离散系数为%78.279025222xsv 因此,60-64 岁年龄组的分数差异较大。(2)由于 20-30 岁年龄组的 WAIS 分数大致是正态分布,根据经验
24、法则,可知 20-30岁年龄组中有 68.27%的人分数在 85135 之间。(3)由于 60-64 岁年龄组的 WAIS 分数大致是正态分布,根据经验法则,可知 60-64岁年龄组中有 68.27%的人分数在 65115 之间。(4)莎拉的标准分为125110-13511sxxz 母亲的标准分为2.12590-12022sxxz 由计算结果可知,莎拉的母亲在 60-64 年龄组中分数比较高。4.10064.05.19043027744.1216550028.10815067.6803513313iiikiiifMnsfxMSK 748.0328.1081501464325660034414n
25、sfxMKkiii 4.11(1)茎叶图如下:数茎 树叶 数据个数 6 389 3 7 01267899999 11 8 000112 6(2)最省油自动挡 SUV 耗油量的平均数和标准差分别为 32.8201.109.95.53.51nxxnii自 59.1112nxxsnii自(3)最省油手动挡 SUV 耗油量的平均数和标准差分别为 615.7202.81.88.63.61nxxnii手 53.0112nxxsnii手 因此%11.1932.859.1自自自xsv%96.6615.753.0手手手xsv 由以上结果可知,自动挡 SUV 耗油量的离散程度较大。(4)平均来看,自动挡 SUV
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 原理 实务 徐静霞 34270
限制150内