统计学原理与实务-徐静霞(共51页).docx
《统计学原理与实务-徐静霞(共51页).docx》由会员分享,可在线阅读,更多相关《统计学原理与实务-徐静霞(共51页).docx(50页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选优质文档-倾情为你奉上思考与练习一、 思考题1、 分类数据的图示方法,其中包括条形图、Pareto图、对比条形图和饼图等。顺序数据除了上文提到的条形图、pareto图、对比条形图、饼图之外还可以借助累积频数分布图和环形图来进行描述。2、 条形图、饼图、环形图、累积分布图、直方图、茎叶图、箱形图、散点图、线图、三维散点图、气泡图、雷达图等。3、 数据分组按照分组标志的不同可以分为单变量值分组和组距分组两种。根据组距不同还可以分为等距分组和不等距分组。4、 分组和编制频数分布表的具体步骤如下:第1步:排序。将变量按照一定的大小顺序进行排序,通常是由小至大的递增顺序,使用计算机软件进行整理时此步
2、可以忽略。第2步:确定组数。一般与数据本身的特点及数据的多少有关。由于分组的目的之一是为了观察数据分布的特征,因此组数的多少应适中。如组数太少,数据的分布就会过于集中,组数太多,数据的分布就会过于分散,这都不便于观察数据分布的特征和规律。组数的确定应以能够显示数据的分布特征和规律为目的。一般情况下,一组数据所分的组数 K不应少于 5组且不多于 15组,即 5 K15。在实际分组时,也可以借助经验公式来确定组数K, 其中n为数据的个数,对结果四舍五入取整数即为组数。 第3步:确定各组的组距。在组距分组中,一个组的最小值称为下限(low limit);一个组的最大值称为上限(upper limit
3、),组距(class width)是一个组的上限与下限的差。组距可根据全部数据的最大值和最小值及所分的组数来确定,即,组距=(最大值最小值)组数 。5、 饼图是用圆形及圆内扇形的角度来表示数值大小的图形,它主要用于表示一个样本(或总体)中各组成部分的数据占全部数据的比例,对于研究结构性问题十分有用。环形图中间有一个“空洞”,样本或总体中的每一部分数据用环中的一段表示。饼图只能显示一个总体和样本各部分所占的比例,而环形图则可以同时绘制多个总体或样本的数据系列,每一个总体或样本的数据系列为一个环。因此环形图可显示多个总体或样本各部分所占的相应比例,从而有利于进行比较研究。6、 直方图与条形图是不同
4、的,首先,条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的;直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或频率,宽度则表示各组的组距,因此其高度与宽度均有意义。其次,由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列。最后,条形图主要用于展示分类数据,而直方图则主要用于展示数值型数据。7、 茎叶图类似于横置的直方图,与直方图相比,茎叶图既能给出数据的分布状况,又能给出每一个原始数值,即保留了原始数据的信息。而直方图虽然能很好地显示数据的分布,但不能保留原始的数值。在应用方面,直方图通常适用于大批量数据,茎叶图通常适用于小批
5、量数据。8、 统计图一般由下面几个部分构成:(1)标题,即图的名称,简明扼要说明资料的中心内容,必要时注明时间和地点,一般写在图的正下方位置,同时将图形的编号写在标题的前面。(2)标目,分为纵标目与横标目,分别表示纵轴与横轴数字刻度的意义,一般注明度量衡单位。(3)点线条面,借以用来显示数据的元素,这是图形的主体部分,用于显示数据和展示数据的规律和关系。(4)刻度,指在纵轴或横轴上的坐标。(5)图例,其目的是为了使读者能区分统计图中各种图形的意义。9、 一般用“图优性(Graphical excellency)”来描述一个好的统计图。“图优性”是指图形能够在最短的时间内,用最少的笔墨,在最小的
6、空间里,给观众最多的思想。一张好的图形应包括如下基本特性:显示数据,集中反映图形的内容,避免歪曲,数据之间可进行有效比较,目的明确且唯一,统计描述和文字说明清晰。10、 常见的统计表一般由4个主要部分组成,即表头、行标题、列标题和数据,此外,必要时可以在统计表的下方加上表外附加说明。11、 在具体编制统计表时,应当遵循以下几点规则: (1)统计表的结构要合理,内容要简练,形式要美观。比如行标题、列标题、数字资料的位置应安排合理。如果有合计一项,一般放在最后一行或最后一列。有时,由于强调的问题不同,行标题和列标题可以互换,但应使统计表的横竖长度比例适当,避免出现过高或过长的表格形式。 (2)统计
7、表一般使用“三线表”的形式,如表324所示,表的上下两端横线一般用粗线条绘制,用细线把行标题和数字资料进行分离,统计表的左右两端不封口。这样使人看起来清楚、醒目、美观。如果数据关系复杂,单靠三条线是不够的,在这种情况下,数据资料也可用横线或竖线对数据资料进行分开,以表明数据的隶属关系,但必须用细线,总之表中尽量少用横竖线。(3)表头一般应包括表号、总标题和表中数据的单位等内容。总标题应简明确切地概括出统计表的内容,一般需要表明统计数据的时间(When)、地点(Where)以及何种数据(What),即标题内容应满足3W要求。如果表中的全部数据都是同一计量单位,可放在表的右上角标明,若各变量的计量
8、单位不同,则应放在每个变量后或单列出一列标明。(4)表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一。当数字因小可略而不计时,可写上“0”;当缺某项数字资料时,可用符号“”表示;不应有数字时用符号“一”表示,一张填好的统计表不应出现空白单元格。(5)在绘制统计表时,为保证统计资料的科学性与严肃性,在统计表下,应注明资料来源,以表明表中数据的可靠性,或是方便读者查阅使用。必要时,也可在统计表下添加注解,以对变量或数据进行必要的解释和文字说明。二、单项选择题1-5 C A C C D 6-10 C B B B C 11-15C D D B C 16-20C D D B B
9、21-25BB B C B 26-30A C A B D 三、练习题1、(1)属于顺序数据(2)计数项:成绩成绩汇总ABCDE82526156总计80(3)成绩人数累计频率A880.1B25330.4125C26590.7375D15740.925E6801总计80801(4)2、(1)(2)正态分布3、(1)接收频率累积 %接收频率累积 %49510.00791530.0059520.00891152.00691040.00691072.00791570.0049582.00891192.0059592.00994100.00994100.00合计0-合计0-(2)(3)VAR00001 S
10、tem-and-Leaf Plot Frequency Stem & Leaf 2.00 4 . 13 3.00 4 . 667 3.00 5 . 003 2.00 5 . 89 5.00 6 . 01144 5.00 6 . 57799 7.00 7 . 8.00 7 . 6.00 8 . 5.00 8 . 57789 3.00 9 . 022 1.00 9 . 7 Stem width: 10.00 Each leaf: 1 case(s)4、(2)接收频率%累积 %接收频率累积 %6944.00991122.00%791216.00109940.00%891632.0089856.00%
11、991854.00119770.00%1091672.0079682.00%1191486.00129490.00%129894.0069294.00%139498.00139298.00%1492100.00其他1100.00%100(3)VAR00004 Stem-and-Leaf Plot Frequency Stem & Leaf 2.00 6 . 89 6.00 7 . 8.00 8 . 11.00 9 . 9.00 10 . 7.00 11 . 4.00 12 . 4678 2.00 13 . 24 1.00 14 . 1 Stem width: 10.00 Each leaf:
12、1 case(s)5、(1)VAR00003 Stem-and-Leaf Plot Frequency Stem & Leaf 1.00 11 . 6 2.00 12 . 02 1.00 12 . 8 2.00 13 . 04 2.00 13 . 56 2.00 14 . 22 2.00 14 . 78 .00 15 . 1.00 15 . 5 2.00 16 . 02 1.00 16 . 8 4.00 17 . 0233 Stem width: 100.00 Each leaf: 1 case(s)6、(1)计数项:时间时间汇总7:0037:3048:0048:3079:002总计20(2)
13、7、(1)、(2)8、(1)(2)(3)9、(1)接收频率%累积 %接收频率%累积 %291010.0020-30510.00391626.0030-40826.00491238.0040-50638.00591664.0050-601364.00692084.0060-701084.00791296.0070-80696.00894100.0080-902100.00合计100-合计100-(2)(3)10、(1)(2)11、(1)(2)(3)第四章二、单项选择题1-5CADBD 6-10BCBDD 11-15BACCC 16-20BBBCD 21-25CDACC 26-28DAA三、计算分
14、析题4.1(1)首先将数据由小到大进行排列,中位数的位置为,即排在第7位的数值为中位数,即民生银行的营业收入为中位数,350.17亿元。平均数(2)即在第3个数值(145.13)和第4个数值(176.11)之间0.25的位置上,因此(亿元)即在第9个数值(1295.31)和第10个数值(3340.37)之间0.75的位置上,因此(亿元)(3)百分位数的位置由于不是整数,百分位数的位置就是第个位置的数据的整数部分,则第30个百分位数是第4个数,即华夏银行的营业收入176.11亿元为第30个百分数。(4)=1786.559(亿元),4.2通常情况下,这种比赛对选手的打分是计算切尾均值,即同时集中平
15、均数和中位数两种统计量的优点,且考虑到歌手B的得分中存在极端高分,故用切尾均值比较合适。首先将歌手A的分数按升序整理为顺序统计量,得到,7.9, 8.1, 8.2, 8.3, 8.5, 8.6, 8.6, 8.7, 8.9因为极端高分只有一个,因此去掉一个最高分,去掉一个最低分,取。则歌手A的最后得分为:歌手B的最后得分为:由以上计算结果,可知歌手A的分数略高于歌手B。4.3若按单利计算:设本金为V,则该笔本金12年应得的利息总和=V(0.033+0.051+0.082+0.13+0.151)=0.75V则平均年利率若按复利计算: 则平均年利率4.4已知(元),(元),则(元)因为,因此该公司
16、职工月工资收入呈左偏分布。4.5(1)众数72和74.3中位数的位置为则中位数为排序后处于15位和16位的两个数值的平均数,即平均数为(2)即在第7个数值(71.2)和第8个数值(71.2)之间0.5的位置上,因此(g/L)即在第22个数值(75.8)和第23个数值(75.9)之间0.5的位置上,因此(g/L)(3)众数72和74.3的频数均为4,故两种情况下异众比率均为极差为标准差(4)用Excel求得偏态系数为-0.013,峰态系数为-0.446。(5)由于众数与平均数非常接近,可知数据分布应较为对称,又由于标准差数值较小,可知数据离散程度应不大。这一点同时可由偏态系数-0.013和峰态系
17、数-0.446得到印证,即女大学生血清总蛋白含量数据属轻微的左偏分布,同时略有扁平。4.6已知,根据经验法则,有95.45%的年份里二氧化硫超标的天数在2137天之间,有2.275%的年份里超标天数大于37天,有0.00135%的年份里超标天数大于41天,有15.865%的年份里超标天数少于25天。4.7 (元/人)(元/人)(元/人)(元/人)由以上计算可得:(1)B企业的平均工资高于A企业的平均工资。(2)由于,所以A企业的平均工资更具有代表性。4.8(1)2008年粗钢产量的平均数(百万吨)2008年粗钢产量的中位数的位置为,故中位数(百万吨)(2)2009年粗钢产量的四分位数为即为第3
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 原理 实务 徐静霞 51
限制150内