第四章描述统计精选文档.ppt
第四章描述统计本讲稿第一页,共四十一页【实例描述实例描述】1998年夏天,麦奎尔和索沙激烈地角逐美国主要棒球单季全垒打的纪录,成为大众关注的焦点。最终,麦奎尔以70支全垒打刷新纪录。麦奎尔这项最新成就相比起他在职业棒球生涯中的全垒打纪录表现如何呢?以下是麦奎尔从1987年(他的职业棒球生涯的第一年)到1999年之间的全垒打数:我们也可以把麦奎尔的纪录与纽约洋基队外野手马里斯(RogerMaris)的纪录比较一下。麦奎尔所破的单季纪录,原先就是由马里斯保持的。以下是马里斯在美国联盟十年当中的全垒打数,从小到大排序为:8131416232628333961由这两组数据,这两位美国史上都很优秀的棒球选手谁的表现更好些呢?这就可以用描述统计的方法来得到结论。本讲稿第二页,共四十一页4.1数据描述4.1.1数据频数表与直方图4.1.2直方图与茎叶图方法4.1.3样本数据的集中趋势4.1.4样本数据的离散特征4.1.5样本数据特征的综合表达:箱形图本讲稿第三页,共四十一页4.1.1数据频数表与直方图【例】某班级40名同学数学课程考试成绩资料如下(单位:分)68898884868775737268758299588154797695767160916576727685899264578381787772617087要分析学生的考试成绩,可以通过编制数据表来反映学生的学习成绩情况。具体步骤如下:本讲稿第四页,共四十一页4.1.1数据频数表与直方图(1)将原始资料按从小到大的顺序排列,确定数据值的变动范围。5457586061646568687071727272737575767676 7676777881818283848586878788898991929599可以看出,学生成绩的基本情况是:最低分54分,最高分99分,成绩的变动幅度在5499分之间,差距为995445分,这个差距称为极差极差。另外,还可以从数列中可看出大多数学生的成绩在6090分之间。不及格和优秀的学生不多。本讲稿第五页,共四十一页4.1.1数据频数表与直方图(2)确定组数和组距。为了反映总体不同性质组成部分的分布特征,可以考虑根据研究对象的具体情况来分分组组,每组数据上限和下限的差称为组距组距。对学习成绩的分析可以从不及格、及格、中、良好及优秀方面来考虑,于是考虑分组为5组。根据需要确定组距,如果采用等距分组,则组距(最大值最小值)组数4559(分)。而实际上为了便于计算,组距一般用5或10的倍数,尽量采用整数,所以本例采用10分作为组距。本讲稿第六页,共四十一页4.1.1数据频数表与直方图(3)确定组限和组限的表示方法。习惯上用离散型变量离散型变量的方法表示成绩。用整数来作组限,还要注意,最低组的下限要小于最小变量值,最高组的上限应最大变量值。根据上面分析分别统计各组学习成绩出现的次数(也称为频数频数),并计算频频率率(频数/总数),形成频数分布表频数分布表,如表3-1所示。本讲稿第七页,共四十一页4.1.1数据频数表与直方图在分组计算的基础上计算累计频数累计频数和累计频率累计频率。如果从最小变量值向最大变量值累计,称为向上累计,反之为向下累计,如表3-2所示。本讲稿第八页,共四十一页4.1.1数据频数表与直方图在分组的基础上,把总体的所有单位按组归并排列,形成总体中各个单位在各组间的分布,称为频数分布频数分布,又称分布数列。分布数列包括两个要素:总体按其标志所分的组和各组所分布的单位数。分布在各组的个体单位数称频数频数或次数次数,各组次数与总次数之比称频率频率。本讲稿第九页,共四十一页4.1.2直方图与茎叶图方法1直方图直方图又称柱状图、质量分布图,是一种几何形图表,它是根据从生产过程中收集来的质量数据分布情况,画成以组距为底边、以频数为高度的一系列连接起来的直方型矩形图。本讲稿第十页,共四十一页4.1.2直方图与茎叶图方法以下是美国的50个州按65岁以上居民所占比率划分的分布表:本讲稿第十一页,共四十一页4.1.2直方图与茎叶图方法绘制出的直方图:本讲稿第十二页,共四十一页4.1.2直方图与茎叶图方法2茎叶图茎叶图又称“枝叶图”,是一种分析未分组原始数据的统计图,既能给出数据的分布状况,又保留着原始数据的个体信息,是有效的探索性数据分析工具。它的思路是将数组中的数按位数进行比较,将数的大小基本不变或变化不大的位作为一个主干(茎),将变化大的位的数作为分枝(叶),列在主干的后面,这样就可以清楚地看到每个主干后面的几个数,每个数具体是多少。例如,数字5.4可以分成茎是5,叶是4,按照这种定义,茎包括小数点左边的数字,叶包括小数点右边的数字。本讲稿第十三页,共四十一页4.1.2直方图与茎叶图方法还是以美国65岁以上居民所占比率对所列举的美国的50个州为例做茎叶图。本讲稿第十四页,共四十一页4.1.3样本数据的集中趋势1均值(MEAN)平均指标又称统计平均数,指同类社会现象总体内各单位某一数量标志在一定时间、地点条件下数量差异抽象化的代表性水平指标,其数值表现为平均值平均值,简称均值均值。它反映了总体分布集中趋势的一般特征。平均值主要是简单算术平均值,是将各单位标志值的总和除以相应的总体单位的项数而得的,若有样本观测值,其中n是样本容量,均值为:=,式中,xi表示总体第i个单位的标志值。结果,样本均值样本均值表示为,总体观察值的数量记为N,总体均值总体均值表示为,则=。本讲稿第十五页,共四十一页4.1.3样本数据的集中趋势这样,我们计算一下两位选手的全垒打数均值:可以看出,麦奎尔的平均成绩明显高于马里斯。本讲稿第十六页,共四十一页4.1.3样本数据的集中趋势2中位数(MEDIAN)中位数是指全体数值按大小排列后位于中间的数值。一列观测值,排好序后得到:x(1),x(2),x(n)称作次序统计量次序统计量。其中位数就是:本讲稿第十七页,共四十一页4.1.3样本数据的集中趋势我们把两名运动员的成绩从小到大排序:麦奎尔:992232333939424952586570马里斯:813141623 26 28333961显然,当观测值的总个数是奇数时,总存在最中间的那个数,39就是我们要的中位数;而当观测值的总个数是偶数时,没有正中间的那个观测值,于是就选取正中间的那对观测值23和26的平均值表示其中位数:。本讲稿第十八页,共四十一页4.1.3样本数据的集中趋势3众数(MODE)众数是一组数列中出现次数最多的数值。一组数据可能有众数,也可能没有众数;可能有一个众数,也可能有多个众数。如在麦奎尔的数据中众数有9和39,而在马里斯的数据中就没有众数。本讲稿第十九页,共四十一页4.1.3样本数据的集中趋势4.均值、中位数、众数的选择由于均值是根据总体所有标志值来计算的,所以又称为数值平均数,而众数和中位数是根据标志值所处的位置来决定的,所以又称为位置平均数。它们所反映的一般水平,有不同的意义,有不同的计算方法,也有不同的应用场合,如表3-6所示。本讲稿第二十页,共四十一页4.1.4样本数据的离散特征在研究现象总体标志的一般水平时,不仅要研究总体标志的集中趋势,还要研究总体标志的离中趋势,如研究价格背离价值的平均程度。研究离中趋势可以通过计算标志变异指标来进行。标志变异指标是同统计平均数相联系的一种综合指标,用于度量随机变量在取值区间内的分布情况,主要有方差、标准差、四分位数等。本讲稿第二十一页,共四十一页4.1.4样本数据的离散特征1方差与标准差方差方差 =标准差标准差当观测值离均值散布得越远,就越大。当观测值都相同时s=0,。本讲稿第二十二页,共四十一页4.1.4样本数据的离散特征总体标准差用表示,则总体方差为=本讲稿第二十三页,共四十一页4.2 用用EXCEL进行数据初步分析进行数据初步分析4.2.1频数分析4.2.2数字描述4.2.3图表描述本讲稿第二十四页,共四十一页4.2.1频数分析4.2.1频数分析为了更好的描述数据的分布状态,Excel提供了一个频数分布函数(FREQUENCY),利用它可以对数据进行分组,建立频数分布,从而更好的描述数据分布状态。语法:FREQUENCY(data_array,bins_array)其中:Data_array为一数组或对一数组值的引用,用来计算频率。如果data_array中不包含任何数值,函数FREQUENCY返回零数组。Bins_array为间隔的数组或对间隔的引用,该间隔用于对data_array中的数值进行分组。如果bins_array中不包含任何数值,函数FREQUENCY返回data_array中元素的个数。本讲稿第二十五页,共四十一页4.2.1频数分析例例3-1:利用例例2-6排序后的资料(图2-19),分别统计60分以下、60-69分、70-79分、80-89分、90分以上的学生人数。(1)分别在单元格C1、D1中输入“分组”、“频数”字样。(2)在单元格区域C2:C5中分别输入60、70、80、90,分别表示分数在60分以下、60-69分、70-79分、80-89分、90分以上。(3)选定单元格区域D2:D6,单击编辑栏左边的“插入函数”按钮,弹出“插入函数”对话框,在“函数分类”列表中选择“统计”,在“函数名”列表中选择“FREQUENCY”,单击“确定”按钮,弹出“函数参数”对话框,如图3-2所示。本讲稿第二十六页,共四十一页4.2.1频数分析图3-2“函数参数”对话框本讲稿第二十七页,共四十一页4.2.1频数分析(4)在数据区域“data_array”中输入B2:B11,在数据接受区域“bins_array”中输入C2:C5。由于频数分布是数组操作,所以不能直接单击“确定”按钮,而应按“Ctrl+Shift”组合键,同时按回车键,得到频数分布结果,如图3-3所示。图3-3 频数分布结果本讲稿第二十八页,共四十一页4.2.2数字描述1均值函数语法:AVERAGE(number1,number2,)其中,number1,number2,为需要计算平均值的1到30个参数,参数可以是数字,或者是涉及数字的名称、数组和引用,如果数组或单元格引用参数中包含文字、逻辑值或空单元格,这些值将被忽略,但包含零值的单元格将计算在内。本讲稿第二十九页,共四十一页4.2.2数字描述2中位数函数。语法:MEDIAN(number1,number2,.)如果参数集合中包含有偶数个数字,函数MEDIAN()将返回位于中间的两个数的平均值。本讲稿第三十页,共四十一页4.2.2数字描述3众数函数。众数函数MODE()返回某一数组或数据区域中出现频率最多的数值。语法:MODE(number1,number2,.)如果数据集合中不含有重复的数据,则MODE()函数返回错误值N/A。本讲稿第三十一页,共四十一页4.2.2数字描述4最大(小)值函数。语法:MAX(number1,number2,.)、MIN(number1,number2,.)如果参数不包含数字,函数MAX(MIN)返回0。本讲稿第三十二页,共四十一页4.2.2数字描述5标准差函数样本标准差函数用来估算样本的标准偏差,反映相对于平均值(mean)的离散程度。语法:STDEV(number1,number2,.)总体标准差函数返回以参数形式给出的整个样本总体的标准偏差,反映相对于平均值(mean)的离散程度,语法:STDEVP(number1,number2,.)。本讲稿第三十三页,共四十一页4.2.3图表描述1直方图Excel提供了一个直方图分析工具,是Excel提供分析工具库的一种,可用于确定数据的频数分布、累计频数分布等。利用分析工具库中的分析工具可以进行更加复杂的统计计算及数据分析。本讲稿第三十四页,共四十一页4.2.3图表描述图3-11“加载宏”对话框 图3-12“数据分析”对话框 本讲稿第三十五页,共四十一页4.2.3图表描述图3-13“直方图”对话框本讲稿第三十六页,共四十一页4.2.3图表描述例例3-3:以例2-6资料,用直方图分析工具对学生成绩进行分析。(1)打开工作表,将成绩按升序排序。(2)在单元格D1输入文字“分组”,在单元格区域D2:D6分别输入59、69、79、89、99,表示分组区间的间隔点。(3)选择“工具”菜单下的“数据分析”选项,在“数据分析”对话框中选择“直方图”,单击“确定”按钮。(4)在“直方图”对话框的“输入区域”后输入单元格区域$B$1:$B$11,在“接收区域”后输入$D$1:$D$6,选中“标志”复选框,在“输出区域”后输入$E$1,选中“图表输出”复选框,如图3-14所示。本讲稿第三十七页,共四十一页4.2.3图表描述图3-14 直方图选项设置本讲稿第三十八页,共四十一页4.2.3图表描述(5)单击“确定”按钮,Excel会同时生成一个频率分布表和一个图表,如图3-15所示。图3-15 频率分布表和直方图本讲稿第三十九页,共四十一页4.2.3图表描述2.茎叶图例例3-4:以下是美国的50个州65岁以上居民所占比率划分,用茎叶图工具进行分析。本讲稿第四十页,共四十一页4.2.3图表描述(1)排序。(2)提取“茎”和“叶”。(3)制作茎叶图的“茎”和“叶”。图3-16 Excel 中制作茎叶图的示意图=INT(A2)本讲稿第四十一页,共四十一页