第四章描述统计优秀PPT.ppt
《第四章描述统计优秀PPT.ppt》由会员分享,可在线阅读,更多相关《第四章描述统计优秀PPT.ppt(41页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第四章描述统计第一页,本课件共有41页【实例描述实例描述】1998年夏天,麦奎尔和索沙激烈地角逐美国主要棒球单季全垒打的纪录,成为大众关注的焦点。最终,麦奎尔以70支全垒打刷新纪录。麦奎尔这项最新成就相比起他在职业棒球生涯中的全垒打纪录表现如何呢?以下是麦奎尔从1987年(他的职业棒球生涯的第一年)到1999年之间的全垒打数:我们也可以把麦奎尔的纪录与纽约洋基队外野手马里斯(RogerMaris)的纪录比较一下。麦奎尔所破的单季纪录,原先就是由马里斯保持的。以下是马里斯在美国联盟十年当中的全垒打数,从小到大排序为:8131416232628333961由这两组数据,这两位美国史上都很优秀的棒球
2、选手谁的表现更好些呢?这就可以用描述统计的方法来得到结论。第二页,本课件共有41页4.1数据描述4.1.1数据频数表与直方图4.1.2直方图与茎叶图方法4.1.3样本数据的集中趋势4.1.4样本数据的离散特征4.1.5样本数据特征的综合表达:箱形图第三页,本课件共有41页4.1.1数据频数表与直方图【例】某班级40名同学数学课程考试成绩资料如下(单位:分)68898884868775737268758299588154797695767160916576727685899264578381787772617087要分析学生的考试成绩,可以通过编制数据表来反映学生的学习成绩情况。具体步骤如下:第
3、四页,本课件共有41页4.1.1数据频数表与直方图(1)将原始资料按从小到大的顺序排列,确定数据值的变动范围。5457586061646568687071727272737575767676 7676777881818283848586878788898991929599可以看出,学生成绩的基本情况是:最低分54分,最高分99分,成绩的变动幅度在5499分之间,差距为995445分,这个差距称为极差极差。另外,还可以从数列中可看出大多数学生的成绩在6090分之间。不及格和优秀的学生不多。第五页,本课件共有41页4.1.1数据频数表与直方图(2)确定组数和组距。为了反映总体不同性质组成部分的分布
4、特征,可以考虑根据研究对象的具体情况来分组分组,每组数据上限和下限的差称为组距组距。对学习成绩的分析可以从不及格、及格、中、良好及优秀方面来考虑,于是考虑分组为5组。根据需要确定组距,如果采用等距分组,则组距(最大值最小值)组数4559(分)。而实际上为了便于计算,组距一般用5或10的倍数,尽量采用整数,所以本例采用10分作为组距。第六页,本课件共有41页4.1.1数据频数表与直方图(3)确定组限和组限的表示方法。习惯上用离散型变量离散型变量的方法表示成绩。用整数来作组限,还要注意,最低组的下限要小于最小变量值,最高组的上限应最大变量值。根据上面分析分别统计各组学习成绩出现的次数(也称为频频数
5、数),并计算频率频率(频数/总数),形成频数分布表频数分布表,如表3-1所示。第七页,本课件共有41页4.1.1数据频数表与直方图在分组计算的基础上计算累计频数累计频数和累计频率累计频率。如果从最小变量值向最大变量值累计,称为向上累计,反之为向下累计,如表3-2所示。第八页,本课件共有41页4.1.1数据频数表与直方图在分组的基础上,把总体的所有单位按组归并排列,形成总体中各个单位在各组间的分布,称为频数分布频数分布,又称分布数列。分布数列包括两个要素:总体按其标志所分的组和各组所分布的单位数。分布在各组的个体单位数称频数频数或次数次数,各组次数与总次数之比称频率频率。第九页,本课件共有41页
6、4.1.2直方图与茎叶图方法1直方图直方图又称柱状图、质量分布图,是一种几何形图表,它是根据从生产过程中收集来的质量数据分布情况,画成以组距为底边、以频数为高度的一系列连接起来的直方型矩形图。第十页,本课件共有41页4.1.2直方图与茎叶图方法以下是美国的50个州按65岁以上居民所占比率划分的分布表:第十一页,本课件共有41页4.1.2直方图与茎叶图方法绘制出的直方图:第十二页,本课件共有41页4.1.2直方图与茎叶图方法2茎叶图茎叶图又称“枝叶图”,是一种分析未分组原始数据的统计图,既能给出数据的分布状况,又保留着原始数据的个体信息,是有效的探索性数据分析工具。它的思路是将数组中的数按位数进
7、行比较,将数的大小基本不变或变化不大的位作为一个主干(茎),将变化大的位的数作为分枝(叶),列在主干的后面,这样就可以清楚地看到每个主干后面的几个数,每个数具体是多少。例如,数字5.4可以分成茎是5,叶是4,按照这种定义,茎包括小数点左边的数字,叶包括小数点右边的数字。第十三页,本课件共有41页4.1.2直方图与茎叶图方法还是以美国65岁以上居民所占比率对所列举的美国的50个州为例做茎叶图。第十四页,本课件共有41页4.1.3样本数据的集中趋势1均值(MEAN)平均指标又称统计平均数,指同类社会现象总体内各单位某一数量标志在一定时间、地点条件下数量差异抽象化的代表性水平指标,其数值表现为平均值
8、平均值,简称均值均值。它反映了总体分布集中趋势的一般特征。平均值主要是简单算术平均值,是将各单位标志值的总和除以相应的总体单位的项数而得的,若有样本观测值,其中n是样本容量,均值为:=,式中,xi表示总体第i个单位的标志值。结果,样本均值样本均值表示为,总体观察值的数量记为N,总体均值总体均值表示为,则=。第十五页,本课件共有41页4.1.3样本数据的集中趋势这样,我们计算一下两位选手的全垒打数均值:可以看出,麦奎尔的平均成绩明显高于马里斯。第十六页,本课件共有41页4.1.3样本数据的集中趋势2中位数(MEDIAN)中位数是指全体数值按大小排列后位于中间的数值。一列观测值,排好序后得到:x(
9、1),x(2),x(n)称作次序统计量次序统计量。其中位数就是:第十七页,本课件共有41页4.1.3样本数据的集中趋势我们把两名运动员的成绩从小到大排序:麦奎尔:992232333939424952586570马里斯:813141623 26 28333961显然,当观测值的总个数是奇数时,总存在最中间的那个数,39就是我们要的中位数;而当观测值的总个数是偶数时,没有正中间的那个观测值,于是就选取正中间的那对观测值23和26的平均值表示其中位数:。第十八页,本课件共有41页4.1.3样本数据的集中趋势3众数(MODE)众数是一组数列中出现次数最多的数值。一组数据可能有众数,也可能没有众数;可能
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第四 描述 统计 优秀 PPT
限制150内