《MBA统计学03数据的描述mom.pptx》由会员分享,可在线阅读,更多相关《MBA统计学03数据的描述mom.pptx(39页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、统计学从数据到结论第三章数据的描述l 在 对 数 据 进 行 深 入 加 工 之 前,总应该对数据有所印象。l 可 以 借 助 于 图 形 和 简 单 的 运 算,来了解数据的一些特征。l 由 于 数 据 是 从 总 体 中 产 生 的,其 特 征 也 反 映 了 总 体 的 特 征。对 数 据 的 描 述 也 是 对 其 总 体 的一个近似的描述。3.1 如何用图来表示数据?3.1.1 定量变量的图表示:1.直方图l 对于一个定量变量,比如某个地区(地区1)测量了163 个高三男生的身高(S3height1.txt)。l 用图形来表示这个数据,使人们能够看出这个数据的大体分布或“形状”的一个
2、办法是画直方图(histogram)。l 图3.1 就是利用这个数据由SPSS 软件所画的直方图。该图的横坐标是身高区间,这里每一格代表5cm 的身高范围(格子宽度因不同的数据性质或要求而定,这里的格子宽度为5cm),而纵坐标为各种身高区间的身高的频数。直方图3.1.1 定量变量的图表示:2.盒型图l 简单一些的是盒形图(boxplot,又称箱图、箱线图、盒子图)。l 图3.2 的左边一个是根据地区1 高三男生的身高数据所绘的盒形图;其右边的图代表另一个地区(地区2)的高三学生的身高(height.txt,height.sav,第三章例.xls)。盒型图盒子的中间横线是数据的中位数(media
3、n),封闭盒子的上下两横线(边)为上下四分位数(点);按照SPSS 的默认选项,如果所有样本中的数目都在离四分位点1.5 倍盒子长度之内,则线的端点为最大和最小值,否则线长就是1.5 倍的盒子长度(盒子长度称为四分位间距),在其外面的度量单独点出3.1.1 定量变量的图表示:3.茎叶图 l 在直方图和盒形图中,很难恢复数据的原貌。而另一种图:茎叶图(stem-and-leaf plots)可以恢复数据l 以地区1 高三男生身高为例(图3.3),茎叶图既展示了分布形状又有原始数据。它象一片带有茎的叶子。茎为较大位数的数字,叶为较小位数的数字。茎叶图其中茎叶图中茎的单位为10cm,而叶子单位为1c
4、m。比如,由于第一行茎为150cm,因此叶子中的九个数字001223344 代表九个数目150、150、151、152、152、153、153、154、154cm 等。每行左边有一个频数(比如第一行有9 个数目,第二行有17 个等等);可以看出最长的一行为从165cm 到169cm 的一段(有35 个数)。3.1.1 定量变量的图表示:4.散点图 l 数据会有两个变量,如美国男士和女士初婚年限数据(marriage.txt)。l 该数据描述了自1900 年到1998 年男女第一次婚姻延续的时间。l 这里年份是一个变量,婚姻延续时间是第二个变量。由于不可能将所有人的婚姻年限都给出来,所以每年就取
5、了一个中间的值(中位数)作为代表。散点图3.1.2 定性变量的图表示:饼图l 定性变量(或属性变量,分类变量)不能点出直方图、散点图或茎叶图,但可以描绘出它们各类的比例。l 下面用SPSS 绘的图3.5(饼图,pie chart)表示了说世界各种主要语言人数的比例(language.txt).饼图3.1.2 定性变量的图表示:条形图l 而用同样数据画的图3.6 称为条形图(bar chart)。l 从每一条可以看出讲各种语言的实际人数,而且分别给出了每个语种中母语和日常使用的人数(在图中并排放置)。条形图显示比例不如饼图直观。条形图3.2 如何用少量数字来概括数据?l 大量的数字既繁琐又不直观
6、;需要对数据做人们时间和耐心所允许的简化l 我们可以用“平均”,“差距”或百分比等来概括大量数字。l 由于定性变量主要是计数,比较简单,常用的概括就是比例或百分比。下面主要介绍关于定量变量的数字描述。3.2 如何用少量数字来概括数据?l 可用少量所谓汇总统计量或概括统计量(summary statistic)来描述定量变量的数据。l 这些数字是从样本数据得来的,因而也是样本的函数,l 任何样本的函数,只要不包含总体的未知参数,都称为统计量(statistic)。l 样本的随机性决定统计量的随机性(统计量也是随机变量)3.2 如何用少量数字来概括数据?l 概括统计量经常对应于总体的无法观测到的某
7、些参数。l 这时,统计量可作为这些参数的估计。一些统计量还可以用来检验样本和假设的总体是否一致。3.2 如何用少量数字来概括数据?l 注:一些统计量前面有时加上“样本”二字,以区别于总体的同名参数。如“样本均值”和“样本标准差”,以区别于总体均值和总体标准差;但在不会混淆时可以只说“均值”和“标准差”。3.2.1 数据的“位置”数据有位置吗?这里三个数据的位置一样吗?3.2.1 数据的“位置”l“位置”一般是关于数据中某变量观测值的“中心位置”或者数据分布的中心(center 或center tendency)。l 和这种“位置”有关的统计量就称为位置统计量(location statisti
8、c)。l 位置统计量当然不一定都是描述“中心”了,比如后面要讲的k 百分位数(或k 分位数)。3.2.1 数据的“位置”l 最 常 用 的 位 置 统 计 量 就 是 小 学 时 所 学到 的 算 术 平 均 数,它 在 统 计 中 叫 做 均值(mean);严 格 地 说 叫 做 样 本 均 值(sample mean),以区别于总体均值。l 如 果 记 样 本 中 的 观 测 值 为 x1,xn,则样本均值定义为l(样本)中位数(median)是数据按照大小排列之后位于中间的那个数(如果样本量为奇数),或者中间两个数目的平均(如果样本量为偶数)。l 由于中位数不易被极端值影响,所以中位数比
9、均值稳健(robust)。3.2.1 数据的“位置”l 上下四分位数(或分别称为第一四分位数和第三四分位数,first quantile,third quantile)则分别位于(按大小排列的)数据的上下四分之一的地方。3.2.1 数据的“位置”3.2.1 数据的“位置”l 一般地还称上四分位数为75百分位数(75 pecentile,有75的观测值小于它),下四分位数为25百分位数(有25的观测值小于它)。l 一般地,k 百分位数(k-pecentile)意味着有k 的观测值小于它。l 如果令a=k%,则k 百分位数也称为a分位数(a-quantile)。l 样本中出现最多的数目,称为众数(
10、mode)3.2.2 数据的“尺度”l 这两个数据“胖瘦”一样吗?3.2.2 数据的“尺度”l 数据中数目的分散程度由尺度统计量(scale statistic)来描述。l 尺度统计量是描述数据散布,即描述集中与分散程度或变化(spread 或variability)的度量。3.2.2 数据的“尺度”l 从前面两个高三男生身高数据的盒形图。左边的数据平均要高些,但右边的数据散布范围要小得多。统计中有许多尺度统计量。一般来说,数据越分散,尺度统计量的值越大。3.2.2 数据的“尺度”l 极差(range);就是极大值和极小值之间的差。l 前面两个高三男生身高数据的极差分别为50cm 和32cm。
11、l 盒形图盒子的长度为两个四分位数之差,称为四分位数极差或四分位间距(interquantile range);它描述了中间半数观测值的散布情况。极差和四分位极差实际上各自只依赖于两个值,信息量太少。3.2.2 数据的“尺度”l 另 一 个 常 用 的 尺 度 统 计 量 为(样 本)标 准 差(standard deviation)。度 量 样本中各数值到均值距离的一种平均。l 标 准 差 实 际 上 是 方 差(variance)的 平方 根。如 果 记 样 本 中 的 观 测 值 为x1,xn,则样本方差为3.2.2 数据的“尺度”两个均值一样,但右边的要“胖”些,方差为左边的一倍3.2
12、.3 数据的标准得分l 假 定 两 个 水 平 类 似 的 班 级(一班和二班)上同一门课,l 但 是 由 于 两 个 任 课 老 师 的 评 分标 准 不 同,使 得 两 个 班 成 绩 的均 值 和 标 准 差 都 不 一 样(数 据:grade.txt)。3.2.3 数据的标准得分l 一 班 分 数 的 均 值 和 标 准 差 分 别为78.53 和9.43,而 二 班 的 均 值和标准差分别为70.19 和7.00。l 那 么 得 到90 分 的 一 班 的 张 颖 是不 是 比 得 到82 分 的 二 班 的 刘 疏成 绩 更 好 呢?怎 么 比 较 才 能 合理呢?3.2.3 数据
13、的标准得分l 虽 然 这 种 均 值 和 标 准 差 不 同 的 数 据 不能 够 直 接 比 较,但 是 可 以 把 它 们 进 行标准化,再比较标准化后的数据。l 一 个 标 准 化 的 方 法 是 把 某 样 本 原 始 观测 值(亦 称 得 分,score)和 该 样 本 均值 之 差 除 以 该 样 本 的 标 准 差;得 到 的度 量 称 为 标 准 得 分(standard score,又称为z-score)。3.2.3 数据的标准得分l 即,某观测值xi的标准得分定义为3.2.3 数据的标准得分l 在 我 们 的 例 子 中,张 颖 的 标 准得 分 为(90-78.53)/9.43 1.22,而 刘 疏 的 标 准 得 分 为(82-70.19)/7 1.69。l 显 然 如 果 两 个 班 级 平 均 水 平 差不 多,刘 疏 的 成 绩 应 该 优 于 张颖 的 成 绩;这 是 在 标 准 化 之 前的数据中不易看到的。可以看出,原始数据是在各自的均值附近,而散布也不一样。但它们的标准得分则在0周围散布,而且散布也差不多。实际上,任何样本经过这样的标准化后,就都变换成均值为0、方差为1的样本。标准化后不同样本观测值的比较只有相对意义,没有绝对意义。演讲完毕,谢谢观看!
限制150内