as描述性统计分析.ppt
《as描述性统计分析.ppt》由会员分享,可在线阅读,更多相关《as描述性统计分析.ppt(45页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、描述性统计分析描述性统计分析East China JiaoTong UniversityEast China JiaoTong University数据的描述如同给人画像一样在在对对数数据据进进行行深深入入加加工工之之前前,总总应该对数据有所印象。应该对数据有所印象。可可以以借借助助于于图图形形和和简简单单的的运运算算,来了解数据的一些特征。来了解数据的一些特征。由由于于数数据据是是从从总总体体中中产产生生的的,其其特特征征也也反反映映了了总总体体的的特特征征。对对数数据据的的描描述述也也是是对对其其总总体体的的一一个近似的描述。个近似的描述。如何用图来表示数据?如何用图来表示数据?定量变量的
2、图表示定量变量的图表示:直方图直方图对于一个定量变量,比如某个地区测量对于一个定量变量,比如某个地区测量了了163163个高三男生的身高。个高三男生的身高。用图形来表示这个数据,使人们能够看用图形来表示这个数据,使人们能够看出这个数据的大体分布或出这个数据的大体分布或“形状形状”的的一个办法是画一个办法是画直方图直方图(histogram)(histogram)。定量变量的图表示定量变量的图表示:盒型图盒型图简单一些的是简单一些的是盒形图盒形图(boxplot(boxplot,又称箱,又称箱图、箱线图、盒子图图、箱线图、盒子图)。右图是根据地区右图是根据地区1 1高三男生的身高数据高三男生的身
3、高数据所绘的盒形图;所绘的盒形图;盒型图盒型图盒子的中间横线是数据的中位数盒子的中间横线是数据的中位数(median),封闭盒子的上下两横线,封闭盒子的上下两横线(边)为上下四分位数(点)。(边)为上下四分位数(点)。定量变量的图表示定量变量的图表示:茎叶图茎叶图 在直方图和盒形图中,很难恢复数据的在直方图和盒形图中,很难恢复数据的原貌。而另一种图:原貌。而另一种图:茎叶图茎叶图(stem-(stem-and-leaf plots)and-leaf plots)可以恢复数据可以恢复数据以地区以地区1 1高三男生身高为例(图高三男生身高为例(图3.33.3),),茎叶图既展示了分布形状又有原始数
4、茎叶图既展示了分布形状又有原始数据。它象一片带有茎的叶子。茎为较据。它象一片带有茎的叶子。茎为较大位数的数字,叶为较小位数的数字。大位数的数字,叶为较小位数的数字。茎叶图茎叶图其中茎叶图中茎的单位为其中茎叶图中茎的单位为10cm,而叶子单位为,而叶子单位为1cm。比如,由于。比如,由于第一行茎为第一行茎为150cm,因此叶子中的九个数字,因此叶子中的九个数字001223344代表九个数代表九个数目目150、150、151、152、152、153、153、154、154cm等。每等。每行左边有一个频数(比如第一行有行左边有一个频数(比如第一行有9个数目,第二行有个数目,第二行有17个等等);个等
5、等);可以看出最长的一行为从可以看出最长的一行为从165cm到到169cm的一段(有的一段(有35个数)。个数)。定量变量的图表示定量变量的图表示:散点图散点图 数据会有两个变量,如美国男士和女士数据会有两个变量,如美国男士和女士初婚年限数据。初婚年限数据。该数据描述了自该数据描述了自19001900年到年到19981998年男女第年男女第一次婚姻延续的时间。一次婚姻延续的时间。这里年份是一个变量,婚姻延续时间是这里年份是一个变量,婚姻延续时间是第二个变量。由于不可能将所有人的第二个变量。由于不可能将所有人的婚姻年限都给出来,所以每年就取了婚姻年限都给出来,所以每年就取了一个中间的值一个中间的
6、值(中位数中位数)作为代表。作为代表。散点图散点图定性变量的图表示:饼图定性变量的图表示:饼图定性变量(或属性变量,分类变量)定性变量(或属性变量,分类变量)不能点出直方图、散点图或茎叶不能点出直方图、散点图或茎叶图,但可以描绘出它们各类的比图,但可以描绘出它们各类的比例。例。饼图饼图定性变量的图表示:条形图定性变量的图表示:条形图从每一条可以看出讲各种语言的从每一条可以看出讲各种语言的实际人数,而且分别给出了每实际人数,而且分别给出了每个语种中母语和日常使用的人个语种中母语和日常使用的人数(在图中并排放置)。条形数(在图中并排放置)。条形图显示比例不如饼图直观。图显示比例不如饼图直观。条形图
7、条形图如何用少量数字来概括数据?如何用少量数字来概括数据?大量的数字既繁琐又不直观;需要对大量的数字既繁琐又不直观;需要对数据做人们时间和耐心所允许的数据做人们时间和耐心所允许的简化简化我们可以用我们可以用“平均平均”,“差距差距”或或百分比等来概括大量数字。百分比等来概括大量数字。由于定性变量主要是计数,比较简单,由于定性变量主要是计数,比较简单,常用的概括就是比例或百分比。常用的概括就是比例或百分比。下面主要介绍关于定量变量的数下面主要介绍关于定量变量的数字描述。字描述。如何用少量数字来概括数据?如何用少量数字来概括数据?可用少量所谓汇总统计量或可用少量所谓汇总统计量或概括统计概括统计量量
8、(summary statistic)(summary statistic)来描述定来描述定量变量的数据。量变量的数据。这些数字是从样本数据得来的,因而这些数字是从样本数据得来的,因而也是样本的函数,也是样本的函数,任何样本的函数,只要不包含总体的任何样本的函数,只要不包含总体的未知参数,都称为未知参数,都称为统计量统计量(statistic)(statistic)。样本的随机性决定统计量的随机性样本的随机性决定统计量的随机性(统计量也是随机变量)(统计量也是随机变量)如何用少量数字来概括数据?如何用少量数字来概括数据?概括统计量经常对应于总体的概括统计量经常对应于总体的无法观测到的某些参数。
9、无法观测到的某些参数。这时,统计量可作为这些参数这时,统计量可作为这些参数的估计。一些统计量还可以的估计。一些统计量还可以用来检验样本和假设的总体用来检验样本和假设的总体是否一致。是否一致。如何用少量数字来概括数据?如何用少量数字来概括数据?注:注:一些统计量前面有时加上一些统计量前面有时加上“样本样本”二字,以区别于总二字,以区别于总体的同名参数。如体的同名参数。如“样本均样本均值值”和和“样本标准差样本标准差”,以,以区别于总体均值和总体标准区别于总体均值和总体标准差;但在不会混淆时可以只差;但在不会混淆时可以只说说“均值均值”和和“标准差标准差”。数据的数据的“位置位置”数据有位置吗?数
10、据有位置吗?这里三个数据的位置一样吗?这里三个数据的位置一样吗?数据的数据的“位置位置”“位置位置”一般是关于数据中某变量观一般是关于数据中某变量观测值的测值的“中心位置中心位置”或者数据分或者数据分布的中心(布的中心(centercenter或或center center tendencytendency)。)。和这种和这种“位置位置”有关的统计量就称为有关的统计量就称为位置统计量位置统计量(location(location statistic)statistic)。位置统计量当然不一定都是描述位置统计量当然不一定都是描述“中中心心”了,比如后面要讲的了,比如后面要讲的k k百分位百分位数
11、(或数(或k k分位数)。分位数)。数据的数据的“位置位置”最最常常用用的的位位置置统统计计量量就就是是小小学学时时所所学学到到的的算算术术平平均均数数,它它在在统统计计中中叫叫做做均均值值(mean)(mean);严严 格格 地地 说说 叫叫 做做 样样 本本 均均 值值(sample mean)(sample mean),以区别于总体均值。,以区别于总体均值。如如果果记记样样本本中中的的观观测测值值为为x x1 1,x,xn n,则则样本均值定义为样本均值定义为(样本样本)中位数中位数(median)(median)是是数据按照大小排列之后数据按照大小排列之后位于中间的那个数位于中间的那个
12、数(如如果样本量为奇数果样本量为奇数),或,或者中间两个数目的平均者中间两个数目的平均(如果样本量为偶数如果样本量为偶数)。由于中位数不易被极端值由于中位数不易被极端值影响,所以中位数比均影响,所以中位数比均值稳健值稳健(robust)(robust)。数据的数据的“位置位置”上下四分位数(或分别称为第一四分位数和第三四分位数,first quantile,third quantile)则分别位于(按大小排列的)数据的上下四分之一的地方。数据的数据的“位置位置”数据的数据的“位置位置”一般地还称上四分位数为一般地还称上四分位数为7575百分位数百分位数(75 pecentile75 pecen
13、tile,有,有7575的观测值小的观测值小于它),下四分位数为于它),下四分位数为2525百分位数百分位数(有(有2525的观测值小于它)。的观测值小于它)。一般地,一般地,k k百分位数百分位数(k-pecentilek-pecentile)意)意味着有味着有k k的观测值小于它。的观测值小于它。如果令如果令a a=k%=k%,则则k k百分位数也称为百分位数也称为a a分分位数位数(a a-quantile)-quantile)。样本中出现最多的数目,称为样本中出现最多的数目,称为众数众数(mode)(mode)数据的数据的“尺度尺度”这两个数据“胖瘦”一样吗?数据的数据的“尺度尺度”数
14、据中数目的分散程度由尺度统计量(scale statistic)来描述。尺度统计量是描述数据散布,即描述集中与分散程度或变化(spread或variability)的度量。数据的数据的“尺度尺度”从前面两个高三男生身高数据的盒形从前面两个高三男生身高数据的盒形图。左边的数据平均要高些,但右图。左边的数据平均要高些,但右边的数据散布范围要小得多。边的数据散布范围要小得多。统计中有许多尺度统计量。一般来说,数据越分散,尺度统计量的值越大。数据的数据的“尺度尺度”极差极差(range)(range);就是极大值和极小值之间;就是极大值和极小值之间的差。的差。前面两个高三男生身高数据的极差分别前面两个
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- as 描述 统计分析
限制150内