连续性变量的统计描述与参数估计课件.ppt





《连续性变量的统计描述与参数估计课件.ppt》由会员分享,可在线阅读,更多相关《连续性变量的统计描述与参数估计课件.ppt(41页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、连续性变量的统计描述与参数估计第1页,此课件共41页哦5.1 连续变量的统计描述指标体系(1)集中趋势(Central Trend):均数(Mean)中位数(Median)截尾均数(Trimmed Mean)几何均数(Geometric Mean)众数(Mode)调和均数(Harmonic Mean)第2页,此课件共41页哦(4)其他趋势单峰双峰分布、极端值(Outlier)。(2)离散趋势(Dispersion Trend)全距(Range)、标准差(Std.Deviation)和方差(Variance)、百分位数(Percentile)、四分位数,四分位间距、变异系数(3)分布特征(Dis
2、tribution Tendency)偏度系数(Skewness)和峰度系数(Kurtosis)第3页,此课件共41页哦2集中趋势的的描述指标1 算术平均算术平均(Arithmetic Mean)是最常用的描述数据分布的集中趋势的统计量。总体均数(Population Mean)用希腊字母 表示,样本均数常用 表示。一、算术平均数的定义和性质第4页,此课件共41页哦二、均数的意义二、均数的意义任何一个平均数值首先是同类现象的平均数。任何一个平均数总是一个平衡点。但平均数在高度概括观测数据从而使问题简化的同时,却丢失了某些有用的信息,一方面它把各个观测数据之间的差异性掩盖了起来,另一方面由于平均
3、数对于个别极端值反应比较灵敏,因而平均数在某些情况下可能具有一定的欺骗性。三、均数的适用范围三、均数的适用范围严格的讲平均数指示用于定距变量。但有时对于定序变量,求平均等级也可以使用平均数。第5页,此课件共41页哦2 中位数中位数(Median)是将总体各单位的标志值按大小顺序排列,处于中间位置的那个标志。一、中位数的定义对于未分组的原始资料,首先必须将标志值按大小顺序。设排序结果为:则中位数就可以按下列方式确定:二、中位数的适用范围第6页,此课件共41页哦3其他集中趋势指标一、截尾均数由于均数较易受极端值的影响,因此可以考虑将数据排序后,按照一定的比例去掉最两端的数据,只是用中部的数据来求均
4、数。如果截尾均数和原均数相差不大,则说明数据不存在极端值,或者两侧极端值的影响正好抵消;反之,则说明数据中有极端值,此时截尾均数更好地反映数据的集中趋势。常用的截尾均数有5%截尾均数,即两端各去掉5%的数据。第7页,此课件共41页哦二、几何均数二、几何均数几何均数适用于原始数据分布不对称,但经过对数转换后呈对称分布的资料。几何均数实际上就是对数转换后的数据lgX的算术平均数的反对数。第8页,此课件共41页哦四、调和均数它实际上是观察值X倒数之均数的倒数。三、众数(Mode)众数指的是样本数据中出现频次最多的那个数。众数适用于任何层次的变量,特别适用于单峰对称的情况,是比较两个分布是否接近首先要
5、考虑的参数。在SPSS中,众数可以在Report子菜单和Tables子菜单的全部报表过程和制表过程中计算出来。在SPSS中,调和均数可以在Report子菜单的4个报表过程过程中计算出来。第9页,此课件共41页哦3 离散趋势的描述指标1全距(Range)又 称 为 极 差,是 一 组 数 据 中 最 大 值(Maximun)与 最 小 值(Minimum)之差。极差反映的是变量分布的差异范围或离散程度,在总体中,任何两个标志值之差都不可能超过极差。极差存在两点不足:一是它仅仅取决于两个极端值的水平,不能反映其间的变量分布情况,提供的信息太少。二是它容易受个别极端值的影响,不符合稳健型的要求。第1
6、0页,此课件共41页哦2 方差和标准差一、方差(Variance)和标准差(Standard Deviation)的定义将离均差平方和(Sum of Squares of Deviation from Mean,SS)除以观察例数N,就得到方差:方差越大,数据分布离散程度越大。对于样本数据而言,方差的计算公式为:将方差开方,就得到标准差。对于同性质的数据来说,标准差越小,表明数据的变异程度越小,即数据越整齐,数据的分布范围越集中;标准差越大,表明数据的变异程度越大,即数据越参差不齐,分布越分散。二、方差和标准差的适用范围:方差和标准差的适用范围应当是正态分布。第11页,此课件共41页哦3 百分
7、位数、四分位数与四分位数间距分位差是对极差指标的一种改进,是从变量数列中剔除了一部分极端值后重新计算的类似于极差的指标。常用的分位差有四分位差、十分位差、百分位差。一、分位数一、分位数分位数:是一种位置指标,用PX表示。一个百分位数PX将一组观测值分为两部分,理论上有x%的观测值比它小,(100-x)%的观测值比它大。四分位数(quartile)、十分位数(decile)、百分位数(percentile),他们分别是用3个点、9个点、99个点将数据4等分、10等分和100等分后各分位点上的值。第12页,此课件共41页哦二、四分位数二、四分位数四分位数:实际上是三个数值的总称,分别是P25、P5
8、0、P75分位数。很显然,中间的分位数是中位数,因此通常所说的四分位数是指第一个四分位数(下四分位数)和第三个四分位数(上四分位数)。上下四分位数的差值称为四分位数间距:QR=Q3-Q1第13页,此课件共41页哦4 变异系数当需要比较两组数据离散程度大小的时候,往往直接使用标准差来进行比较并不合适。这可以被分为两种情况:(1)测量尺度相差太大;(2)数据量纲不同。在以上情形中,就应当消除测量尺度和量纲的影响,而变异系数(Coefficient of Variance),它是标准差和其平均数的比率。第14页,此课件共41页哦5.2 连续性变量的参数估计根据样本数据对总体的客观规律性作出合理估计的
9、过程被称为统计推断(Statistical Inference),它可以被分为参数估计和假设检验两大类。1 正态分布一、正态分布的定义若连续性随即变量X的概率分布密度函数为则称随机变量X服从正态分布(Normal Distribution)第15页,此课件共41页哦二、正态分布的特征(1)正态分布是一条对称曲线,关于均数对称,因此均数被称为正态分布的位置参数。(2)曲线是单峰,在均值出达到最高点。(3)正态分布曲线的高矮与标准差有关。因此标准差被称为正态分布曲线的尺度参数。(4)曲线无论向左或向右延伸,都越来越接近横轴,但不会与横轴相交,以横轴为渐近线。(5)约68%的个体的取值与平均数在距离
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 连续性 变量 统计 描述 参数估计 课件

限制150内