《描述性统计量》PPT课件.ppt
描述性统计针对不同类型的数据,采用不同的描述性统计量进行刻划:集中趋势,离散程度,分布的形状四种计量尺度定类尺度(概念要点)1.计量层次最低2.对事物进行平行的分类3.各类别可以指定数字代码表示4.使用时必须符合类别穷尽和互斥的要求5.数据表现为“类别”6.具有=或的数学特性定序尺度(概念要点)1.对事物分类的同时给出各类别的顺序2.比定类尺度精确3.未测量出类别之间的准确差值4.数据表现为“类别”,但有序5.具有或的数学特性定距尺度(概念要点)1.对事物的准确测度2.比定序尺度精确3.数据表现为“数值”4.没有绝对零点5.具有+或-的数学特性定比尺度(概念要点)1.对事物的准确测度2.与定距尺度处于同一层次3.数据表现为“数值”4.有绝对零点5.具有 或 的数学特性四种计量尺度的比较四种计量尺度的比较四种计量尺度的比较定类尺度定类尺度 定序尺度定序尺度 定距尺度定距尺度 定比尺度定比尺度 分分类类(,(,)排序(排序()间间距(距(+,-)比比值值(,)计量尺度计量尺度数学特性数学特性“”表示表示该该尺度所具有的特性尺度所具有的特性数据类型与统计方法数据类型与统计方法数据类型与统计方法定类数据定类数据定序数据定序数据品质数据品质数据数量数据数量数据数量数据数量数据定距数据定距数据定距数据定距数据定比数据定比数据定比数据定比数据参数方法参数方法参数方法参数方法非参数方法非参数方法变量及其类型离散变量离散变量离散变量离散变量连续变量连续变量连续变量连续变量统计指标及其类型时期指标时期指标时期指标时期指标时点指标时点指标时点指标时点指标比例比例比例比例比率比率比率比率定类数据的整理与显示(基本问题)1.要弄清所面对的数据类型,因为不同类型的数据,所采取的处理方式和方法是不同的2.对定类数据和定序数据主要是做分类整理3.对定距数据和定比数据则主要是做分组整理4.适合于低层次数据的整理和显示方法也适合于高层次的数据;但适合于高层次数据的整理和显示方法并不适合于低层次的数据定类数据的整理(基本过程)1.列出各类别2.2.计算各类别的频数3.制作频数分布表4.用图形显示数据定类数据的整理(可计算的指标)1.频频 数数:落在各类别中的数据个数2.比比 例例:某一类别数据占全部数据的比值3.百分比:百分比:将对比的基数作为100而计算的比值4.比比 率率:不同类别数值的比值定类数据的图示条形图(条形图的制作)1.条形图是用宽度相同的条形的高度或长短来表示数据变动的图形2.条形图有单式、复式等形式3.在表示定类数据的分布时,是用条形图的高度来表示各类别数据的频数或频率4.绘制时,各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图定类数据的图示条形图人数(人)人数(人)5191610211204080120 商品广告 服务广告 金融广告 房地产广告 招生招聘广告 其他广告广广告告类类型型 图图3-1 3-1 某城市居民关注不同类型广告的人数分布某城市居民关注不同类型广告的人数分布定类数据的图示圆形图(圆形图的制作)1.也称饼图,是用圆形及园内扇形的面积来表示数值大小的图形2.主要用于表示总体中各组成部分所占的比例,对于研究结构性问题十分有用3.在绘制圆形图时,总体中各部分所占的百分比用园内的各个扇形面积表示,这些扇形的中心角度,是按各部分百分比占3600的相应比例确定的4.例如,关注服务广告的人数占总人数的百分比为25.5%,那 么 其 扇 形 的 中 心 角 度 就 应 为360025.5%91.80,其余类推定类数据的图示圆形图 其他广告1.0%房地产广告8.0%商品广告56.0%金融广告4.5%服务广告25.5%招生招聘广告5.8%图图3-2 3-2 某城市居民关注不同类型广告的人数构成某城市居民关注不同类型广告的人数构成定序数据的整理(可计算的指标)1.累计频数:累计频数:将各类别的频数逐级累加2.累计频率:累计频率:将各类别的频率(百分比)逐级累加定距定比数据频数分布表的编制确确定定组组数数编制频数分编制频数分布表的步骤布表的步骤确确定定组组距距计计算算频频数数编编制制表表格格分组方法等距分组等距分组异距分组异距分组分布的形状与箱线图 对称分布对称分布对称分布对称分布对称分布对称分布Q QQL LL中位数中位数中位数中位数中位数中位数 Q QQU UU左偏分布左偏分布左偏分布左偏分布左偏分布左偏分布Q QQL LL中位数中位数中位数中位数中位数中位数 Q QQU UU右偏分布右偏分布右偏分布右偏分布右偏分布右偏分布Q QQL LL 中位数中位数中位数中位数中位数中位数 Q QQU UU数据分布的特征集中趋势集中趋势集中趋势集中趋势 (位置位置位置位置)离中趋势离中趋势离中趋势离中趋势(分散程度分散程度分散程度分散程度)偏态和峰度偏态和峰度偏态和峰度偏态和峰度(形状)(形状)(形状)(形状)数据分布的特征和测度数据的特征和测度数据的特征和测度分布的形状分布的形状集中趋势集中趋势离散程度离散程度众众众众众众 数数数数数数中位数中位数中位数中位数中位数中位数均均均均均均 值值值值值值变异系数变异系数变异系数变异系数变异系数变异系数方差和标准差方差和标准差方差和标准差方差和标准差方差和标准差方差和标准差峰峰峰峰峰峰 度度度度度度四分位差四分位差四分位差四分位差四分位差四分位差异众比率异众比率异众比率异众比率异众比率异众比率偏偏偏偏偏偏 态态态态态态集中趋势的测度一一.定类数据:众数定类数据:众数二二.定序数据:中位数和分位数定序数据:中位数和分位数三三.定距和定比数据:均值定距和定比数据:均值四四.众数、中位数和均值的比较众数、中位数和均值的比较中位数(概念要点)1.集中趋势的测度值之一2.排序后处于中间位置上的值MMe e50%50%3.3.不受极端值的影响不受极端值的影响4.4.主要用于定序数据,也可用数值型数据,但不能用于定主要用于定序数据,也可用数值型数据,但不能用于定类数据类数据5.5.各变量值与中位数的离差绝对值之和最小,即各变量值与中位数的离差绝对值之和最小,即定序数据:中位数和分位数(计算公式)四分位数(概念要点)1.集中趋势的测度值之一2.排序后处于25%和75%位置上的值3.不受极端值的影响4.主要用于定序数据,也可用于数值型数据,但不能用于定类数据QQL LQQMMQQU U25%25%25%25%四分位数(位置的确定)未分组数据:未分组数据:组距分组数据组距分组数据:下四分位数下四分位数(QQL L)位置位置=N+N+1 14 4上四分位数上四分位数(QQU U)位置位置=3(3(N+N+1)1)4 4下四分位数下四分位数(QQL L)位置位置=N N4 4上四分位数上四分位数(QQL L)位置位置=3N3N4 4定距和定比数据:均值(概念要点)1.集中趋势的测度值之一2.最常用的测度值3.一组数据的均衡点所在4.易受极端值的影响5.用于数值型数据,不能用于定类数据和定序数据几何平均数(概念要点)1.集中趋势的测度值之一2.N 个变量值乘积的 N 次方根3.适用于特殊的数据4.主要用于计算平均发展速度5.计算公式为6.6.可看作是均值的一种变形可看作是均值的一种变形众数、中位数和均值的关系对称分布对称分布对称分布对称分布对称分布对称分布 均值均值均值均值均值均值=中位数中位数中位数中位数中位数中位数=众数众数众数众数众数众数左偏分布左偏分布左偏分布左偏分布左偏分布左偏分布均值均值均值均值均值均值 中位数中位数中位数中位数中位数中位数 众数众数众数众数众数众数右偏分布右偏分布右偏分布右偏分布右偏分布右偏分布众数众数众数众数众数众数 中位数中位数中位数中位数中位数中位数 均值均值均值均值均值均值数据类型与集中趋势测度值数据类型和所适用的集中趋势测度值数据类型和所适用的集中趋势测度值数据类型数据类型定类数据定类数据 定序数据定序数据定距数据定距数据定比数据定比数据适适用用的的测测度度值值众数众数中位数中位数均值均值均值均值四分位数四分位数众数众数调和平均数调和平均数众数众数中位数中位数几何平均数几何平均数四分位数四分位数 中位数中位数四分位数四分位数众数众数离散程度的测度一一.定类数据:异众比率定类数据:异众比率二二.定序数据:四分位差定序数据:四分位差三三.定距和定比数据:方差定距和定比数据:方差及标准差及标准差四四.相对离散程度:变异系相对离散程度:变异系数数定类数据:异众比率(概念要点)1.离散程度的测度值之一2.非众数组的频数占总频数的比率3.计算公式为 4.用于衡量众数的代表性异众比率(算例)表表3-1 某城市居民关注广告类型的频数分布某城市居民关注广告类型的频数分布 广告类型广告类型人数人数(人人)频率频率(%)商品广告商品广告 服务广告服务广告 金融广告金融广告 房地产广告房地产广告 招生招聘广告招生招聘广告 其他广告其他广告1125191610256.025.54.58.05.01.0合计合计200100解:解:解:解:在在所所调调查查的的200200人人当当中中,关关注注非非商商品品广广告告的的人人数数占占44%44%,异异众众比比率率还还是是比比较较大大。因因此此,用用“商商品品广广告告”来来反反映映城城市市居居民民对对广广告告关关注注的一般趋势,其代表性不是很好的一般趋势,其代表性不是很好 V Vr r=200-112200-112200200 =1-=1-112 112 200 200 =0.44=44%=0.44=44%定序数据:四分位差(概念要点)1.离散程度的测度值之一2.也称为内距或四分间距3.上四分位数与下四分位数之差 QD=QU-QL4.反映了中间50%数据的离散程度5.不受极端值的影响6.用于衡量中位数的代表性定距和定比数据:方差、标准差和极差(概念要点及计算公式)1.一组数据的最大值与最小值之差2.离散程度的最简单测度值3.易受极端值影响4.未考虑数据的分布7 7 8 8 9 910107 7 8 8 9 9 1010未分组数据未分组数据未分组数据未分组数据 R R =max(=max(X Xi i)-min()-min(X Xi i).=组距分组数据组距分组数据组距分组数据组距分组数据 R R 最高组上限最高组上限-最低组下最低组下限限5.5.计算公式为计算公式为方差和标准差(概念要点)1.离散程度的测度值之一2.最常用的测度值3.反映了数据的分布4.反映了各变量值与均值的平均差异5.根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差4 6 8 10 124 6 8 10 12X=X=8.38.3总体方差和标准差(计算公式)未分组数据:组距分组数据:组距分组数据:未分组数据未分组数据:组距分组数据:组距分组数据:方差的计算公式方差的计算公式方差的计算公式方差的计算公式标准差的计算公式标准差的计算公式标准差的计算公式标准差的计算公式未分组数据未分组数据:样本方差和标准差(计算公式)未分组数据:组距分组数据:组距分组数据:未分组数据未分组数据:组距分组数据:组距分组数据:方差的计算公式方差的计算公式方差的计算公式方差的计算公式标准差的计算公式标准差的计算公式标准差的计算公式标准差的计算公式未分组数据未分组数据:样本方差自由度(degree of freedom)1.一组数据中可以自由取值的数据的个数2.当样本数据的个数为 n 时,若样本均值x 确定后,只有n-1个数据可以自由取值,其中必有一个数据则不能自由取值3.例如,样本有3个数值,即x1=2,x2=4,x3=9,则 x=5。当 x=5 确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值4.样本方差用自由度去除,其原因可从多方面来解释,从实际应用角度看,在抽样估计中,当用样本方差去估计总体方差2时,它是2的无偏估计量变异系数(概念要点和计算公式)1.标准差与其相应的均值之比2.消除了数据水平高低和计量单位的影响3.测度了数据的相对离散程度4.用于对不同组别数据离散程度的比较5.计算公式为数据类型与离散程度测度值数据类型和所适用的离散程度测度数据类型和所适用的离散程度测度值值数据类型数据类型定类数据定类数据 定序数据定序数据定距数据或定比数据定距数据或定比数据适适用用的的测测度度值值异众比率异众比率四分位差四分位差 方差或标准差方差或标准差 异众比率异众比率 变异系数(比较时用)变异系数(比较时用)平均差平均差 极差极差 四分位差四分位差 异众比率异众比率偏态与峰度分布的形状扁平分布扁平分布扁平分布扁平分布尖峰分布尖峰分布尖峰分布尖峰分布偏态偏态偏态偏态峰度峰度峰度峰度左偏分布左偏分布左偏分布左偏分布右偏分布右偏分布右偏分布右偏分布与标准正态与标准正态与标准正态与标准正态分布比较!分布比较!分布比较!分布比较!偏态(概念要点)1.数据分布偏斜程度的测度2.偏态系数=0为对称分布3.偏态系数 0为右偏分布4.偏态系数 0为左偏分布5.计算公式为峰度(概念要点)1.数据分布扁平程度的测度2.峰度系数=3扁平程度适中3.偏态系数3为尖峰分布5.计算公式为