基本统计分析..ppt
第第4 4章章 基本统计分析基本统计分析o Frequencies 频数分析表频数分析表o Descriptive 描述性统计分析过程描述性统计分析过程o Explore 探索分析过程探索分析过程o Crosstabs 列联表分析过程列联表分析过程本章主要内容本章主要内容数据分布的特征集中趋势集中趋势集中趋势集中趋势 (位置位置位置位置)偏态和峰态偏态和峰态偏态和峰态偏态和峰态(形状)(形状)(形状)(形状)离中趋势离中趋势离中趋势离中趋势 (分散程度分散程度分散程度分散程度)集中趋势(Central tendency)1.1.一一组数据向其中心值靠拢的倾向和程度组数据向其中心值靠拢的倾向和程度2.2.测度集中趋势就是寻找数据水平的代表值或中心值测度集中趋势就是寻找数据水平的代表值或中心值3.3.不同类型的数据用不同的集中趋势测度值不同类型的数据用不同的集中趋势测度值4.4.低层次数据的测度值适用于高层次的测量数据,但高层次低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量数据数据的测度值并不适用于低层次的测量数据1均值均值(Mean):2众数众数(Mode):出现频率最高的数:出现频率最高的数3中位数中位数(Median):将数据排序后位于正中间:将数据排序后位于正中间的数值。适合于所有分布类型的数据的数值。适合于所有分布类型的数据4总和总和(Sum)基本描述统计量基本描述统计量众数(mode)1.出现次数最多的变量值2.不受极端值的影响3.一组数据可能没有众数或有几个众数4.主要用于分类数据,也可用于顺序数据和数值型数据众数(不唯一性)o无众数无众数原始数据:10 5 9 12 6 8一个众数一个众数原始数据:6 5 9 8 5 5多于一个众数多于一个众数原始数据:25 28 28 36 42 42中位数(median)1.排序后处于中间位置上的值MMe e50%50%2.不受极端值的影响不受极端值的影响3.主要用于顺序数据,也可用数值型数据,但不能主要用于顺序数据,也可用数值型数据,但不能用于分类数据用于分类数据4.各变量值与中位数的离差绝对值之和最小,即各变量值与中位数的离差绝对值之和最小,即数值型数据的中位数(9个数据的算例)o【例例】:9个家庭的人均月收入数据o原始数据原始数据:1500 750 780 1080 850 960 2000 1250 1630o排排 序序:750 780 850 960 1080 1250 1500 1630 2000o位位 置置:1 2 3 4 5 6 7 8 9中位数中位数 1080数值型数据的中位数(10个数据的算例)o【例例】:10个家庭的人均月收入数据o排排 序序:660 750 780 850 960 1080 1250 1500 1630 2000o位位 置置:1 2 3 4 5 6 7 8 9 10 四分位数(quartile)1.排序后处于25%,50%和75%位置上的值2.不受极端值的影响3.主要用于顺序数据,也可用于数值型数据,但不能用于分类数据QQL LQQMMQQU U25%25%25%25%数值型数据的四分位数(9个数据的算例)o【例例】:9个家庭的人均月收入数据o原始数据原始数据:1500 750 780 1080 850 960 2000 1250 1630o排排 序序:750 780 850 960 1080 1250 1500 1630 2000o位位 置置:1 2 3 4 5 6 7 8 9数值型数据的四分位数(10个数据的算例)o【例例】:10个家庭的人均月收入数据o排排 序序:660 750 780 850 960 1080 1250 1500 1630 2000o位位 置置:1 2 3 4 5 6 7 8 9 10 均值(mean)1.集中趋势的最常用测度值2.一组数据的均衡点所在3.体现了数据的必然性特征4.易受极端值的影响5.用于数值型数据,不能用于分类数据和顺序数据均值(数学性质)1.各变量值与均值的离差之和等于零 2.各变量值与均值的离差平方和最小众数、中位数和均值的关系左偏分布左偏分布左偏分布左偏分布左偏分布左偏分布均值均值均值均值均值均值 中位数中位数中位数中位数中位数中位数 众数众数众数众数众数众数对称分布对称分布对称分布对称分布对称分布对称分布 均值均值均值均值均值均值=中位数中位数中位数中位数中位数中位数=众数众数众数众数众数众数右偏分布右偏分布右偏分布右偏分布右偏分布右偏分布众数众数众数众数众数众数 中位数中位数中位数中位数中位数中位数均值均值均值均值均值均值众数、中位数和均值的特点和应用1.众数n不受极端值影响n具有不唯一性n数据分布偏斜程度较大时应用2.中位数n不受极端值影响n数据分布偏斜程度较大时应用3.均值n易受极端值影响n数学性质优良n数据对称分布或接近对称分布时应用离散趋势1.数据分布的另一个重要特征数据分布的另一个重要特征2.反映各变量值远离其中心值的程度(离散程度)反映各变量值远离其中心值的程度(离散程度)3.从另一个侧面说明了集中趋势测度值的代表程度从另一个侧面说明了集中趋势测度值的代表程度4.不同类型的数据有不同的离散程度测度值不同类型的数据有不同的离散程度测度值标准差标准差(StdDev):方差方差(Variance):最小值、最大值最小值、最大值(Maxium,Minimum)均值标准误均值标准误(S.E.of.Mean):样本均值的标准差样本均值的标准差极差极差(Range):数据最大值减去最小值:数据最大值减去最小值基本描述统计量基本描述统计量极差(range)1.一组数据的最大值与最小值之差2.离散程度的最简单测度值3.易受极端值影响4.未考虑数据的分布7 7 8 8 9 910107 7 8 8 9 9 1010 R R =max(=max(x xi i)-min()-min(x xi i)5.计算公式为计算公式为方差和标准差(variance and standard deviation)1.数据离散程度的最常用测度值2.反映了各变量值与均值的平均差异3.根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差4 6 8 10 124 6 8 10 12 x x=8.38.3偏态与峰态扁平分布扁平分布扁平分布扁平分布尖峰分布尖峰分布尖峰分布尖峰分布偏态偏态偏态偏态峰态峰态峰态峰态左偏分布左偏分布左偏分布左偏分布右偏分布右偏分布右偏分布右偏分布与正态分布与正态分布与正态分布与正态分布比较!比较!比较!比较!偏度系数:偏度系数:Skewness,当分布对称时,当分布对称时,偏度系数为偏度系数为0。当偏度系数为正值,。当偏度系数为正值,可以判断为右偏可以判断为右偏(正偏正偏),反之,判断为左偏,反之,判断为左偏(负(负偏)。偏)。基本描述统计量基本描述统计量峰度系数:峰度系数:Kurtosis,是对数据分布平峰,是对数据分布平峰或尖峰程度的测度。峰度是针对正态分布或尖峰程度的测度。峰度是针对正态分布而言的。峰度系数为而言的。峰度系数为0,表明数据为正态分布。,表明数据为正态分布。若峰度系数大于若峰度系数大于0,则数据为尖峰分布;反之为,则数据为尖峰分布;反之为平峰分布。平峰分布。基本描述统计量基本描述统计量标准分数(standard score)1.也称标准化值2.对某一个值在一组数据中相对位置的度量3.可用于判断一组数据是否有离群点4.用于对变量的标准化处理5.计算公式为标准分数(性质)1.均值等于02.方差等于1频数分析表频数分析表一、目的一、目的 可对数据按组进行归类整理,形成可对数据按组进行归类整理,形成变量不同水平的频数分布表和图形,对数变量不同水平的频数分布表和图形,对数据的分布趋势进行初步分析。据的分布趋势进行初步分析。频数分析表频数分析表二、二、Frequencies对话框简介对话框简介AnalyzeDescriptiveStatisticFrequencies【Variables】需要分析的变量需要分析的变量【Displayfrequencytables】确定是否在结果中输出频数表。确定是否在结果中输出频数表。频数分析表频数分析表【Statistics】描述统计量。描述统计量。nPercentileValues:定义需要输出的百分位数定义需要输出的百分位数Quartiles:四分位数四分位数Cutpointsforequalgroups:每隔指定百分位输出当前百分位数每隔指定百分位输出当前百分位数Percentiles:直接指定某个百分位数直接指定某个百分位数nCentraltendency:用于定义描述用于定义描述集中趋势的一组指标:集中趋势的一组指标:均数均数(Mean)、中位数、中位数(Median)、众数众数(Mode)、总和、总和(Sum)。频数分析表频数分析表nDispersion:定义描述定义描述离散趋势的一组指标:离散趋势的一组指标:Std.deviation:标准差标准差Variance:方差方差Range:全距全距Minimum:最小值最小值Maximum:最大值最大值S.E.mean:标准误标准误频数分析表频数分析表nDistribution:定义描述分布定义描述分布特征的两个指标:偏度系数特征的两个指标:偏度系数(Skewness)和峰度系数)和峰度系数(Kurtosis)。nValuesaregroupmidpoints:在计算百分在计算百分位数值和中位数时,假设数据已分组,且位数值和中位数时,假设数据已分组,且用各组的组中值代替各组数据用各组的组中值代替各组数据频数分析表频数分析表【Charts】统计图统计图nCharttype单选钮组单选钮组定义统计图类型,定义统计图类型,有四种选择:有四种选择:无、条图(无、条图(Barchart)、)、圆图圆图(Piechart)、直方图、直方图(Histogram),),其中直方图还可以选择是否加上正态曲线其中直方图还可以选择是否加上正态曲线(Withnormalcurve)。)。频数分析表频数分析表nChartValues:定义是按照频数还定义是按照频数还是按百分比做图(即影响纵坐标刻度)。是按百分比做图(即影响纵坐标刻度)。【Format】弹出弹出Format对话框,用于定义输出频数表的格对话框,用于定义输出频数表的格式式,不过用处不大,一般不管。不过用处不大,一般不管。nOrderby单选钮组单选钮组定义频数表的排列次序,定义频数表的排列次序,有四个选项:有四个选项:Ascendingvalues为根据数值大小按升序从小到大作频数分布;为根据数值大小按升序从小到大作频数分布;Descendingvalues为根据数值大小按降序从大到小作频数分布;为根据数值大小按降序从大到小作频数分布;Ascendingcounts为根据频数多少按升序从少到多作频数分布;为根据频数多少按升序从少到多作频数分布;Descendingcounts为根据频数多少按降序从多到少作频数分布。为根据频数多少按降序从多到少作频数分布。频数分析表频数分析表nMultipleVariables单选钮组单选钮组如果选择了两个如果选择了两个以上变量做频数表,则以上变量做频数表,则Comparevariables可以将他们的结果在同一个频数表过程输出结果可以将他们的结果在同一个频数表过程输出结果中显示,便于互相比较,中显示,便于互相比较,Organizeoutputbyvariables则将结果在不同的频数表过程输出结果中显示。则将结果在不同的频数表过程输出结果中显示。频数分析表频数分析表nSuppressTablesmorethan:当频数表的当频数表的分组数大于下面设定数值时禁止它在结果中输出,分组数大于下面设定数值时禁止它在结果中输出,这样可以避免产生巨型表格。这样可以避免产生巨型表格。实例实例例例1:frequen1.sav,进行单变量频数分析并进行单变量频数分析并绘制直方图绘制直方图FREQUENCIESVARIABLES=serum/NTILES=4/PERCENTILES=95/STATISTICS=STDDEVVARIANCERANGEMINIMUMMAXIMUMMEANMEDIANMODESUMSKEWNESSSESKEW/GROUPED=serum/HISTOGRAMNORMAL/ORDER=ANALYSIS.练习练习:居民储蓄调查数居民储蓄调查数1分别分析户口和职业的基本分布情况分别分析户口和职业的基本分布情况2分析储户一次存分析储户一次存(取取)款金额的分布款金额的分布要求要求(1)绘制带正态曲线的直方图绘制带正态曲线的直方图(2)分别对城镇和农村储户进行四分位数比分别对城镇和农村储户进行四分位数比较分析较分析FREQUENCIESVARIABLES=a13a14/NTILES=4/STATISTICS=STDDEVVARIANCERANGEMINIMUMMAXIMUMMEANMEDIANMODESUM/BARCHARTFREQ/ORDER=ANALYSIS.练习练习:居民储蓄调查数居民储蓄调查数2分析储户一次存分析储户一次存(取取)款金额的分布款金额的分布(2)分别对城镇和农村储户进行四分位数分析分别对城镇和农村储户进行四分位数分析SORTCASESBYa13.SPLITFILESEPARATEBYa13.FREQUENCIESVARIABLES=a5/FORMAT=NOTABLE/NTILES=4/STATISTICS=STDDEVVARIANCERANGEMINIMUMMAXIMUMMEANMEDIAN/ORDER=VARIABLE.SPLITFILEOFF.Descriptives过程是连续资料统计描述应用过程是连续资料统计描述应用最多的一个过程,他可对变量进行描述性最多的一个过程,他可对变量进行描述性统计分析,计算并列出一系列相应的统计指标。统计分析,计算并列出一系列相应的统计指标。该过程还有个特殊功能就是可将原始数据转换该过程还有个特殊功能就是可将原始数据转换成标准正态评分值并以变量的形式存入数据库成标准正态评分值并以变量的形式存入数据库供以后分析。供以后分析。目的目的基本描述统计量基本描述统计量AnalyzeDescriptiveStatisticDescriptives基本操作基本操作【Savestandardizedvaluesasvariables】将原始数据的标准正态评分存为新变量。将原始数据的标准正态评分存为新变量。【Options】uDisplayOrder:可以选择为变量列表顺序、字母顺序、均数可以选择为变量列表顺序、字母顺序、均数升序或均数降序。升序或均数降序。实例实例抑郁症资料抑郁症资料:Cesd.sav,对对educ,income,age进行统计分析进行统计分析例例1:DESCRIPTIVESVARIABLES=educincomeagesex/STATISTICS=MEANSTDDEVVARIANCERANGEMINMAX.实例实例练习练习:居民储蓄调查数据居民储蓄调查数据分析储户存分析储户存(取取)款金额的基本描述统计量款金额的基本描述统计量,并对城市储户和农村储户进行比较并对城市储户和农村储户进行比较SORTCASESBYa13.SPLITFILESEPARATEBYa13.DESCRIPTIVESVARIABLES=a5/STATISTICS=MEANSTDDEVMINMAX.SPLITFILEOFF.作业要求o以上作业中数据均保存为*.sav文件,数据分析结果保存为结果保存为word文件,文件,以本人学号 姓名为文件名。o如有多个文件,所有文件保存到一个文件夹(以本人学号 姓名为文件夹名),下课前提交。oftp的ip地址是10.108.6.252 用户名:spss 密码:123456