《实验五描述性统计分析复习进程.doc》由会员分享,可在线阅读,更多相关《实验五描述性统计分析复习进程.doc(27页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Good is good, but better carries it.精益求精,善益求善。实验五描述性统计分析-第二篇数据分析基础实验五描述性统计分析实验目的:了解相关系数和偏相关系数的计算方法。实验工具:SPSS描述性统计分析菜单项。知识准备:一、统计整理统计整理是根据统计研究的目的,对统计调查所获得的大量原始资料(初级资料),进行科学的分类和汇总,使之条理化、系统化,得出能够反映现象总体特征的综合资料的工作过程。统计整理的结果为统计表与统计图。统计表主要表现为频数表,而统计图的表现形式多样,前面已经介绍了各种统计图的制作方法,此处不在专门进行介绍。二、集中趋势的测量集中趋势是指一组数据向
2、某一中心值靠拢的倾向,测度集中趋势也就是寻找数据一般水平的代表值或中心值。集中趋势主要依赖各种平均指标进行反映。1、算术平均数算术平均数又称为均值,其定义为:设,是取自某总体的一个样本,它的算术平均数算术平均数有四个重要性质:各变量值与平均数离差之和等于零;各个变量值与平均数离差平方和为最小值;常数的算术平均数是其本身;对于任何两个变量和,它们的代数和的算术平均数就等于两个变量的算术平均数的代数和。2、调和平均数调和平均数是根据标志值的倒数计算的,它是标志值倒数的算术平均数的倒数。调和平均数的计算公式为:使用调和平均数要注意三个问题:变量的取值不能为零,因为零不能作为分母,此时调和平均数无法计
3、算;调和平均数与算术平均数一样,易受极端值的影响调和平均数只适用于特殊的数据情况,所以要注意区分它的适用条件。在SPSS中,调和平均数可以在Report子菜单的4个报表过程中计算输出。3、几何平均数几何平均数是个变量值乘积的次方根。凡是现象的连乘积等于现象的总比率或总速度都可用几何平均数来计算它们的平均比率和平均速度。其计算公式为:式中:在SPSS中,几何平均数可以在Report子菜单的4个报表过程中计算输出。4、众数众数是一个总体中或分布数列中,出现次数最多的变量值。众数是随机变量的一种位置特征数,在单峰分布场合,众数附近常是随机变量最可能取值的区域,服装、鞋、帽等行业非常重视众数,因为众数
4、就是最普遍、最众多的尺码,生产这种尺码给他们带来的利润最大。在SPSS中,众数可以在Report子菜单和Tables子菜单的全部报表过程和制表过程中计算输出。5、中位数中位数它是把样本中各单位标志值按大小顺序排列,位于数列中点位置的标志值就是中位数。也就是说,数列中有一半单位的标志值小于中位数,另一半单位的标志值大于中位数。在计算中位数时,首先必须将数据按大小排序,即计算次序统计量。排在中间位置的就是中位数。设次序统计量为:其中为最小值,为最大值。若n为奇数,则第项的标志值就是中位数;若n为偶数,则中位数等于第项的标志值与第项的标志值的简单算术平均数。即:6、截尾均值将数据按由小到大顺序排列后
5、,因数据两端的值不够稳定,按一定比例除去数据头尾两端一定数量的观测值,然后再求平均,这样得到的均值就称为截尾均值。三、离中趋势的测量变异指标反映的是各变量值远离其中心值的程度,即反映数列中各标志值的变动范围或离差程度。平均指标将数据的数量差异抽象化了,用一个代表数值反映现象的一般水平,反映的是各单位某一数量标志的共性,而不能反映它们之间的差异性。因此仅用平均指标还不能全面描述数据分布的特征,标志变异指标弥补了这个不足,从另一方面说明数据分布的特征,反映的是数据分布的离中趋势。1、全距全距又称极差,是最大值与最小值之差。计算公式为:极差常在小样本的场合使用,而在大样本场合很少在实际中应用。这是因
6、为极差仅使用了样本中两个极端点的信息,而把中间的信息都丢弃了,当样本容量越大时,丢弃的信息也就越多,从而留下的信息过少,其使用价值就不大了。2、四分位差是来自某总体的一个样本,其次序统计量为,样本的分位数是指由下式求得的统计量:上式中的是不超过的最大整数。样本的分位数表示容量为的样本中约有个数小于。时,即为样本中位数,另外,在描述数据位置时常用到四分位数,即与的分位数与并常将它们记为与,分别称它们为第一四分位数与第三四分位数,或下四分位数和上四分位数,它反映了有四分之一的数据小于,有四分之一的数据大于,而有一半数据介于与之间。如果用上四分位数减下四分位数,可得“内四分位间距”或“四分位间距”。
7、这个指标与一般极差的区别在于计算范围较窄,排除了部分极端值对变异指标的影响。但在运用指标进行分析时,人们一般习惯于取四分位间距的一半,称为“四分位差()”Q.D.=3、异众比异众比率又称离异比率或变差比,是指非众数组的频数占总频数的比率,其计算公式为:式中,为异众比率;为变量值的总频数;为众数组的频数。异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性就越差;异众比率越小,说明非众数组的频数占总频数的比重越小,众数的代表性越好。异众比率主要用于测试定类数据(类别数据)的离散程度,当然,定序数据以及定距和定比数据也可以计算异众比率。4、方差和标准差方差是各变量值与其均值离差平方的平
8、均数,方差的正平方根称为标准差。方差的计算公式为:标准差的计算公式为:方差、标准差都有具体的计量单位,它们都是从绝对量上反映现象数量的变异程度,其数值大小必然受总体单位标志值本身水平高低的影响,若直接用上面指标比较不同水平数列的变异程度显然不合理,因而需消除平均水平高低的影响,消除的办法是将各变异指标与数列自身平均水平对比,得到一个反映变异的相对数,即变异系数。实际中最常用的是标准差系数,其计算公式为:有了均值和标准差后,我们可以计算一组数据中各个数值的标准化值,设标准化值为Z,其计算公式为:或四、分布特征的测量集中趋势和离散程度是数据分布的两个重要特征,但要全面了解数据分布的特点,还需要知道
9、数据分布的形状是否对称、偏斜的程度以及分布的扁平程度等,这就需要计算偏度和峰度。1、偏度系数偏度系数反映变量频数分布曲线的高峰是偏左、居中还是偏右。计算公式为:,表示负偏,表示正偏,表示分布对称。2、峰度系数峰度系数反映变量频数分布的高峰是平阔峰、正态峰还是尖峭峰。计算公式为:,表示曲线为平阔峰,表示曲线为正态峰,表示曲线为尖峭峰。实验背景:为了解某企业工人的工资情况,随机抽取30人,月工资如下:1050100012001410159014001100157017101550132016901380106014701300156012501560135014601510155014501550
10、1570178016101510980要求绘制频数表、直方图,以及各种描述统计量。实验过程:一、用Frequencies过程进行描述统计分析选择Analyze/DescriptiveStatistics/Frequencies,打开频数分布对话框,如图5.1所示:图5.1图5.1左侧为源变量框,在源变量框中选择一个或多个变量,单击向右箭头按钮使其进入右侧的Variable(s)框中。Variables(s)框用于选入需要进行描述的变量,可以选入一个或多个,如果选入多个,系统会对其依次进行分析。Displayfrequencytables用于确定是否在结果中输出频数表。点击Statistics按
11、钮,打开Frequency:Statistics对话框,如图5.2所示:图5.2图5.2包含五个选项组:PercentileValues复选框组:用于定义百分位数,具体包括Quartiles(四分位数)、Cutpointsforequalgroups(将数据平分为所设定的相等等份)、Percentile(s)(直接指定某个百分位数),当选择Percentile(s)时,可以在参数框输入0100之间的数值,当输入某个数值后,点击Add按钮,重复此操作过程,可以输入多个百分位数。Dispersion复选框组:选择离中趋势的指标,包括Std.deviation(标准差)、Variance(方差)、R
12、ange(全距)、Minimum(最小值)、Maximum(最大值)、S.E.mean(均值的标准误)。CentralTendency复选框组:用于选择集中趋势的指标,包括Mean(均值)、Median(中位数)、Mode(众数)、Sum(算术和)。Valuesaregroupmidpoints:如果选中该项,表示对于分组数据,用组中值作为各组数据的代表。Distribution筛选框组:包括Skewness(偏度系数)和Kurtosis(峰度系数)。点击Charts按钮,打开Frequencies:Charts对话框,如图7.3所示:该对话框用于设定图的类型及纵轴的刻度。ChartType单
13、选钮组:用于选择图形类型,包括None(不输出图形)、Barcharts(条形图)、Piecharts(饼图或圆形图)、Histograms(直方图)。如果选择了直方图,还可以选择是否添加正态曲线(Withnormalcurve)。ChartValues单选钮组:当选择了条形图或饼图时,该项才会被激活。Frequencies表示纵轴为频数,Percentages表示纵轴为百分数。图5.3点击Format按钮,打开Frequencies:Format对话框,如图5.4所示:图5.4图5.4用于定义频数表的输出格式,共包括三个选项组。Orderby单选钮组:用于定义频数表中的排列顺序,Ascend
14、ingvalues表示根据变量值按升序作频数表;Descendingvalues表示根据变量值按降序作频数表;Ascendingcounts表示根据频数按升序作频数表;Descendingcounts表示根据频数按降序作频数表。MultipleVariables单选钮组:用于设定多变量频数的格式,Comparevariables表示将所有变量的结果在同一个频数表中输出,以便于相互比较;Organizeoutputbyvariables表示按每一个变量单独输出频数表。Suppresstableswithmorethan_categories:当频数表的分组数大于设定数值时,按设定数值输出频数表。
15、在此例中,选择Displayfrequencytables,在PercentileValues复选框组中选择Quartiles,在Dispersion复选框组选择Std.deviation,在CentralTendency复选框组选择Mean,在Distribution筛选框组选择Skewness和Kurtosis,在ChartType单选钮组选择Histograms并添加正态曲线,点击OK后即得到估计结果,如图5.5、5.6所示:Statistics(WAGE)NValid30Missing0Mean1416.33Median1465.00Mode1550Std.Deviation216.1
16、49Variance46720.575Skewness-.622Std.ErrorofSkewness.427Kurtosis-.430Std.ErrorofKurtosis.833Range800Minimum980Maximum1780Percentiles251287.50501465.00751562.50图5.5图6.5中,最上方为表格名称,左上方为分析变量名。在本例中,样本容量N为30,缺失值为0,均值Mean为1416.3333,标准差Std.deviation为216.14943,偏度系数为-0.622,偏度系数的标准误为0.427,峰度系数为-0.430,峰度系数的标准误为0
17、.833,第一个四分位为1287.5,第二个四分位为1465,第三个四分位为1562.5。图5.6图5.6为带正态曲线的直方图,可见数据不是服从正态分布的,结合图5.5中的偏度每当,数据分布是左偏的。二、用Descriptives过程进行描述统计分析选择Analyze/DescriptiveStatistics/Descriptives,打开频数分布对话框,如图5.7所示:图5.7图5.7左侧为源变量框,选择一个或多个变量,单击向右箭头按钮使其进入右侧的框中。此处选择变量wage。Variable(s)框用于选择需要进行描述统计的变量,可选入一个或多个,若选入多个,系统会对其依次进行输出,输出
18、结果在同一张表格内。Savestandardizedvaluesasvariables用于确定是否将标准化值保存为新变量,若选中此项,系统会产生一个新变量,变量名为原变量名加前缀Z。点击Options按钮,打开Descriptives:Options对话框,如图5.7所示:图5.7图5.7中的前三部分前面已经介绍过,此处不再赘述。最下方DisplayOrder单选钮组用于设定显示顺序,Variablelist表示按变量列表顺序显示,Alphabetic表示按字母顺序显示,Ascendingmeans表示按均值升序显示,Descendingmeans表示按均值降序显示。其中默认状态为Variab
19、lelist。在Options中均选择默认设置,点击OK后,即得到输出结果,如图5.7所示:DescriptiveStatisticsNMinimumMaximumMeanStd.DeviationWAGE3098017801416.33216.149ValidN(listwise)30图5.7三、用Explore过程进行描述统计分析选择Analyze/DescriptiveStatistics/Explore,打开频数分布对话框,如图5.8所示:图5.8图5.8中,左侧为源变量框,选择一个或选择一个或多个变量,单击向右箭头按钮使其进入右侧的DependentList框中。此处选择变量X。De
20、pendentList框用于选择需要进行分析的变量。FactorList框用于选择分组变量,如果选择了分组变量,系统将按分组变量的取值进行分组分析。分组变量可以是字符型变量,也可以是数值型变量。当分组变量不止一个时,按分组变量的取值进行组合分组。LabelCasesby框用于选择标签变量,它的取值将作为每条记录的标签。常用的标准变量为记录ID号的变量。当输出结果包含奇异值时,设置标签变量可以看出奇异值是哪一条记录。Display单选钮组用于确定显示结果,选择Statistics表示仅输出统计量,选择Plots表示仅输出统计图,选择Both则既输出统计量,也输出统计图。点击Statistics按
21、钮,打开Explore:Statistics对话框,如图5.8所示:图5.8图5.8包含四个复选框,Descriptives用于输出描述统计量,选择此项将输出均值、中位数、众数、5%的截尾均值、标准误、方差、标准差、最大值、最小值、全距、四分位内距、峰度系数、峰度系数的标准误、偏度系数、偏度系数的标准误,另外还可指定均值的置信区间。M-estimators为稳键估计,Outliers为极端值,输出五个最大值与五个最小值,Percentiles复选项输出5%、10%、25%、50%、75%90%及95%的百分位数。点击Plots按钮,打开Explore:Plots对话框,如图5.9所示:图5.9
22、图5.9用于选择所需要的统计图。Boxplots单选钮组用于确定箱线图的绘制方式,Factorlevelstogether表示按分组变量绘制箱线图,Dependentstogether表示所有变量一起绘制箱线图,None表示不绘制箱线图。Descriptive复选框组包括Stem-andleaf(茎叶图)和Histogram(直方图)。Normalityplotswithtests绘制正态概率图并进行相应的检验。Spreadvs.LevelwithLeveneTest单选框组用于判断各组间的离散程度是否相同,并为此寻求一个比较合适的变量变换方法。按需要进行选择,点击OK后即得到输出结果,如图5
23、.10、5.11、5.12、5.13所示:CaseProcessingSummaryCasesValidMissingTotalNPercentNPercentNPercentWAGE30100.0%0.0%30100.0%图5.10图5.10为观测摘要表,包括有效观测数及所点百分比,缺失值个数及所占百分比和总例数,由图可知所有30例均为有效值。DescriptivesStatisticStd.ErrorWAGEMean1416.3339.46395%ConfidenceIntervalforMeanLowerBound1335.62UpperBound1497.045%TrimmedMean1421.30Median1465.00Variance46720.575Std.Deviation216.149Minimum980Maximum1780Range800InterquartileRange275Skewness-.622.427Kurtosis-.430.833图5.11图5.11为描述统计量表,列出了常用的描述统计量,从上到下依次为均值及期标准误、95%置信上限与下限、5%截尾均值、中位数、方差、标准差、最小值、最大值、全距、四分位内距、偏度系数及其标准误、峰度系数及期标准误。图5.12图5.13图5.14由图可知,箱线图中不存在离群值和极值。-
限制150内