《实验四 描述性统计分析.doc》由会员分享,可在线阅读,更多相关《实验四 描述性统计分析.doc(15页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、实验四 描述性统计分析峰 度数据的特征和测度分布的形状集中趋势离散程度众 数中位数均 值离散系数方差和标准差四分位差异众比率偏 态一、集中趋势的测度定类数据:众数 定序数据:中位数和分位数定距和定比数据:均值众数、中位数和均值的比较1. 一组数据向其中心值靠拢的倾向和程度2. 测度集中趋势就是寻找数据一般水平的代表值或中心值3. 不同类型的数据用不同的集中趋势测度值4. 低层次数据的集中趋势测度值适用于高层次的测量数据,反过来,高层次数据的集中趋势测度值并不适用于低层次的测量数据5. 选用哪一个测度值来反映数据的集中趋势,要根据所掌握的数据的类型来确定I. 众数(Mode)1、 集中趋势的测度
2、值之一2、 出现次数最多的变量值3、 不受极端值的影响4、 可能没有众数或有几个众数5、 主要用于定类数据,也可用于定序数据和数值型数据II. 中位数(Median)6、 集中趋势的测度值之一7、 排序后处于中间位置上的值Me50%50%8、 不受极端值的影响9、 主要用于定序数据,也可用数值型数据,但不能用于定类数据10、 各变量值与中位数的离差绝对值之和最小,即 III. 四分位数(Quartiles)1.集中趋势的测度值之一2.排序后处于25%和75%位置上的值QLQMQU25%25%25%25%3. 不受极端值的影响4. 主要用于定序数据,也可用于数值型数据,但不能用于定类数据IV.
3、均值(Mean)1.集中趋势的测度值之一2.最常用的测度值3.一组数据的均衡点所在4.易受极端值的影响5. 用于数值型数据,不能用于定类数据和定序数据众数、中位数和均值的关系左偏分布均值 中位数 众数对称分布 均值= 中位数= 众数右偏分布众数 中位数 均值二、离散程度的测度 定类数据:异众比率定序数据:四分位差定距和定比数据:方差及标准差I. 异众比率1.离散程度的测度值之一2.非众数组的频数占总频数的比率3.仅用于定类数据4. 用于衡量众数的代表性II. 四分位差1.离散程度的测度值之一2.也称为内距或四分间距3.上四分位数与下四分位数之差 QD = QU - QL4. 反映了中间50%数
4、据的离散程度5. 不受极端值的影响6. 用于衡量中位数的代表性III. 方差和标准差(Variance and Std。deviation)1.离散程度的测度值之一2.最常用的测度值3.反映了数据的分布4.反映了各变量值与均值的平均差异5.根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差IV. 偏态 (kurtosis)1.数据分布偏斜程度的测度2.偏态系数=0为对称分布3.偏态系数 0为右偏分布4.偏态系数 0为左偏分布V. 峰度(skewness)1.数据分布扁平程度的测度2.峰度系数=3扁平程度适中3.偏态系数3为尖峰分布三、描述统计量的软件实现1、Ex
5、cel选择工具=数据分析=描述统计即可输出大部分描述统计量。但EXCEL只能按行或列进行分组统计,因此在编辑数据时要注意。2、SPSSSPSS的许多模块均可完成描述性分析,但专门为该目的而设计的几个模块则集中在AnalyzeDescriptive Statistics菜单中,最常用的是列在最前面的四个过程:l Frequencies过程的特色是产生频数表;l Descriptives过程则进行一般性的统计描述;l Explore过程用于对数据概况不清时的探索性分析;l Crosstabs过程则完成计数资料和等级资料的统计描述和一般的统计检验;l 我们常用的X2 检验也在其中完成。2.1 Fre
6、quencies过程 此过程可以方便地对数据按组进行归类整理,形成各变量的不同水平的频数分布表和图形,以便对各变量的数据特征和观测量分布状况有一个概括的认识。频数分布表是描述性统计中最常用的方法之一。它还可对数据的分布趋势进行初步分析。【Statistics 按钮】l Percentile Values复选框组 定义需要输出的百分位数,可计算四分位数(Quartiles)、每隔指定百分位输出当前百分位数(Cut points for equal groups)、或直接指定某个百分位数(Percentiles),如直接指定输出P2.5和P97.5;l Central tendency 复选框组
7、用于定义描述集中趋势的一组指标:均数(Mean)、中位数(Median)、众数(Mode)、总和(Sum) ;l Dispersion复选框组 用于定义描述离散趋势的一组指标:标准差(Std.deviation)、方差(Variance)、全距 (Range)、最小值(Minimum)、最大值(Maximum)、均值标准误差(S.E.mean) ;l Distribution复选框组 用于定义描述分布特征的两个指标:偏度系数(Skewness)和峰度系数(Kurtosis) ;l Values are group midpoints复选框 当你输出的数据是分组频数数据,并且具体数值是组中值时,
8、选中该复选框以通知SPSS,免得它犯错误。【Chart 按钮】l Chart type单选钮组 定义统计图类型,有四种选择:无、条图(Bar chart)、饼图(Pie chart)、直方图Histogram),其中直方图还可以选择是否加上正态曲线(With normal curve) ;l Chart Values单选钮组 定义是按照频数还是按百分比做图(即影响纵坐标刻度)。例4.1 利用房价原始数据图.Sav绘制频数表、直方图,计算均数、标准差、中位数M、p2.5和p97.5。 1. Analyze=Descriptive Statistics=Frequencies 2. Variabl
9、es框:选入Price 3. 单击Statistics钮: 4. 选中Mean、Std.deviation、Median复选框 5. 单击Percentiles:输入2.5:单击Add:输入97.5:单击Add: 6. 单击Continue钮 7. 单击Charts钮: 8. 选中Bar charts 9. 单击Continue钮 10. 单击OK。最上方为表格名称,左上方为分析变量名,可见样本量N为105例,缺失值0例,均数Mean=220.72,中位数Median=213.00,标准差STD=47.108,P2.5=134.10,P97.5=326.35。案例1:利用居民储蓄调查表数据进行
10、频数分析,实现:目标一:分析储户的户口和职业的基本情况;提示:为使频数分布表一目了然,可调整频数分布表中数据的输出顺序,如按频数的降序输出,户口按饼图输出,职业按条形图输出;目标二:分析储户一次存(取)款金额的分布,并对城镇储户和农村储户进行比较。 提示:由于存(取)款金额数据为定距型变量,直接采用频数分析不利于对其分布形态的把握,因此考虑先用数据分组功能(TransformRecord)对数据分组后再编制频数分布表;进行数据拆分,并分别计算城镇储户和农村储户的一次存(取)款金额的四分位数,并通过四分位数比较两者分布上的差异。2.2 Descriptives过程可对变量进行描述统计量分析,计算
11、并列出一系列相应的统计指标,包括平均值、算术和、标准差、最大值、最小值等,且可将原始数据转换成标准Z分值(标准正态评分值)并存入数据库。选择菜单Analyze=descriptive= Descriptives 对话框的界面如下所示:【Save standardized values as variables复选框】确定是否将原始数据的标准正态评分存为新变量。案例2:利用居民储蓄调查表数据计算基本描述统计量,实现:目标一:计算存(取)款金额的基本描述统计量,并分别对城镇储户和农村储户进行比较;提示:首先按照户口对数据进行拆分;目标二:分析储户一次存(取)款的数量是否存在不均衡现象。 提示:可以
12、从分析金额是否有大量异常值入手;计算存(取)款金额的标准化值,并选中Save Standardized As Variables选项,将自动计算存(取)款金额的标准化值,并存为Za5;对Za5进行排序,并分为三组(Za5=-3低金额组,-3 Za5=3高金额组)后进行频数分析;观察低金额组(即低异常值组)和高金额组(即高异常值组)的比例,如异常组的总比例大于理论值0.3%,即认为存(取)款金额存在一定的不均衡现象 。2.3 Explore过程功能: 1.检查数据是否有错误 2.数值的分布特征 3.对数据的规律的初步观察选择菜单Analyze=descriptive= Explore 对话框的界
13、面如下所示:【Display单选钮组】用于选择输出结果中是否包含统计描述、统计图或两者均包括。【Dependent List框】用于选入需要分析的变量。【Factor List框】如果想让所分析的变量按某种因素取值分组分析,则在这里选入分组变量。【Label cases by框】选择一个变量,他的取值将作为每条记录的标签。最典型的情况是使用记录ID号的变量。【Statistics钮】弹出Statistics对话框,用于选择所需要的描述统计量。有如下选项:l Descriptives复选框:输出均数、中位数、众数、5%修正均数、标准误、方差、标准差、最小值、最大值、全距、四分位全距、峰度系数、峰
14、度系数的标准误、偏度系数、偏度系数的标准误及指定的均数可信区间。 l M-estimators复选框:作中心趋势的粗略最大似然确定,输出四个不同权重的最大似然确定数。 l Outliers复选框:输出五个最大值与五个最小值。 l Percentiles复选框:输出第5%、10%、25%、50%、75%、90%、95%位数。【Plot钮】弹出Plot对话框,用于选择所需要的统计图。有如下选项:l Boxplots单选框组:确定箱式图的绘制方式,可以是按组别分组绘制(Factor levels together),也可以不分组一起绘制(Depentends together),或者不绘制(None
15、)。 l Descriptive复选框组:可以选择绘制茎叶图(Stem-and-leaf)和直方图(Histogram)。l Normality plots with test复选框:绘制正态分布图并进行变量是否符合正态分布的检验。l Spread vs. Level with Levene Test单选框组:当选择了分组变量时,绘制spread-versus-level图,设置绘图时变量的转换方式,并进行组间方差齐性检验。 【Options钮】用于选择对缺失值的处理方式,可以是不分析有任一缺失值的记录、不分析计算某统计量时有缺失值的记录,或报告缺失值。Statistic Std. Error
16、priceMean220.724.597 95% Confidence Interval for MeanLower Bound211.61 Upper Bound229.84 5% Trimmed Mean219.55 Median213.00 Variance2219.125 Std. Deviation47.108 Minimum125 Maximum345 Range220 Interquartile Range65 Skewness.473.236 Kurtosis-.274.467以下是房价茎叶图:priceprice Stem-and-Leaf Plot Frequency St
17、em & Leaf 3.00 1 . 223 3.00 1 . 455 16.00 1 . 6667777777777777 20.00 1 . 88888888888999999999 14.00 2 . 00000000001111 14.00 2 . 22222222233333 13.00 2 . 4444444455555 8.00 2 . 66666777 7.00 2 . 8899999 4.00 3 . 0111 2.00 3 . 22 1.00 3 . 4Stem width: 100 Each leaf: 1 case(s)以上是茎叶图,整数位为茎,小数位为叶。这样可以非常
18、直观的看出数据的分布范围及形态,在国外非常流行。以上是箱线图,中间的黑粗线为均数,红框为四分位间距的范围,上下两个细线为最大、最小值。案例3:利用居民储蓄调查表数据分析储户存(取)款金额的分布情况。2.4 Crosstabs过程(列联表分析)Crosstabs过程用于分析多个变量不同取值下的分布,掌握多变量的联合分布特征,进而分析变量之间的相互影响和关系。称列联表分析或交叉分组下的频数分析。两大基本任务: 1)根据收集到的样本数据编制二维或多维交叉列联表; 2)在交叉列联表的基础上,对两两变量间是否存在一定的相关性进行分析。Crosstabs过程不能产生一维频数表(单变量频数表),该功能由Fr
19、equencies过程实现。 交叉列联表的卡方检验: 检验行变量和列变量是否独立?u 建立零假设(H0);列联表分析中卡方检验的零假设为行变量与列变量独立;u 选择和建立检验统计量;列联表分析中卡方检验的检验统计量是Pearson卡方统计量。u 确定显著性水平和临界值;u 结论和决策。 方法一:如果卡方的观测值大于卡方临界值,可拒绝零假设; 方法二:如果卡方观测值的概率p值小于等于,拒绝零假设。 在SPSS中,上述列联表卡方检验的过程,除用户要自行确定显著性水平和进行决策外,其余各步都是SPSS自动完成的; SPSS将自动计算卡方统计量的观测值以及大于等于该值的概率P值; 因此,在应用中,用户
20、只要明确零假设,便可方便地按照第二种决策方式进行决策。 事实上,所有的假设检验均是这样进行的。例4.2 利用下表格数据,进行列联表分析。 处 理愈 合未愈合合计呋喃硝胺54862甲氰咪胍442064合 计9828126解:由于此处给出的直接是频数表,因此在建立数据集时可以直接输入三个变量行变量、列变量和指示每个格子中频数的变量,然后用Weight Cases对话框指定频数变量,最后调用Crosstabs过程进行X2检验。假设三个变量分别名为R、C和W,则数据集结构和命令如下:RCW1.001.0054.001.00 2.0044.002.00 1.008.002.00 2.0020.001.
21、Data=Weight Cases 2. Weight Cases by单选框:选中 3. Freqency Variable:选入W 4. 单击OK钮 5. Analyze=Descriptive Statistics=Crosstabs 6. Rows框:选入R 7. Columns框:C 8. Statistics钮:Chi-square复选框:选中:单击Continue钮9. 单击OK钮从左到右为:检验统计量值(Value)、自由度(df)、双侧近似概率(Asymp.Sig.2-sided)、双侧精确概率(Exact Sig.2-sided)、单侧精确概率(Exact Sig.1-si
22、ded);从上到下为:Pearson卡方(Pearson Chi-Square即常用的卡方检验)、连续性校正的卡方值(Continuity Correction)、对数似然比方法计算的卡方(Likelihood Ratio)、Fishers确切概率法(Fishers Exact Test)、线性相关的卡方值(Linear by Linear Association)、有效记录数(N of Valid Cases)。另外,Continuity Correction和Pearson卡方值处分别标注有a和b,表格下方为相应的注解:a.只为2*2表计算。b.0%个格子的期望频数小于5,最小的期望频数为
23、13.78。因此,这里无须校正,直接采用第一行的检验结果,即X2=6.133,P=0.013,如给定显著性为0.05,由于卡方的频率p值小于,因此拒绝零假设,即认为两组方法治疗效果有差异 。如果交叉列联表中有20%以上单元格中的期望频数小于5,则一般不宜使用卡方检验。在这种情况下,可以采用似然率卡方检验等方法进行修正。例4.3 以数据加工(职工数据).sav为例,检验职称和文化程度是否有关联?1. Analyze=Descriptive Statistics=Crosstabs;2. 如果进行二维列联表分析,将行变量职称(zc)选择到Row(s)框,将列变量文化程度(xl)选择到Column框
24、中; 3. 选择Display clustered bar charts选项,指定绘制各变量交叉分组下频数分布柱形图,suppress tables表示不输出列联表,仅分析行列变量间关系; 4. 单击Cell按钮指定列联表单元格中的输出内容; 5. 单击Format按钮指定列联表各单元的输出排列顺序 ,SPSS默认以行变量取值的升序排列;6. 单击Statistics按钮指定用哪种方法分析行变量和列变量间的关系,一般选择Chi-Square卡方检验。案例4:利用居民储蓄调查表数据进行计算,实现以下两个目标:目标一:分析城镇储户和农村储户对“未来两年内收入状况的变化趋势”是否持相同的态度;提示:
25、列联表的行变量为户口(a13),列变量为未来收入情况(a3),在列联表中输出各种百分比,期望频数、剩余、标准化剩余,同时显示各交叉分组下频数分布柱形图,并利用卡方检验方法,对城镇和农村储户对该问题的态度是否一致进行分析;目标二:分析城镇和农村储户对储蓄是否合算的认同是否一致。 提示:该分析中列联表的行变量为户口(a13),列变量为什么合算(a1),在列联表的基础上进行卡方检验。补充:多选项分析多选项分析是针对问卷调查中的多选项问题的。对于多选项问题由于答案个数不止一个,如果仍按单选问题的方式设置SPSS变量,那么该变量虽然能够存储多个答案,但却无法直接支持对问题的分析。即对一个多选项问题仅设置
26、一个SPSS变量在数据处理和分析中是行不通的。l 将多选项问题分解;(前面已讲过)l 利用前面讲到的频数分析或交叉分组下的频数分析等方法进行分析。多选项频数分析或多选项交叉分组下的频数分析1、 定义多项选择变量集将多选项问题分解并设置成多个变量后,指定这些变量为一个集合。1、选择菜单 Analyze=Multiple Response=Define sets;2、从数值型变量中将进入多选项变量集的变量选择到Variables in sets框中;3、在variables are coded as框中指定多选项变量集中的变量是按照哪种方法分解的。Dichotomies表示以多选项二分法分解,并在
27、counted value中输入对哪组值进行分析。Spss规定等于该值的样本为一组,其余样本为另一组;categories表示以多选项分类法分解,并在Range框和through框中输入变量取值的最小值和最大值。4、为多选项变量集命名,系统会自动在该名字前加字符;5、单击Add按钮将定义好的多选项变量集加到Mult Response Sets框中。2、定义多项选择变量集将多选项问题分解并设置成多个变量后,指定这些变量为一个集合。选择菜单 Analyze=Multiple Response=Define sets3、 多选项频数分析操作或多选项交叉分组下的频数分析选择菜单Analyze=Multiple Response=Frequencies或 选择菜单Analyze=Multiple Response=Crosstabs与前Frequencies和Crosstabs操作类似。案例5:利用居民储蓄调查表数据进行分析,实现以下两个分析目标:分析储户的储蓄目的;提示:即回答储蓄的最主要目的是什么,占到多少?什么的比例最少?分析不同年龄段储户的储蓄目的。提示:采用多选项交叉分组下的频数分析。回答20岁以下储户中存钱主要是为了什么?其他如2035岁的储户,3550岁的储户,50岁以上的储户他们存钱的最主要的目的又是什么呢?
限制150内