《基本统计分析.pdf》由会员分享,可在线阅读,更多相关《基本统计分析.pdf(20页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 1偏度与峰度偏度与峰度 刻画分布形态的统计量:偏度和峰度 刻画分布形态的统计量:偏度和峰度 偏度(偏度(skewness):):描述变量取值分布形态对称性的统计量。计算公式为:描述变量取值分布形态对称性的统计量。计算公式为:3311()/1niiSkewnessxxSn 当分布是对称分布时,偏度值等于当分布是对称分布时,偏度值等于 0;偏度值大于偏度值大于 0,表示正偏差值较大,为右偏分布;,表示正偏差值较大,为右偏分布;偏度值小于偏度值小于 0,表示负偏差值较大,为左偏分布。,表示负偏差值较大,为左偏分布。偏度绝对值越大,表示数据分布形态的偏斜程度越大。偏度绝对值越大,表示数据分布形态的偏
2、斜程度越大。峰度(峰度(kurtosis):描述变量取值分布形态陡缓程度的统计量。计算公式为:描述变量取值分布形态陡缓程度的统计量。计算公式为:4411()/31niiKurtosisxxSn 当数据分布与标准正态分布的陡缓程度相同时,峰度值等于当数据分布与标准正态分布的陡缓程度相同时,峰度值等于 0;峰度值大于峰度值大于 0 表示数据的分布比标准正态分布更陡峭,为尖峰分布;表示数据的分布比标准正态分布更陡峭,为尖峰分布;2峰度值小于峰度值小于 0 表示数据的分布比标准正态分布平缓,为平峰分布。表示数据的分布比标准正态分布平缓,为平峰分布。3Explore 过程过程 Explore 过程可对变
3、量进行更为深入详尽的描述性统计分析,主要用于对资料的性质、分布特点等完全不清楚时,故又称之为探索性分析。它在一般描述性统计指标的基础上,增加有关数据其他特征的文字与图形描述,如茎叶图、箱线图等,显得更加详细、全面,有助于用户制定继续分析的方案。过程可对变量进行更为深入详尽的描述性统计分析,主要用于对资料的性质、分布特点等完全不清楚时,故又称之为探索性分析。它在一般描述性统计指标的基础上,增加有关数据其他特征的文字与图形描述,如茎叶图、箱线图等,显得更加详细、全面,有助于用户制定继续分析的方案。Explore 过程提供了以下过程提供了以下 3 种非常重要的功能:种非常重要的功能:(1)异常值检查
4、)异常值检查(2)分布正态性检验)分布正态性检验(3)方差齐性检验:方差齐性检验就是检验各观测变量在控制变量不同水平下的方差是否相等。)方差齐性检验:方差齐性检验就是检验各观测变量在控制变量不同水平下的方差是否相等。界面说明界面说明 4【Display 单选钮组】单选钮组】用于选择输出结果中是否包含统计描述、统计图或两者均包括。用于选择输出结果中是否包含统计描述、统计图或两者均包括。【Dependent List 框】框】用于选入需要分析的变量。用于选入需要分析的变量。【Factor List 框】框】如果想让所分析的变量按某种因素取值分组分析,则在这里选入分组变量。如果想让所分析的变量按某种
5、因素取值分组分析,则在这里选入分组变量。【Label cases by 框】框】选择一个变量,它的取值将作为每条记录的标签。最典型的情况是使用记录选择一个变量,它的取值将作为每条记录的标签。最典型的情况是使用记录 ID 号的变量。号的变量。5【Statistics 按钮】按钮】弹出弹出 Statistics 对话框,用于选择所需要的描述统计量。有如下选项:对话框,用于选择所需要的描述统计量。有如下选项:o Descriptives 复选框:输出均值、中位数、众数、复选框:输出均值、中位数、众数、5%截尾均值、均值标准误、方差、标准差、最小值、最大值、全距、四分位全距、峰度系数、峰度系数的标准误
6、、偏度系数、偏度系数的标准误及指定的均值置信区间。截尾均值、均值标准误、方差、标准差、最小值、最大值、全距、四分位全距、峰度系数、峰度系数的标准误、偏度系数、偏度系数的标准误及指定的均值置信区间。o M-estimators 复选框:集中趋势的稳健估计,输出四个不同权重的统计量。复选框:集中趋势的稳健估计,输出四个不同权重的统计量。(M-estimators.Robust alternatives to the sample mean and median for estimating the center of location.The estimators calculated diffe
7、r in the weights they apply to cases.Hubers M-estimator,Andrews wave estimator,Hampels redescending M-estimator,and Tukeys biweight estimator are displayed.)o Outliers 复选框:输出五个最大值与五个最小值。复选框:输出五个最大值与五个最小值。6o Percentiles 复选框:输出第复选框:输出第 5%、10%、25%、50%、75%、90%、95%位数。位数。【Plot 按钮】按钮】弹出弹出 Plot 对话框,用于选择所需要的
8、统计图。有如下选项:对话框,用于选择所需要的统计图。有如下选项:o Boxplots 单选框组:确定箱线图的绘制方式,可以是按组别分组绘制单选框组:确定箱线图的绘制方式,可以是按组别分组绘制(Factor levels together),也可以不分组一起绘制,也可以不分组一起绘制(Dependents together),或者不绘制,或者不绘制(None)。o Descriptive 复选框组:可以选择绘制茎叶图复选框组:可以选择绘制茎叶图(Stem-and-leaf)和直方图和直方图(Histogram)。o Normality plots with test 复选框:绘制正态分布图并检验
9、变量是否符合正态分布。复选框:绘制正态分布图并检验变量是否符合正态分布。7o Spread vs.Level with Levene Test 单选框组:当选择了分组变量时,绘制单选框组:当选择了分组变量时,绘制 spread-versus-level 图,输出方差齐性图,输出方差齐性 Levenes 检验。检验。Levenes 检验的原假设是方差满足齐性,若检验的原假设是方差满足齐性,若 Levenes 统计量的概率统计量的概率 p 值小于给定的显著性水平,则拒绝原假设,各组的方差不相等。值小于给定的显著性水平,则拒绝原假设,各组的方差不相等。【Options 钮】钮】用于选择对缺失值的处理
10、方式:用于选择对缺失值的处理方式:Exclude cases listwise:剔除带有缺失值的观测值;:剔除带有缺失值的观测值;Exclude cases pairwise:仅剔除那些缺失值有成对关系的观测值;:仅剔除那些缺失值有成对关系的观测值;Report values:分组变量中的缺失值被单独视为一组。:分组变量中的缺失值被单独视为一组。例子:上市公司财务数据:对每股收益率数据进行研究;检验不同行业上市公司每股收益率的方差是否满足方差齐性。例子:上市公司财务数据:对每股收益率数据进行研究;检验不同行业上市公司每股收益率的方差是否满足方差齐性。8Crosstabs 过程过程 Crosst
11、abs:列联表分析:列联表分析 它包括两大基本任务:它包括两大基本任务:第一,根据收集到的样本数据,编制二维或多维交叉列联表;第一,根据收集到的样本数据,编制二维或多维交叉列联表;第二,在交叉列联表的基础上,对两变量间是否存在一定的相关性进行分析。第二,在交叉列联表的基础上,对两变量间是否存在一定的相关性进行分析。界面说明界面说明 【Rows 框】框】9用于选择行用于选择行*列表中的行变量。列表中的行变量。【Columns 框】框】用于选择行用于选择行*列表中的列变量。列表中的列变量。【Layer 框】框】Layer 指的是层,对话框中的许多设置都可以分层设定,在同一层中的变量使用相同的设置,
12、而不同层中的变量分别使用各自层的设置。指的是层,对话框中的许多设置都可以分层设定,在同一层中的变量使用相同的设置,而不同层中的变量分别使用各自层的设置。【Display clustered bar charts 复选框】复选框】显示复式条型图。显示复式条型图。【Suppress table 复选框】复选框】禁止在结果中输出行禁止在结果中输出行*列表。列表。【Exact 按钮】按钮】10 针对针对 2*2 以上的行以上的行*列表设定计算确切概率的方法,可以是不计算(列表设定计算确切概率的方法,可以是不计算(Asymptotic only)、蒙特卡罗模拟()、蒙特卡罗模拟(Monte Carlo)
13、或确切计算()或确切计算(Exact)。蒙特卡罗模拟默认进行)。蒙特卡罗模拟默认进行 10000 次模拟,给出次模拟,给出 99%置信区间;确切计算默认计算时间限制在置信区间;确切计算默认计算时间限制在 5 分钟内。分钟内。【Statistics 按钮】按钮】11 弹出弹出 Statistics 对话框,用于定义所需计算的统计量。对话框,用于定义所需计算的统计量。o Chi-square 复选框:计算复选框:计算2值。(参见后面的具体检验方法)值。(参见后面的具体检验方法)o Correlations 复选框:计算行、列两变量的复选框:计算行、列两变量的 Pearson 相关系数和相关系数和
14、Spearman 等级相关系数。等级相关系数。o Norminal 复选框组:适用于两定类变量的情形。复选框组:适用于两定类变量的情形。a.Contingency coefficient 复选框:即列联系数,复选框:即列联系数,22Cn,其值介于,其值介于 01 之间,值越接近于之间,值越接近于 1,行列变量有较强的相关关系。,行列变量有较强的相关关系。b.Phi and Cramers V 复选框:复选框:Phi 系数适用于系数适用于 22 列联表,是对列联表,是对2统计量的修正:统计量的修正:12 2n Phi 系数越接近于系数越接近于 1,行列变量的相关关系越强。,行列变量的相关关系越强
15、。Cramers V:2min(1)(1)Vnrc 在在 22 列联表中,列联表中,Phi 系数与系数与 V 系数是相等的。系数是相等的。V 系数介于系数介于 01 之间,越接近于之间,越接近于 1,行列变量间的相关关系越强。,行列变量间的相关关系越强。c.Lambda 复选框:在自变量预测中用于反映比例缩减误差,其值为复选框:在自变量预测中用于反映比例缩减误差,其值为 1 时表明自变量预测应变量好,为时表明自变量预测应变量好,为 0 时表明自变量预测应变量差;时表明自变量预测应变量差;d.Uncertainty coefficient 复选框:不确定系数,以熵为标准的比例缩减误差,其值接近复
16、选框:不确定系数,以熵为标准的比例缩减误差,其值接近 1 时表明后一变量的信息很大程度来自前一变量,其值接近时表明后一变量的信息很大程度来自前一变量,其值接近 0 时表明后一变量的信息与前一变量无关。时表明后一变量的信息与前一变量无关。o Ordinal 复选框组:适用于两定序变量的情形。复选框组:适用于两定序变量的情形。a.Gamma 复选框:介于复选框:介于-11 之间,绝对值越接近于之间,绝对值越接近于 1,行列变量的相关性越强;,行列变量的相关性越强;b.Somersd 复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;复选框:为独立变量上不存在同分的偶对中,同序
17、对子数超过异序对子数的比例;13c.Kendalls tau-b 复选框:介于复选框:介于-11 之间,绝对值越接近于之间,绝对值越接近于1,行列变量的相关性越强;,行列变量的相关性越强;d.Kendalls tau-c 复选框:介于复选框:介于-11 之间,绝对值越接近于之间,绝对值越接近于1,行列变量的相关性越强。,行列变量的相关性越强。o Nominal by Interval:适用于一定类变量、一定距变量的情形。适用于一定类变量、一定距变量的情形。Eta 复选框:计算复选框:计算 Eta 系数,其平方值可认为是因变量受不同因素影响所致方差的比例,系数,其平方值可认为是因变量受不同因素影
18、响所致方差的比例,Eta 系数的取值范围是系数的取值范围是 01 之间,越接近于之间,越接近于1,变量的相关性越强。,变量的相关性越强。o Kappa 复选框:计算复选框:计算 Kappa 值,即内部一致性系数;值,即内部一致性系数;o Risk 复选框:计算比数比(复选框:计算比数比(OR 值)和相对危险度(值)和相对危险度(RR 值);值);o McNemanr 复选框:进行复选框:进行 McNemanr 检验(一种非参检验);检验(一种非参检验);o Cochrans and Mantel-Haenszel statistics 复选框:计算复选框:计算2MH统计量(分层统计量(分层2,
19、也有写为,也有写为2CMH的),可在下方输出的),可在下方输出 H0假设的假设的OR 值,默认为值,默认为 1。【Cells 按钮】按钮】14 弹出弹出 Cells 对话框,用于定义列联表单元格中需要计算的指标:对话框,用于定义列联表单元格中需要计算的指标:o Counts 复选框组:是否输出实际观察数复选框组:是否输出实际观察数(Observed)和理论数(和理论数(Expected););o Percentages 复选框组:是否输出行百分数(复选框组:是否输出行百分数(Row)、列百分数()、列百分数(Column)以及合计百分数()以及合计百分数(Total););o Residual
20、s 复选框组:选择残差的显示方式,可以是实际数与理论 数 的 差 值(复选框组:选择残差的显示方式,可以是实际数与理论 数 的 差 值(Unstandardized)、标 准 化 后 的 差 值()、标 准 化 后 的 差 值(Standardized,实际数与理论数的差值除理论数),或者调整后的标准化残差(,实际数与理论数的差值除理论数),或者调整后的标准化残差(Adj.Standardized););【Format 按钮】按钮】15 用于选择行变量是升序还是降序排列。用于选择行变量是升序还是降序排列。列联表分析中的卡方独立性检验列联表分析中的卡方独立性检验 检验行和列的两个变量彼此有无关联
21、检验行和列的两个变量彼此有无关联 卡方独立性检验的步骤卡方独立性检验的步骤 第一步,建立零假设(第一步,建立零假设(H0)零假设为行变量与列变量独立。零假设为行变量与列变量独立。第二步,选择和计算检验统计量第二步,选择和计算检验统计量 列联表分析卡方检验的检验统计量是列联表分析卡方检验的检验统计量是 Pearson 卡方统计量,其数学定义为:卡方统计量,其数学定义为:2211()oercijijeijijfff 其中,其中,r为列联表的行数,为列联表的行数,c为列联表的列数;为列联表的列数;of为观察频数,为观察频数,ef为期望频数(为期望频数(Expected Count)。)。ef的计算方
22、法是:的计算方法是:16 eRTCTfn 其中,其中,RT 是指定单元格所在行的观测频数合计,是指定单元格所在行的观测频数合计,CT 是指定单元格所在列的观测频数合计,是指定单元格所在列的观测频数合计,n是观测频数的总计。是观测频数的总计。2统计量的自由度是:统计量的自由度是:(1)(1)dfrc 第三步,确定显著性水平和临界值第三步,确定显著性水平和临界值 显著性水平显著性水平可以选可以选 0.05,也可以选,也可以选 0.01。第四步,结论和决策第四步,结论和决策 有两种判断方法:有两种判断方法:第一,将计算出来的统计量与临界值进行比较。如果计算出来的第一,将计算出来的统计量与临界值进行比
23、较。如果计算出来的2大于临界值,拒绝零假设,列联表的行列变量间不独立,存在相关关系。大于临界值,拒绝零假设,列联表的行列变量间不独立,存在相关关系。第二,将第二,将2统计量的概率统计量的概率 p 值与显著性水平值与显著性水平进行比较。如果进行比较。如果2统计量的概率统计量的概率 p 值小于等于显著性水平值小于等于显著性水平,拒绝零假设,列联表的行列变量间不独立,存在相关关系。,拒绝零假设,列联表的行列变量间不独立,存在相关关系。例:例:2检验检验 调查了调查了 n=200 个不同年龄组的被调查者对手表显示的偏好程度个不同年龄组的被调查者对手表显示的偏好程度 数字显示 钟面显示 不确定 30 岁
24、或以下 90 40 10 30 岁以上 10 40 10 17 1.计算期望次数计算期望次数ef 2.计算每个单位格的计算每个单位格的2值值 数字显示 钟面显示 不确定 行的和 30岁以下 90(70)202/70=5.71 40(56)(-16)2/56=4.57 10(14)(-4)2/14=1.14 140 30岁以上 10(30)(-20)2/30=13.33 40(24)162/24=10.67 10(6)42/6=2.67 60 列的和 100 80 20 200 2=5.71+4.57+1.14+13.33+10.67+2.67=38.09 df=(r-1)(c-1)=(3-1)
25、(2-1)=2,2的临界值为的临界值为 5.99 拒绝拒绝 Ho,对手表显示的偏好程度与被调查者的年龄段有关。,对手表显示的偏好程度与被调查者的年龄段有关。注意:注意:1 列联表中不应有期望频数小于 列联表中不应有期望频数小于 1 的单元格,或不应有大量的期望频数小于的单元格,或不应有大量的期望频数小于 5 的单元格。如果交叉列联表中有的单元格。如果交叉列联表中有 20%以上的单元格中的期望频数小于以上的单元格中的期望频数小于 5,则一般不宜使用卡方检验。在这种情况下,可以采用似然比(,则一般不宜使用卡方检验。在这种情况下,可以采用似然比(Likelihood Ratio)卡方检验等方法进行修
26、正。)卡方检验等方法进行修正。似然比卡方的数学定义为:似然比卡方的数学定义为:2lnooeijfTff 当样本数较大时,似然比卡方与当样本数较大时,似然比卡方与 Pearson 卡方非常接近,检验结论通常是一致的。卡方非常接近,检验结论通常是一致的。182对于对于22列联表中行列变量关系的检验,列联表中行列变量关系的检验,SPSS 除用除用 Pearson统计量进行检验之外,还采用了统计量进行检验之外,还采用了Yates连续性校正和连续性校正和Fisher检验方法。在小样本时可主要参考连续性校正和检验方法。在小样本时可主要参考连续性校正和 Fisher 检验的结果。检验的结果。例子:例子:居民
27、储蓄调查数据居民储蓄调查数据 19 比率分析 比率分析用于对两变量间变量值比率变化的描述分析,适用于定比型变量。比率分析用于对两变量间变量值比率变化的描述分析,适用于定比型变量。Weighted mean:加权比率均值:加权比率均值 加权比率均值属于集中趋势描述指标,是两变量均值的比。加权比率均值属于集中趋势描述指标,是两变量均值的比。AAD(Average Absolute Deviation):平均绝对离差):平均绝对离差|iRMAADN 其中,其中,iR是比率,是比率,M 是比率变量的中位数,是比率变量的中位数,N 为样本数。为样本数。COD(Coefficient of Dispersion):离散系数):离散系数|iRRNCODM PRD(Price relative Differential):相关价格微分,也称为回归指数():相关价格微分,也称为回归指数(index of regressivity)PRD 是比率均值与加权比率均值之比。是比率均值与加权比率均值之比。Median centered COV:基于中位数的变异系数:基于中位数的变异系数 20Median centered COV=2()iRMNM Mean centered COV:基于均值的变异系数:基于均值的变异系数 Mean centered COV2()iRRNR
限制150内