《单变量统计描述优秀PPT.ppt》由会员分享,可在线阅读,更多相关《单变量统计描述优秀PPT.ppt(29页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、单变量统计描述第1页,本讲稿共29页单变量的统计描述一、频度分布:某变量取值的各种情况或各种取值出现的次数或频数。二、集中趋势的量度集中趋势的量度反映变量所有观测值的某种共同性质。这些性质是由绝大多数观测值决定的。平均值:Mean中位数:Median表示位于数据数列中心位置的那一项的大小。奇个数:第(n+1)/2个数的值偶个数:第n/2与第(n/2)+1两个数的均值众数:Mode数据中重复出现次数最多的数值。系统只计算最小的数值。第2页,本讲稿共29页平均值、中位数和众数的应用特征:考试后,对两个班级的考试成绩的对照分析用什么描述统计数据?对全体学生做教学满意度(n等级)调查,最中性的评价态度
2、的描述用什么描述统计数据?其中学生最集中的评价用什么描述统计数据?第3页,本讲稿共29页三、离心趋势的度量描述数据个性方面的特征,即数据的分散程度或差异程度。跨度(全距)(range):观测值中最大值与最小值之差。跨度表现了总体观测值分布的最大范围,跨度大,表现分布范围大。方差(Variance):每个数据与该组数据平均数之差乘方后的均值标准差(Standard deviation):方差的平方根。方差、标准差值越大,说明分布偏离中心的程度越大;其值小说明数据相对比较集中。第4页,本讲稿共29页偏(斜)度(Skewness):描述分布偏离正态分布的程度,即偏离对称的程度。Skewness Sk
3、ewness0:正偏离 Skewness0 分布集中趋势强 Kurtosis=(75%百分位数-25%百分位数)*1.5+75%百分位数下奇异值=(75%百分位数-25%百分位数)*3+75%百分位数下极端值=98)Stem width:10.00Each leaf:1 case(s)第一列 频数Frequency:表示个案的频数。第二列 茎Stem:表达整数第三列 叶Leaf:每片叶表示小数的量级。Stem width表示茎宽,即倍率,例如茎宽=10.00 当茎stem=9时,表示90Each leaf表示每片叶表示个案数,例如当Each leaf=2 case(s)时,每片叶子代表的个案数
4、为2个个案。例如在上述例子中,第六行中的数据表示共有七个个案,其中70的个案有三个,而71的个案有四个。第七行中的数据表示共有七个个案,其中72的个案有三个,而73的个案有四个。最后一行中的数据表示共有一个个案,该个案为极端值,大于等于98。第11页,本讲稿共29页频度分析一、频度分布的描述方式:描述某变量取值的情况可以用数表和图形。二、操作步骤:AnalyzeDescriptive StatisticsFrequencies选择分析变量:回答变量名(可以多个)选项“Display frequency table”决定是否显示频数分布表。“Statistics”描述统计量的计算:百分位数组(P
5、ercentile Value):四等分百分位数Quartilesn等分百分位数Cut points n equal指定的百分位数Percentile第12页,本讲稿共29页集中趋势组(central Tendence):平均值Mean中位数Median众数Mode求和Sum离心趋势组(dispersion):标准差Std.deviation方差Variance跨度Range最小值Minimum最大值Maximum平均值的标准误S.E.Mean第13页,本讲稿共29页分布组(distribution):偏(斜)度Skewness峰(峭)度Kurtosis“Chart”选择统计图形:条形图Bar
6、 charts:按照样本的取值,用条形的长度来表达的图形。圆饼图Pie charts:按照样本各类取值分组的百分比生成的圆形图形。直方图Histograms:按照样本的分组取值,用条形的长度来表达各个组的取值的图形。只适用于数值型变量,若选择了“With normal curve”可附带一条用于对照的正态曲线。对于图形的标度可以用频数,也可以用百分比数。第14页,本讲稿共29页“Format”设置频数表格式排序方式Order by:升序Ascending values按照变量值的升序排列。降序Descending values按照变量值的降序排列。频数升序Ascending Counts按照频
7、数升序排列。频数降序Descending Counts按照频数降序排列。多变量图形输出设置多变量图形输出Compare variables在同一张图中可以有多个变量的输出结果。单变量图形输出Organize output by variable在一张图中只能有一个变量的输出结果。第15页,本讲稿共29页压缩表格格式Supress tables with more than n categories压缩表格表示频数类别将限制在n以内。超过n类的将不显示。压缩表格式将只显示变量值、频度、百分比和累计百分比。第16页,本讲稿共29页描述统计量的计算一、基本功能专门用来产生单变量描述统计量的,如:平均
8、值、求和、标准差、最大值、最小值、方差、跨度、平均值的标准误。二、操作步骤执行:AnalyzeDescriptive StatisticsDescriptives 选择变量到“Variables”中。选项“Save standardized values as variables”表示是否将进行统计描述的变量生成一个Z分数变量。“Options”选择生成的描述统计量和排序方式 常用的统计描述量:平均值Mean 求和Sum第17页,本讲稿共29页离心趋势(dispersion):标准差Std.deviation方差Variance跨度Range最小值Minimum最大值Maximum平均值的标准
9、误S.E.Mean分布(distribution):偏(斜)度Skewness峰(峭)度Kurtosis显示排序方式按照变量列表进行排序Variable list按照变量名字母进行排序Alphabetic按照变量平均值的升序排序Ascending means按照变量平均值的降序排序Descending means第18页,本讲稿共29页数据考察分析一、考察内容误差使数据偏离正常值。数据考察主要有如下三个方面:考察数据的真实性偏离数据主体分布太远的数据点有可能是有问题的数据点,在统计分析过程是否应保留?考察数据的分布特性数据的正态分布特性将可以为下一步的统计分析提供条件。考察变量之间数据的相互关
10、系变量与变量之间的相关性、方差齐性,都将是一些统计分析过程所必须事先了解的。第19页,本讲稿共29页二、基本功能计算描述统计量。茎叶图描述频度分布。箱图描述数值分布(表现数据的奇异性和极端性)。正态分布检验的概率图描述数据分布的正态性。方差齐性检验的散点分层图反映变量间的方差齐性。回归参数描述变量之间的相关性。三、操作步骤执行AnalyzeDescriptive StatisticsExplore选择分析变量(因变量)到“Dependent list”中选择分组变量(因素或自变量)到“Factor list”中选择标识变量“Label case by”,若不选此项,则在输出过程中用样本序号标识
11、样本。选择输出形式:“Display”,输出描述统计量 输出图形 二者都有输出。第20页,本讲稿共29页选择描述统计量“Statistics”Descriptive:输出基本统计量,系统默认的置信区:Confidence interval for 95%M-estimators:排除奇异值和极端值后计算的均值、中位数。Outlies:输出5个最大值和5个最小值。Percentile:可以输出5%、10%、25%、50%、75%、90%、95%的百分位数。选择特殊统计图形“Plot”生成箱图BoxplotFactor levels together在同一张图上只显示一个变量,不同水平同时显示。D
12、ependent together所有变量显示在同一张图上。生成茎叶图Stem-and-leaf茎叶图显示在输出显示窗口Viewer中。生成的直方图Histogram将表现频度分布。第21页,本讲稿共29页 缺失值处理选项“Options”Exclude cases Listwise:对于选入目标变量列表中的有缺失值的变量,无论其参与不参与当前运算,相应样本将被排除。Exclude cases Pairwise:对于选入目标变量列表中的有缺失值的变量,如果其参与运算,相应样本将被排除。Report Value:把分组变量中含缺失值的样本单独分为一组。第22页,本讲稿共29页交叉列联表利用频数或
13、相对频数研究变量与变量之间的关系。一、交叉列联表结构定义:行变量和列变量例如:考试成绩数据:定义年龄为行变量,分3个水平,定义成绩为列变量,分5个水平,从而产生一个3 5的交叉列联表。每个单元格中的数据可以为频度、频率、期望值或残差等。最后一行和最后一列有本行、本列的频度求和以及频率求和。第23页,本讲稿共29页f31f12f23第24页,本讲稿共29页二、交叉列联表中变量的定义:fij:第i行第j列的值,频数。f12=3,f23=3,f31=1fi.:第i行累计行边缘频数。fi.=f1.=5,f3.=6f.j:第j列累计列边缘频数。f.j=f.3=4,f.2=8Total:总频数=Expec
14、ted Count期望值=fi.*f.j/total第25页,本讲稿共29页%within 行变量 行频率=fij/fi.%within 列变量 列频率=fij/f.j%of Total 总频率=fij/totalResidual 残差=fij-Expected CountStd Residual 标准残差=Residual/(Expected Count)1/2Adjust Residual调整残差=Residual/Std Err第26页,本讲稿共29页三、操作步骤执行AnalyzeDescriptive StatisticsCrosstabs 选择行变量到“row”中。选择列变量到“co
15、lumn”中。分组变量:Layer 1 of n 交叉列联表将依据该变量的取值进行分页显示。选择选项“Display clustered bar chart”将生成变量的频度分类条形图。选择选项“supress table”将不产生交叉列联表。第27页,本讲稿共29页精确检验“Exact”用于在小样本和不均衡样本的检验。“Asymptotic only”选项是缺省的。不适用于小样本和非渐进分布方式的检验。“Monte Carlo”选项适用于指定样本数量的检验。该选项还允许非渐进分布方式的检验。“Exact”选项为精确计算。当结果小于等于0.05时可以认为行、列变量之间存在一定的相关性。“Statistics”用于选择描述统计量,共计13个统计量。第28页,本讲稿共29页“Cells”将决定交叉列联表单元格中计算的内容:默认为频数“Count”中的“Observed”,即观测频数。“Expected”为观测期望值。“Row”、“Column”和“Total”分别为:行频数、列频数和总频数。“Unstandardized”、“Standardized”和“Adj.standardized”分别为:非标准化残差、标准化残差和调整标准化残差。按钮“Format”将可以设置:行排列的升序或降序。Ascending为升序Decending为降序第29页,本讲稿共29页
限制150内