统计学基础知识培训.ppt
统计学基础知识培训2007年5月根据测量尺度数据的分类姓名性别级别年龄绩效分数月均收入甲乙丙丁戊戌1101100001122125262725318.67.89.27.98.98.4247923452547268927763124注:1.本表纯属虚构,如有雷同实属巧合;2.性别栏0代表男,1代表女;级别栏0代表员工,1代表领班,2代表主管;3.绩效栏10分为满分。1999年某公司员工情况明细表数据的分类根据数据测量的尺度:分为定类数据、定序数据、定距数据、定比数据根据描述对象与时间的关系:分为截面数据和时间序列数据根据统计数据的收集方法:分为观测数据和实验数据你想要干什么?一.归纳、描述或者显示数据二.观察变量和数据的分布三.比较组间数据的不同四.变量之间显著性关系的测度五.相似数据分组的测度六.相似变量的压缩测度结束4你要归纳整理的是什么类型的数据?1.已分类数据(定类、定序)2.连续、数值型数据(定距、定比)返回你想如何归纳整理数据?1.分类计算频数和百分比2.计算两分类变量下的频数和百分比3.计算比率值:比率是各不同类别数值之间的比值返回分类变量的图形及图表显示员工级别频数百分(%)累积百分比(%)员工领班主管经理助理75 15 8 275%15%8%2%75.00%90.00%98.00%100%合计100100%AnalyzeDescriptive StatisticsFrequencies返回两分类变量数据的图表及图形显示员工级别30岁30-39岁40-49岁49-50岁合计员工领班主管经理助理 47 7 2 20 5 2 1 6 2 3 1 2 1 1 75 15 8 2合计 56 28 12 4100AnalyzeDescriptive StatisticsCrosstabs返回比率值的计算及显示AnalyzeReportsCase summaries员工级别30岁30-39岁40-49岁49-50岁0时为尖峰分布;当K0时为扁平分布 与数据分布相关的测度量总结定类定序定距和定比集中趋势适用的统计量众数中位数分位数众数 均值 加权平均 几何平均 中位数 分位数 众数离散趋势使用的统计量异众比率四分位差异众比率 全距 方差 标准差 四分位差 异众比率用于比较不同组数据的相对位置 标准分数:zi=(xi-x平均)/标准差用于比较不同组数据相对离散程度 离散系数:V=标准差/x平均值常见的数据分布正态分布 在社会经济问题中,有许多随机变量的概率分布服从正态分布,如身高、体重等。正态分布记作XN(,),为随机变量X的均值,为随机变量X的标准差。决定了正态分布图形的中心位置,决定了图形中峰的陡峭程度,当 较大,图形较缓,当 较小,图形趋于陡峭。所有的正态分布均能通过Z=(X-)/化成标准正态分布XN(0,1)(均数为0,方差为1)。随机变量X处在一个正负一个之内的概率为68.26%;2个之内的概率为95.45%;3个之内的概率为99.73%。返回你要比较什么类型的数据?1.分类数据(定比、定序)2.已分组的连续数值型数据(定距、定比)返回应用列联分析解决分类数据的组间比较 频数分布表每次只能描述一个变量的情况,而列联表是由两个以上的变量进行交叉分类的频数分布表,是反映两个或多个变量联合分布的表格。可用于各组比例值是否一在列联表中,可以计算以列合计为基数的列百分比或以行合计为基数的行百分比。卡方统计量提供对列联表中观察到的联系的统计显著性检验(拟合优度和变量联系),通过系数、列联系数、Cramers V和系数测量变量关系强度的指标。Analyze-Descritives-Crosstabs举例说明 某公司为了提高市场占有率,某行业有两个主要的竞争对手,A和B公司同时开展了广告宣传。在广告宣传之前,A公司的市场占有率为45%,B公司市场占有率为40%,其它公司为15%。广告战后,随机抽取了200名消费者,其中102人准备买A公司产品,82人买B公司产品,另外有16人准备买其它公司产品。问以广告战前后各公司市场占有率是否发生了变化。公司观察频率期望频率AB其它1028216908030合计200200 检验观察值和期望值的拟合优度:计算卡方值为8.18,而显著性0.05、自由度为2时的卡方值5.99,因此说明占有率发生了显著的变化。举例说明 列联表格的卡方检验还用于判断两个分类变量之间是否存在联系的问题中。一种原料来自不同的地区,原材料质量被分为三个不同的等级。从这批原料中随机抽取500件进行检验,结果如下表:地区一级二级三级合计甲乙丙526050645965245274140171189合计162188150500 计算卡方值为19.82大于显著性为0.05、自由度为4的的卡方值为9.488,所以地区和原材料等级之间存在依赖关系,原材料的质量受地区影响。存在关系的假设成立,可以计算系数、列联系数Cramers V和系数测量变量关系强度的指标。返回你想要比较多少组数据或多少个变量?1.一组数据或变量与一个已知数值进行比较2.两组数据或变量3.三组或者三个以上变量返回应用单样本T检验检验一组数据或变量与一已知数值是否相等 工作中经常碰到根据已有的知识或者给定的标准对单个变量做出结论,比如新产品的份额是否超过了15%等。这样的问题就可以转化为通过单样本T检验进行检验的零假设。单样本T检验检验的是抽样总体均值是否与给定假设一致。根据样本计算得出的T统计量值与给定的0.05显著性水平下的临界值进行比较,从而得出结论。SPSS实现:Analyze-Compare Means-One Sample T Test返回你的数据是如何组织起来的?1.分成两不相关组的一个连续数值型变量2.具有相关关系的两连续数值型变量返回你想要进行何种独立的样本检验?步骤:1.首先检测变量是否服从正态分布,方法为通过Graphs-Interactive-Histogram(直方图)进行观察2.如果变量服从正态分布,那么应用独立样本T检验进行两样本均数的比较:Analyze-Compare Means-Independent Samples T Test3.如果变量不服从正态分布,那么应用非参数双独立样本检验进行两独立样本所在总体分布是否相同的检验:Analyze-Nonparametric Tests-2 Independent Samples返回你想要何种配对样本的检验步骤:1.同样通过直方图观察变量是否服从正态分布;2.如果服从正态分布,那么应用配对样本的T检验进行配对设计的差值均数与总体均数0进行比较:Analyze-Compare Means-Paired Samples T Test.3.如果不服从正态分布,那么应用双相关样本检验:Analyze-Nonparametric Tests-2 Related Samples.返回方差分析(ANOVA)前面介绍的方法均为一个因素水平下,两组数据的比较方法,当一个因素水平下,有三个或者三个以上的组别时,就需要用到方差分析。方差分析适用于两组或者两组以上均值差异的检验。方差分析必须有一个定量(定距或定比尺度)的因变量,以及一个或者多个自变量(定类),定类自变量称为因子,一个因子成为单因子方差分析,若有n个自变量,成为n因子方差分析。其原理为通过对数据误差来源的分析来判断不同总体的均值是否相同。方差分析的3个基本假定:1.每个总体都应该服从正态分布;2.各个总体的方差2;3.观测值是相互独立的。SPSS实现:AnalyzeCompare MeansOne-Way ANOVA举例说明观测值行业零售业旅游业航空公司家电制造业12345675766494034534468392945565131492134404451657758 下表为一年内,四个行业抽取的样本企业投诉次数表,问这几个行业之间的服务质量是否有显著性差异。下表为方差分析的结果表,从F统计量值为3.4066大于给定0.05水平下的F分布的临界值3.1273,应该拒绝原假设,说明各个行业的投诉之间的差异是显著的。差异源平方和(SS)自由度(df)均方(MS)F统计量P值给定0.05水平下F分布的临界值组间组内1456.6082708319485.536142.5263.40660.0387653.1273总计4164.608722返回你有什么样的数据?1.分类数据(定类、定序)2.定序、等级顺序、或者非参数连续性数据3.连续数值型数据(定距、定比)返回分类数据(定类、定序)应用前面讲过的列联分析,卡方对独立性进行检验,进而计算通过系数、列联系数、Cramers V和系数测量变量关系强度的指标。返回定序、等级顺序、或者非参数连续性数据 计算Spearman相关系数和Kendalls tau-b相关系数,看两变量的关系的密切程度。计算排序的相关系数又称秩相关或者等级相关,记作r。当|r|0.3,视为不相关;当0.3|r|0.5,视为低度相关;0.5|r|0.8,视为中度相关;|r|0.8,视为高度相关。SPSS实现:Analyze-Correlate-Bivariate选Spearman相关系数和Kendalls tau-b相关系数返回连续数值型数据(定距、定比)1.两变量:计算Pearson相关系数来度量两变量关系的密切程度,记作r。当|r|0.3,视为不相关;当0.3|r|0.5,视为低度相关;0.5|r|0.8,视为中度相关;|r|0.8,视为高度相关。SPSS实现Analyze-Correlate-Bivariate选择Pearson项。2.控制了一个或者两个的其他其变量的影响之后两变量的相关,为偏相关,也记作r。Spss实现Analyze-Correlate-Partial选择要分析的两变量进入要分析的变量框;选择要控制的变量进入要控制的变量框测度变量的因果关系回归分析 前面介绍的数值型变量的相关系数或者偏相关系数主要了解两变量关系的密切程度,而回归分析主要度量一个因变量,与一个、两个或两个以上的自变量的数量伴随关系,是测度因变量和自变量的因果关系的方法。回归分为线性回归和曲线回归。以一元线性回归为例:其回归方程形式为y=ax+b。回归直线的拟和优度的测度应用的是判定系数,判定系数说明了因变量的数据变动中,有多少是由自变量的的变动所决定的。而估计标准误用于测度各实际观测点在直线周围的分散程度,其越小,说明回归直线对各观测点代表性好,反之则代表性差。另外还用F检验检验线性关系的显著性。应用T检验检验回归系数的显著性检验,检验自变量对因变量的影响是否显著。SPSS实现:Analyze-Regression-Linear返回你有什么类型的数据?1.连续数值型数据(定距、定比)2.分类数据(定类、定序)返回你想要判别分组还是判别已知组的特征?1.判别分组,应用聚类分析。聚类分析是一组将研究对象分成相对同质的群组的统计分析技术,不区分自变量和因变量。聚类分析的主要目的是根据聚类变量将对象分成相对同质的群组。某一组的内部成员更加相似,与其它组的成员不同。当数据量小于200时,应用系统聚类分析将数据分组,Analyze-Classify-Hierarchical Cluster;当大于200个数据时应用K均数聚类法,又称快速聚类法,Analyze-Classify-K-means Cluster。已知分组的判别 2.判别已知组的特征应用判别分析。判别分析是一种数据分析技术,适用于标准变量或因变量为定类数据,预测变量或者自变量为定距(或者定比数据)的情况。就像医生看病的判断过程一样,有各种各样的病症的症状、检测结果值分类储存在脑子里,医生根据现在来的病人的症状、检测结果等判断病人得的是什么病。判别分析就是构造判别函数,然后判别新调查对象的组别。SPSS实现:Analyzeclassify-Discriminant返回分类数据的数据分组 分类数据不可进行数据聚类分析!SPSS也未提供此项功能。返回你有什么类型的数据?1.连续数值型数据(定距、定比)2.分类数据(定类、定序)返回应用因子分析对变量进行压缩 因子分析是一组主要用于数据提炼与概括地分析方法的总称。在各种数据分析中,可能涉及大量的变量,其中大部分变量是相关的,需要将变量的数目缩减到合适的水平,以便进一步分析。大量相互关联的变量之间的关系可以用几个潜在的因子表示。比如,在测量店面形象时,可以让调查对象对商店的一系列指标打分,然后用因子分析确定构成商店形象的主要因子。方差分析、回归分析和判别分析中需要确定一个因变量或者标准变量,而将其它的变量作为自变量或者预测变量,因子分析并不进行这样的区别,它是全面考察全体变量之间的相互依赖关系的方法,这与聚类分析相似。常用于:1.识别解释一组变量之间相关关系的潜在维度或因子;2.用一组较少的、相互独立的因子代替原始变量,用于进一步的多元分析(回归分析或者判别分析等);3.从一大组变量中找出数量较少的一组主要变量用于进一步的多元分析。AnalyzeData ReductionFactor返回对于分类数据变量的压缩?因子分析需要连续数值型变量,分类变量不能进行因子分析!返回谢谢!