常用统计分析软件使用介绍课件.ppt
常用统计分析软件n 医学科研工作中需要处理大量统计问题,其数据统计分析主要回答两个问题:一是反应变量的差异是否可归因于分组因素或对比因素;二是多个反应变量间是否存在某种联系。统计分析大致分为以下几个方面:1常用统计分析软件 1、数据质量检查:即考察数据分布及变量转换等。看数据是否符合特定统计方法所要求的条件,如计算平均数、标准差等时要求数据基本呈正态分布(正态性检验),方差分析还要求各组方差的差别不宜过大(方差齐性检验),对于非正态分布的资料需要进行变量转换(通过对数变换、平方根变换等转化成正态分布资料)2常用统计分析软件n 2、统计描述:按分组因素或控制因素分组,计算反映变量特性的基本统计量。n 3、统计推断:对不同资料,用特定的统计方法作分析处理。各种推断的假设检验得到的P值是下结论的主要依据。n 通过上述分析得到的结论,提供了专业分析时的统计学背景。但这些分析时计算公式和表格繁多,目前均可在计算机上借助统计软件完成,将各种分析结果简单明了地表达出来。3常用统计分析软件n 统计软件是一种应用软件,是对资料进行各种统计处理分析的系列程序组合。n 常用的统计分析软件有:中国医学百科全书-医学统计学统计软件包(PEMS)、线性模型统计软件包(SPLM)、社会科学统计软件包(SPSS)、标准统计软件系统(SAS)等。国际上最流行并具有权威性的统计分析软件中,SAS以其最专业化和功能最全面为统计专业人员用软件,而SPSS则因易于操作而成为在非统计专业人员中应用最多的统计软件。4常用统计分析软件SPSS for Windows Ver 10.0概述5推荐使用的几本教材6SPSS 入门n 序言n SPSS基础n SPSS数据文件的建立与管理n SPSS数据的基本加工和处理n SPSS输出窗口7序 言n 统计分析软件是数据分析的主要工具n 完整的数据分析过程包括:n 数据的收集n 数据的整理n 数据的分析n 统计学为数据分析过程提供一套完整的科学的方法论。统计软件为数据分析提供了实现手段。8序 言n 统计分析软件的一般特点n 功能全面,系统地集成了多种成熟的统计分析方法;n 有完善的数据定义、操作和管理功能;n 方便地生成各种统计图形和统计表格;n 使用方式简单,有完备的联机帮助功能;n 软件开放性好,能方便地和其他软件进行数据交换9序 言n 常用统计软件简介n SAS(Ver8.2)-真正的巨无霸。被誉为国际上的标准统计软件和最权威的组合式优秀统计软件。n 人机对话界面太不友好n 图形操作界面比较糟糕n 一切围绕编程设计n 学习起来较困难(编程)n 说明书非常难懂n 价格贵的人直跳10序 言n 常用统计软件简介SPSS(Ver10)-统计软件中的贵族n 操作界面极为友好n 所有统计软件中最友好的n 精心设计的图形操作界面n 美观的结果输出n 强大的辅助教学功能n 输出结果与中文WORD尚存在一定兼容问题n 在国内深受欢迎,特别是市场调研行业n 在欧洲各研究机构中得到广泛应用11序 言n 常用统计软件简介S-Plus(Ver6)n S语言(AT&T贝尔实验室)的后续发展n 极为强大的统计功能和绘图能力n 应用上以理论研究、统计建模为主n 需要有较好的数理统计背景n 对编程能力要求极高12序 言n 常用统计软件简介Stata(Ver7)n 软件小巧n 绘图美观n 统计分析能力极强n 数据接口差n 不提供对话框界面,命令行方式操作13序 言n n 国产统计软件的佼佼者DPS(v5.12)n n一套通用多功能数据处理、数值计算、统计一套通用多功能数据处理、数值计算、统计分析和模型建立软件;分析和模型建立软件;n n较强的统计分析和数学模型模拟分析功能较强的统计分析和数学模型模拟分析功能;n n是目前国内功能最完整的统计软件包。是目前国内功能最完整的统计软件包。14序 言n 学习使用统计分析软件的基本方法n 弄清分析的目的n 正确收集待处理和分析的数据(目的、影响因素的剔除)。n 弄清统计概念和统计含义,知道统计方法的适用范围,无需记忆公式。n 选择一种或几种统计分析方法探索性地分析数据。n 读懂计算机分析的数据结果,发现规律,得出分析15SPSS基础n 软件名称n Statistical Package for Social Science n Statistical Product and Service Solutions n 软件发展n 60年代:美国斯坦福大学三位研究生研制n 70年代:SPSS总部成立于芝加哥,推出 SPSS中小型机版SPSSX n 80年代:微机版(V1-3)SPSS/PC+n 90年代:Windows版(v5-11)n 2003年:Windows版(v12)16SPSS简介n SPSS(Statistical Package for Social Sciences,社会科学统计软件包),是当前国际上公认的最为强大的统计分析软件之一。它不仅适用于社会科学,同样可应用于经济学、心理学、医学等各个领域。最显著的特点是运用菜单和对话框的操作方式,除了数据录入外,它不需要编写程序,绝大多数操作过程仅靠鼠标击键即可完成,易于操作,完全可以在Windows下通过“菜单”、“对话框”使用单击或双击鼠标来操作,非常方便,深受用户欢迎。是应用最多的统计软件之一。n 目前最新版本为SPSS 14.0版。17 SPSS 目前尚无汉化版本,但它可在汉化的Windows95或以上平台上使用。界面友好,使用直观、灵活,操作简便,是一个易学、好用的统计分析和图表制作工具,是较为理想的统计分析软件。n 1.本软件特点n(1)操作简便:系统提供了“窗口菜单”、“对话框”等简便操作方式。n 18(2)数据转换功能强:可存取和转换多种数据类型,如DBASE、FOXBASE、FOXPRO产生的.dbf数据文件;Excel产生的.xls数据文件;由SPSS for DOS产生的.sys数据文件等都可方便地读入。而本软件产生的数据文件也可方便地转化为相应的其他数据文件。n(3)数据管理功能强大:集数据录入、转换、检索、管理、统计分析、作图、制表及编辑功能于一身。n 19n(4)统计分析方法全面、丰富:含有最新的统计分析方法且所用方法具有权威性。n n(5)结果输出规范:输出结果主要为图形方式,规范而简洁,还可根据个人要求编辑输出方式。202.主要窗口及其功能 SPSS 10.0 主要有3大窗口:数据编辑窗(Data Editor)、结果输出窗(Output Navigator)和语句编辑窗(Syntax Editor)n 数据编辑窗主要有建立新的数据文件、编辑和显示已有数据文件等功能.启动SPSS后,数据编辑窗回自动打开.21n 所有统计分析结果,包括文本、图形和表格形式,均显示在结果输出窗内.结果输出窗相应地设有3个编辑器,即文本编辑器、统计图编辑器和统计表编辑器,输出结果可通过激活这些编辑器进行编辑.n 语句编辑窗的功能在于SPSS过程以命令语句形式出现.该窗口还可编辑对话框操作不能实现的特殊过程的命令语句.223、统计分析功能概述n(1)基本统计分析n SPSS 10.0的基本统计分析功能是通过 Summarize完成的,打开Statistic菜单即可。包括频数分布分析(frequencies)、描述性统计分析(descriptive)、探索性分析(explore)、列联表资料分析(crosstabs)及观测量列表(list cases)等。通过这些内容可对数据的分布特征有全面的了解。233、统计分析功能概述n(2).其他统计分析功能n 有关统计分析方法,有均数比较(compare means)、广义因素分析(GLM-general factorial ANOVA)、相关分析(correlate)、回归分析(regresssion)、聚类分析(classify)、因子分析(factor)、非参数检验(nonparametic test)、Logistic 回归分析、生存分析(survival)等分析功能244、输出结果的编辑n 结果输出窗口的主要功能有:浏览输出结果、编辑输出的统计图表及文本、输出可供其他应用软件所用的结果.n 结果输出窗又分为两个窗口:左窗为输出的标题,称为标题窗;右窗内为分析的具体输出内容,包括统计图、表和文字说明,称为内容窗.n 在结果窗内选择内容后,单击鼠标右键,在弹出菜单中选择Copy/Copy Objects,然后打开Word文件,选择粘贴命令,即可将所选内容粘贴到文本文件中.25SPSS简介(一)SPSS for Windows版本由最初的4.0版本发展升级到现在的11.0以上版本。安装SPSS10.0 for Windows 软、硬件要求:1、Windows 95及以上版本;2、16MB或以上内存;3、80MB及以上可用硬盘空间。26SPSS简介(二)SPSS的启动:n 在快捷工具栏单击SPSS 10.0 图标n 开始 程序 SPSS 10.0 for WindowsSPSS软件分析的基本步骤:数据 选择分析程序 选择要分析的变量进行分析 得出结果 以文件 pan.sav 为例。2728SPSS简介(三)SPSS的四个窗口:数据编辑窗口(Data Editor):启动SPSS后自动打开;File new data。程序编辑窗口(Syntax Editor):File new syntax。结果输出窗口(Viewer):第一次产生分析结果的SPSS过程 后自动出现;File new output。图表编辑窗口(Chart Editor):选定要编辑的图表,双击它,即进入此窗口。29SPSS基础n 基本窗口n 数据编辑窗口(data editor)n 功能:对SPSS的数据进行定义、录入、修改、管理等基本操作的窗口n 组成:窗口主菜单(Data、Transform、Analyze、Graphs)、工具栏、数据编辑区、状态显示区n SPSS运行过程中自动打开;且只能打开一个窗口;运行过程中无法关闭n SPSS中各统计分析功能都是针对该窗口中的数据进行的;窗口中的数据以.sav存于磁盘上30SPSS基础n 基本窗口n 输出窗口(viewer)n 功能:SPSS统计分析报表及图形的输出窗口n 组成:窗口主菜单、工具栏、结果显示区、状态显示区n 在进行第一次分析时自动打开,也可手工打开;可以手工打开若干个可相互切换的viewer窗口;输出窗口可以关闭;n 状态栏上的!表示当前输出窗口n 窗口内容以.spo存于磁盘上31SPSS基础n 利用SPSS做数据分析的一般步骤n 建立SPSS数据文件n 定义数据文件结构n 录入修改和编辑待分析的数据n 分析数据n 统计分析之前的数据预处理n 统计分析和建模n 结果的说明和解释n 数据和分析结果的保存 32SPSS数据文件的建立与管理n 数据文件的特点n 数据库的建立n 数据的录入和保存n 数据的编辑n 与其他软件数据共享33SPSS数据文件的特点n SPSS数据文件是一种有结构的数据文件n 数据文件的每一行代表一个观测量(概率事件)n 每一列代表一个变量n 在数据编辑器中可以输入和编辑数据,但是不能输入数学表达式和函数34数据库的建立新建数据文件:File New Data 第一步:定义变量(Variable View)第二步:录入数据(Data View)参见文件 use1.sav.3536定义变量:Name(变量名)-最大允许8个英文字符、4个中文字符Type(变量类型)-最常用的有数值型(Numeric)、字符型(String)、日期型(date)等Labels(变量名标签)-对变量的说明Values(变量值标签)-说明分组变量的取值情况Missing(缺失值)Column(变量列)Measure(变量量度)-Scale为连续型变量(数值型)Ordinal为有序分类变量(序数型)Nominal为无序分类变量(名词型)37n 变量名(Variable name)n 变量名是变量存取的唯一标志n 变量类型(type)和显示宽度(width)n 数值型:常用标准数值型(Numeric):默认类型8.2如:12345678、12345.67、-1234.56n 字符型(String):存储字符数据8位。如:beijing处理时用双引号扩起来n 日期型(Date):存储日期数据,如:20-AUG-1999n 注意:显示宽度不影响数据的存储38数据库的建立例 用下面数据建立数据库:姓名 性别 年龄李国梅 女 20程丽 女 19杨玲 女 19王磊 男 213940数据库的建立录入数据:数据库为一个二维表结构,一行为一个个体或一条记录,一列为一个变量。有三种录入方法:(1)直接录入;(2)连续多个相同值的输入;(3)将Excel数据直接引入SPSS;(4)其他数据库格式的导入;如EPI,SAS,WORD等;41数据的编辑n 打开数据文件n 数据定位n 插入和删除个案n 插入和删除变量n 数据单元数据的移动和复制42与其他软件共享数据n 打开其他格式的数据文件n 直接打开n 在SPSS 10已经可以直接读入许多常用格式的数据文件n 使用数据库查询打开n 利用通用数据库ODBC接口读取数据文件n 在9.0及以前版本中非常重要n 使用文本导入向导读入文本文件n 和大型机交换文件时常用43与其它软件共享n 直接打开44SPSS数据的基本加工和处理n 数据文件的整理n 个案排序、个案选取、文件合并、文件转置n 数据加工n 计算变量、产生计数变量、分类汇总n 数据分组n 手工分组n 数据文件的其他处理功能n 指定加权变量、SPSS变量集的定义和使用45数据文件的整理n 个案排序(sort)n 将所有个案按照用户指定的某一个或多个变量的变量值的升序或降序重新排列n 快速查找异常值、极端值n 个案选取(select cases)n 个案选取方式46数据文件的整理n 文件合并(merge file)n 将两个SPSS数据文件合并到一个数据文件中。n 纵向合并、横向合并n 文件转置(transpose)n 将数据文件行列互换,即:将个案转为变量,变量转为个案.47数据的加工n 变量计算(compute)n 产生新变量或对原变量进行必要的转换n SPSS算术表达式和逻辑表达式n SPSS函数n 产生计数变量(count)n 对所有或部分个案,计算若干个变量中有几个变量的值落在指定的区域内,并将结果存入新变量中。48数据的加工n 分类汇总(aggreate)n 按指定的分类变量的变量值对个案分组;n 计算每组个案的汇总变量的基本统计量;n 将计算结果生成到一新文件中,即:在新文件中对应分类变量的每一个分类值产生一个个案。49数据的分组n 目的:了解数据的总体分布状况n 手工分组(recode)n 将指定按哪个变量分组,即:指定分组变量;定义分组变量的分组区间(不重、不漏);指定一个存放分组结果的标志变量n 自动分组(Categorize Variables)n 将连续性变量自动按分位数要求分成几类50数据文件的其它处理功能n 加权(weight cases)n 指定某一变量为加权变量。n 变量集n 加快变量选择的速度n 变量集的定义n 变量集的使用51第二章 统计分析n 基本统计分析n 均值检验n 方差分析n 相关和回归分析n 聚类分析522.1 基本统计分析n 频数分布分析(Frequencies)n 描述性统计分析(Descriptives)n 探索性分析(Explore)n 列联表资料分析(Crosstabs)532.1.1 频数分布分析n 目的n 频数分布分析主要通过频数分布表、条图和直方图,以及集中趋势和离散趋势的各种统计量,描述数据的分布特征。n 采用的方法n 计算频分布表n 绘制统计图形n 上述方法适用于定序、定类、定距类型数据542.1.2 描述性统计分析n 目的:n 描述性统计分析主要用以计算描述集中趋势和离散趋势的各种统计量,并可对变量进行标准化处理。n 步骤:【Analyze】【Descriptive Statistics】【Descriptives】552.2 均值检验n 统计假设检验概述n 单样本的t检验n 两个独立样本的t检验n 两个配对样本的t检验562.2.1统计假设检验概述n 统计推断(statistical inference),就是根据抽样分布律和概率理论,由样本结果(统计数)来推论总体特征(参数)。n 统计推断的基本内容:n 统计假设检验(hypothesis test)n 参数估计(parametric estimate)n 统计假设检验是指根据某种实际需要,对未知的或不完全知道的统计总体提出一些假设(这些假设通常构成完全事件系),然后由样本的实际结果,经过一定的计算,作出在概率的意义上应当接受那种假设的检验。57假设检验的步骤 n 提出无效假设:实得差异由误差造成;备择假设:实得差异由总体参数不同造成。n 确定显著水平。n 在 为正确的假设下,根据统计数的一定分布律,算出实得差异由误差造成的概率。n 如果这个概率,则在 水平上否定,接受;反之亦然。582.2.2 单样本的t检验n 含义:n 检验某变量的总体均值与指定的检验值之间是否存在显著差异。n 要求:n 样本来自的总体服从正态分布。n 步骤:n【Analyze】【Compare means】【One sample t test】592.2.3 两独立样本的t检验n(一)含义:n 根据两独立样本的数据,对两总体均值是否有显著差异进行推断。n 例如:男生和女生的计算机平均成绩有显著差异吗?n 城镇和农村的平均存(取)款金额有显著差异吗?n(二)要求:n 两样本必须相互独立,即:抽取其中一批样本对抽取另一批样本没有任何影响。(如:北京周岁儿童与上海儿童的平均身高)n 两总体服从正态分布602.2.3 两独立样本的t检验n 步骤n【Analyze】【Compare Means】【Independent-sample t test】n 结论n 首先,如果F检验的P,认为方差不齐性;其次看Unequal行的t检验概率。如果,则拒绝t检验的H0,认为两总体均值有显著差异;如果,则不拒绝t检验的H0。n 首先,如果F检验的P,认为方差齐性;其次看equal行的t检验概率。其余同上612.2.4 两配对样本的t检验n 含义:n 根据配对样本对两总体均值是否有显著差异进行推断.n 例如:某种减肥茶是否有效n 要求:n 两样本数据必须两两配对,即:样本个数相同,个案顺序相同.如:减肥茶的效果、不同广告形式对销售额的影响.(控制了个案自身的影响)n 两总体服从正态分布622.2.4 两配对样本的t检验n 基本思路n 计算两样本对应的个案的差值di=Y1i-Y2in 计算t统计量和对应的相伴概率P(绝对值大于等于的双侧概率)n 结论:P,则拒绝H0,认为两总体均值有显著差异.P,不能拒绝H0.n 步骤n【Analyze】【Compare Means】【Paired-sample t test】632.3 方差分析n 目的:n 方差分析是从数据间的差异入手,分析哪些因素是影响数据差异的众多因素中的主要因素。n 例如:n 影响某农作物亩产量的因素(品种、施肥量、气候等)n 影响推销某种商品的推销额(不同的推销策略、价格、包装方式、推销人员的形象等)n 核心问题n 从数据差异角度看:n 观测变量的数据差异=控制因素造成+随机因素造成n 方差分析正是要分析观测变量的变动是否主要是由控制因素造成还是由随机因素造成的,以及控制变量的各个水平是如何对观测变量造成影响的。642.3 方差分析n 单因素试验资料方差分析n 多因素试验资料方差分析n 协方差分析652.3.1 单因素方差分析n 目的n 检验某一个控制因素的改变是否会给观察变量带来显著影响.n 例如:n 考察不同肥料对某农作物亩产量是否有显著差异.n 考察不同学历是否对工资收入产生显著影响.n 步骤n【Analyze】【Compare Means】【One-way ANOVA】66方差分析中的多重比较n 目的n 如果总体均值存在差异,F检验不能说明哪个水平造成了观察变量的显著差异。多重比较将对每个水平的均值逐对进行比较检验。n 常用方法n LSD法n 实际上就是t检验的变形,只是在变异和自由度的计算上利用了整个样本信息。n Duncan氏新复极差检验法n Tukey氏固定极差检验法n Dunnett氏最小显著差数检验法672.3.2 多因素方差分析n 控制因素的种类n 固定效应因素(Fixed Factor):指的是该因素在样本中所有可能的水平都出现了。n 随机效应因素(Random Factor):该因素所有可能的取值在样本中没有都出现,因此要用样本来推论总体情况,包括未出现的水平。这不可避免的存在误差(即随机效应),需要估计该误差的大小,因此被称为随机因素。n 基本思路:n 以两个控制变量的方差分析为例:n SS总=SSA+SSB+SSAB+SSen 表示两个控制变量的交互影响,即:两个控制变量各水平之间搭配时对观察变量的影响.682.3.3 协方差分析n 目的:n 将无法或很难控制的因素作为协变量,在排除协变量影响的条件下更精确地分析控制变量对观察变量的影响。692.3.3 协方差分析n 应用实例702.3.3 协方差分析n 基本思路:n 协变量是数值型的;与观测变量的线性关系在各水平均成立,且斜率大致相同。n SS总=SS协+SSA+SSB+SSAB+SSen 步骤n【Analyze】【General Linear Model】【Univariate】n 注意:在弹出的对话框中将协变量选入【Covariate(s)】栏712.4 相关和回归分析n 相关分析n 一元回归分析n 多元回归分析n 曲线拟合n 非线性回归分析722.4 相关和回归分析n 相关分析和回归分析的任务n 研究对象:统计关系n 相关分析旨在测度变量间线性关系的强弱程度。n 回归分析侧重考察变量之间的数量变化规律,并通过一定的数学表达式来描述这种关系,进而确定一个或几个变量的变化对另一个变量的影响程度.732.4 相关和回归分析n 目的n 通过样本数据,研究两变量间线性相关程度的强弱。(例如:职工的年龄和收入之间的关系、工人数和管理人员之间的数量关系)n 基本方法n 绘制散点图、计算相关系数742.4.1 相关系数n 作用:n 以精确的相关系数(r)体现两个变量间的线性关系程度.n r:-1,+1;r=1:完全正相关;r=-1:完全负相关;r=0:无线性相关。n 说明:n 相关系数只是较好地度量了两变量间的线性相关程度,不能描述非线性关系。n 数据中存在极端值时不好。752.4.2 一元线性回归方程n 一元回归方程:n Y=a+bXn a为常数项;b为Y对X回归系数,即:X每变动一个单位所引起的Y的平均变动n 回归方程的显著性检验n(1)目的:n 检验自变量与因变量之间的线性关系是否显著,是否可用线性模型来表示.n(2)检验方法n t检验n F检验(一元回归中,F检验与t检验一致,即:F=t2,两种检验可以相互替代)n 步骤n【Analyze】【Regression】【Linear】762.4.3 多元线性回归分析n 多元线性回归方程n 多元回归方程:Y=0+1X1+2x2+.+kxkn 1、2、k为偏回归系数。n 1表示在其他自变量保持不变的情况下,自变量X1变动一个单位所引起的因变量Y的平均变动n 多元线性回归分析的主要问题n 回归方程的检验n 自变量筛选n 多重共线性问题n 自变量筛选法n 向前筛选法(forward),是自变量不断进入回归方程的过程.n 向后筛选法(backward),是自变量不断剔除出回归方程的过程n 逐步筛选法(stepwise),是“向前法”和“向后法”的结合772.4.4 曲线拟合n 目的:n 在一元回归分析或时间序列中,因变量与自变量(时间)之间的关系不呈线性关系,但通过适当处理,可以转化为线性模型。可进行曲线估计。n 曲线估计的常用模型:n Y=a+bX(线性拟和linear)n Y=a+b1X+b2X2(二次曲线quadratic)n Y=a+b1X+b2X2+b3X3(三次曲线cubic)n X为时间,也可为某一自变量。n 步骤n【Analyze】【Regression】【Curve Estimation】782.4.5 非线性回归分析n 意义n 非线性回归过程建立因变量与一组自变量之间的非线性关系。n 非线性模型可以在自变量与因变量之间达成某种模型,这些任务的完成是依靠迭代估计运算获得。n 步骤n【Analyze】【Regression】【Nonlinear】n 注意n 在【Model Expression】框中输入一个合适的方程,在该方程中,包括变量、参数和常数等。n 必须为每个参数设置初始值。792.5 聚类分析n K-means Cluster过程(快速聚类法)n Hierarchical Cluster过程(系统聚类法)802.5.1 Hierarchical Cluster过程n 属于系统聚类法的一种n 方法原理n 先将所有n个变量观测看成不同的n类n 然后将性质最接近(距离最近)的两类合并为一类n 再从这n-1类中找到最接近的两类加以合并n 依此类推,直到所有的变量观测被合为一类n 使用者再根据具体的问题和聚类结果来决定应当分为几类n 解题思路n 应当选用变量聚类n 具体的分类数不明,需要输出全部结果n 方差和均数相差不大,无需进行标准化n 测量距离使用默认的欧氏平方距离即可81