(精品)流行病学数据的分析处理方法.ppt
《(精品)流行病学数据的分析处理方法.ppt》由会员分享,可在线阅读,更多相关《(精品)流行病学数据的分析处理方法.ppt(35页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、流行病学数据的分析处理方法流行病学数据的分析处理方法山东大学公共卫生学院山东大学公共卫生学院School of Public HealthShandong University流行病与卫生统计学研究所流行病与卫生统计学研究所1山东大学公共卫生学院山东大学公共卫生学院流行病学数据分析前的准备工作流行病学数据分析前的准备工作 一、原始数据的检查一、原始数据的检查 在数据分析前需要对原始的流行病学调查研究数据进行一在数据分析前需要对原始的流行病学调查研究数据进行一次次审查审查,发现可能存在的错误、遗漏的研究变量取值和其他问,发现可能存在的错误、遗漏的研究变量取值和其他问题,并题,并采取相应的措施进行
2、处理采取相应的措施进行处理。u若在调查表中发现有若在调查表中发现有缺失的数据缺失的数据,可以通过电话再次询问,可以通过电话再次询问研究对象、查阅有关的记录、应用储存的血液标本重新检研究对象、查阅有关的记录、应用储存的血液标本重新检测或再次取样等措施进行补充。测或再次取样等措施进行补充。u若发现若发现逻辑错误逻辑错误,也要及时改正。需要对调查问卷进行编,也要及时改正。需要对调查问卷进行编码或者对已编码的问卷进行核查,避免重复和遗漏。码或者对已编码的问卷进行核查,避免重复和遗漏。2山东大学公共卫生学院山东大学公共卫生学院 二、选择合适的数据管理和数据分析软件二、选择合适的数据管理和数据分析软件u常
3、用的数据管理软件常用的数据管理软件 Microsoft FoxProMicrosoft FoxPro、Microsoft AccessMicrosoft Access、Microsoft ExcelMicrosoft Excel 这些数据管理软件也具有简单这些数据管理软件也具有简单的数据分析功能,的数据分析功能,ExcelExcel的数据分析功能更强,不的数据分析功能更强,不仅可实现描述性统计,还可以做仅可实现描述性统计,还可以做t t检验、方差分析、检验、方差分析、相关回归分析等相关回归分析等u常用的数据分析软件常用的数据分析软件 SASSAS(Statistical Analysis Sy
4、stemStatistical Analysis System)和和SPSSSPSS(Statistical Package for Social Statistical Package for Social ScienceScience),它们均具有很强的数据分析和数据管,它们均具有很强的数据分析和数据管理的功能理的功能3山东大学公共卫生学院山东大学公共卫生学院 三、数据的计算机录入三、数据的计算机录入 (编号、定义变量名、变量数量化)编号、定义变量名、变量数量化)u编号:给编号:给每一个每一个调查表或调查对象调查表或调查对象一个一个编号以编号以识别录入的数据与调查表或调查对象的对应关识别录
5、入的数据与调查表或调查对象的对应关系系(唯一性)(唯一性)p使用阿拉伯数字使用阿拉伯数字1 1、2 2、33等给每份调查表按照顺等给每份调查表按照顺序编号,这样有利于以后对输入的数据进行检查、序编号,这样有利于以后对输入的数据进行检查、核对与修改错误。核对与修改错误。p可以给编号以时间、地区、单位、调查对象编号等,可以给编号以时间、地区、单位、调查对象编号等,如:如:200501200501(济南)(济南)0202(历下)(历下)00010001(调查对象)(调查对象)4山东大学公共卫生学院山东大学公共卫生学院 u定义变量名称:定义变量名称:命名:可以应用中文、拼音、也可以应用英文,但以命名:
6、可以应用中文、拼音、也可以应用英文,但以使用拼音或英文为好,这样可以方便输入。使用拼音或英文为好,这样可以方便输入。注意:注意:p变量名应简短、易懂易记:如对性别、年龄、身高、体重可变量名应简短、易懂易记:如对性别、年龄、身高、体重可以使用以使用gender,age,height 和和weight进行命名。对名称较进行命名。对名称较长的变量,可以使用长的变量,可以使用简写简写,如,如wt表示表示weight、ht表示表示height。p标记或说明:有些数据管理和分析软件可变量进行标记或说标记或说明:有些数据管理和分析软件可变量进行标记或说明,避免时间长久了而忘记数据库中的变量名字,如对上述明,
7、避免时间长久了而忘记数据库中的变量名字,如对上述Wt可标记为可标记为“weight”。5山东大学公共卫生学院山东大学公共卫生学院 u变量数量化变量数量化 如果调查表的设计是如果调查表的设计是编码式编码式的,则此步骤可省略,的,则此步骤可省略,直接直接将变量取值编码的结果输入计算机。将变量取值编码的结果输入计算机。若若不是编码式不是编码式的调查结果,则需要对变量的取值的调查结果,则需要对变量的取值结果进行结果进行编码编码(数量化)数量化)。6山东大学公共卫生学院山东大学公共卫生学院 l常见变量的类型常见变量的类型 1 1、字符型、字符型(character type)(character typ
8、e):输入字符如中文或英文输入字符如中文或英文 2 2、数值型、数值型(numerical type)(numerical type):以数值的形式输入以数值的形式输入 3 3、日期型、日期型(data type)(data type):按照规定的格式输入日期数值按照规定的格式输入日期数值 4 4、逻辑性(、逻辑性(logical typelogical type):7山东大学公共卫生学院山东大学公共卫生学院 l变量数量化时应注意:变量数量化时应注意:(1)除日期型变量外)除日期型变量外尽量使用数值型变量尽量使用数值型变量 (2)某些数值变量)某些数值变量(numerical variable
9、)可可直接输入变量的取值直接输入变量的取值,如研究对象的身高、体,如研究对象的身高、体重、血压水平等。重、血压水平等。(3)分类变量分类变量(categorical variable)及有及有 序变量序变量(ordinal variable)则可将其取值进行则可将其取值进行量化量化,然后再输入计算机,然后再输入计算机 8山东大学公共卫生学院山东大学公共卫生学院 如:分类变量如:分类变量如:分类变量如:分类变量种族种族种族种族 白人白人1 黑人黑人2 西班牙裔人西班牙裔人3 亚太裔亚太裔4 其它种族其它种族5注意:注意:分类变量在进行多因素分析时,分类变量在进行多因素分析时,必须转换成哑变量必须
10、转换成哑变量(dummy variabledummy variable),不能直接将前述的取值),不能直接将前述的取值1 1、2 2、3 3、4 4、5 5放入方程中进行分析。放入方程中进行分析。9山东大学公共卫生学院山东大学公共卫生学院 l有序变量的数量化顺序合理,则可以直接进行分析有序变量的数量化顺序合理,则可以直接进行分析 如:教育程度如:教育程度 文盲:文盲:0 小学:小学:1 中学:中学:2 高中及中专:高中及中专:3 大学:大学:4 硕士及以上:硕士及以上:510山东大学公共卫生学院山东大学公共卫生学院 四、数据的检查与核对四、数据的检查与核对四、数据的检查与核对四、数据的检查与核
11、对 (一)检查数据库结构(一)检查数据库结构(一)检查数据库结构(一)检查数据库结构 数据库样本数(观测数)、变量数、变量名称及定义数据库样本数(观测数)、变量数、变量名称及定义数据库样本数(观测数)、变量数、变量名称及定义数据库样本数(观测数)、变量数、变量名称及定义等。等。等。等。(二)检查各变量的取值情况(二)检查各变量的取值情况(二)检查各变量的取值情况(二)检查各变量的取值情况 查看变量取值范围,有无逻辑错误:查看变量取值范围,有无逻辑错误:查看变量取值范围,有无逻辑错误:查看变量取值范围,有无逻辑错误:如性别如性别如性别如性别应有两个应有两个应有两个应有两个取值,若有取值,若有取值
12、,若有取值,若有2 2个以上的取值,说明存在错误个以上的取值,说明存在错误个以上的取值,说明存在错误个以上的取值,说明存在错误 。对数据变量要检查其最小值对数据变量要检查其最小值对数据变量要检查其最小值对数据变量要检查其最小值(minimum)(minimum)、最大值、最大值、最大值、最大值(maximum)(maximum)、均数、均数、均数、均数(mean)(mean)、中位数、中位数、中位数、中位数(median)(median),并查,并查,并查,并查看是否有异常取值看是否有异常取值看是否有异常取值看是否有异常取值(outlier)(outlier),如极小值及极大值。,如极小值及极
13、大值。,如极小值及极大值。,如极小值及极大值。异常值若影响显著时应删除异常值若影响显著时应删除异常值若影响显著时应删除异常值若影响显著时应删除11山东大学公共卫生学院山东大学公共卫生学院 五、数据的整理五、数据的整理(一)数据分组(一)数据分组l分类变量:分类变量:按其原有的分类进行分组,若有必要,可将性质按其原有的分类进行分组,若有必要,可将性质相近或差别不大的类别进行合并。如教育程度。相近或差别不大的类别进行合并。如教育程度。l数值变量:数值变量:按照按照实际的生理、病理或临床意义分组实际的生理、病理或临床意义分组,如体重,如体重指数:低体重、正常体重、超重和肥胖指数:低体重、正常体重、超
14、重和肥胖 12山东大学公共卫生学院山东大学公共卫生学院 按使用的按使用的方便程度和专业上惯用方便程度和专业上惯用的方法分的方法分组,如年龄在某一个合适的范围内每组,如年龄在某一个合适的范围内每5 5岁或岁或1010岁岁分成一组。分成一组。按按分位数分组分位数分组,即首先找出四分位数,即首先找出四分位数(quartile)或五分位数()或五分位数(quintile)的界值,然)的界值,然后应用这些界值将研究对象平均分成后应用这些界值将研究对象平均分成4组(每组组(每组25%的研究对象)或的研究对象)或5组(每组组(每组20%的研究对象)。的研究对象)。13山东大学公共卫生学院山东大学公共卫生学院
15、 (二)数据的转换二)数据的转换1、非正态数据的变量转换、非正态数据的变量转换原理:原理:正态分布正态分布 参数检验参数检验(parametric test)非正态数据非正态数据非参数检验非参数检验(non-parametric test)(不是对原始数据检验)如:秩和检验(不是对原始数据检验)如:秩和检验(是对(是对原始数据的秩次检验)原始数据的秩次检验)检验:正态性检验、方差齐性检验检验:正态性检验、方差齐性检验 方法:对数变换;平方根变换;倒数变换方法:对数变换;平方根变换;倒数变换 14山东大学公共卫生学院山东大学公共卫生学院 2 2、分类变量转换成哑变量、分类变量转换成哑变量u原理:
16、原理:分类变量是分类变量是二分类尺度及顺序尺度二分类尺度及顺序尺度,则可,则可直接应用其原有的数量化数值。直接应用其原有的数量化数值。名义尺度名义尺度因为各类别间没有顺序关系,在因为各类别间没有顺序关系,在进行不同分析(包括多元分析、进行不同分析(包括多元分析、logisticlogistic回归、回归、CoxCox回归等)时,不能使用原始的计算机录入回归等)时,不能使用原始的计算机录入数值,必经进行变量转换数值,必经进行变量转换。即将该变量转换即将该变量转换成(水平数成(水平数-1-1)个哑变量)个哑变量,再将这些新转换的再将这些新转换的变量放入多因素模型中。变量放入多因素模型中。15山东大
17、学公共卫生学院山东大学公共卫生学院 u方法:方法:例如:将种族原始取值转换成哑变量(新变量)例如:将种族原始取值转换成哑变量(新变量)表表1.分类变量转换成哑变量的方法分类变量转换成哑变量的方法 新变量新变量 .种族种族 原始取值原始取值(x1)x1-1 x1-2 x1-3 x1-4白人白人 1 0 0 0 0黑人黑人 2 1 0 0 0亚太裔亚太裔 3 0 1 0 0西班牙裔人西班牙裔人 4 0 0 1 0其它种族其它种族 5 0 0 0 1新变量以白人为参照,新变量以白人为参照,X1X11 1表示黑人与白人比较,依此类推表示黑人与白人比较,依此类推16山东大学公共卫生学院山东大学公共卫生学
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 精品 流行病学 数据 分析 处理 方法
限制150内