对纵贯数据统计分析的认识.pdf
《对纵贯数据统计分析的认识.pdf》由会员分享,可在线阅读,更多相关《对纵贯数据统计分析的认识.pdf(10页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第 35 卷第 6 期2011 年 11 月人口研究Vol.35,No.6November20113Population Research对纵贯数据统计分析的认识*任强谢宇【内容摘要】在介绍了纵贯数据的设计思想及优缺点基础上,从统计方法的角度讨论了纵贯数据在社会科学中所能发挥的作用。纵贯数据的优点在于其可以帮助我们进行对总体异质性的识别、对因果机制干预的研究、对因果效应的研究和对“状态”变换的研究。以一些基于纵贯数据的研究设计为实例,文章阐述了在研究中假设与数据紧密衔接的重要性,以及利用统计方法分析纵贯数据时需要考虑的要点。但由于存在着由人类和人类行为内在变异性导致的这一无法避免的根本性缺陷,
2、纵贯数据并不能解决所有问题。因而在纵贯数据的辅助下,研究者需要对社会现象有更深入的理解,将其进行更合理的概念化,并加以更精准的数据分析。【关键词】纵贯数据;因果效应;变异性;异质性【作者简介】任强,北京大学人口研究所副教授;谢宇,密歇根大学社会学系、北京大学中国社会科学调查中心教授。北京:100871Statistical Analysis of Longitudinal DataRen QiangXie YuAbstract:The paper introduces the basic ideas of design for longitudinal survey data and itsa
3、dvantages and shortcomings,and discusses the rationales for collecting longitudinal data from thestatistical perspectivesLongitudinal data are informative because they enable identification of popu-lation heterogeneity,study of intervening causal mechanisms,study of causal effects,and study ofstate
4、transitionsSpecial considerations in longitudinal settings are addressed,as well as the impor-tance of hypotheses,illustrated with examples of study designs using longitudinal dataLongitudinaldata are not perfect,because the most serious shortcomings come from the intrinsic variability of hu-mans an
5、d human behaviorsGiven such severe limitations,what researchers of social phenomenacan do is to develop better understanding,better conceptualization,and better data analysis,aidedby longitudinal dataKeywords:Longitudinal Data,Causal Effects,Variability,HeterogeneityAuthors:Ren Qiang is Associate Pr
6、ofessor,Institute of Population Research,Peking University;Xie Yu is Professor,Department of Sociology at the University of Michigan and the Institute of SocialScience Survey at Peking UniversityBeijing 100871 Email:renqiang pku edu cn*此文曾在北京 2011 年 2 月 28 日 3 月 5 日举行的 1st International Conference o
7、n Challenges and Innovations inLongitudinal Surveys 会议上介绍,我们感谢参加会议的学者和於嘉、高丹雪所提供的建议。4人口研究35 卷1使用纵贯数据的原因在当前社会学、经济学、人口学领域,纵贯数据的使用已经成为主流,因为只有通过纵贯数据才有可能知道社会现象和个人行为的动态变化。目前国际上使用较多的纵贯数据有美国威斯康辛追踪调查(Wisconsin Longitudinal Survey,WLS)、美国收入动态追踪调查(Panel Study of Income Dy-namics,PSID)、美国健康与养老研究(Health and Retir
8、ement Survey,HRS)等。使用较多的中国数据有中国健康与营养调查(China Health and Nutrition Survey,CHNS)和中国老人健康长寿影响因素研究(Chinese Longitudinal Healthy Longevity Survey,CLHLS)。目前,北京大学中国社会科学调查中心正在执行的中国家庭动态跟踪调查(China Family Panel Studies,CFPS)和中国健康与养老追踪调查(Chinese Health and Retirement Longitudinal Survey,CHARLS)也受到社会科学各界学者的欢迎和重视。
9、社会是非常复杂的系统,由于个体异质性(individual heterogeneity)、选择性偏误(selective bias)和忽略变量偏误(omitted variable bias)的存在,完美无缺的数据是不存在的(谢宇,2006)。社会科学科研经费有限且较难申请,为什么要利用有限的经费进行如此昂贵的追踪调查?是否值得花费这么多钱以及我们能从花费巨大的纵贯数据中真正获得什么,是一个非常严肃的学术问题。面对如此复杂的社会,各类调查数据都往往存在某些缺陷,但我们在一定程度上可以通过改善研究设计、使用合适的统计方法来弥补数据的不足。而本文正是从统计方法角度阐述纵贯数据的重要性。纵贯数据之所
10、以在社会科学中如此重要,其核心原因有两点:(1)与截面数据相比较,纵贯数据在数据结构和提供的信息方面都更加丰富;(2)能够满足因果推论的需要。根据纵贯数据的属性,可以将其分为趋势数据(trend data)和追踪(面板)数据(panel data)两种类型。追踪数据是针对同一样本重复观测,如威斯康辛追踪调查、中国健康与营养调查、中国家庭动态跟踪调查和中国健康与养老追踪调查等等。趋势调查是针对同一总体在不同时期分别抽取不同样本进行重复观测,也被称为汇合的截面数据,如美国的综合社会调查(General Social Survey,GSS)和中国综合社会调查(China General Social
11、 Survey,CGSS),历次的人口普查和全国 1%人口抽样调查等。我们一般所讲的纵贯数据是指追踪(面板)数据。趋势数据实际上不是真正的纵贯数据,之所以将它与追踪数据共同提出,其目的在于强调二者的区别。追踪数据在结构上的特点为:(1)至少包含两个维度的信息 时间维度 t 和案例维度 i;(2)基本变量包含两类 时间独立或时间恒定变量(time independent variable/time invariant variable)与时间依赖或时变变量(time depend-ent variable/time varying variable)。一般来说,使用追踪数据进行研究的目的是控制未
12、被观测到的异质性(unobserved heterogeneity)和对变化的趋势或过程进行描述和分析。Baltagi(2002)和 Hsiao(2003)认为,纵贯数据的优势在于:(1)控制个体异质性;(2)提供更加丰富的变异性信息,减少变量之间发生共线性的可能,增加自由度和提高估计的效率;(3)更好地对动态变化进行分析;(4)更好地识别和测量纯粹截面数据和时间序列数据中难以识别的效应;(5)建构和检验更加复杂、基于纯粹截面数据和时间序列数据无法实现的模型。当然,追踪数据具有一定的局限性,包括调查设计相对复杂,调查费用很高,以及由于很难长期追踪受访者,导致因无应答和样本规模的选择性缩减等问题
13、而产生的偏差。2纵贯数据能做什么?从社会科学研究的角度出发,研究者要清楚纵贯数据能满足或有助于我们回答什么样的问题。首先来回顾一下我们所主张的社会科学第一原理 变异性(variability)(谢宇,2006)。在社会科学研究中,所有的分析单元都是不一样的,而关于它们彼此之间是如何不一样的,则往往体现于数6 期任强谢宇对纵贯数据统计分析的认识5据分析过程中所做的假设。我们之所以对追踪数据感兴趣,不仅在于关注总体变异(population var-iability)这是要进行随机抽样的原因所在;更在于关注另一个维度的变异 时间维度的变异(temporal variability)。因此,在追踪数
14、据中,我们将会面对更多的变异。这些变异不仅存在于分析单元层次上,而且存在于时间层次上,有时也存在于情景环境层次上。关于纵贯数据在社会科学中的作用,我们认为主要体现在以下四个方面:(1)通过提供丰富的信息而有助于描述(describe)总体异质性(population heterogeneity);(2)有助于揭示(reveal)干预的因果机制;(3)有助于识别(identify)因外生性原因导致(exogenously imposed)的因果效应(这一点需要假设,我们后面将会着重讨论);(4)它有助于描述/揭示/识别状态变换(state transition)。2 1对总体异质性的识别正如社会
15、科学研究强调的那样,由于所有的个体是不一样的,因而在总体水平存在大量的变异。当开展对总体异质性识别(identification of population heterogeneity)的研究时,我们经常使用固定效应模型(fixed effects model)。有了追踪数据,就可能使用固定效应模型;如果没有追踪数据,则将没有足够的信息使用个体层次上的固定效应模型。此外,我们也使用增长曲线模型(growth curve model)来描述总体异质性。在此我们将概述两种模型的主要差异以及各自包含的技术细节。固定效应模型首先假设个体间是完全不一样的,有些特征是固有的、天生的,如智商(IQ)。但是,
16、假设一个人的智商、能力或者个性是固定不变的,这实际上是不完全正确的。但出于需要,我们在数据分析时经常做这种假设。然而,由于所有个体差异在任何时候都不能被观测到,因此这种差异实际上会使个体随时间变化而表现出他们自己的特性。例如,有些人开始做事较晚,但努力赶超;有些人总是很早着手做事,而且很快完成。这样一来,个体之间因性格等未观察到的特征差异便导致他们体现出各自的工作风格。因此,当一些个体差异随时间变化而表现出来的时候,我们就可以用增长曲线模型来描述这些差异。基本模型假设我们有一个基本模型(basic model)yit=it+itxit+it这里,i=1,2,N,t=1,2,T。it和 it都随
17、个体 i 和时间 t 变化。由于一共有 K 个自变量,因此在此基本模型中,观测数量是 NT,常量参数数量是 NT,斜率参数数量是 NKT。在任一给定时间,我们在个体水平 i 和时间水平 t 观测到各类变量,在这个时间点每个个体有一个截距项、一组协变量系数和一个残差。因为自由度少于待估参数,如果没有对参数的约束,模型是不能够被识别的。但假如我们可以对参数进行适当的约束,就能够从总体上识别截距项的异质性、斜率的异质性和残差的异质性。此模型被称为随机效应模型(random effects model),它可以用来分析组间差异和组内差异,且此模型假定组间的差异是随机的。但随机效应模型无法完全解决忽略变
18、量偏误或者生态学谬误的问题。固定效应模型当面对基于上述基本模型解决不了的问题时,应当如何处理呢?此时我们可以使用固定效应模型,即假设截距项不随时间变化,以此来控制未观测到的不变的异质性,也就是说假定个人的个性、智力或者某些生理特性保持不变。即它们是一个关于 i 的函数,而不是关于 t 的函数。换句话我们使用“揭示”在于其中性词的属性,因为使用“识别”又过于明确,使用“描述”又过于模糊,所以使用了介于“识别”和“描述”之间的一个中性词汇。6人口研究35 卷说,我们不让截距项同时随 i 和 t 变化。另外,由于我们把识别协变量系数作为研究的主要目的,因此它们既不随 i 变化也不随 t 变化。此模型
19、被称为固定效应模型。其表达为yit=i+xit+it每个个体有自己的截距系数,以此来表达个体水平未观测到的异质性。此模型估计简单,因为我们假设异质性不随时间发生变化。我们可以使用追踪/面板数据识别这些不随时间变化的异质性。是一个完全关于 i 的函数,而与 t 无关。是固定不变的,不随 i 和 t 改变。固定效应模型的优点是控制了不随时间变化的、个体上的异质性。但是,固定效应模型的缺点是浪费了过多的自由度,用来识别固定效应。增长曲线模型如果个体差异不随时间发生变化,该如何处理?此时我们可以用增长曲线模型(growth curvemodels)(Raudenbush 和 Bryk,2002)。增长
20、曲线模型也被称作多水平模型(multi level models)、分层线性模型(hierarchical linear models)、随机系数回归模型(random coefficient regression models)、混合效应模型或随机效应模型(mixed effect models or random effect models)。在统计学中被称为混合模型(mixed models)。在心理学中常被称为增长曲线模型。增长曲线模型是基本模型与固定效应模型的折中。增长曲线模型的基本思想是分解实际增长曲线(一般是线性的,但也可以是非线性的)。也就是说,将因变量的变异分解为两部分:个人
21、本身的变化(即组内差异,随时间变化)(within person,over time)和人与人之间的差异(即组间差异)(between person)。如果 x 轴是时间 t,则每个人都有自己的截距项和自己的增长率。但研究者再把它们进一步分解为个人具体属性的函数。这是完全参数化的表达,因为它假设基础水平和增长率都是观测特征的函数 分别为下面多水平增长曲线模型中的第 2 个方程和第 3 个方程。当然,它也包含随机项成分。这是参数化与随机项结合的多水平增长曲线模型。模型表达为yit=i0+i1xit+iti0=0+0Wi+i0i1=1+1Wi+i1在描述异质性增长率(heterogeneity g
22、rowth rate)方面,此模型被经常使用。例如,小孩有时长得很快,有时长得相对较慢,如何解释这类现象?关键在于分解,即将因变量的变异分解为两部分:人与人之间的差异和个人本身的变化差异。人与人之间差异的模型是多水平模型部分,个人本身的变化是增长曲线模型。2 2对因果机制干预的研究研究者往往对教育获得很感兴趣。教育获得会受到家庭环境的影响,但其同样会影响其它许多方面,如婚姻、收入、工作、政治参与等。因此,教育获得实际上可以被看作是一个干预结果,因为它一方面受到家庭环境、智商及其它属性的影响;另一方面它又影响其它方面。很多影响教育获得的因素是外部引入的,即外生的,但另外一些因素可能是内生的,随时
23、间而表现出来。这也是为什么说,我们所揭示出的因果机制不是必然的原因,在某种程度上讲它是解释性的。因此,这里的重点实际上是随时间变化的协变量,即变化中的自变量。在使用追踪数据时,要重视随时间变化的协变量。随时间变化的协变量是内生性的还是外生性的,研究者并不一定有明确答案。所以,对于“因果效应”(causal effects)和“因果机制”(causal mechanism),研究者往往并不能够有明确的解释,因为所发现的因果机制的真实原因并非必然是由外在效应引起的。6 期任强谢宇对纵贯数据统计分析的认识7现在,让我们简单回顾一下图1 的 Blau Duncan 模型(Blau 和 Duncan,1
24、967),这是社会学中身份获得的一个经典模型。模型告诉我们,家庭环境主要通过个人的教育获得来影响他的职业。因此,大部分影响来自家庭环境,通过教育间接起作用,即需要由开放的劳动力市场作中介。在现代社会,教育是很重要的,因为雇主并不知道雇员家庭背景是否会影响劳动者的工作效率,而他们往往根据劳动者的教育对其做出的评价。图 1Blau Duncan 的身份获得模型Figure 1Blau Duncan Model of Status Attainment来源:Blau 和 Duncan(1967)。另外一个例子是经典威斯康辛模型(Wisconsin Model)(Hauser、Tsai 和 Sewel
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 纵贯 数据 统计分析 认识
限制150内