人口学研究方法:规范与发展.docx
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《人口学研究方法:规范与发展.docx》由会员分享,可在线阅读,更多相关《人口学研究方法:规范与发展.docx(26页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、人口学研究方法:规范与发展人口学研究方法:规范与发展认识人口与计划生育统计的特点避免统计方法和数据的误用由于工作关系和职业习惯,笔者对各种各样有关人口和计划生育的工作报告、分析文章中的统计方法和统计数据比拟关注,经常能够发现统计方法和统计数据被误用的情况。本文通过一些实例,分析由于不了解人口和计划生育的特点而造成统计方法和数据误用的情况。1个案与群体实例1某调查报告称,某村2001年出生婴儿10人,其中男婴6人,女婴4人,出生性别比高达150,严重失调。实例2某乡给某村下达人口计划,其中一项指标是计划生育率,要求当年的计划生育率不低于95%,而该村一般每年出生缺乏20人。实例3某地计生委根据群
2、众举报,查出某县一个超生5胎的情况,据此称该县超生问题严重。实例4某县总人口缺乏50万人,近年来在孕妇中推广服用福施福。上级要求检查服用福施福后,人口缺陷发生率能否逐年下降。还有不少地方把孕产妇死亡率能否逐年下降当作生殖健康服务工作的考核内容。这几个例子所出现的问题都是以个案或少量发生的情况,讲明一个地方宏观的情况。人口和计划生育统计所分析的对象人口或事例具有群体性,这个群体是由每个个体的人或事件集合而成。每个个体能否发现这种现象是偶尔的,作为表现群体规律的统计数据,只要当群体具有相当的规模后才有意义。群体的规模太小,尽管对每个个体的统计是准确的,指标的计算也是正确的,但计算结果并不能客观地反
3、映群体的规律。如实例1,一个村的出生人数仅为10人,计算的出生性别比要么是100绝对平衡,要么就是男女比例严重失调。实例2中计划生育率受出生总数的影响,要么计生率正好100%,只要有一个计划外出生,计划生育率就低于95%。例4涉及的出生缺陷发生率或孕产妇死亡率一般统计时均以10万作为分母,对于一个县,每年出生几千人或1万多人,即便根据出生缺陷、孕产妇死亡发生的平均水平,每年也只要几例,偶尔性很大,在统计数据上很难表现为逐年下降。至于例3,以一个特例讲明全县的情况,更是欠妥。各种人口和计划生育统计教材上并未讲明各项统计指标适用的人群至少要到达多少,但一般讲来这些统计指标绝大部分不能用于分析规模在
4、几百人到一千多人的村级情况,很多指标在县、乡级使用也不太适宜。多年来各级是通过报表采集人口和计划生育统计数据。报表由上级制发,基层单位按统一的口径填报每个项目,然后逐级汇总、上报。这样以来,上、下级的报表式样一样,只是数量大小有差异,于是,上级单位计算哪些指标,下级单位照葫芦画瓢计算一样指标。十分是实行人口与计划生育目的管理责任制后,各项工作任务和责任要逐级分解、落实,相应地,工作指标也被层层分解,上一级控制的指标如出生率、计划生育率也被一直套用到基层单位。在这种情况下,群体性的要求很容易被忽视。2自然属性与社会属性实例51995年8月,在全国上半年人口形势分析会上,某省计生委分析本省当年上半
5、年二孩出生数量比上一年同期减少的原因时称,由于自当年起全省广泛推行三结合,很多群众为了发家致富,主动退出二孩指标,于是二孩出生明显减少。笔者的同事立即对此理由提出了置疑:既然是主动退出二孩指标导致二孩出生减少,那么原来应在1995年上半年生育二孩的妇女至少在1994年上半年就应退出二孩指标,而那时候,该省并未开展计划生育三结合;至于1995年上半年开展三结合后退出的二孩指标,其二孩出生减少的效果应在1996年以后才能表现出来。群众退出二孩指标与二孩出生数量的减少在时间上出现了矛盾。实例6很多文章分析妇女受教育程度越高,生育的孩子越少。这两个例子讲明分析人口出生数量的变化应考虑人口的自然属性和社
6、会属性。人口首先是生物意义上的人口,具有自然属性,同时,人口生活、存在于一定的社会环境中,具有社会属性。人口现象的发生既受自然属性的影响,也受社会属性的影响。从根本上讲,社会属性对人口现象的影响和制约是有条件的、间接的。而自然属性的影响和制约是无条件的、直接的。社会属性的影响和制约经常要通过自然属性来实现。在分析人口现象的时候,首先要解释人口的自然属性,然后再解释社会属性。就实例5而言,从妇女退出二孩指标到二孩出生减少,至少间隔10个月,即妇女的怀孕期,无论推行三结合力度多大,妇女10个月的怀孕期不能缩短。退指标的发生与出生数的减少在时间上不同步,至少要滞后一年。也就是讲,1995年上半年因开
7、展三结合妇女退出二孩生育指标不会影响这个时期的二孩出生数量。关于实例6,一个人的受教育程度属于社会属性,妇女受教育水平提高,确实会影响其生育行为。然而,影响生育的自然因素,直接因素是避孕节育行为,详细地讲,影响生育的生物因素包括推延结婚不发生性行为、采取避孕措施和流产终止妊娠。妇女文化程度影响到上述生物因素发生变化如文化程度高,能够更好地把握避孕知识,能够提高避孕的有效性,减少怀孕的可能,并通过上述因素影响生育孩子的数量。直接讲文化程度与孩子数量的关系,不免有些牵强。3定量与定性实例7各地每年都要分析当年的人口形势,将当年的数据与上一年的数据进行比照。很多分析报告在列举了比照数据后得出结论:今
8、年的工作比上一年有明显的进步,获得了宏大的成绩,上了一个新台阶。但假如我们仔细观察各项指标的数量,发现变化并不大,如计划生育率由88.5%上升到89%,出生率由15.4下降为14.9这其中由于人口年龄构造的变化也能导致出生率下降,多孩出生由165人减少为149人,多孩率由2.2%下降为2%等等。根据这些数据的变化,得出的定性结论应当是:工作稳步发展,人口增长保持平稳的态势。人口和计划生育的统计分析主要是指对数据的分析,并由定量的描绘引申到定性的判定。假如忽视定性的分析,那么,所谓定量分析不过是数量变化的文字描绘罢了。把握好定性分析的关键在于,定性分析应以定量分析为基础,即定量在前,定性在后。那
9、种先定性,再计算数量变化的做法,违犯了定量与定性的基本规律。这样进行的定量分析,只是给定性的结论加一些数量的点缀。4模糊和准确实例8某地区的一份材料称,根据20年来每年总和生育率的变化,推算本地区20年来少生了1831275人。实例9某县计生委利用农村赶集日人口比拟集中的时机,出动服务车,设置咨询台,向群众宣传计划生育知识,提供咨询服务。县计生委的汇报材料称,一个月来在集日上接受宣传、咨询的群众累计到达127328人次。乍一看,实例8和实例9中的人数和人次数的统计和计算特别认真仔细,数字如此准确,令人钦佩。但转念一想,不免生疑:实例8中利用总和生育率计算少生人口,需要以年龄别生育率与分年龄妇女
10、人数相乘计算出生人数,一般来看,每个年龄组的计算结果都不会是整数,只好四舍五入。每一年若干个年龄组累计下来,个位数已经含糊不清了。再把20年的少生人数累计起来,怎么可能准确到个位数呢?况且20年间,该地区的人口并非处于封闭状态,各年龄组人数由于人口迁移而变化,也会影响到计算少生的数量。至于实例9,在一个开放的、人们频繁走动的集市上,怎样断定哪个人接受了宣传,哪个人接受了咨询,并没有一个客观的标准;即便有标准,实际操作中也很难把握,因而,根本没有可能逐人统计。实例8、实例9中看似准确的数据令人感到滑稽,倒不如模糊一些,讲20年大约少生了18万人,一个月在集市上接受了计划生育宣传、咨询服务的人次达
11、10余万,或许有几分可信。从某种意义上讲,人口和计划生育所涉及的是宏观层面的事情,与此相应的统计数据所反映的是大致的状态或趋势,没有必要也没有可能做到准确。很多同志在应用统计方法时,往往注意的是方法本身的定义和计算经过,而对计算中数据的;不了解。人口和计划生育统计属于社会经济统计范畴,很多数据是通过抽样调查获得,允许有一定的误差;即便是全面的调查如人口普查、全局报表,在施行经过中,也会碰到这样、那样的干扰或影响,存在着调查误差,这是无法完全避免的。从某种意义上讲,数据存在一定的误差,这是人口和计划生育统计的特点之一。5原因与结果实例10最典型的例子莫过于人口出生率每降低1个千分点,人均GDP提
12、高多少个百分点的讲法。这种讲法的根据是利用相关分析法对全国各省的人口出生率和人均GDP的数量变化进行计算,得出二者之间的函数关系式和相关系数。把人口出生率作为自变量,看自变量的单位变化影响因变量人均GDP变化的数量大小。在这个例子中相关分析法本身以及有关的数据都是正确的,然而,用这样一个函数式来解释人口增长与经济增长的互相关系是有问题的。其一,就统计方法来讲,相关分析只反映变量之间的相关关系,而不讲明因果关系;其二,人口增长与经济增长虽然互相影响,但从本质上来讲,是经济发展影响人们的思想,进而影响人们的生育行为,最终导致生育率下降,人口增长率降低,即经济增长是因,而人口增长是果。颠倒了因果关系
13、,不仅逻辑上讲不通,数量上的相关性也失去了意义。笔者在多年的工作中体会到,由于人口和计划生育所具有的特点,人口和计划生育统计分析方法的应用和统计数据的解释有别于其它部门和领域对于统计的一般要求。正确地应用统计分析有助于我们认识人口和计划生育的特点和规律,只要科学地认识和把握人口和计划生育的特点和规律,才能避免在统计分析中陷入误区。社会科学实证研究中的统计分析方法应用郑真真北京大学人口研究所副教授统计学的应用随着微型计算机的普及越来越广泛,在社会科学实证研究中几乎是无处不在。有了一定规模的数据和一个统计分析软件,就能够很方便地进行各种估算和分析。然而由于统计分析方法本身并不像加减乘除那样简单,而
14、一些统计分析软件已经发展到几乎是人人都可使用的程度,假如使用者在只知其然不知其所以然的情况下操作并得到结果,可能出现对统计分析方法误用或滥用的现象。本文仅对一些统计分析中比拟常见的问题进行讨论,以引起各方面的重视。1描绘性统计描绘性统计是社会科学实证研究中最常用的方法。准确、全面、正确的描绘是所有实证分析的基础,假如对某个事件或某种现象的描绘不清楚或存在偏差,那么其后的所有分析都将是值得怀疑的。一项研究能够将所研究的现象或对象描绘清楚,就是一个极大的奉献;而描绘的偏差可能会引起公众或学术界对某些社会现象的误解,甚至误导政府决策。但是由于描绘性统计所用方法简单易得,往往没有得到足够的重视。均值的
15、局限普遍用于描绘样本集中趋势的测量之一是均值。它对于近似正态的对称分布样本来讲是比拟好的测量,对于不对称分布则不然,尤其会遭到极端值的影响。两个分布完全不同的样本可能会有一样的均值,因而均值在某种程度上抹杀了样本内部的差异,而往往这种内部差异正是需要我们进行深化研究的、或应当引起人们注意的。为了弥补均值的这个缺陷,一般在报告均值的同时也报告方差,或用直方图散点图的形式描绘分布,以提请读者注意群体内部的差异。不同群体的可比性在描绘性统计中,往往涉及到对不同时期或不同人群的总体描绘,以反映社会变化或地区差异。在社会科学中、尤其是人口研究中,不少事件的发生都是与年龄密切相关的,如我国妇女大部分在35
16、岁以前完成了生育,进而导致35岁以上育龄妇女中极高的避孕现用率。在这种情况下,两个样本之间存在避孕现用率的差异可能只是年龄构造的差异,而不是年龄别避孕现用率的差异。又如在报告流动人口犯罪问题时,给人的印象往往是流动人口犯罪率高于常住人口,但忽视了流动人口的年龄和性别构成与常住人口完全不同,且青年男性是犯罪率较高的人群。这种对两个不同群体的比拟往往会导致错误的结论。绝对数的使用由于中国人口数量宏大,调查研究也比拟容易得到大容量的样本,所以对任何小概率事件用绝对数报告都会出现惊人的宏大数字,单纯对绝对数的强调往往会产生戏剧性的效果。比拟合理的方式一般是在报告某事件绝对数的同时,给出该事件的发生率或
17、占研究人群的比例。小样本的代表性在一次抽样的小样本中求得的率或比例会非常不稳定,与另一次抽样的结果可能会有较大差距。因而当研究仅限于从小样本获得的资料时,应当在报告比例的同时也报告样本量。2双变量统计分析在社会科学研究中,首先分析的往往是两个变量之间的关系,如用相关或列联表等方法。一般在确定两个变量之间确实有某种关系,如在经过统计检验后证明两变量有显著相关关系,进行更进一步的分析才有意义。因而,双变量统计分析在实证分析中占有重要地位。但是,由于在应用中对有些问题的忽视,双变量统计分析也很容易出现偏差或错误。卡方检验的局限在利用列联表对两个定序定类变量进行相关分析时,需要进行统计检验来判定两个变
18、量的相关能否有统计上的显著意义。不少研究结果都用卡方检验的显著性报告相关状况。但值得注意的是,卡方统计量的计算本身是有局限性的,样本越大,卡方值就会相应增大,因而大样本的卡方检验很容易得到显著结果。所以一般在报告卡方检验结果以讲明两变量能否显著相关时,还应当同时报告相关强度,即相应的相关系数,如Gamma,Lambda等。统计意义上的显著与差异的实际意义在检验两个定距变量的均值差异能否具有统计上的显著性时,也存在类似的问题。由于样本量越大,样本均值分布的方差就越小,因而常用的t检验结果就越可能显著,任何细微的差异都可能有统计上的显著性。但有时具有统计意义显著性的差异,在实际生活中可能意义并不大
19、,好像在两个草堆之间找出一根草的差距,对判定两个草堆的大小没有实际意义。因而,对任何检验结果都应当有符合实际的解释和讲明。虚假相关问题双变量分析中的虚假相关问题,几乎在所有关于社会科学研究方法的教科书中都会涉及到,在统计分析方法的教学中也被视为经典问题。但是多少年来,人们仍然在不断地重复着这个经典的错误,即以为可见的或统计检验结果显著的相关就是真正的相关;更为大胆的做法是把这种相关关系推向因果关系。我们知道,对于有的变量来讲,即便是经过检验断定两者具有统计上显著的相关关系,也不一定存在实际意义上的关系,由于可能有未考虑到的变量或不可测量的变量在同时对两个研究变量起作用,有时甚至可能完全是偶尔的
20、偶合。例如,火灾的大小是以火灾损失来衡量的,而参加灭火的消防员人数是与火灾大小有关的,火灾越大,出动的消防员就越多,但但凡具有常识的人都不会根据出动消防员人数和火灾损失两个变量之间的高度相关,断定出动消防员越多火灾损失就越大,由于火灾的规模是决定因素但很难直接衡量。在有关人口科学研究中也有报告虚假相关的现象,如人口增长率的降低导致了经济增长的提法就是一例。因而,在分析相关关系时,应当根据理论、知识、经历、甚至常识来判定这种分析能否有意义、能否存在其他变量的作用称为外在变量,避免得出有悖于常理的分析结果。有些虚假相关是能够通过统计分析方法判别的,如在控制了另外一些变量后观察两个变量的偏相关,或在
21、双变量分析的基础上,进一步用多变量分析深化研究。3多变量分析回归分析是多变量分析中应用最多的方法,尤其是逻辑斯蒂回归更是被广泛地应用。在诸多应用中,比拟明显的问题是使用方法能否得当和对结果的报告和解释能否规范、合理见2002年第2期(人口研究)刘金塘文。此外还有一些应当引起注意的问题。分析框架的重要性在社会科学研究中,各变量之间往往存在扑朔迷离的关系,假如在进行回归分析之前没有一个明晰合理的分析框架,那么回归的结果有可能会引起质疑。一般应在报告回归分析结果之前,介绍该分析的框架,如各变量的定义、各自变量与因变量的假设关系及其理由等,对建立的回归模型做出合理性论证。有一些变量可能是作为控制变量纳
22、入回归模型的,如性别、年龄等,最好事先解释清楚。对假设因果关系的模型,应当至少能够讲明:(1)该因果关系在理论上是正确的、在实践中是合理的;(2)从事件发生的时间上来讲,应当是原因发生在先、结果发生在后。如有些回归分析中,未加讲明即把所有与因变量显著相关的变量都囊括在自变量中,甚至有些自变量与因变量有明显的互为因果关系,显得分析逻辑混乱;还有的论文在简单介绍研究背景和数据;之后,急于建立因果关系并推出回归分析结果,然后再根据各变量在回归模型中的显著性逐一讲明,这相当于事后解释;这些做法都是错误的。在具备奔4微机和较易操作的软件的今天,转霎时就可完成一次回归分析,但是在此之前,需要有大量的前期准
23、备工作,包括文献检索和理论框架构建,才能确保统计分析的科学性。分析方法应用的条件每种多变量方法都有各自的前提条件或假设,假如这些条件不具备或者假设不成立,该方法的应用就成问题。如Pearson相关是考察线性相关关系,多元方差分析只能辨别线性相关因变量的多元差异,线性回归分析假设自变量与因变量之间为线性关系,因子分析方法也是建立在各变量具有一定的线性相关基础之上的;另外,在逻辑斯蒂回归中,每个分类都应保证有足够的频数,假如频数太少就会影响参数估计的稳定性;等等。尽管一般不在报告分析结果时讲明各种假设能否成立或条件能否知足,但是在进行分析时应当自觉地进行考察。假如不能知足条件或假设不能成立,就对数
24、据进行转换或调整后再分析,或者改变分析方法。多变量分析结果的展示和解释多变量分析的结果一般是通过列表来展示的。如今一种并不少见的做法是直接把统计软件的输出直接复制到论文中,我们往往会在文章中看到包括回归参数估计、参数标准差、检验统计值、检验显著性、偏相关系数等等n行m列的大表,使人有目不暇接的感觉。实际上参数标准差和检验统计值是提供应分析者的信息,没有必要列在结果中;假如不是有十分需要的话,偏相关系数也不是关注重点;最主要的应当是回归参数估计及其显著性。在列出分析结果之后,应当对结果的实际意义进行解释和讨论,而不是复述分析结果的数学意义。此外,在多元统计分析中一个常见的问题是分析者对变量作用不
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 人口学 研究 方法 规范 发展
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内