统计数据准确性评估的误差效应分析方法.pdf
《统计数据准确性评估的误差效应分析方法.pdf》由会员分享,可在线阅读,更多相关《统计数据准确性评估的误差效应分析方法.pdf(7页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第24卷第9期Vol.24No.9统 计 与 信 息 论 坛Statistics&Information Forum2009年9月Sep.,2009收稿日期:2009-02-08;修复日期:2009-07-12基金项目:国家自然科学基金项目 我国统计数据质量的评估系统研究(70671104)作者简介:王 华(1978-),男,山西翼城人,经济学博士,副教授,研究方向:统计质量评估和区域经济统计分析;金勇进(1953-),男,北京人,教授,博士生导师,研究方向:抽样调查和应用统计。Rawski(2001)以1997-2000年间中国经济高速增长的同时却伴随能源消耗相对下降、通货紧缩、就业人口增长
2、缓慢等现象为由,质疑中国经济增长数据的可靠性。【统计理论与方法】统计数据准确性评估的误差效应分析方法王 华1,金勇进2(1.厦门大学 计划统计系,福建 厦门 361005;2.中国人民大学 统计学院,北京 100872)摘要:基于统计数据生产者角度开发有效而可靠的统计数据准确性评估方法,具有迫切的必要性。参照社会调查领域的计量误差效应评估技术,结合中国政府统计调查数据的结构特征,可以构造针对宏观统计数据的误差效应模型,从个体数据与总量数据两个层次、针对系统偏差与方差两类误差效应来定义统计数据的准确性。通过对该模型中若干重要参数的识别估计,既能实现传统的统计偏差评估,又可揭示因操作因素、制度因素
3、、基层单元属性特征等对于统计数据准确性所造成的影响,从中发现重要的统计误差来源,从而推动统计方法制度进行有针对性地改革与完善。关键词:统计数据准确性;评估方法;误差效应模型中图分类号:C811:C829.22 文献标志码:A 文章编号:1007-3116(2009)09-0010-07一、引 言统计数据准确性是统计数据质量概念中的核心特征;作为统计数据质量控制前提和依据的统计质量评估工作,也必然要以准确性评估作为核心内容。目前围绕统计数据准确性评估的研究与实践,由于评估目标和所依据资料的详实程度不同,各种努力虽然都被冠以“统计数据质量(准确性)评估”之名,实际涉及到的方法范畴和技术思路却存在极
4、大差异,适用条件也往往不同。针对宏观统计数据,通常是以统计核算体系中同度量指标之间在统计口径和范围方面存在的单向包含或相互平衡的内在逻辑关系、相关指标间基本稳定的经验比率或协同变动趋势等因素作为参照标准,通过判断统计指标数值与这些逻辑关系1、经验比率2或协同变动趋势324是否存在不一致的现象,以此进行准确性评估。进一步,经济研究学者利用统计核算体系中各项基础构成指标,遵循统计核算规则来重构总量统计指标,作为参照标准来评判官方公布统计数据的准确性(其中尤以对GDP及其增长速度的评估最为常见),如以实物产量增长速度的加权平均方法计算综合增长率的物量指数法5-6,以及利用各类价格指数对名义GDP进行
5、缩减调整的价格指数法7。上述评估思路(方法)的实施,隐含着如下假定:即参照指标(或基础构成指标)必须是准确无误的,待评估指标与参照指标之间的逻辑、比率或相关关系也应是相对稳定的,否则评估结论就容易出现多重指向性,难以令人信服。如针对引起国内外强烈反响的Rawski的中国经济“低增长猜想”,Lardy即以1997-2001年间中国财政税收与进口高达70%90%的增长速度作为反对证据8,任若恩认为关于经济增长率与能源增长率应该大致相等的假定是不成立的9,张新和蒋殿春则指出中国官方公布的就业数字无法反映真实情况(如隐性失业),不足以作为评估GDP增长可信度的参照依据10。01作为对上述方法的技术拓展
6、,基于计量经济模型(时间序列模型)的评估方法,其结论的得出依赖于两种分析途径:一种是分析被解释变量实际统计值与模型拟合值之间的差异情况,从中识别出偏差较为显著的异常数值点11;另一种是分析模型参数估计值的跨时期稳定性,判断模型所反映的经济运行机理是否明显有悖于社会经济常识1,3。相对而言该类方法更为科学严谨,但同样存在限制性条件:即要求用于拟合模型的历史统计数据(包括待评估指标本身)以及评估期的解释变量数据必须是准确可靠的,不会发生数据“污染”现象11;即便如此,对于被解释变量的异常数值或模型参数的异常变动,也可能有其发生的客观原因(如外部冲击、体制变革等),不能一概归咎于统计准确性问题。综上
7、可见,在宏观层面开展的统计数据准确性评估实践,必须借助于可获取的同类统计数据资料;对应于实施操作的可行性,这类评估实践的主体通常是统计数据的使用者。鉴于各类方法在逻辑思路或技术方面存在一定的缺陷,评估通常只能给出方向性的提示,无助于进行具有公信力的统计修正;同时评估结论的可靠性也值得商榷。正因如此,在研究和实践中一直未能形成统计数据准确性评估方法的公认体系和标准,针对有关的评估结论更是颇多争议。这也是国内外各界对中国政府统计数据质量的存疑长期难以消除的重要原因之一。相比较而言,统计数据生产者(统计部门)掌握宏观统计数据在汇总生成过程中各个环节的大量原始数据,可以基于更可靠的技术思路、利用更详实
8、的信息资料来实施数据准确性评估。对于评估争论的最终解决,统计部门所提供的证据和结论无疑具有更高的权威性和说服力。因此,基于统计数据生产者角度开发有效而可靠的统计数据准确性评估方法,具有迫切的必要性。本文旨在引入社会调查领域的计量误差评估技术,结合中国政府统计数据(生成过程)的特征构造统计误差效应模型,探讨利用该模型来评估统计数据准确性的基本思想及其关键参数设定。二、调查计量误差效应模型计量误差是普遍存在于各类统计调查中的一种非抽样误差形式,是影响调查质量的重要因素。20世纪50年代至今,该领域的研究产生了大量文献成果,用以描述对各种误差来源的处理方法,并试图对若干类型误差来源进行综合处理与同步
9、建模。基于本文的研究目标,这里仅简要介绍针对调查计量误差效应的一般建模思路和估计方法。对于调查计量误差的直观理解是调查记录值与变量真实值之间的差异,由此可以得到最基础的线性计量误差模型12-13为xit=i+it(1)即调查记录值xit是真实值i与计量误差it的和(下标t意指对于单元i的调查计量在概念上可以重复进行)。当然,计量误差机制也可能更为符合其他形式的模型(如乘积模型xit=iit),但仍可以经过转换(如取对数)得到形如式(1)的线性可加模型。该模型可用于研究分析计量误差以及误差具体来源对各种统计分析技术和参数估计的影响。Kish更将计量值视为真值与各种原因产生误差的组合14,从而有x
10、i=i+rdir=i+rbr+rvir(2)其中dir是由第r种因素导致对单元i的计量误差,br是由第r种因素导致对所有单元计量的系统偏差,vir是dir中扣除系统偏差后的随机误差部分。在模型(1)和(2)中,计量误差it和dir被看作是来自无限误差总体的一个样本单元(或称随机误差变量的一次实现),包括系统性偏差与重复调查计量中变动误差两部分。系统偏差反映了调查记录值与真实值之间差异的系统模式与方向,例如受访者在报告收入时容易忘记像利息所得这样的项目,从而使报告收入普遍低于实际收入。变动误差则可表征为简单计量方差与相关计量方差两类参数,前者反映了在重复调查中计量结果的随机变动,例如向受访者就相
11、同的问题提问多次,即使不存在前后记忆关联,受访者也可能会因记忆、情绪、气氛等因素的影响而给出不同的回答;后者则反映了不同样本单元计量误差之间的相关模式,研究和实践中最受关注的通常是因访问员影响而产生的相关误差。对于模型(1),假设可以对同一样本单元进行重复观测,并且不同次观测之间相互独立,则针对特定单元i的计量偏差与方差可以表示为Eit|i =i,V it|i =2i(3)其中E|i和V|i表示对单元i进行重复观测得到的期望与方差,反映了对单元i进行观测的失真与变异程度。进一步,如果Covi,j|i,j=0,表明各样本单元的变动误差之间没有相关性;如果Covi,j|i,j=ij0,则存在相关计
12、量误差。11王 华,金勇进:统计数据准确性评估的误差效应分析方法如果以均方误差来综合反映对于参数估计的计量偏差与方差两类误差效应,可得MSE=V +B2=VpEm+EpVm+(EpEm-)2(4)其中是待估参数(如总体均值或总值),是包含计量误差的参数估计量;Ep和Vp是基于抽样设计的期望与方差,Em和Vm是对样本单元重复测量下(基于误差模型)的期望与方差。上式将对单元i的调查计量视为初始抽样设计下的又一级抽样,其等号右侧的第二项反映了由于对调查单位计量的不确定性所导致参数估计方差的增大,第三项则反映了对个体的计量偏差所造成参数估计的系统性偏差。对于上述计量误差效应模型中有关参数的估计,结合现
13、实情况已经发展出多种技术,如重复调查方法15、访问员方差研究16、随机试验方法及记录核对研究17等,其中重复调查方法是完全内生于抽样理论体系、最具普遍意义、在实践中应用最多的一种方法。通过选择对初始样本设计具有代表性的子样本,向子样本中的调查对象再次提问初始调查问题(或它们的一个子集),并结合初始抽样设计,重复调查可以实现对总体参数中计量偏差与方差(包括简单方差与相关方差)成份的有效估计测量。上述计量误差效应模型是研究计量误差的发生机制及其影响时最为基础的模型,同时亦可作为政府统计调查数据综合误差建模的基础,本文即基于此模型展开研究。三、宏观统计数据误差效应模型的构建(一)误差效应模型的基本形
14、式宏观统计数据,不论其来源于统计报表汇总、普查或是抽样调查估计,都可看作是由基层个体单元的统计调查数据经由(加权)汇总得到的。而所谓的统计数据准确性问题,本质上是来源于个体统计调查数据中存在的误差。进一步,如果将基层单元定义为较为稳定的群或者区域(如乡、村或者居委会、小区等),则针对基层单元的各类统计误差都可对应于计量误差的范畴。由此可见,在针对宏观统计数据进行准确性评估的过程中,完全可以引入社会调查领域的计量误差量化技术,通过构造误差效应模型来进行更为深入而系统的研究。如果将统计数据的汇总结构简单表示为TX=Ni=1Xi(即总体包含N个基层单元,第i个单元的统计调查数值为Xi,总量统计数值为
15、TX),同时统计调查数值中包含误差,即Xi=Yi+ei,i=1,2,N(5)其中Yi和ei分别表示第i个单元的目标特征真值与统计调查误差,则有TX=Ni=1Yi+Ni=1ei=TY+Te(6)进一步,如果对基层单元的调查误差ei服从如式(3)所示的条件期望为i、条件方差为2i的概率分布,则总量统计数值TX相对于唯一确定的真值TY,也表现为具有系统偏差和变动误差(以方差表征)的随机变量,即Em TX-TY=Ni=1i=NBeVm TX=VmNi=1ei=Vm Te(7)可见,统计数据准确性可以分别在个体数据(Xi)与总量数据(TX)两个层次、针对系统偏差与方差两类误差效应加以定义。由此构成了宏观
16、统计数据误差效应模型的基本形式。本文将基于误差效应模型来评估统计数据准确性的方法称为误差效应分析方法。由下文的分析可知,基于误差效应分析角度研究统计数据准确性的评估与控制问题是一种可行而有效的思路。同时,在统计汇总过程中各类重要的误差来源 包括制度因素(如统计制度缺陷或地方政府部门干扰)、操作因素(如统计人员的现场调查记录与中后期处理汇总)以及基层单元属性特征(如基层单元所属的区域或部门)等 的影响,也都可在模型中有所体现。(二)误差效应模型的应用传统的统计数据准确性评估方法,通常是搜集可以代表目标特征真值TY的辅助资料,利用这些辅助资料构造TY的估计量TY,或者是构造包含TY关键信息的函数f
17、(TY);再以此作为参照标准,将实际统计数值TX或是其函数g(TX)与Tr或者f(TY)进行比较,根据二者间的差异状况对实际统21统计与信息论坛对于抽样调查数据,总体总值的估计量为TX=ni=1wiXi(在简单随机抽样下有权重wi=N/n),与前者形式类似,在两类数据间不难作相应转换,故在下文中省略对抽样数据情形的讨论。计数据的准确性(主要是偏差程度)做出评判。而对于统计数据生产者来说,由于可以掌握大量的原始数据(各基层单元的统计调查数值Xi),以及为进行统计质量监控而实施事后重复调查的数据(可理解为若干样本单元的目标特征真值数据Yi),不仅可实施上述比较评判,还可对统计汇总过程中的数据误差结
18、构做更深入系统的考察,通过构造误差效应模型,从中发掘有助于推动统计方法制度不断完善的各类信息。首先,可以对宏观统计数据中的系统偏差进行评估,这也是统计数据准确性评估实践中最常开展的工作类型。事后重复调查评估方法的运用,将系统偏差的出现归因于调查设计的不合理与调查实施的不规范,因此要求对重复调查实施的调查条件加以控制,在更为理想和完善的调查条件下(如聘用最有经验的调查员和督导,选择最有知识的受访者)获得基层单元的真实结果(Yi,i=1,2,n)。由此可以构造目标特征真值TY的估计量TY以及系统偏差NBe的估计量Te。与前述各种评估方法相比,基于误差效应模型的偏差评估方法的理论结构更为严谨,信息资
19、料更为充分,因而评估结论更具科学性与可信度。其次,可以对总体统计误差方差进行识别评估。如式(7)所示,统计调查误差对于统计数据准确性的影响,不仅体现在系统偏差方面,更在于会增大统计结果的不确定性、减损统计推断的精度,即便对全面调查/普查亦是如此。对于不相关统计误差,即Cov ei,ej|i,j =0,i,j=1,2,N;ij(8)有统计总量的方差为Vm TX=Ni=1Vm ei=Ni=12i=N2e(9)其中2e=Ni=12i/N可称为简单统计误差方差。由式(9)可见,基层单元统计误差方差对统计数据准确性的影响会随总体规模呈线性增长,对于大规模总体而言将会非常可观。再次,可以对各种来源的统计误
20、差效应进行识别评估。由于统计数据来源于基层统计调查员(普查员)的现场调查操作和数据处理人员的中间汇总操作,基层单元所属类型(如所处地理位置或行政区划、行业类型或市场结构等)也有所不同,因而存在多种统计误差来源,导致式(8)的不相关误差结构往往无法成立。更一般的情形是(以单因素误差来源 为 例),对 于 分 层/类 总 体TX=Ni=1Mij=1Xij(即总体包含N层/类、第i层/类包含Mi个基层单元,并令M0=Ni=1Mi;此处的层/类可以由统计调查员、地理位置、行政区划、行业类型等属性因素确定),参照式(2)可构造误差效应模型为Xij=Yij+dij=Yij+bi+eiji=1,2,N,j=
21、1,2,m,Mi(10)其中统计调查误差dij的条件期望bi反映了由基层单元所属层/类产生的系统性影响;考虑到误差来源的多样性与不确定性,此处将bi设定为随机效应18,并且有Em bi=Bb,Vm bi=2b(11)从而有统计调查误差的相关结构为Covm dij,dij=2b+2ei=i,j=j2bi=i,jj0ii(12)其中2e=Ni=1Mij=12ij/M0。由此可得统计总量的方差为Vm TX=VmNi=1Mij=1dij=Ni=1Mij=1Vm dij+Ni=1Mii=1Mij=1,jjCovm dij,dij=M0(2b+2e)+Ni=1Mi(Mi-1)2b=M0(2b+2e)1+N
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计数据 准确性 评估 误差 效应 分析 方法
限制150内