灰色收入与国民收入分配.docx
灰色收入与国民收入分配* 本文是中国经济体制改革研究会灰色收入课题研究报告,课题顾问:宋晓梧、石小敏。本课题在实地调查和研究过程中,得到了许多机构和个人的帮助;在报告讨论过程中,也有许多专家提出了意见和建议,有益于报告的修改完善;在此一并致谢。但报告中的错误由作者个人负责。王小鲁前言2005-2006年,我们在全国各地几十个不同规模城市进行了城镇居民收入与消费调查。在此基础上,2007年作者发表了题为我国的灰色收入与居民收入差距的研究报告 见王小鲁,比较总第31辑,2007年7月出版,中信出版社。这个课题是由中国经济体制改革研究会和中国改革基金会国民经济研究所资助,历时两年,于2007年完成。在这个报告中,作者推算我国在2005年的城镇居民可支配收入中,有4.8万亿元没有反映在居民收入统计数据中的隐性收入,主要发生在高收入阶层。作者认为这些隐性收入的大部分属于“灰色收入”。作者通过对城镇居民分组收入数据进行校正,发现在包括了隐性收入后,城镇最高收入和最低收入各10%家庭之间的收入差距从9倍扩大到了31倍;全国居民最高收入和最低收入各10%家庭之间的收入差距从21倍扩大到了55倍。这意味着我国国民收入的分配失衡比过去所普遍了解的情况更加严重。该报告还根据家用汽车拥有量、商品住宅销售量、私人出境旅游的人次数、以及银行存款的分布数据,从不同角度对居民收入(主要是高收入居民的收入)进行了估计,从而对上述推算结果进行了交叉验证。同时也对灰色收入的来源进行了一些初步分析,认为这主要是由于体制上的缺陷造成的,因此迫切需要推进体制改革来解决国民收入分配失衡问题。上述推算的方法和结果是否可信?经过几年之后,国民收入分配状况发生了哪些变化?为了回答这些问题,我们于2009年再次组织进行了城镇居民家庭收支调查(采集的数据为2008年全年数据),并在调查数据的基础上进行了新的研究分析。本报告就这次调查的范围、调查和分析方法、以及研究结果进行陈述,并在此基础上进一步分析国民收入分配失衡的现象和所需要的应对措施。本报告的第一部分报告我们的城镇居民收入调查方法和样本分布情况。第二部分讲述分析方法,报告技术分析的结果。第三部分在调查数据和技术分析的基础上,推算我国城镇居民可支配收入的真实水平和真实的收入差距。第四部分是对灰色收入来源的进一步分析。第五部分分析灰色收入对国民收入分配格局的影响。第六部分是本报告的结论。一、城镇居民收入调查方法和样本分布1.如何获得真实的调查数据作者认为,目前关于居民收入的统计调查数据存在重大失真。特别是关于城镇高收入居民的可支配收入,失真非常严重。这并不是指统计调查方法或计算的错误。目前的城镇和农村居民住户调查样本,是根据统计学的随机抽样方法确定的。这一方法本身并不存在系统性的错误。但必须注意到以下情况:1.现行的住户调查抽样是基于自愿原则确定的,但高收入居民中有相当大比例不愿意接受调查,导致在抽样过程中被迫更换样本,因此在样本更换过程中发生了对高收入居民的遗漏。2.包括在调查样本中的高收入居民中,有许多人不愿意提供他们的真实收入信息。在他们报告的收入中,工资性收入的真实程度较高,而其他收入可能偏低;特别是其中一些人有大量不愿暴露、来源不明的“灰色收入”。这部分收入基本上不可能反映在收入调查数据中。以上原因使统计调查发生系统性偏差,无法真实地反映居民收入分配状况。这一问题,很难在现有的住户统计样本和现有的调查方法范围内得到彻底解决,需要探索另外的途径。基于这一原因,我们研究的首要目的是取得关于居民收入的真实数据。在2005-2006年调查中,我们借鉴了社会学调查方法,由各地的专业调查人员对他们熟悉的亲属、朋友、同事、邻里的家庭收支状况进行了调查。我们还采取了若干辅助措施保证调查数据的真实性。事实证明这一方法是可行的,调查取得的数据具有比较高的可信度。在2009年调查中,我们使用了同样的调查方法,但采取了更严格的质量控制措施,并扩大了调查样本。必须说明,由于这一调查方法不同于随机抽样方法,因此我们无法直接用这个调查样本的数据来推算我国城镇居民收入的总体分布状况,而必须借助于其他方法进行推算。关于推算方法,将在本报告第二部分中详细介绍。本部分的主要目的是对调查方法和样本分布状况进行说明。在调查之前,我们对各地调查人员进行了问卷和调查方法培训。为了消除受访者可能的疑虑,调查问卷采取无记名方式,在调查开始前向受访者提供了调查结果只用于研究的承诺和样本数据保密承诺。在调查方法上,也采取了若干降低调查敏感度和有利于获得真实数据的措施。例如,关于调查目的,主要强调研究消费结构而不是强调研究收入水平;在问卷设计上,先问消费问题后问收入问题,先问具体分项后问消费和收入总额。在收入来源方面,问卷只要求回答简单的收入分类(包括工资性收入、兼职和劳务收入、实体经营收入、金融投资收入、财产性收入、知识产权收入、各类转移收入、和未包括在以上各项的其他收入),不要求回答具体收入来源。在访问结束后,要求调查员填写他们与受访者的关系,以及他们对问卷调查结果可信程度(包括可能的偏差方向和偏差程度)的个人估计,作为问卷的参考信息。调查完成后,我们对问卷进行了全面的质量检查。除了对信息完整性和调查地点正确性进行核对外,我们设计了一套检查程序,对各问题之间的逻辑关系,以及各项收入和消费数据之间的数量关系,进行合理性检查,对质量不符合要求的问卷(包括信息遗漏、涂改、数据反常、不同信息之间存在逻辑错误而又无法鉴别正确信息等等问题的数量超过标准,以及调查对象不属于城镇居民)和信息真实性值得怀疑的问卷做了剔除。2.调查样本的分布状况本次调查在全国19个省份(包括直辖市)的64个不同规模城市,以及14个县的县城和建制镇进行,省份(括直辖市)包括北京、上海、山东、江苏、浙江、广东、山西、河南、湖北、安徽、江西、辽宁、黑龙江、四川、重庆、云南、陕西、甘肃、青海。这保证了东部、中部、西部和东北地区都有一定数量的样本分布,并照顾了南北方的分布。城市包括北京、上海、济南、南京、杭州、广州、太原、郑州、武汉、合肥、南昌、沈阳、哈尔滨、成都、重庆、昆明、西安、兰州、西宁、深圳、青岛、苏州、大同、鞍山、抚顺、齐齐哈尔、大庆、徐州、扬州、阜阳、芜湖、六安、日照、襄樊、宜昌、东莞、中山、绵阳、忻州、开封、三门峡、驻马店、孝感、宜都、邳州、富阳、金华、绍兴、韶关、巢湖、滁州、赣州、吉安、景德镇、九江、丹东、铁岭、牡丹江、西昌、咸阳、白银、嘉峪关、天水、玉溪。其中直辖市、省会城市和“副省级”城市有21个,规模较小的地级和县级城市有43个,在不同规模城市之间保证了较为均衡的分布。县城和建制镇所在的县份包括山西省繁峙县、江苏省沛县、浙江省象山县、山东省平原县、齐河县、河南省滑县、湖北省大悟县、重庆市垫江县、开县、忠县、陕西省咸阳市礼泉县、甘肃省皋兰县、泾川县、青海省民和县。这些县份的地理分布也是较为均衡的。这次调查选取的城市数量较多,而样本在各城市的分布比较分散,这是基于两个考虑:首先,一个城市样本数量过多,就无法保证调查样本家庭都是专业调查人员所熟悉的家庭,与本次调查方案的初衷相悖。其次,样本中包括较多的城市,也保证了样本具有更好的代表性。我们的调查方法也存在缺点。一个主要问题是,该调查是一次性进行的,关于受访者家庭收入和消费的数据都是由受访者根据记忆提供(但在选取受访者的过程中,已经排除了对家庭收入和消费状况不够了解的家庭成员)。与记账式的抽样调查相比,这会产生较大的数据误差。但记账式调查不仅比一次性调查成本高、耗时长、难度大,而且由于调查内容具有敏感性,更容易导致系统性偏差。而一次性调查因记忆不准确造成的数据误差,一般而言是随机分布的,而不是系统性的。在样本平均的意义上,随机性误差会因正负互相抵消而大大减少,而系统性偏差是无法自动抵消的。因此基于本课题的研究目和研究条件,都必须采取一次性调查的方式。本次调查总共包括样本家庭4909个,经过严格的质量检验,剔除问卷质量不符合要求的689个样本,另有25个负收入样本未包括在分析中(因为分析表明,他们大部分在正常情况下不属于低收入家庭,负收入主要是临时性经营亏损造成的),实际分析采用有效样本4195个。表1列出了全部调查样本和有效样本的地区分布、按城市规模的分布、受访者年龄和户籍状况分布、样本家庭最高收入者的文化程度分布、受访家庭的人均可支配收入分布等情况。可以看到,样本在全国不同区域之间、不同规模的城市之间、以及受访者的年龄、文化程度的分布是比较均衡的;但居住在较大规模城市、具有较高学历、以及从事经营性活动和白领职业的人群所占比重,高于这些人群在全国城镇人口中的相应比重。这是因为根据作者2007年研究报告的结果,城镇居民收入水平的统计偏差主要发生在高收入居民。为了保证有足够数量的高收入居民样本以进行分析,在调查中有意识地增加了这部分人群的样本数量。我们使用的分析方法,将保证这种分布的差异不会影响到对全国城镇居民人均收入分布的推算结果。表1.按各种分组的样本分布状况1、按地区分布样本总数样本总数分布有效样本数有效样本分布东部地区186337.95%156337.26%中部和东北地区184837.65%160538.26%西部地区119824.40%102724.48%合计4909100.00%4195100.00%2、按城市规模分布样本总数样本总数分布有效样本数有效样本分布200万人以上城市249550.83%208349.65%100-200万人城市91518.64%78918.81%100万人以下城市99520.27%88921.19%县城、建制镇50410.27%43410.35%合计4909100.00%4195100.00%3、受访者年龄分布样本总数样本总数分布有效样本数有效样本分布20-29164733.55%141133.64%30-39138328.17%119628.51%40-49123625.18%106225.32%50-5952010.59%42510.13%60及以上1232.51%1012.41%合计4909100.00%4195100.00%4、受访者户籍分布样本总数样本总数分布有效样本数有效样本分布本市城镇445790.79%380890.77%外地城镇2765.62%2345.58%外地农村1563.18%1383.29%漏答200.41%150.36%合计4909100.00%4195100.00%5、家庭最高收入者文化程度样本总数样本总数分布有效样本数有效样本分布小学或以下1653.36%1363.24%初中97019.76%83219.83%高中(包括同等学历)183337.34%156537.31%大专、大学本科182237.12%156937.40%硕士、博士821.67%741.76%漏答或无法确定370.75%190.45%合计4909100.00%4195100.00%6、家庭最高收入者职业样本总数样本总数分布有效样本数有效样本分布一般专业技术人员3968.07%3538.41%中高级专业技术人员2625.34%2275.41%其他专业人员(科教文卫等)3396.91%3027.20%党政军机关一般干部1933.93%1653.93%党政军机关中高级干部521.06%471.12%企事业单位、社团职员56111.43%48311.51%企事业中层以上管理者3276.66%2686.39%服务人员3176.46%2776.60%工人65913.42%56213.40%个体工商户、自由职业者100820.53%85320.33%私企所有者、合伙人、股东3176.46%2776.60%其他职业731.49%661.57%学生、研究生200.41%170.41%无职业(括退休退职人员)3497.11%2786.63%漏答或无法确定360.73%200.48%合计4909100.00%4195100.00%注:城市规模按市区常住人口计算。二、分析方法和技术分析结果1.本报告使用的基本推算方法恩格尔系数法根据调查样本数据推算城镇居民可支配收入的方法可以概述如下:首先,我们进行城镇居民收入调查的目的,并不是为了从调查样本直接推断城镇居民的总体收入分布状况,而是在真实可信的数据基础上,推算收入水平与若干消费特征参数之间的关系。其中一个关键的消费特征参数就是恩格尔系数(即居民家庭的食品消费支出占家庭消费支出总额的比例)。恩格尔系数是一个与收入水平相关的参数,其下降趋势能够反映收入水平的上升;这在经济学界是一个公认的事实。这是因为在满足了基本的温饱需求之后,居民会逐渐转向追求其他需求的满足,例如对出行和通信联络的需求、对奢侈品的需求、以及教育、文化娱乐等较高层次的需求。因此随着收入水平提高,居民用于食品的支出增量会递减,而用于某些较高层次消费的支出增量会递增,使它们在消费总量中的比例发生改变。基于这个原理,我们可以基于一个比较可信、比较有代表性的调查样本,来计算居民家庭的恩格尔系数和人均可支配收入水平,并使用统计学或计量经济学方法,找出两者间的统计关系。依据得到的这些关系,我们可以对任意一组居民收入统计数据进行检验。也就是说,只要我们能够得到某一组统计样本的相对可靠的恩格尔系数,就可以依据该系数近似推算出该组居民的真实人均收入水平。因此,我们可以根据国家统计局的分组城镇住户的恩格尔系数,推算这些组别的平均收入水平,并将这些推算结果与公布的该组居民收入水平统计数据进行比较,以发现统计数据是否存在系统性的误差,以及这一误差有多大。我们称这一分析方法为“恩格尔系数法”。当然,这样做的前提,是要求分组统计样本的恩格尔系数真实可信。一个自然会遇到的问题是,如果某一组居民的收入水平统计数据存在系统性偏差,他们的恩格尔系数数据会不会同样有系统性偏差呢?事实上,如果收入数据存在偏差(例如,被低估),那么消费和商品消费支出数据很可能也存在一定的偏差。但首先,只要消费支出和食品消费支出的偏差是同方向的,并在统计意义上大体上保持同比例,那么分组平均的恩格尔系数仍然是基本可信的。在这种情况下,我们仍然可以使用恩格尔系数来推算真实收入水平。其次,即使消费支出和食品消费支出的偏差不保持同比例,在计算恩格尔系数时,同方向的偏差仍然可以在很大程度上互相抵消,使恩格尔系数的偏差远远小于收入水平的偏差。因此仍然可以用来推算收入水平,只是推算结果的准确程度较低。根据作者2007年的研究,发现在居民收支统计数据中,高收入居民的收入水平数据偏差最大,明显低于他们的真实收入。他们的消费支出和食品消费支出也都存在一定程度的低估,但在程度上远远小于收入的偏差。其中食品支出的偏差比消费支出总额的偏差更小些。这也就是说,据此计算的恩格尔系数可能轻微偏高,因而根据这些恩格尔系数推算的收入水平有可能轻微偏低;但仍然可以在很大程度上校正原来的收入数据偏差。不过,我们也需要知道,我们所得到的收入水平校正结果,相比于真实收入,可能或多或少仍在一定程度上偏低。还要注意到,使用这一方法对居民收入统计数据进行检验,并不能在数量上确定统计样本对高收入居民遗漏的情况,只能对现有统计样本收入数据的系统性偏差进行校正。因此校正之后的结果,仍然可能在一定程度上低估高收入居民的收入水平(由于样本遗漏的原因)。以下,作者采取两种具体方法建立恩格尔系数与收入水平之间的关系,并对居民收入统计数据进行检验。这两种方法都属于恩格尔系数法,但分析手段和过程不同。在下面的叙述中,为简化起见,作者将“人均可支配收入”称为“人均收入”;将国家统计局的城镇居民住户调查样本称为“统计样本”,而将我们这次调查的样本称为“调查样本”;来自统计样本的人均收入将称为“统计收入”,而根据调查样本提供的参数及其与统计数据的比较结果推算的人均收入称为“推算收入”;以示区别。2.分组比较法第一种具体推算方法可以称为分组比较法。在2007年研究报告中,作者采用的就是这个方法。其步骤如下:第一步,分别计算全部调查样本的人均收入和恩格尔系数。第二步,计算统计样本的分组恩格尔系数。国家统计局每年公布的城镇居民分组收入数据,是按人均收入,将全国城镇居民家庭分为七组。其中最低收入、(次)低收入、最高收入、(次)高收入这四组分别是按十等份划分的,即每组各占10%的城镇家庭。中间三组(中低收入、中等收入、中高收入组)是按五等份划分的,每组占20%的城镇家庭。这七组的平均恩格尔系数都是可计算的。根据本文前面的解释,我们假定统计样本的恩格尔系数是可信的。 国家统计局城镇住户样本的平均和分组数据见历年国家统计局:中国统计年鉴“人民生活”部分。第三步,将全部有效调查样本按人均收入排序,从低到高进行分组。分组方法是,从最低收入开始,将样本逐个累加,直到该组的平均恩格尔系数与“统计样本最低收入组”的平均恩格尔系数相等为止。我们称这一组样本为“调查样本最低收入组”。这个分组过程不考虑样本数量。然后开始对“调查样本低收入组”进行分组,方法相同,也是使其平均恩格尔系数与“统计样本低收入组”(即第二个10%的城镇住户)相同。其余各组的分组方法类推。第四步,分别计算调查样本各组的人均收入平均水平。根据前面解释的理由,我们假定一组居民的恩格尔系数与他们的收入水平具有唯一的对应关系。也就是说,给定某组居民一个恩格尔系数,则该组的人均收入就应当是我们计算得到的、对应于这个恩格尔系数的人均收入。第五步,将各组调查样本与对应的统计样本人均收入进行对比,其差异就反映出统计样本的数据遗漏。表2是调查样本和统计样本的分组分布情况。可以看到在取了同样的恩格尔系数之后,调查样本的各组分布比例是不一样的。还可以看到,根据恩格尔系数分为七组之后,还有一部分人均收入更高的调查样本被留在了这七组之外(因为其恩格尔系数更低)。这一组的人均可支配年收入都超过40万元,最高为176万元。表3是调查样本和统计样本恩格尔系数和人均收入的对比结果。表2. 调查样本的分组分布及与统计样本分布的比较调查样本统计样本分组区间有效样本数分布比例分布比例最低收入17,000元3658.7%10%低收入7,00110,000元62214.8%10%中低收入10,00117,000元92722.1%20%中等收入17,00126,500元65015.5%20%中高收入26,50134,000元3558.5%20%高收入34,00175,000元63515.1%10%最高收入75,001400,000元56513.5%10%剩余样本>400,000元761.8%0%合计4195100.0%100%注:统计样本总共包括城镇居民约6.5万户。表3. 调查样本与统计样本的比较推算收入统计收入两样本比较分组恩格尔系数人均收入(元)恩格尔系数人均收入(元)收入差额(元)收入差率(%)最低收入0.481656850.4814475493119.6%低收入0.459586460.45947363128317.4%中低收入0.4297133920.428910196319631.3%中等收入0.4065209410.404213984695749.7%中高收入0.3790299100.3787192541065655.3%高收入0.3437477720.3403262502150082.0%最高收入0.29081640340.291843614120420276.1%剩余样本0.2241658811注1:调查样本和统计样本对应各组恩格尔系数之间有很小的尾数误差,不影响分析,我们视同相等。注2:“收入差额”指调查收入高于统计收入的部分,“收入差率”是指收入差额相当于统计收入的百分比。从表3可以看到,在对应各组恩格尔系数一一相等的情况下,调查样本每一组的人均收入都高于对应的统计样本,但差额和差率都非常有规律地逐级扩大,特别是最高收入组的差额和差率最大,统计样本最高收入组的人均收入只有4.3万元,而调查样本最高收入组为16.4万元,是前者的近3.8倍。其差额占了全部样本差额的2/3。这种情况和作者在2007年研究报告中发现的情况基本一样,所不同的只是中、低收入各组的差额和差率在一定程度上大于2007年报告的推算。这样,也就基本上验证了2007年报告研究结果的可信性。但对于这一推算的可信度,我们还要在下一节中通过另一种推算方法来验证。此外还需要说明,在作者2007年研究报告发表后,有少数读者误认为这一研究方法仍然等同于用调查样本来推算城镇居民总体收入分布状况,因而对研究结果的可信性提出质疑。因为无论本项研究的调查方法(非随机抽样)还是样本规模(规模偏小),都不适合用于直接推算城镇居民总体收入分布。这种误解是由于对这项研究使用的恩格尔系数法,尤其是对分组比较的分析方法缺乏了解。实际上,即使不理解我们使用的分组分析法与从调查样本推算总体的方法有何实质区别,只要将两种方法得到的结果进行对比就清楚了。在表4中,作者使用本次调查的数据,把用分组分析法的结果与直接推算总体分布的结果进行比较。显然,两种方法不仅每组得到的恩格尔系数有差异,而且每组人均收入的差别更为显著。其中关于最高收入组的人均收入,分组分析法得到的结果是16.4万元,而推算总体的方法得到的是29.4万元。两者的区别是显而易见的。表4. 基于2008年调查样本的比较:分组分析法和推算总体方法分组分析法推算总体的方法分组恩格尔系数人均收入(元)样本分布比例恩格尔系数人均收入(元)样本分布比例最低收入0.481656858.7%0.4794588410%低收入0.4595864614.8%0.4654836210%中低收入0.42971339222.1%0.43231203820%中等收入0.40652094115.5%0.41461928520%中高收入0.3790299108.5%0.36563560620%高收入0.34374777215.1%0.31877609710%最高收入0.290816403413.5%0.264529376910%平均/合计3546298.2%51771100%3.模型分析法以分组比较法对收入水平进行推算,也存在缺点,即这种方法假定恩格尔系数只与收入水平相关。但实际上,恩格尔系数还可能受到其他因素的影响,例如消费品价格、不同地方居民的饮食习惯差异等等。因此某一个恩格尔系数是否真的只对应一个确定的收入水平?是可以怀疑的。因此在这里,作者采用第二种具体推算方法,这可以称为模型分析法。这种方法以计量模型分析为基础,并能够把除收入水平以外还有可能影响恩格尔系数的其他变量作为控制变量包括在模型中进行检验,并在计算恩格尔系数与收入水平的关系时把这些额外的影响因素排除在外。这种方法能够避免分组分析法的不足之处,具有明显的优点。其基本步骤可以概述如下:第一步,确定控制变量。我们需要对调查样本的恩格尔系数和人均收入用计量经济学方法进行回归,找出人均收入对恩格尔系数的影响系数;而在进行这一步工作的同时,我们必须找到可能影响恩格尔系数的其他因素,作为控制变量包括在模型中,对其影响进行估计,才可能得到正确的收入影响系数。首先,不同规模的城市,各类消费品的价格水平有很大差异。这可能会影响不同规模城市的恩格尔系数。例如,大城市由于远离农产品产地,农产品运输成本和损耗都较大,中间环节也较多,因此食品价格可能会显著高于中小城市,高出的幅度有可能大于其他消费品价格高于中小城市的幅度(这是因为蔬菜、肉类等农产品不耐保存,储藏成本和中间损耗较大)。因此在其他条件相同的情况下,大城市居民的恩格尔系数可能高于中小城市居民。因为无法得到物价绝对水平的数据,作者在模型中设定了一个表示城市规模的变量city,其中对县镇、100万人以下城市(在这里作者称其为中小城市)、100-200万人之间的城市(这里称之为大城市)和200万人以上城市(这里称之为特大城市)分别赋值为1、2、3、4。其次,不同地区居民的消费习惯有差异。有些地区居民比其他地区居民有更高的美食偏好,因此可能在食品消费方面支出多于其他地区。通过对调查样本数据的分析,作者发现在其他条件相同的情况下,上海、江西、四川的恩格尔系数显著高于各省份平均水平。这三个省份用虚拟变量H1表示。北京、山东、湖北、广东、重庆、河南的恩格尔系数在一定程度上高于平均水平,这些省份用虚拟变量H2表示。而辽宁、山西的恩格尔系数低于平均水平,两者用L1表示。据此,在模型中包括了这几个虚拟变量。未包括在内的其他省份(有江苏、浙江、安徽、黑龙江、云南、陕西、甘肃、青海)的样本作为本底样本。第三,家庭人口数对恩格尔系数可能有影响,因为人口较多的家庭在食品支出方面可能具有规模效应,能够节约食品支出。因此设定了一个代表家庭人口数的变量famliy。第四,家庭成员的平均文化程度有可能对恩格尔系数有影响,因为文化程度较高的居民可能偏向于较多的精神需求,例如通信联络、教育、文化娱乐等,而教育程度较低的居民则可能在这些方面需求较少,而在食品烟酒等消费方面支出较多。因此设定了一个代表成年家庭成员平均教育水平的变量edu18,由18岁及以上家庭成员的平均受教育年份表示。第五,恩格尔系数还可能与家庭成员的就业面(就业的家庭成员占全部家庭成员的比例)有关。其原因比较复杂;一方面,家庭就业率较高,可能节约食品支出,因为从业者有可能在单位就餐,在某种程度上享受工作单位的食品补助。另一方面,较高的就业率又有可能导致较多的外出就餐(因为在家里做饭更花费时间),因此导致较高的食品支出。究竟哪种因素占上风,还需要通过检验来证明。模型中设定了家庭就业面的变量emp。第二步,设定模型的函数形式。从数据上我们可以直观地判断,恩格尔系数与人均收入之间的关系是非线性关系。因此作者分别选择了半对数函数、半对数二次函数、二次函数和三次函数模型进行估计。各函数均以恩格尔系数为被解释变量(以eng表示),半对数函数以对数人均收入lnY、以及控制变量city、family、edu18、emp、H1、H2、和L1为解释变量,称为函数(1)。半对数二次函数在函数(1)的基础上增加了lnY的平方项,见函数(2)。二次函数以人均收入及其二次项、以及各控制变量及其二次项作为解释变量,见函数(3)。三次函数在二次函数的基础上增加了各解释变量的三次项。函数(2)、(3)如下,函数(1)、(4)省略。eng=C1+a1lnY+a2city+a3family+a4edu18+a5emp+a6H2+a7H1+a8L1+a9(lnY)2(2)eng=C2+b1Y+b2city+b3family+b4edu18+b5emp+b6H2+b7H1+b8L1+b9Y2 +b10city2+b11family2+b12edu182+b13empl2+b14H22+b15H12+b16L12(3)第三步是对上述四个模型的估计。估计结果见表5。在初步回归分析中发现,其中二次和三次函数模型的某些变量二次项或三次项没有统计显著性,且t值很低。因此在表5的回归中已将这些项从模型中剔除。表5. 模型估计结果(1)半对数函数(2)半对数二次函数(3)二次函数(4)三次函数变量系数t值系数t值系数t值系数t值lnY-0.05739-28.66*-0.12004-4.63*lnY20.002952.42*Y-7.67E-07-20.8*-1.24E-06-19.31*Y25.44E-1313.88*1.93E-1212.15*Y3-7.49E-19-8.99*city-0.00664-3.50*-0.00677-3.57*-0.00385-1.97*-0.12508-2.21*city20.056122.22*city3-0.00774-2.28*edu18-0.01116-4.35*-0.01066-4.15*-0.03194-6.80*-0.02741-5.83*edu1820.001172.84*0.000982.39*family-0.01427-6.41*-0.01423-6.40*-0.01559-6.78*-0.01498-6.54*emp-0.01585-1.95*-0.01350-1.65-0.03781-4.53*-0.03164-3.82*H10.0710611.47*0.0707811.43*0.0760111.89*0.0754311.89*H20.025575.66*0.025445.62*0.026155.58*0.028586.12*L1-0.03938-6.06*-0.03979-6.13*-0.03298-4.93*-0.03149-4.74*C1.0607749.76*1.3862710.19*0.579037.80*0.6458016.57*Adj.R20.24630.24720.19730.2130Obser.419541954195注:t值标有号表示在10%水平显著,*号表示在5%水平显著,*表示在1%水平显著。从表5的回归结果看,尽管四个模型的调整R2不够高,但它们的绝大部分变量都有高的统计显著性,不仅证明恩格尔系数与人均收入水平之间存在十分显著的负相关关系,同时也证明恩格尔系数还受家庭成员文化程度、家庭人口数、家庭成员就业面、城市规模、以及地域特征的影响。其中模型(2)的调整R2最高。计算表明,模型(1)和模型(2)的结果非常接近,而且在中、低收入区间的模拟结果与统计数据比较接近,而模型(3)、(4)的模拟结果在各个收入区间都与统计数据有较大差异,而且在收入水平很高的情况下不再保持恩格尔系数单调下降,这与事实相左。因此在下面的分析中将采用模型(2)的结果。图一是用函数(1)-(3)模拟出的收入水平与恩格尔系数之间的关系曲线,显示了(1)、(2)两个函数之间很好的相似性。图中的纵轴表示恩格尔系数,横轴表示人均收入水平(元)。图1. 函数(1)(3)的模拟曲线第四步,为了最后实现使用回归得到的各变量影响系数,求解与不同的恩格尔系数相对应的全国城镇居民收入水平,还需要确定各影响变量在全国平均意义上的赋值。根据2007年统计数据,城镇居民在特大城市、大城市、中小城市、县城和建制镇(在模型中分别取值为1、2、3、4)的分布比例,大致为21%、25%、33%、21%。加权平均取值为2.5。但我们知道不同收入组别的人群在不同城市的分布是有区别的,高收入居民较多集中在特大城市和大城市,而低收入居民则更多集中在中小城市和小城镇。因此根据数据分析,作者把按人均收入从低到高排序的居民组合的城市规模取值,确定在从3.3到1.3之间平滑变动。关于城镇居民的人均文化程度(18周岁及以上),模型中分别用从1到5的赋值来表示小学及以下、初中、高中和中专中职、大学专科和本科、硕士和博士学历。估算全国城镇平均取值在3左右。但文化程度在不同收入人群中的分布也是有差异的,作者把从最低收入到最高收入居民组合的平均文化程度取值确定在2.63.8之间平滑变动。关于城镇居民家庭成员的就业面,根据统计数据,全国平均大致为0.5,但也存在不同收入分组的差异,从低到高取值在0.380.62之间变动。关于城镇居民家庭人口数,统计显示全国平均为2.9人,但低收入居民家庭的平均规模相对较大,高收入家庭较小,变动范围在3.32.6之间。最后,关于不同地区之间城镇居民的饮食习惯差异,模型中按在相同条件下恩格尔系数最高、较高、普通、较低的省份分为四组,它们的虚拟变量系数在正0.071到负0.039之间。全国平均按0.01取值。在完成上述这些控制变量的赋值过程后,就可以根据模型回归得到的参数和各影响因素的取值,即在考虑其他影响因素对恩格尔系数影响的条件下,求解不同恩格尔系数所对应的城镇居民收入水平。这一结果在下一节报告。三、求解城镇居民真实收入1.城镇居民分组收入推算结果把上文模型(2)中各参数的估计结果(见表5)、统计样本中的分组恩格尔系数、以及各控制变量的全国平均赋值,带入模型(2),就可以倒推出对应于不同恩格尔系数的人均收入水平。表6将这些根据模型分析推算出的结果,与分组统计数据、以及使用分组分析法得到的结果同时列出,以进行对比。表6.基于恩格尔系数法求解的城镇分组人均收入(元)分组恩格尔系数统计收入推算收入:1)分组比较法推算收入:2)模型分析法最低收入0.481475456855350低收入0.459736386467430中低收入0.429101961339211970中等收入0.404139842094117900中高收入0.379192542