打字猴:1.70462655e+09
1704626550 如今的数据库极大丰富,代表了这个领域的巨大进步,这应该归功于统计部门和个人研究者付出的巨大努力。与此同时,我们也面对着被海量数据淹没的风险。只举个简单的例子,《经济不平等杂志》(Journal of Economic Inequality)2012年12月刊上发表的一篇文章称,它观察到美国的收入不平等水平高于日本(如图1.3所示,美国的基尼系数比日本高出约7个百分点),进而对此进行了解释。但是读者会困惑地看到,当期杂志里另一篇研究同样主题的文章使用的数据库却表明,两国的基尼系数不存在实际差异——美国的基尼系数为37.2%,而日本的为36.6%。所以我们必须要问一问:这些相去甚远的数据源自哪里?就像这个例子反映出来的,为什么有时候数据展现的内容完全不同?2
1704626551
1704626552 不平等,我们能做什么 [:1704626061]
1704626553 证据来源
1704626554
1704626555 家庭调查
1704626556
1704626557 目前关于收入不平等的主要证据来源是家庭调查。美国人口普查局每年9月就收入不平等和财政贫困发布数据,均取自每月定期开展的“当前人口调查”(Current Population Survey),每年还会发布年度增补内容,主要集中在3月,收集上一个日历年度的家庭收入相关信息。或许有些美国读者就参加过这个调查。不过即使你没有参加过也不必失望,因为每年只有6万个家庭被选中参加调查(相当于约2000户家庭中有一户被选中)。图1.2中使用的英国数据取自“家庭资源调查”(Family Resources Survey),它的调查对象超过2万户家庭,同样详细地询问了收入和家庭环境等情况。而“欧盟收入和生活条件数据”( European Union Statistics on Income and Living Conditions,简称EU-SILC)则覆盖了欧盟的所有成员国(及冰岛、挪威、瑞士和土耳其),成为欧盟社会指标(如生活在贫困或社会排斥中的人口比重)的基础。
1704626558
1704626559 得益于各国统计部门及其他机构对数据采集的投入,我们现在从家庭调查中获得的收入不平等信息远远超过了20世纪60年代我刚开始从事研究工作时可以得到的信息。当时能收集到的信息很少,而且收集信息的机构极少会对研究者开放数据,几乎不可能开展跨国比较。现在我们有了专门用于跨国比较的数据库,如覆盖30多个国家的EU-SILC。卢森堡收入研究所(Luxembourg Income Study,简称LIS)可以为研究者提供统一的数据,这些数据覆盖了近50个国家(图1.3中就使用了该研究所的数据)。联合国大学—世界发展经济学研究所的“世界收入不平等数据库”(World Income Inequality Database)等收集的第二手数据则覆盖了从阿富汗到津巴布韦等150余个国家。
1704626560
1704626561 可比性是本研究的关键。如果研究收集的数据不具备可比性,那么从这些数据推断出某国不平等水平低于另一国的论断,其价值就很有限。如果A国的家庭调查记录的是家庭整体收入,而B国是通过个人所得税记录调查收入,那么我们就不能直接得出两国存在不平等差异的结论。如果一个国家的统计数据排除了所有农民或公共部门的雇员,或者它的调查范围仅限于城市地区,那么我们就不能得出该国薪酬差距小的研究结论。下文会尽量使用可比较的跨国定义。在无法做到这一点的地方,我会标示出定义不同可能带来的后果。当然,我们不可能实现完全的可比性。虽然所有国家可能收集同样的信息,但它们的含义取决于具体环境。如果国家提供全民免费的教育和医疗服务,并补贴住房和交通,那么人们对现金收入不平等的关注就会少一些。此外,统计来源总会存在差异,而这些差异是否显著属于判断问题。曾经有人告诉我,某国的家庭收入中还包括自家蜂窝产出的蜂蜜的价值。虽然我本人是蜂农的孩子,但我仍然觉得这些蜂蜜的价值不会对该国与英国的不平等比较产生显著影响。
1704626562
1704626563 不同时间段的数据可比性也很重要。我们能对不平等得出更多研究结果,不仅仅因为现在的调查比过去完善且可比性更强,还因为它们已经运作了几十年。此外,人们投入了大量资源使它们随着时间推移具有广泛的可比性。我要再次说明,百分之百的可比性是不可能实现的。虽然调查方法在与时俱进,但我们无法把70年代以来的所有调查再重做一遍。方法论的改变影响着最终得出的结论。1993年,美国的“当前人口调查”从纸面调查改为计算机辅助访谈,并且调整了可输入数据的最高限额。在1993年之前,最高收入的数值是299999美元,虽然这个数额已经很高,不会影响绝大多数受访者,但仍然意味着最高收入会被低估(1993年后,上限被提高到999999美元)。过去几年里,方法论还经历了其他许多变化——美国的数据来源至少有20个脚注详细描述了不同年份的方法论变化,但看起来1993年的改变最为重要,因为当年记录的不平等水平大幅上升。美国人口普查局建议使用者应该“谨慎地”对1993年前后的数据进行对比,我对图1.1中使用的数据就进行了相应的调整。3
1704626564
1704626565 家庭调查的局限性
1704626566
1704626567 现在人们广泛使用家庭调查的数据来研究不平等,图1.3中展示的各国数据大部分来源于此。但是它存在许多潜在的局限性。首先,它们是基于家庭的调查,因此排除了没有住在家里的人,如学生、寄宿生和军人等住在机构里的人,以及住在医院、旅社、收容所、避难所或接待中心的人。家庭调查不包括住在养老院或疗养院的老人、孤儿院的儿童及流浪者。由于家庭调查没有覆盖的群体里有部分很可能集中在收入分配的下层,所以遗漏他们会严重影响调查结果。如果被抽取的样本并不能代表家庭成员而产生偏差,还会加剧由此产生的问题。这方面的典型案例是,在电话尚未普及时就采用电话访谈的调查形式,结果导致总统选举的民意调查高估了共和党可能得到的选票。4
1704626568
1704626569 由于在绝大多数国家里人们都是自愿参加调查,他们可以拒绝调查的邀约,所以家庭调查很难覆盖到所有人。在英国2010/2011年度的“家庭资源调查”中,无回复率为41%,意味着十个人中只有六个人参与调查,其他四个人的情况我们无法掌握。当调查人员问起人们拒绝参加调查的原因时,23%的受访者表示“自己不愿意受到打扰”。无回复率的上升令人感到不安——90年代末的无回复率为34%。美国的回复率要高得多,2013年的无回复率略高于10%,但是近年来无回复率也在攀升。统计机构应该关注回复率不断下降的现象。
1704626570
1704626571 为什么无回复如此重要?低回复率本身并不意味着我们应该排斥调查中的发现。如果在与调查有关的特征方面,无回复者与受访者没有什么差别,那么即使回复率低的调查也可以具有代表性。然而在收入和财富问题上,我们有充分的理由认为,富人的无回复率要系统性地高一些。出于我们可以理解的理由,财务情况比较复杂的人不太愿意花时间回答详细询问其收入和财富的问题。美联储开展美国消费者金融调查(US Survey of Consumer Finances)时抽取了两类样本:一类是基于地域分布的标准随机样本;另一类是从所得税申报表的统计数据中选取的特别“表册样本”,从而将相对持有大量非公司业务和免税债券等资产的家庭不成比例地纳入调查(他们严格遵守了相关保密规定)。美联储的报告称:“在2010年和2013年,区域随机样本中有70%的家庭实际完成了访谈。表册样本的总体回复率约为三分之一,而在涉及最富裕家庭的表册样本中,回复率仅为总体回复率的一半左右。”5因此我们有充分的理由推测,家庭调查没有充分代表分配上尾的情况。图1.2展示了英国的整体不平等情况,其中的数据来源于英国财政研究所。它利用所得税申报表中提取的数据调整了家庭调查的数据(参见下文),以校正顶级富豪回复率低以及他们申报收入存在波动性的问题。
1704626572
1704626573 此外,家庭调查的数据还要进行调整以规避“回复率偏差”,即受访者未能完整或正确地回答问题的情况。有时这种偏差可能会超出人们的控制。几年前我在参加一个英国官方调查的过程中发现,我回答之前的问题时遗漏了一项收入来源,但是调查人员坚持告诉我,计算机辅助访谈无法回到之前的问题,所以我改不了之前的答案。使用调查中的数据研究收入分配时,很重要的一点是核查记录下来的收入总和是否符合通过外部渠道了解到的情况。以EU-SILC为例,利用各国的国民核算(研究考虑了各国对国民核算的不同定义)进行比较时发现,2008年在工资和薪酬方面的统计覆盖率最高,紧随其后的是现金形式的社会福利和税收。自营收入和财产性收入的覆盖率则很低,平均来看这几类收入都处于分配上层,所以,如果家庭调查中未能充分记录此类收入,往往会低估不平等的程度。6
1704626574
1704626575 家庭调查是不可或缺的数据来源,统计机构持续投资于这些调查的开展和推广,具有重大意义。它们提供的信息对于降低不平等的政策至关重要。然而,我们必须谨慎地对待从调查中得出的发现。为此人们越来越倾向于将它们与政府数据结合起来使用。
1704626576
1704626577 收入所得税数据
1704626578
1704626579 如果不采用家庭调查里关于收入分配的信息,那么我们还可以从哪里找到相关数据?答案是,官方记录将是主要数据来源,因为其中包含了关于个体家庭支出情况的信息。格里高利·金(Gregory King)等人通过早先的“社会表格”构建了英国和威尔士的收入分配情况(1688年),但是这些不是基于个人数据。直至个人收入所得税问世(19世纪初出现于英国),人们才得以利用经过核实的个人收入数据真正地估算收入不平等。这类分配数据可以和人口数据及国民核算等外部控制的总量数据结合起来,估算不同群体在总收入中的比重。这样在图1.1和图1.2中的1%最高收入人群的收入比重,就能与成年人总人口(或纳税单位总数)的前1%联系起来,并在国民核算中估算他们在家庭总收入中的比重。这些总量数据并不局限于纳税人申报的情况。7
1704626580
1704626581 起初个人所得税只覆盖了极少数人,而且在我们能估算总人口的不平等程度(即基尼系数)之前,就有了最高收入所占比重的序列数据。自那以后,特别是在“二战”期间及之后,收入所得税数据的覆盖范围开始扩大,所以现在政府数据已经覆盖了绝大多数人口。即使个别纳税人不提交所得税申报表,从源头收集所得税的做法也意味着税收记录的覆盖面相当广泛。然而,在使用所得税数据时,我们必须牢记它们不是为特定目的设计的:这些数据是政府工作流程的副产品。其形式和内容反映的是税法的要求。譬如,美国的纳税单位指夫妻(及受抚养者)的收入总和,而英国自1990年开始则是将个人作为纳税单位,因此算出的是个人收入分配情况。8为了征税而使用的“收入”定义可能完全不同于第1章介绍的收入的广义定义。前者可能会扣除购房或个人贷款所支付的利息。有时征税所使用的收入定义会比家庭调查更接近收入的广义定义,譬如包含了自有住房的估算租金(如英国的税收就包括此项)或实际资本收益。但无论在何种情况下,因为逃税漏税导致的“不回复”都会严重影响收入所得税数据的覆盖范围,所以,基于收入所得税记录研究最高收入阶层的研究者往往会特别关注逃税漏税可能造成的影响。9
1704626582
1704626583 薪酬数据
1704626584
1704626585 家庭调查和政府记录都为收集个人薪酬数据提供了来源,其中政府数据往往体现为社保税的征收记录。然而,由于薪酬数据可以从劳动力市场的两侧来收集,所以此类数据的来源范围很广。各国使用的数据来源可能不尽相同。在图1.1中,美国的薪酬数据与收入不平等数据出自相同的来源,即“当前人口调查”这种家庭调查,而图1.2中英国的薪酬数据来源于雇主,即“工时和薪酬年度调查”(Annual Survey of Hours and Earnings)。本章使用的法国薪酬数据则取自纳税申报。对同一个国家的不同信息来源进行比较时,理应发现它们得出的研究结果相当一致。10然而,从雇主和员工的不同角度收集的数据可能导致某些变量出现系统性差异,特别是工时。雇主报告的通常是合同上写的工时,而员工报告的是实际工时。此外,数据的覆盖率可能也存在显著差别。法国的薪酬数据基于纳税申报,其中不包括农业工人、公务员、家政工人和非全职工作人员。以1995年为例,它的覆盖率约为所有雇员的三分之二。“欧盟薪资结构调查”将政府机构和员工少于10人的企业排除在外。
1704626586
1704626587 数据来源的多样性意味着人们可以获得的薪酬数据往往比家庭调查中可发掘的数据更丰富,但同时更难确保不同国家在不同时期的数据保持一致性。使用者必须经常检查自己开展比较研究的是否为同一对象。
1704626588
1704626589 财富数据
1704626590
1704626591 在财富方面,可用的数据来源更加丰富。如有关个人财富的家庭调查,包括美联储的相关调查和欧洲央行最近启动的调查,其中英国部分的调查是“财富和资产调查”(Wealth and Assets Survey)。正如前文指出的,这些调查都会出现不回复,对富人过度采样也不能完全解决问题。顶级富豪是各种调查的主要目标,由此出现了许多财富排行榜,如福布斯全球亿万富豪榜和《星期日泰晤士报》的富翁排行榜——后者由英国的菲利普·贝雷斯福德(Philip Beresford)编制。此外,还有不少潜在的政府数据,如在征收财富税的国家里的年度财富税申报表,以及税收申报表上的投资收入等间接信息(用收入乘以一个乘数就可以估算出纳税人的潜在财富,而这个乘数考虑了与财富规模对应的应税收益差异及其他特点)。政府发布的公民死亡时的房产数据也提供了间接证据,这些数据往往用于征收遗产税或房产税,而这种情况下使用的乘数也有所不同。事实上,在某个年份去世的逝者会被视为活着的人中的一个样本。死亡并非完全随机,所以不同年龄和性别的乘数也不同。它们还考虑到了一个事实:富人的死亡率往往较低。这样,一年里的房产分配情况就可以换算为对活着的人的财富分配估算。显然,使用乘数的过程中会出现不少错误,而且就像收入所得税数据一样,法律体系中使用的“收入”定义导致得到的结果具有局限性,此外,逃税漏税也会造成一定影响。同收入所得税数据一样,我们可以借用关于个人财富总额的外部信息,把通过税收数据估算的个人财富换算为它在全国财富总额中的比重。个人财富总额的估算值可以来源于国家资产负债表,在英国,该表是国民核算的一个组成部分。
1704626592
1704626593 回溯过去
1704626594
1704626595 我们通常用当代的术语来描述数据来源,不过近期研究的一项重要贡献是回溯过去并复原过去的数据。有时这意味着使用过去的个人数据,但这种过程通常过于费时,所以很少有人采用这种方法。11更常见的做法是利用已经公布的税表,它们展示了在不同收入区间里各自有多少人。许多国家的收入所得税机构都会定期发布此类信息,而且内容往往相当详细。譬如荷兰税收机构的数据表明,1933年只有一对夫妻的收入在80万—90万荷兰盾之间。由于这个收入区间里只有这一对夫妻,所以我们可以从原始的平均数值准确地推断出他们的应税收入为87.4万荷兰盾,比平均收入高出800倍。12早年间,即20世纪初,经济学家充分利用所得税申报表来开展研究,但在之后很多年里这种研究手段都被忽略了。直到最近这一丰富的资源才被再次开发利用。将此类表格数据与新近构建的收入控制总量结合起来,就可能追溯某些国家一百多年前的数据序列。13
1704626596
1704626597 总的说来,我们可以通过多种信息来源了解收入、薪酬和财富分配情况。如果你的信息出现在统计数据里,那么这可能是因为你参加了家庭调查;可能是因为你的老板参加调查时报告了你的情况;可能是因为你的所得税记录或社会保障税记录被用于估算研究;也可能是因为你出现在了富豪排行榜里!以上内容介绍了各种证据来源,它想传达的一个重要信息是:所有数据都不完美,我们必须充分利用这些有瑕疵的材料。我很欣赏哈佛经济学家兹维·格里利谢斯(Zvi Griliches)笔下描述的经济数据:“现有经济学数据是我们了解经济行为的主要窗户。尽管窗户的玻璃上有不少划痕,而且总是蒙着水汽,但我们依然忍不住要透过窗户向里张望,努力看清那里正在发生什么。”14
1704626598
1704626599 不平等,我们能做什么 [:1704626062]
[ 上一页 ]  [ :1.70462655e+09 ]  [ 下一页 ]