1700509727
从信息表述的角度来说,统计的指标信息都是总括性的信息,无论方法如何科学,都会丧失一部分原始信息的内容。所以,从这个角度来看,统计信息更像是一种有损压缩,这就是它的局限性所在。
1700509728
1700509729
传统的加和值、平均值、最大值、最小值、样本量值等指标的使用极为普遍,在几乎所有的场景中都可以使用并尝试解释它们之间的关系。现在的社会学、宏观经济学、微观经济学研究会更多尝试这些值的复杂组合。
1700509730
1700509731
在社会学研究中有一个叫作“基尼系数”的研究指标。
1700509732
1700509733
基尼系数是1943年美国经济学家阿尔伯特·赫希曼(2)根据洛伦兹曲线(3)(如图14-4所示)定义的判断收入分配公平程度的指标。基尼系数是一个比例数值,取值范围在0和1之间,是国际上用来综合考察居民内部收入分配差异状况的一个重要的分析指标。
1700509734
1700509735
洛伦兹曲线用于比较和分析一个国家在不同时代或者不同国家在同一时代的收入分配情况。作为一种总结收入和财富分配信息的便利的图形方法,洛伦兹曲线得到了广泛应用。
1700509736
1700509737
1700509738
1700509739
1700509740
图14-4 洛伦兹曲线
1700509741
1700509742
通过洛伦兹曲线,我们可以直观地看到一个国家收入分配平等或不平等的状况。画一个矩形:矩形的高是用来衡量社会财富的百分比,将其分为5等份,每一等份表示20%的社会总财富;在矩形的长上,将家庭从最贫者到最富者自左向右排列,也分为5等份,第1个等份代表收入最低的20%的家庭。在这个矩形中,将每一等份的家庭所有拥有的财富的百分比累计起来,并将相应的点画在图中,就得到了一条曲线,这就是洛伦兹曲线。整个洛伦兹曲线的坐标系是一个正方形,正方形的底边(即横轴)代表收入获得者在总人口中的百分比,正方形的左边(即纵轴)显示各个百分比人口所获得的收入的百分比。从坐标原点到正方形相应另一个顶点的对角线为均等线(即收入分配绝对平等线),这种情况一般不存在。实际收入分配曲线(即洛伦兹曲线)都在均等线的右下方。
1700509743
1700509744
1700509745
赫希曼根据洛伦茨曲线提出的判断分配平等程度的指标,设实际收入分配曲线和收入分配绝对平等曲线之间的面积为A,实际收入分配曲线右下方的面积为B,并用表示不平等程度。这个数值称为“基尼系数”或“洛伦茨系数”。如果A为0,则基尼系数为0,表示收入分配完全平等;如果B为0,则基尼系数为1,表示收入分配绝对不平等。收入分配越趋向平等,洛伦茨曲线的弧度就越小,基尼系数也就越小;反之,收入分配越趋向不平等,洛伦茨曲线的弧度就越大,基尼系数也就越大。
1700509746
1700509747
基尼系数的实际数值只能在0到1之间。基尼系数越小,说明收入分配越平均;基尼系数越大,说明收入分配越不平均。国际上通常把0.4作为贫富差距的警戒线,大于这一数值就容易出现社会动荡。按照联合国有关组织的规定,基尼系数反映的收入分配情况如表14-2所示。
1700509748
1700509749
表14-2 基尼系数反映的收入分配情况
1700509750
1700509751
取值界限 含义 小于0.2 收入绝对平均 0.2~0.3 收入比较平均 0.3~0.4 收入相对合理 0.4~0.5 收入差距较大 大于0.5 收入差距悬殊 前面提到,基尼指数通常把0.4作为收入分配差距的“警戒线”。根据黄金分割律,其准确值应为0.382。一般发达国家的基尼系数在0.24到0.36之间,美国偏高,为0.45。根据国家统计局公布的数据,中国的基尼系数2015年为0.462,2014年为0.469,2013年为0.473,2012年为0.474,2010年为0.481。
1700509752
1700509753
基尼系数的计算其实已经属于经济指标里计算方法比较复杂的了。这些指标的制定大都没有严格的推导依据,只要经过观察、归纳,然后建立一系列的量化解释就够了。曾有不少学者诟病基尼系数的局限性。例如,因为没有严格的计算标准,所以“收入”界定方式的差别使不同的组织在计算时使用了不同的统计口径。再如,无法解释基尼系数较大的国家社会仍然稳定,基尼系数较小的国家社会却不稳定的例外现象。此外,社会范围的圈定也是一个非常有争议的环节:是以市、省(州)、国家(地区)圈定,还是以更大的范围圈定?这个范围怎么设置更合理抑或无所谓?……
1700509754
1700509755
在这里谈谈我的观点。首先,无论怎样设计统计指标来做辅助性的认知,都是可以尝试的方案,因为试探性的解释本身就是认知的必经过程,这一点几千年来从未改变。其次,由于统计方法本身是一种有损压缩的升降维方式,所以对引入的误差或“变形”的影响在未来参与计算时是否会产生不良后果的问题需要谨慎处理。最后,在统计过程中,如何继续通过建模来尝试解释指标之间的关系,其具体方法将在第15章讨论。
1700509756
1700509757
1700509758
1700509759
1700509761
数据科学家养成手册 14.4 注意性能
1700509762
1700509763
在统计性能方面,尽量使用可以进行分布式计算的方式或者模型,以充分利用服务器各方面的资源。以Hive为例,在一次大量数据的统计过程中,如果覆盖的块均匀分布在每个节点上,那么在进行统计计算时就不会出现负载歪斜(一个集群中只有部分主机的资源非常繁忙,其他主机都处于空闲状态,这通常是由架构规划不良导致的)的情况。
1700509764
1700509765
此外,就是避免在全局使用类似DISTINCT这种不满足分配律的操作。这种操作的含义是在全局范围内做去重操作,也就意味着所有的数据必须拿到单台主机上做去重操作,而这会使一台主机成为整个计算的瓶颈。
1700509766
1700509767
在分布式计算领域用到的负载分散技巧主要是计算资源的哈希问题。在以Key-Value为计算基础的Map-Reduce分布式计算模型中,通常要把Key设计得更为合理,让它能够均匀分散在多个节点上,从而提高计算效率。
1700509768
1700509769
1700509770
1700509771
1700509773
数据科学家养成手册 14.5 本章小结
1700509774
1700509775
本章讨论了有关数据统计的问题。这里说的统计泛指所有通过数据的统合计算产生的抽象性指标系统。这种认知方式会帮助观察者从大量纷杂的个体对象中归纳出某种宏观性的表象信息。
1700509776
[
上一页 ]
[ :1.700509727e+09 ]
[
下一页 ]