打字猴:1.70050974e+09

1700509740 图14-4　洛伦兹曲线

1700509741

1700509742 通过洛伦兹曲线，我们可以直观地看到一个国家收入分配平等或不平等的状况。画一个矩形：矩形的高是用来衡量社会财富的百分比，将其分为5等份，每一等份表示20％的社会总财富；在矩形的长上，将家庭从最贫者到最富者自左向右排列，也分为5等份，第1个等份代表收入最低的20％的家庭。在这个矩形中，将每一等份的家庭所有拥有的财富的百分比累计起来，并将相应的点画在图中，就得到了一条曲线，这就是洛伦兹曲线。整个洛伦兹曲线的坐标系是一个正方形，正方形的底边（即横轴）代表收入获得者在总人口中的百分比，正方形的左边（即纵轴）显示各个百分比人口所获得的收入的百分比。从坐标原点到正方形相应另一个顶点的对角线为均等线（即收入分配绝对平等线），这种情况一般不存在。实际收入分配曲线（即洛伦兹曲线）都在均等线的右下方。

1700509743

1700509744

1700509745 赫希曼根据洛伦茨曲线提出的判断分配平等程度的指标，设实际收入分配曲线和收入分配绝对平等曲线之间的面积为A，实际收入分配曲线右下方的面积为B，并用表示不平等程度。这个数值称为“基尼系数”或“洛伦茨系数”。如果A为0，则基尼系数为0，表示收入分配完全平等；如果B为0，则基尼系数为1，表示收入分配绝对不平等。收入分配越趋向平等，洛伦茨曲线的弧度就越小，基尼系数也就越小；反之，收入分配越趋向不平等，洛伦茨曲线的弧度就越大，基尼系数也就越大。

1700509746

1700509747 基尼系数的实际数值只能在0到1之间。基尼系数越小，说明收入分配越平均；基尼系数越大，说明收入分配越不平均。国际上通常把0.4作为贫富差距的警戒线，大于这一数值就容易出现社会动荡。按照联合国有关组织的规定，基尼系数反映的收入分配情况如表14-2所示。

1700509748

1700509749 表14-2　基尼系数反映的收入分配情况

1700509750

1700509751 取值界限含义小于0.2 收入绝对平均 0.2～0.3 收入比较平均 0.3～0.4 收入相对合理 0.4～0.5 收入差距较大大于0.5 收入差距悬殊前面提到，基尼指数通常把0.4作为收入分配差距的“警戒线”。根据黄金分割律，其准确值应为0.382。一般发达国家的基尼系数在0.24到0.36之间，美国偏高，为0.45。根据国家统计局公布的数据，中国的基尼系数2015年为0.462，2014年为0.469，2013年为0.473，2012年为0.474，2010年为0.481。

1700509752

1700509753 基尼系数的计算其实已经属于经济指标里计算方法比较复杂的了。这些指标的制定大都没有严格的推导依据，只要经过观察、归纳，然后建立一系列的量化解释就够了。曾有不少学者诟病基尼系数的局限性。例如，因为没有严格的计算标准，所以“收入”界定方式的差别使不同的组织在计算时使用了不同的统计口径。再如，无法解释基尼系数较大的国家社会仍然稳定，基尼系数较小的国家社会却不稳定的例外现象。此外，社会范围的圈定也是一个非常有争议的环节：是以市、省（州）、国家（地区）圈定，还是以更大的范围圈定？这个范围怎么设置更合理抑或无所谓？……

1700509754

1700509755 在这里谈谈我的观点。首先，无论怎样设计统计指标来做辅助性的认知，都是可以尝试的方案，因为试探性的解释本身就是认知的必经过程，这一点几千年来从未改变。其次，由于统计方法本身是一种有损压缩的升降维方式，所以对引入的误差或“变形”的影响在未来参与计算时是否会产生不良后果的问题需要谨慎处理。最后，在统计过程中，如何继续通过建模来尝试解释指标之间的关系，其具体方法将在第15章讨论。

1700509756

1700509757

1700509758

1700509759

1700509760 数据科学家养成手册 [:1700503637]

1700509761 数据科学家养成手册 14.4　注意性能

1700509762

1700509763 在统计性能方面，尽量使用可以进行分布式计算的方式或者模型，以充分利用服务器各方面的资源。以Hive为例，在一次大量数据的统计过程中，如果覆盖的块均匀分布在每个节点上，那么在进行统计计算时就不会出现负载歪斜（一个集群中只有部分主机的资源非常繁忙，其他主机都处于空闲状态，这通常是由架构规划不良导致的）的情况。

1700509764

1700509765 此外，就是避免在全局使用类似DISTINCT这种不满足分配律的操作。这种操作的含义是在全局范围内做去重操作，也就意味着所有的数据必须拿到单台主机上做去重操作，而这会使一台主机成为整个计算的瓶颈。

1700509766

1700509767 在分布式计算领域用到的负载分散技巧主要是计算资源的哈希问题。在以Key-Value为计算基础的Map-Reduce分布式计算模型中，通常要把Key设计得更为合理，让它能够均匀分散在多个节点上，从而提高计算效率。

1700509768

1700509769

1700509770

1700509771

1700509772 数据科学家养成手册 [:1700503638]

1700509773 数据科学家养成手册 14.5　本章小结

1700509774

1700509775 本章讨论了有关数据统计的问题。这里说的统计泛指所有通过数据的统合计算产生的抽象性指标系统。这种认知方式会帮助观察者从大量纷杂的个体对象中归纳出某种宏观性的表象信息。

1700509776

1700509777 在任何与从宏观角度认知大量事物特性有关的研究领域，例如社会学、经济学、生物学，以及更为底层的统计物理学等方面，科研工作者也都是通过对事物宏观特性的统计归纳来试探性地进行解释和分析的，这个过程带有明显的“试错”意味。数据科学在其中所起的作用，就是帮助人们用辩证的、量化的方法过滤那些不可靠的数据假说。在数据统计这个环节中的归纳，就是对不同数据对象进行升降维的尝试而已。

1700509778

1700509779 (1) 出自《论语·先进》：“子贡问：‘师与商也孰贤？’子曰：‘师也过，商也不及。’曰：‘然则师愈与？’子曰：‘过犹不及。’”译为：孔子的学生子贡问孔子，他的同学子张和子夏哪个更贤明一些。孔子说，子张常常超过周礼的要求，子夏则常常达不到周礼的要求。子贡又问，子张能超过是不是好一些。孔子回答说，超过和达不到的效果是一样的。

1700509780

1700509781 (2) 阿尔伯特·奥图·赫希曼（Albert Otto Hirschman，1915年4月～2012年12月），知名经济学家、思想家，著有《叛离、抗议与忠诚》及《反动的修辞》两本政治学经典著作。

1700509782

1700509783 (3) 在一个总体（国家、地区）内，以“最贫穷的人口计算起一直到最富有人口”的人口百分比对应其他各个人口百分比的收入百分比的点组成的曲线。为了研究国民收入在国民之间的分配问题，美国统计学家M.O.洛伦兹（Max Otto Lorenz，1876年9月～1959年7月）于1907年提出了著名的洛伦兹曲线。

1700509784

1700509785

1700509786

1700509787

1700509788 数据科学家养成手册 [:1700503639]

1700509789 数据科学家养成手册第15章　数据建模

[ 上一页 ] [ :1.70050974e+09 ] [ 下一页 ]