1700509700
1700509701
1700509703
数据科学家养成手册 14.2 要精确还是要简洁
1700509704
1700509705
统计作为一种升降维的手段,已经成为非常重要的认知工具。
1700509706
1700509707
表示内能大小的“温度”是最平民化的统计指标。我们都知道,物体的温度表示的是物体内部分子或原子的无规则热运动动能。对大量无规则运动的原子或分子进行观测,或者对每个原子或分子的运动速度进行描述,都是不太现实的。最终,还是在宏观层面使用了“温度”这样一种方式来描述,才解决了问题。虽然“温度”和“内能”确实不能直接画等号,也确实存在内能增加而温度不增加或者温度增加而内能不增加的情况,但是温度这一指标的确完成了一种从微观大量数据到单个宏观描述数据的映射过程。
1700509708
1700509709
我们在量化研究一个对象时可能会面临这样一种困扰:不知道怎么研究才更合适。像刚才说的,使用温度来描述冷热程度,而最终描述的是宏观原子或分子的平均动能大小,这种方式适合研究对象是宏观的情况。当研究微观层面的对象时,就只能针对更小的单位去描述了,后果就是描述的对象数量会增加。
1700509710
1700509711
“过犹不及”(1)这种中庸的思想在统计认知领域是一种无形的准则。由人类自身认知能力局限性所形成的认知导向是每个人(尤其是数据分析人员)必须时刻牢记的。所谓认知能力局限性主要是指人类自身认知客观事物时用较低的成本所能掌握的维度。下面我们通过几个例子好好体会一下这种感觉。
1700509712
1700509713
人类长成什么样子?在向他人叙述人类的外形特点时,我们会使用怎样的语言?
1700509714
1700509715
“人有一个头颅,有躯干,有双臂双手,双腿双脚。头颅上有头发,有一双眼睛,一双耳朵,一个鼻子,一张嘴。直立行走。”这种描述就已经很好了。可是,如果换一种方式,就显得比较奇怪:“人由206块骨头和600多块肌肉组成,有500多万亿个细胞,有10万根左右的头发,还有28到32颗牙齿……”乍一看,第二种方式好像数字相对精确,而且细节比较多,可是这些数字对区分人类和其他生物的外形帮助不大,所以我们平时对它们不那么关心。难道我们有机会拿这些数字来甄别一个人和其他生物的区别吗?——大多数人又不是法医。因此,在这种情况下,精确就显得没有太大的必要了。
1700509716
1700509717
我们需要在“精确”和“简洁”这对矛盾之间找平衡。越“精确”的东西描述起来越繁杂,因素维度越多;越“简洁”的东西描述起来越简单,因素维度越少。通过升维或降维将数据维度调整到比较合适的数量和规模进行研究才比较有效。我的体会是:在一个公式型的关系描述中,涉及的对象最好只有3~5个甚至更少;如果是由多个关系形成的复杂关系,可以把它们化解成多组由3~5个对象形成的关系。这种维度之间的关系相对更容易认知和讨论,尤其是在做对照测试的时候。
1700509718
1700509719
1700509720
1700509721
1700509723
数据科学家养成手册 14.3 统计是万能的吗
1700509724
1700509725
作为认知工具,统计必然是对认知有帮助的,但它同样有自身的局限性。
1700509726
1700509727
从信息表述的角度来说,统计的指标信息都是总括性的信息,无论方法如何科学,都会丧失一部分原始信息的内容。所以,从这个角度来看,统计信息更像是一种有损压缩,这就是它的局限性所在。
1700509728
1700509729
传统的加和值、平均值、最大值、最小值、样本量值等指标的使用极为普遍,在几乎所有的场景中都可以使用并尝试解释它们之间的关系。现在的社会学、宏观经济学、微观经济学研究会更多尝试这些值的复杂组合。
1700509730
1700509731
在社会学研究中有一个叫作“基尼系数”的研究指标。
1700509732
1700509733
基尼系数是1943年美国经济学家阿尔伯特·赫希曼(2)根据洛伦兹曲线(3)(如图14-4所示)定义的判断收入分配公平程度的指标。基尼系数是一个比例数值,取值范围在0和1之间,是国际上用来综合考察居民内部收入分配差异状况的一个重要的分析指标。
1700509734
1700509735
洛伦兹曲线用于比较和分析一个国家在不同时代或者不同国家在同一时代的收入分配情况。作为一种总结收入和财富分配信息的便利的图形方法,洛伦兹曲线得到了广泛应用。
1700509736
1700509737
1700509738
1700509739
1700509740
图14-4 洛伦兹曲线
1700509741
1700509742
通过洛伦兹曲线,我们可以直观地看到一个国家收入分配平等或不平等的状况。画一个矩形:矩形的高是用来衡量社会财富的百分比,将其分为5等份,每一等份表示20%的社会总财富;在矩形的长上,将家庭从最贫者到最富者自左向右排列,也分为5等份,第1个等份代表收入最低的20%的家庭。在这个矩形中,将每一等份的家庭所有拥有的财富的百分比累计起来,并将相应的点画在图中,就得到了一条曲线,这就是洛伦兹曲线。整个洛伦兹曲线的坐标系是一个正方形,正方形的底边(即横轴)代表收入获得者在总人口中的百分比,正方形的左边(即纵轴)显示各个百分比人口所获得的收入的百分比。从坐标原点到正方形相应另一个顶点的对角线为均等线(即收入分配绝对平等线),这种情况一般不存在。实际收入分配曲线(即洛伦兹曲线)都在均等线的右下方。
1700509743
1700509744
1700509745
赫希曼根据洛伦茨曲线提出的判断分配平等程度的指标,设实际收入分配曲线和收入分配绝对平等曲线之间的面积为A,实际收入分配曲线右下方的面积为B,并用表示不平等程度。这个数值称为“基尼系数”或“洛伦茨系数”。如果A为0,则基尼系数为0,表示收入分配完全平等;如果B为0,则基尼系数为1,表示收入分配绝对不平等。收入分配越趋向平等,洛伦茨曲线的弧度就越小,基尼系数也就越小;反之,收入分配越趋向不平等,洛伦茨曲线的弧度就越大,基尼系数也就越大。
1700509746
1700509747
基尼系数的实际数值只能在0到1之间。基尼系数越小,说明收入分配越平均;基尼系数越大,说明收入分配越不平均。国际上通常把0.4作为贫富差距的警戒线,大于这一数值就容易出现社会动荡。按照联合国有关组织的规定,基尼系数反映的收入分配情况如表14-2所示。
1700509748
1700509749
表14-2 基尼系数反映的收入分配情况
[
上一页 ]
[ :1.7005097e+09 ]
[
下一页 ]