1701026198
1701026199
“现身说法”计划的兴衰也属于这类案例。“现身说法”计划的目的是将少年犯带到监狱去听犯人的现身说法,警示他们如果不立即停止犯罪行径,等待他们的将是铁窗生涯。该计划起源于罗威州立监狱,在1978年被拍成纪录片并荣获奥斯卡奖之后,全美国乃至挪威的多个地方纷纷效仿。青少年热烈赞扬“现身说法”计划让他们在道德层面深受触动,而监狱中的看守与囚犯也因为有机会对社会做出积极贡献而高兴。但是,这个计划会让人们想到一个受到普遍认可而且根深蒂固的观念:青少年犯罪归咎于父母与社会对他们的过度溺爱。更重要的是,“现身说法”计划真的发挥了作用。新奥尔良的一份有代表性的报告说,实施该计划后,青少年犯罪率较以前下降了50%。
1701026200
1701026201
其实,这项计划的效果并没有那么明显。就像西克里斯特研究中的那些业绩不佳的商店一样,这些少年犯不是研究人员随机选择的研究对象,他们之所以被选中,是因为他们是同类人群中表现最差的。根据回归理论,如果这一年表现最恶劣,那么下一年仍然有可能会惹麻烦,但是概率并没有人们想象的那么大。即使“现身说法”计划没有任何效果,我们也可以预测到这些青少年的犯罪率会下降。
1701026202
1701026203
这并不意味着“现身说法”计划没有任何效果。人们在少年犯中随机选择了一部分人,让他们参与“现身说法”计划,然后同那些没有参与该计划的少年犯进行比较,以此来检验这项计划的效果。结果,研究人员发现,该计划竟然导致反社会行为有所增加。或许,给这项计划取名“以身试法”更合适。
1701026204
1701026205
[1]这个事实及其解读来自美国国家橄榄球联盟统计部门的布莱恩·伯克(Brian Burke)。伯克善于阐释并密切关注依据统计学做出的准确判断,是严谨认真的体育分析师的典范。
1701026206
1701026207
1701026208
1701026209
1701026211
魔鬼数学:大数据时代,数学思维的力量 第15章 父母高,孩子不一定也高
1701026212
1701026213
根据高尔顿的研究,只要研究对象受到随机性的影响,就会发生回归平均值现象。不过,与遗传因素相比,随机性的影响力有多大呢?
1701026214
1701026215
单凭数据,高尔顿无法找出其中的玄机,因此,他必须把这些数字转变成图表的形式。后来,高尔顿回忆说:“我拿出一张白纸,用尺子和笔在上面画出坐标轴,横轴表示孩子的身高,纵轴表示父亲的身高,并标记出对应每个孩子及其父亲身高的那个点。”
1701026216
1701026217
这个直观展示数据的方法汲取了勒内·笛卡儿(René Descartes)解析几何的精髓。解析几何要求我们把平面中的点看成一对数字,分别为横坐标和纵坐标,由此把代数和几何学紧密地联系在一起。
1701026218
1701026219
每对父子都对应两个数字,也就是父亲的身高和孩子的身高。我父亲的身高是73英寸,我也一样,因此我们在高尔顿的数据集中就会被记录成(73,73)。高尔顿在图中表示我们父子时,会在横纵坐标都是73的位置上画一个标记点。在高尔顿的庞大数据集中,每对父子都会在坐标图上对应一个标记点,因此,这张图上会有很多点,能够直观地显示出身高差异的变化情况。就这样,高尔顿发明了现在被我们称为“散点图”(scatterplot)的图表类型。
1701026220
1701026221
在揭示两个变量之间的关系时,散点图可以发挥惊人的作用。随便翻开任何一种科学杂志,我们都能看到散点图。19世纪后期是数据可视化的黄金时代,1869年,查尔斯·密纳德(Charles Minard)完成了他的那幅非常著名的示意图,展示了在入侵俄罗斯的途中拿破仑军队的规模逐渐减小,直至最后从俄罗斯撤退的情形。这幅示意图被称作人类有史以来最伟大的数据图,其实这幅图是在弗罗伦斯·南丁格尔(Florence Nightingale)的“玫瑰图”(coxcomb graph)的基础上演变而来的。南丁格尔完全借助可视化的方法,指出在克里米亚战争中绝大多数英国士兵不是被俄罗斯人杀死的,而是死于传染性疾病。
1701026222
1701026223
玫瑰图与散点图都非常适合我们的认知能力。我们的大脑不习惯接收一列列的数字,但是特别善于在二维图表中找出规律与隐含的信息。
1701026224
1701026225
在某些情况下,这些规律与信息并不难发现。举个例子,假设每对父子的身高都相同,就像我的父亲和我。这种情况说明,随机性没有发挥任何作用,我们的身高完全是由遗传因素决定的。相应地,散点图中所有点的横坐标与纵坐标都相同,换言之,这些点都在方程式x=y表示的直线上。
1701026226
1701026227
1701026228
1701026229
1701026230
请注意,在这条对角线的中间位置点的密度大,而两端的密度小。这是因为身高69英寸的人比身高73英寸或者64英寸的人多。
1701026231
1701026232
如果父子的身高没有任何相关性,那么在这种相反的极端情况下,会出现什么结果呢?此时,我们会得到下面的散点图:
1701026233
1701026234
1701026235
1701026236
1701026237
这幅图与前面的散点图不同,没有表现出构成对角线的任何趋势。如果我们集中考虑父亲身高为73英寸的那些孩子的情况,也就是散点图右半部分中的一个垂直细长条的情况,就可以看出他们孩子的身高仍然会集中在69英寸周围。这表明儿子身高的条件期望值(也就是说,在父亲身高为73英寸时儿子的平均身高)与无条件期望值(在没有任何限制条件时儿子的平均身高)相同。父亲较高的孩子由于受到回归平均值现象的影响,因此与父亲不高的孩子的身高没有区别。这是回归平均值的极致形式。
1701026238
1701026239
如果遗传基因不会造成身高差异,高尔顿画的图就会与这幅图相似。但是,高尔顿的散点图与上面两种极端情况下的数据图都不相同,而是两者中和的产物。
1701026240
1701026241
1701026242
1701026243
1701026244
在这幅图中,当父亲的身高为73英寸时,儿子的平均身高是多少呢?我在图中画出了一个垂直的细长条,与这些父子的情况相对应的点就位于这个区域中。
1701026245
1701026246
1701026247
[
上一页 ]
[ :1.701026198e+09 ]
[
下一页 ]