打字猴:1.702487e+09

1702487000 假设我调查了10名随机志愿者，其中一人既是个冷知识迷，也是个亿万富翁。光是这一点，显然会在繁琐知识和收入水平之间建立某种相关性，但这是统计学上的“噪音”，并没有什么太深的意义。

1702487001

1702487002 这是统计学家非常担心的一点。他们通过p值（概率值）来表示这种担忧。用简单的话来说，p值就是一个结果纯属偶然发生的概率。这是个假阳性的概率。由于我们喜欢有意义的结果，而不是假阳性结果，所以p值越小越好。

1702487003

1702487004 按照惯例，不大于0.05（5%，1/20）的p值叫作“具有统计意义的”。换一种说法，给定结果并非偶然，你希望自己对此至少有95%的把握。当然，“统计意义”的意思无非是，数据给出了相当高的概率，支持一个结论。5%的阈值没什么神奇的地方，它也并不能保证真相。然而，这是学术期刊发表论文通常所需的阈值。从发表论文的角度来说，批评者们认为，实现p=0.05的阈值，就像是扔一个20面的骰子。足够多次数地重复实验，你总能弄点东西出来发表！（这种做法叫作“p值操控”）。尽管并非四处皆准，但民意调查员和记者在汇报调查结果时，广泛采用0.05的p值。

1702487005

1702487006 回到我的问答测试。正确答案率和家庭收入之间的相关性p值<0.001，意味着假阳性的概率小于1‰。如你所知，p值低本身并不证明结果有意义。但当它<0.001，你至少可以说p值简直好得不能再好了。

1702487007

1702487008 现在，我们要提出另一条重要的统计学规律：相关性并不能证明因果关系。

1702487009

1702487010 对此，我最喜欢用“Spurious Correlations”（伪造的关联）网站来举例子。该网站罗列了各种令人印象深刻却全无意义的统计数据。例如，从1999年到2009年，发生溺水事件的游泳池的数量跟尼古拉斯·凯奇（Nicolas Cage）拍过的电影数量相关。同一时期，“美国小姐”获胜者的年龄跟用水蒸气和高热物质杀人的凶手数量相关（见图6-1）。

1702487011

1702487012

1702487013

1702487014

1702487015 图6-1　“美国小姐”的年龄与用水蒸气和高热物质杀人的凶手数量的相关性

1702487016

1702487017 如此东拉西扯的巧合，在这个数据丰富的时代很容易找到。符合统计学意义的测试不一定能过滤掉它们。只要对相关性考察得足够仔细，又花了足够长的时间，总能有人找出点什么抓眼球的数据来。

1702487018

1702487019 这就是为什么关注有意义的相关性很重要。事实性知识与收入水平之间的关系有一个明显的解释变量：教育。

1702487020

1702487021 知道很多事实的人可能在学校花了更长时间，受过良好教育的人会赚更多的钱。这可是美国学术能力评估测试（SAT）补习班和学生贷款的销售卖点呀。常春藤联盟高校、斯坦福大学或麻省理工学院的学位可直接换算成现金（而且会按年度不停地记录下去）。与许多有声望的职业岗位一样，学士、MBA、哲学博士或者医学博士学位，都等同是虚拟的工资卡。

1702487022

1702487023 这就提出了一个问题：能不能仅用“知道事实”这一点来预测收入呢？还是说，它无非是额外提示了人接受过多少正规教育？

1702487024

1702487025 统计学家常常希望消除多个预测因素对给定结果带来的影响。他们使用最广泛的一种工具是线性回归。尽管名字有点深奥，但背后的理念很简单。假设你怀疑人吃多少甜甜圈跟他的体重之间存在联系，那么，你可以用甜甜圈消费量来预测体重吗？找出答案的办法之一是，收集个体每周的甜甜圈消费量和体重变量。接下来，你找一些绘图纸，为数据图中的每一个人创建数据点（散点图）。每个点的位置表示给定个人的消费量（x轴）和同一个人的体重变量（y轴）。

1702487026

1702487027 要是两者之间真的存在相关性——大吃甜甜圈的人会更重——图表上会出现一团向上的点云，从左下方推移到右上方。倘若案例的结果足够清晰，你可以用一把尺子把点云连接起来，画出趋势线。这条线，就是线性回归。你可以用它来进行预测。如果你想知道，一个人一个月吃14个甜甜圈，体重最有可能是多少，你可以在x轴（代表甜甜圈的个数）从14的位置往上画一条线，直到它跟对角的趋势线相交。然后，你就可以从交点上读到y轴上体重的预测值。

1702487028

1702487029 从概念上说，统计软件创建线性回归时做的就是这件事。代码不是关键所在——要让直线与数据吻合，有着严格的数学程序，但其基本思路就跟我前文描述的差不多。

1702487030

1702487031 如果你把多个预测因素加入组合，情况就变得有趣了。如果你考虑到了受访者的性别，那么体重预测会更准确，因为男性往往比女性重。为此，你需要制作一幅三维散点图，这就很难用图纸来管理了，但用统计软件就没问题了。

1702487032

1702487033 所谓的多元回归，是分析大数据使用的主要技术。性别为x、邮政编码为z的地方的一名顾客，有更大概率购买a，点击b，给c投票。测量每一个具体因素有多大用处可进行预测，是这些模型的作用之一。掌握很多因素的时候，你往往会发现有些因素是多余的。包含了邮政编码的模型，就不需要再包括居住州了，因为邮政编码就给出了州，而且对居住地做了更准确的描述。软件可以识别它。

1702487034

1702487035 我们理解为什么邮政编码比所在州蕴含的信息更丰富。通常，各个因素之间的重叠并不太明确，也缺乏显而易见的理由。任何数量的不同因素都有可能告诉我们一些相同的事情，但每一个因素也有可能同时在传达一些独特的信息。此时，模型通过囊括多个因素来获得预测能力。

1702487036

1702487037 由于接受正规教育的年限和收入之间的联系早已为人熟知，而且我认为也得到了理解，所以把它加入预测收入的模型是很有用处的。我把它加入了自己的10道问题分数模型。在模型中加入教育水平之后，测验成绩与收入是相关的，也就是说，事实性知识作为收入预测因素，仍然具备统计意义。这也就是说，事实性知识不仅仅是教育水平的“替代品”。

1702487038

1702487039 另一个相关因素是年龄。中年人比青年人赚钱更多，平均而言，接触各种事实的年头也更久。这可能使知识水平和收入水平之间产生明显的相关性，但真实情况可能是爬到资深职位的人有更高的收入。

1702487040

1702487041 所以，我以年龄、受教育程度和测验成绩作为因子进行了回归分析。知识水平仍然是收入水平的重要预测因素。而知识渊博的人，哪怕在教育和年龄不变的条件下，赚的钱仍然更多。

1702487042

1702487043 知识多和知识少造成的收入差异令人印象深刻。为了说得更具体些，我假设有个35岁的人，上过4年制大学，我以他为基准。统计模型预测，这样一个人，要是答错了我问答测试里的每一道题，他的平均家庭年收入是4万美元。而与他年龄和教育水平相同的人，若能正确回答所有的10个问题，则拥有9.5万美元的年收入。一年差不多要多出来5.5万美元——换个说法，后者是前者的2.35倍（见图6-2）。

1702487044

1702487045

1702487046

1702487047

1702487048 图6-2　知识红利：在知识问答测试里得高分的人收入也高2倍

1702487049

[ 上一页 ] [ :1.702487e+09 ] [ 下一页 ]