打字猴:1.702487011e+09
1702487011
1702487012
1702487013
1702487014
1702487015 图6-1 “美国小姐”的年龄与用水蒸气和高热物质杀人的凶手数量的相关性
1702487016
1702487017 如此东拉西扯的巧合,在这个数据丰富的时代很容易找到。符合统计学意义的测试不一定能过滤掉它们。只要对相关性考察得足够仔细,又花了足够长的时间,总能有人找出点什么抓眼球的数据来。
1702487018
1702487019 这就是为什么关注有意义的相关性很重要。事实性知识与收入水平之间的关系有一个明显的解释变量:教育。
1702487020
1702487021 知道很多事实的人可能在学校花了更长时间,受过良好教育的人会赚更多的钱。这可是美国学术能力评估测试(SAT)补习班和学生贷款的销售卖点呀。常春藤联盟高校、斯坦福大学或麻省理工学院的学位可直接换算成现金(而且会按年度不停地记录下去)。与许多有声望的职业岗位一样,学士、MBA、哲学博士或者医学博士学位,都等同是虚拟的工资卡。
1702487022
1702487023 这就提出了一个问题:能不能仅用“知道事实”这一点来预测收入呢?还是说,它无非是额外提示了人接受过多少正规教育?
1702487024
1702487025 统计学家常常希望消除多个预测因素对给定结果带来的影响。他们使用最广泛的一种工具是线性回归。尽管名字有点深奥,但背后的理念很简单。假设你怀疑人吃多少甜甜圈跟他的体重之间存在联系,那么,你可以用甜甜圈消费量来预测体重吗?找出答案的办法之一是,收集个体每周的甜甜圈消费量和体重变量。接下来,你找一些绘图纸,为数据图中的每一个人创建数据点(散点图)。每个点的位置表示给定个人的消费量(x轴)和同一个人的体重变量(y轴)。
1702487026
1702487027 要是两者之间真的存在相关性——大吃甜甜圈的人会更重——图表上会出现一团向上的点云,从左下方推移到右上方。倘若案例的结果足够清晰,你可以用一把尺子把点云连接起来,画出趋势线。这条线,就是线性回归。你可以用它来进行预测。如果你想知道,一个人一个月吃14个甜甜圈,体重最有可能是多少,你可以在x轴(代表甜甜圈的个数)从14的位置往上画一条线,直到它跟对角的趋势线相交。然后,你就可以从交点上读到y轴上体重的预测值。
1702487028
1702487029 从概念上说,统计软件创建线性回归时做的就是这件事。代码不是关键所在——要让直线与数据吻合,有着严格的数学程序,但其基本思路就跟我前文描述的差不多。
1702487030
1702487031 如果你把多个预测因素加入组合,情况就变得有趣了。如果你考虑到了受访者的性别,那么体重预测会更准确,因为男性往往比女性重。为此,你需要制作一幅三维散点图,这就很难用图纸来管理了,但用统计软件就没问题了。
1702487032
1702487033 所谓的多元回归,是分析大数据使用的主要技术。性别为x、邮政编码为z的地方的一名顾客,有更大概率购买a,点击b,给c投票。测量每一个具体因素有多大用处可进行预测,是这些模型的作用之一。掌握很多因素的时候,你往往会发现有些因素是多余的。包含了邮政编码的模型,就不需要再包括居住州了,因为邮政编码就给出了州,而且对居住地做了更准确的描述。软件可以识别它。
1702487034
1702487035 我们理解为什么邮政编码比所在州蕴含的信息更丰富。通常,各个因素之间的重叠并不太明确,也缺乏显而易见的理由。任何数量的不同因素都有可能告诉我们一些相同的事情,但每一个因素也有可能同时在传达一些独特的信息。此时,模型通过囊括多个因素来获得预测能力。
1702487036
1702487037 由于接受正规教育的年限和收入之间的联系早已为人熟知,而且我认为也得到了理解,所以把它加入预测收入的模型是很有用处的。我把它加入了自己的10道问题分数模型。在模型中加入教育水平之后,测验成绩与收入是相关的,也就是说,事实性知识作为收入预测因素,仍然具备统计意义。这也就是说,事实性知识不仅仅是教育水平的“替代品”。
1702487038
1702487039 另一个相关因素是年龄。中年人比青年人赚钱更多,平均而言,接触各种事实的年头也更久。这可能使知识水平和收入水平之间产生明显的相关性,但真实情况可能是爬到资深职位的人有更高的收入。
1702487040
1702487041 所以,我以年龄、受教育程度和测验成绩作为因子进行了回归分析。知识水平仍然是收入水平的重要预测因素。而知识渊博的人,哪怕在教育和年龄不变的条件下,赚的钱仍然更多。
1702487042
1702487043 知识多和知识少造成的收入差异令人印象深刻。为了说得更具体些,我假设有个35岁的人,上过4年制大学,我以他为基准。统计模型预测,这样一个人,要是答错了我问答测试里的每一道题,他的平均家庭年收入是4万美元。而与他年龄和教育水平相同的人,若能正确回答所有的10个问题,则拥有9.5万美元的年收入。一年差不多要多出来5.5万美元——换个说法,后者是前者的2.35倍(见图6-2)。
1702487044
1702487045
1702487046
1702487047
1702487048 图6-2 知识红利:在知识问答测试里得高分的人收入也高2倍
1702487049
1702487050 我应该解释一下,没有人真的得零分——我的问题相当简单,但只有少数人每道题都答对了。在所有全答对的人里,没有任何一个人恰好是35岁,且又上过4年大学。统计软件会考察所有数据点,检验收入怎样随着3个因素发生变化。它用类似直线的方式,针对任何给定因素,预测最有可能出现的收入情况。
1702487051
1702487052 那么,是知识水平,而不是教育水平或年龄,导致了很大的收入差异。实际差异还有可能更明显,因为这里考察的是家庭收入,而回答问题的人说不定并非家庭主要收入来源。这将稀释知识水平和收入水平之间的关系,但它仍然可受检测,关联性还很大。
1702487053
1702487054 收入与知识的因果关系
1702487055
1702487056 我们知道,常识性的事实知识和收入相关,但相关性并不等于因果关系,如我们从美国小姐与“高热物质”谋杀案一例中所知。
1702487057
1702487058 这里存在3种可能性:
1702487059
1702487060 A.对一定程度事实性知识的广泛了解导致了高收入。
[ 上一页 ]  [ :1.702487011e+09 ]  [ 下一页 ]