打字猴:1.702486977e+09
1702486977
1702486978 蓬头垢面的波斯特先生没戴假牙,绕着自己有16个房间的房子慢慢走着,他说戴了假牙会头痛。
1702486979
1702486980 “我身无分文的时候要开心得多。”他发着牢骚。
1702486981
1702486982 说到身无分文,波斯特宣布破产了。他把自己梦想中的房子按原价的一成六卖掉了——换回了6.5万美元,还拍卖了彩票的未来付款。这样,他手里又有了256万美元。让我们来举手回答吧:有谁猜得出这个故事结局吗?
1702486983
1702486984 波斯特把这笔仍然相当可观的钱挥霍在了2座房子、3辆车、2辆哈雷摩托、1辆卡车、1辆露营车和1艘帆船上。他说,他打算用帆船在墨西哥湾做特许捕鱼的买卖。波斯特在这艘帆船上因为长期存在的暴力威胁罪被捕,在狱中呆了一小段时间。等到出狱时,他已一贫如洗。此后,他靠着食品券和每月450美元的残疾救济金活到了2006年。
1702486985
1702486986 威廉·波斯特的悲惨故事引人深思。爱情、健康和幸福,可以通过运气、努力、教育以及最重要的金钱来实现,这是我们人人都秉持的信念。波斯特是达克效应的例证,这个人对预算、房地产投资、兴办实业的认识几近于零,所以相信这些事情很容易办到。钱也许真的没法买到幸福,但无知却经常导致不幸。
1702486987
1702486988 在接下来的章节里,我将探讨事实性知识和无知跟个人幸福有着怎样的联系。
1702486989
1702486990 关联往往非常显著。例如,我向445名美国人询问了10个有关历史、地理、公民、科学、文学、艺术和个人理财等常识性知识的问题。事实上,我通过这份问题清单,安装了一个统计软件包。我借此检验了受访者的知识水平和收入水平之间是否存在相关性。的确存在。知道更多事实的人赚的钱更多。为进一步进行解释,我有必要稍微跑题一下,对统计学进行一番介绍——我保证简短扼要。
1702486991
1702486992 事实性知识与收入存在相关性
1702486993
1702486994 大多数人对统计数据的认识是,民意测试和调查并不完全准确。你随机选一些人,指望他们代表整体人口。这肯定是存在“误差范围”的。
1702486995
1702486996 怎样判断这个误差范围呢?这里有一个例子:我在问答测试里请人们说出时任众议院议长的名字。在当时,正确的答案是约翰·博纳(John Boehner),70.6%的受访者都选择了他。但我真正关心的是,整个美国有多大比例的人能给出正确答案。我并不真的知道,因为我没有问过美国的所有人,而是只从互联网小组里随机选择了445个人。统计数据显示,对一个包含了445人的随机样本,70.6%的误差范围是正负4.2%,也就是说,实际的人口百分比可能处在66.4%到74.8%之间。
1702486997
1702486998 人们还对相关性感兴趣,这是一个更为微妙的概念。我说过,在问答测试里表现好的人,往往能赚更多的钱。这可能是一个有趣的发现,但还是老问题,我怎么能担保它反映了整体人口趋势?
1702486999
1702487000 假设我调查了10名随机志愿者,其中一人既是个冷知识迷,也是个亿万富翁。光是这一点,显然会在繁琐知识和收入水平之间建立某种相关性,但这是统计学上的“噪音”,并没有什么太深的意义。
1702487001
1702487002 这是统计学家非常担心的一点。他们通过p值(概率值)来表示这种担忧。用简单的话来说,p值就是一个结果纯属偶然发生的概率。这是个假阳性的概率。由于我们喜欢有意义的结果,而不是假阳性结果,所以p值越小越好。
1702487003
1702487004 按照惯例,不大于0.05(5%,1/20)的p值叫作“具有统计意义的”。换一种说法,给定结果并非偶然,你希望自己对此至少有95%的把握。当然,“统计意义”的意思无非是,数据给出了相当高的概率,支持一个结论。5%的阈值没什么神奇的地方,它也并不能保证真相。然而,这是学术期刊发表论文通常所需的阈值。从发表论文的角度来说,批评者们认为,实现p=0.05的阈值,就像是扔一个20面的骰子。足够多次数地重复实验,你总能弄点东西出来发表!(这种做法叫作“p值操控”)。尽管并非四处皆准,但民意调查员和记者在汇报调查结果时,广泛采用0.05的p值。
1702487005
1702487006 回到我的问答测试。正确答案率和家庭收入之间的相关性p值<0.001,意味着假阳性的概率小于1‰。如你所知,p值低本身并不证明结果有意义。但当它<0.001,你至少可以说p值简直好得不能再好了。
1702487007
1702487008 现在,我们要提出另一条重要的统计学规律:相关性并不能证明因果关系。
1702487009
1702487010 对此,我最喜欢用“Spurious Correlations”(伪造的关联)网站来举例子。该网站罗列了各种令人印象深刻却全无意义的统计数据。例如,从1999年到2009年,发生溺水事件的游泳池的数量跟尼古拉斯·凯奇(Nicolas Cage)拍过的电影数量相关。同一时期,“美国小姐”获胜者的年龄跟用水蒸气和高热物质杀人的凶手数量相关(见图6-1)。
1702487011
1702487012
1702487013
1702487014
1702487015 图6-1 “美国小姐”的年龄与用水蒸气和高热物质杀人的凶手数量的相关性
1702487016
1702487017 如此东拉西扯的巧合,在这个数据丰富的时代很容易找到。符合统计学意义的测试不一定能过滤掉它们。只要对相关性考察得足够仔细,又花了足够长的时间,总能有人找出点什么抓眼球的数据来。
1702487018
1702487019 这就是为什么关注有意义的相关性很重要。事实性知识与收入水平之间的关系有一个明显的解释变量:教育。
1702487020
1702487021 知道很多事实的人可能在学校花了更长时间,受过良好教育的人会赚更多的钱。这可是美国学术能力评估测试(SAT)补习班和学生贷款的销售卖点呀。常春藤联盟高校、斯坦福大学或麻省理工学院的学位可直接换算成现金(而且会按年度不停地记录下去)。与许多有声望的职业岗位一样,学士、MBA、哲学博士或者医学博士学位,都等同是虚拟的工资卡。
1702487022
1702487023 这就提出了一个问题:能不能仅用“知道事实”这一点来预测收入呢?还是说,它无非是额外提示了人接受过多少正规教育?
1702487024
1702487025 统计学家常常希望消除多个预测因素对给定结果带来的影响。他们使用最广泛的一种工具是线性回归。尽管名字有点深奥,但背后的理念很简单。假设你怀疑人吃多少甜甜圈跟他的体重之间存在联系,那么,你可以用甜甜圈消费量来预测体重吗?找出答案的办法之一是,收集个体每周的甜甜圈消费量和体重变量。接下来,你找一些绘图纸,为数据图中的每一个人创建数据点(散点图)。每个点的位置表示给定个人的消费量(x轴)和同一个人的体重变量(y轴)。
1702487026
[ 上一页 ]  [ :1.702486977e+09 ]  [ 下一页 ]