1703958050
1703958051
如果丹尼尔的日常生活异常规律,那么任何时候他的行踪都是明朗的。所以,对他来说就是S=0。然而,对哈里昆人来说,他们某个时间可能会在N个不同的地方,那么熵就是logN。波尔兹曼同时代的人认为熵的发现很重要,因此就将它刻在了波尔兹曼的墓碑上。他们是对的,它的确很重要。
1703958052
1703958053
如果我想知道你有多好预测,我必须先知道你的熵,而这正是宋朝明(Chaoming Song)试图做的研究,而且不是针对一个人,而是针对无数个人做的研究。宋朝明,一个聪明的博士后研究助理,他是2008年春天加入我的实验室的。他在利用我们的手机数据库分析百万个用户的数据时很快发现,其实算出每个用户的熵没有说得那么容易。
1703958054
1703958055
宋发现最大的困难在于,大多数时候他并不知道这些用户的具体位置。实际上,只有在我们使用手机时,手机信号塔才能记录我们的位置。但是,我们的手机模型是具有爆发性的,这就意味着当我们连续使用手机时,在短时间内会有关于我们所在范围的很多记录;但信号塔还会有很长一段时间没有任何方位记录,因为我们那个时候没有使用手机。这种杂乱无章的记录使得用户没有想象中好预测。
1703958056
1703958057
事实上,由于丹尼尔总是在几个地方(家、办公室以及餐厅)规律地运动着,所以他的行踪才比较好预测。但要是我们只有在他打电话的时候才知道他的行踪,那我们就需要花上很久才会知道他的生活如此规律。如果他偶尔偏离规律的生活轨道,比如散步到附近的公园去吃午饭,或者早早下班去跟朋友一起下馆子吃大餐,那么根据我们掌握的散乱的数据,他的行踪看上去的确是随机的。从某种程度上讲,我感到自在多了,因为那表明我们的生活被无数个爆发点笼罩着,想要追踪每个人的行踪变得很难,而想要做出预测就更难了。不过,我马上意识到爆发并不能使我们躲过所有的雷达网。
1703958058
1703958059
宋朝明从我们日常活动的一个重要特性上得到了意外的灵感——重复[1]。如果我们去国外旅行,那我们的朋友肯定会很高兴定期收到我们在做什么以及我们在哪儿的状态更新。然而,如果是在工作日中,每小时给研究员打个电话核对他们的进度是一个非常惹人厌的举动。事实上,我们的工作在某段时间会毫无进展,这样我只能重复同一个答案:我还在工作、工作中、还是在工作、仍然在工作。我知道,亲爱的——你总是在工作。
1703958060
1703958061
爆发洞察
1703958062
1703958063
宋朝明恰好能从这种重复性中获益,因为它能帮他完成一开始时那个毫无头绪的工作:揭开电话模型爆发的不确定面纱。也就是说,依靠我们做事时习惯上的重复性,朝明巧妙地设计了一个能精确预测每个用户的熵的程序。基于此,我们最终能够为那个一直困扰我们的问题给出一个定量的答案了:我们到底有多好预测?
1703958064
1703958065
每个人都有一个最大可预测性
1703958066
1703958067
1927年,年轻的德国物理学家维尔纳·海森堡(Werner Heisenberg)发现了一个不等式,也就是有名的“不确定性原理”(uncertainty principle)。这个原理指出,在不确定的情况下你对一个物体的方位知道得越多,就越不能确定它会去哪儿。也就是说,如果我们费尽心思确定一个粒子的精确位置,那么我们就不可能得出它的速度;但如果我们测出了它的速度,那我们肯定不确定它的位置。
1703958068
1703958069
海森堡的预测之所以违反直觉,是因为它对我们的研究质量没有什么帮助——它指出即使是最好的实验也不能同时确定一个粒子的位置和速度。但正是这一点才显示出它的重要性,从电子到人类,这个定律适用于所有事物。实际上,对于一辆正在行驶的自行车或是疾驰的汽车来说,可预测的不确定性太小以至于大家都没注意到。但事实就是如此。(我自己曾在一辆自行车和一辆疾驰的汽车之间弄伤了手腕,但海森堡不需要为此负责。)
1703958070
1703958071
根据海森堡的“不确定性原理”,我在想人类的可预测性是不是也存在根本的限制。为什么我不能预测你们未来的行为呢?是不是我使用的工具有一定限制?还是我掌握的数据质量不够好?再或许是我已经到达了极限却不自知?如果这个极限真的存在,那么就算我们优化了工具,完善了数据质量,未来对我们来说仍然是个谜。另外,如果真的存在某种极限,那么发现它的确切本质就变得很重要,因为它可能揭示了我们的绝对可预测性,通过它我们就能预知未来。
1703958072
1703958073
1703958074
1703958075
1703958076
尼克·布鲁姆(Nick Blumm)是我实验室里的一名研究生,他证明了这个极限确实存在,而且我们都会受它影响。在我看来,这一点颇具讽刺意味,因为发现这一点的人生活中充满了意想不到的转变。在以优异的成绩获得物理学学士学位后,尼克在学术界已经争得了一席之地。但他并没有按部就班地生活,而是决定做些改变。他曾去东京当英文老师,跟随默剧大师马塞尔·马索(Marcel Marceau)学习哑剧并取得了很好的成绩,去曼哈顿辅导富人的孩子,然后又去了布鲁克林儿童博物馆(Children’s Museum in Brooklyn)做了自然科学馆的馆长。过了近十年随心所欲的生活后,他看了我写的《链接》那本书后,才找到自己想要追求的东西。之后,他就回到学校攻读网络学博士学位。照这样看,尼克最有权力问这个问题:有谁能解释他那条反传统的生活轨迹?他自己?有可能,但不确定。确切地说,他证明了不管我们的预测系统多么精密,我们对熵是S的手机用户的预测还是会偶尔出现差错。
1703958077
1703958078
如果丹尼尔的熵是0,理论上讲我们能够100%准确地预测出他的所在。然而,大多数人的熵都不是0。这就意味着他们的行动会有一定的随机性——他们会偶尔做出我们始料不及的转变。所以,每个人都有一个最大可预测性,以至于不管我们怎样努力都不能绝对肯定他的具体位置。
1703958079
1703958080
当宋朝明忙于测算每个手机用户的熵时,我们已经发现人类的活动遵循幂律规律了。也就是说,大部分人都不怎么出远门,只有少部分异类会定期进行长途旅行。因此,每个人的预测程度存在很大不同这一点并不是讲不通的。如果一个人的生活局限在一个小圈子里,那么我们很容易就能找到他。但对于像哈桑那样定期去几千公里外的地方旅行的人,我们知道要想找到他们就很难了。
1703958081
1703958082
爆发洞察
1703958083
1703958084
不过,我们这次的直觉错了——预测性并不遵循我们熟悉的幂律规律。也就是说,不管我们多么努力地搜寻,数据库中都找不到异常值。相反,我们发现所有用户的平均可预测程度都在93%左右。这就意味着人们只有7%的时间是行踪不定的。这些不确定事件往往发生在两个人们最常去的地方之间——比方说在高峰期乘车上下班的时候,或者午饭计划有变动的时候。在剩下的时间里,大部分用户的行踪都相对容易预测。
1703958085
1703958086
对一些熵值低的用户来说,他们的可预测程度甚至接近100%。这并没有什么奇怪——它只能说明我们中有些人的生活非常规律罢了。真正令人意想不到的是,我们的案例中根本没有预测程度低于80%的人。不管他们的生活圈子有多大,搭乘什么样的交通工具,每个人都是习惯的奴隶,这使得他们的行踪变得极易预测。
1703958087
1703958088
我们的手机用户中没有哈里昆人,这不禁令我们困惑起来:那些随心所欲、反复无常的人都去哪儿了?他们到底藏在哪里?
1703958089
1703958090
在进一步讨论之前,我想说明的是“我们做了什么”和“我们的可预测程度有多高”之间存在本质的差别。当涉及“我们做了什么”这个问题——比方说我们的旅行距离,发邮件以及打电话的数量时,我们遵循幂律规律。也就是说,总有一些人比其他人更活跃,他们会发更多邮件,会去很远的地方旅行。这也说明异类很平常——总有一些哈桑那样的人,他们会定期去几百甚至上千公里外的地方旅行。
1703958091
1703958092
但一旦涉及人类行为的可预测度的问题,幂律规律令人吃惊地被高斯分布取代了。这意味着,不管你把自己禁锢在方圆2公里的社区内,还是每天驱车去数十公里外的地方,又或者是乘快车甚至是坐飞机上下班,你都和别人一样好预测。一旦高斯分布出现,异常值就不存在了,正如爆发在泊松的随机世界中不存在,或者不可能在街上看到一个3000米的巨人一样。虽然人与人之间有很多不同,但我们的可预测程度都差不多,无情的统计规律使得异类根本不存在。
1703958093
1703958094
但尽管统计规律百般阻挠、万般遏制,还是有人能够不受限制。这个人就是我们的朋友哈桑·伊拉希。
1703958095
1703958096
谁是异类
1703958097
1703958098
底特律被扣事件发生5年后,也就是他的追踪无常项目实施一年后,哈桑再次飞回美国。这次他乘坐的是伊比利亚航空公司的6251次航班,目的地是纽约的肯尼迪机场。最近,他过得非常自在,因为在满世界转悠的时候他几乎没再受到移民局的骚扰。但这次下飞机的时候,那种似曾相识的感觉又回来了——他又被带到一个特殊的房间隔离了起来,对方要求他在那里等候。
1703958099
[
上一页 ]
[ :1.70395805e+09 ]
[
下一页 ]