打字猴:1.70395802e+09
1703958020 让数据变得更有意义
1703958021
1703958022 我们心中有一个根深蒂固的观念:年轻意味轻狂和未知。受到西方20世纪六七十年代主张教政分离者那种反主流文化的影响,加上如今的网络青年开创的那种速食潮流,“年少轻狂”成了无数广告宣传、电影剧本和前40名榜单金曲的惯用标语。基于此,我们开始将大学,这个青年文化的摇篮浪漫化,将学生视为最天真率直,至少是最容易被预测的人。然而,经常跟学生交流的麻省理工学院的教授桑迪·彭特兰(Sandy Pentland)却发现这个观点十分荒谬。
1703958023
1703958024 在20世纪90年代早期,彭特兰教授在麻省理工学院的媒体实验室开始了对便携式电脑的研究。他指出,随着电脑的不断变小,不久之后,我们会将它一刻不离地带在身边。桑迪的预测惊人地准确,因为现在电脑已经变成了我们的行头以及时装配件之类的东西。实际上,通常情况下我们已经不称它们为“电脑”,而是简单地称之为“智能电话”。
1703958025
1703958026
1703958027
1703958028
1703958029 2004年秋天,桑迪实验室里的博士生内森·伊格尔(Nathan Eagle)免费给100名学生每人发了一部当时最高级、最值得拥有的诺基亚智能手机。不过,这可不是白给,条件是手机拥有者的一举一动都会被记录下来:他们在何时何地给谁打电话,他们的聊天时长,他们的位置以及周围都有些什么人等。在为期一年的实验结束后,内森·伊格尔和桑迪·彭特兰一共搜集了45万小时的数据。这些数据是对75位媒体实验室的教员和学生,以及25位斯隆管理学院的新生的通信、行踪以及各种行为的记录。
1703958030
1703958031 为了使数据变得有意义,内森将每个学生的行踪分为三部分:家、工作地以及“其他”。最后一项指的是他们既不在家也不在工作地,而是在沿着查尔斯河慢跑或在朋友家聚会的时候。然后,内森开发了一个运算系统来探测重复的行为动作,并很快发现工作日学生们大多在晚上10点到早上7点之间待在家里,在早上10点到晚上8点之间待在学校。他们的行动只有在周末才有细微的变动,那时候他们往往愿意一直在家待到早上10点。
1703958032
1703958033 每个熟悉学生生活的人都不会对这一结果感到惊奇。但系统对他们行踪的预测确实准得惊人。内森发现,如果他知道一个商学院的学生上午待在哪儿,他就能以90%的准确率预测出他下午的行踪。对媒体实验室的学生来说,这个系统发挥得更好,准确率一度达到96%。
1703958034
1703958035 生活如此抵触随机运动,渴望朝更安全、更规则的方向发展这一点引起了我们的兴趣。如果真是这样,那么学生们的生活就是按部就班的,而不是像掷骰子那样日复一日地进行着。事实上,内森的运算系统一周之内只有两次没有预测出他们的行踪。在这短暂的“叛逆”时光里,他们终于表现出了人们内心中的狂放和自由。但这些不可预测的时间并不是随机的——是星期五和星期六晚上,典型的聚会时间。在每周剩下的时间里,一天24小时中的22小时,他们既不是如遁形般难以定位的奥萨马·本·拉丹,也不是无处不在的布兰妮·斯皮尔斯,而是一成不变地过着机械生活的普通人。所以,那些坚持用随机数生成器做决定的哈里昆人可能真是想到哪儿做到哪儿吧。但如果他们在麻省理工学院读书,那么他们的行踪就不再是秘密——对内森来说不是,对“巨型机器”来说更不是。但我们还是可以避免《游侠》一书中描绘的那种奥威尔式世界的出现。
1703958036
1703958037 对我来说,当我在2007年夏天买了一支巨型手表之后,无助感就油然而生了。那是一块扎眼的反流行表,同时也是个能每分每秒定位我的位置的GPS装置。我戴上它几个月后,一个计算机专业的客座学生瞿泽辉(Zehui Qu)利用内森·伊格尔和桑迪·彭特兰的运算系统计算了GPS上记录的数据。果然,瞿在熟悉了几天之后已经能以80%的准确率预测到我的行踪了。
1703958038
1703958039 虽然这个运算系统的表现令人吃惊,但内森用它对麻省理工学院学生所做预测的96%的准确度,同对我的80%的准确度之间的差距还是有待分析。我和麻省理工学院的学生都不能代表大部分人。玛尔塔对手机记录的研究已经解释了这个问题:一旦涉及人类的运动模型,每个人都是有差异的。一些人,如麻省理工学院的学生和我,都是在家和工作地之间往返的类型。但还有一些人是经常旅行,几乎不着家的异类。
1703958040
1703958041 这是不是就意味着有些人比麻省理工学院的学生和我更难预测?是那些一连好几周全国各地到处跑的卡车司机?抑或是那些开着小面包车载着孩子在钢琴课和剑术课之间跑来跑去的“足球妈妈”?还是我们的那位“行踪可疑”又惹祸上身的超级旅行者哈桑·伊拉希?这些人跟你我有什么差别?我们周围真的有靠掷骰子做决定以至于我们永远无法预知他们行踪的哈里昆人吗?
1703958042
1703958043 你的重复性决定你的熵
1703958044
1703958045 如果丹尼尔每个工作日都是上午8点开始工作,中午在同一个餐厅吃午饭,然后在下午6点左右下班,并在家里一直待到第二天早上,那么他未来的行踪对我们而言就没什么秘密可言了。用物理学或信息科学的术语来说,丹尼尔的熵就是零。换句话说,他的行踪是完全能被预测的。相反,利用随机数生成器做决定的哈里昆人的熵就趋于无限大,如此一来他们的行踪就是完全不可知的。
1703958046
1703958047 爆发洞察
1703958048
1703958049 熵是用来描述一个体系的混乱程度的(或者是有序度)。奥地利物理学家路德维格·波尔兹曼(Ludwig Boltzmann)将熵S和系统可用状态数Ω通过公式S=logΩ联系了起来。换句话说,如果系统现在的状态很明朗,那么状态数就是1,也就是说Ω=1,那么熵就是0。然而,如果一个系统的状态数是N,那么它有一个无限大的熵,也就是Smax=logN。
1703958050
1703958051 如果丹尼尔的日常生活异常规律,那么任何时候他的行踪都是明朗的。所以,对他来说就是S=0。然而,对哈里昆人来说,他们某个时间可能会在N个不同的地方,那么熵就是logN。波尔兹曼同时代的人认为熵的发现很重要,因此就将它刻在了波尔兹曼的墓碑上。他们是对的,它的确很重要。
1703958052
1703958053 如果我想知道你有多好预测,我必须先知道你的熵,而这正是宋朝明(Chaoming Song)试图做的研究,而且不是针对一个人,而是针对无数个人做的研究。宋朝明,一个聪明的博士后研究助理,他是2008年春天加入我的实验室的。他在利用我们的手机数据库分析百万个用户的数据时很快发现,其实算出每个用户的熵没有说得那么容易。
1703958054
1703958055 宋发现最大的困难在于,大多数时候他并不知道这些用户的具体位置。实际上,只有在我们使用手机时,手机信号塔才能记录我们的位置。但是,我们的手机模型是具有爆发性的,这就意味着当我们连续使用手机时,在短时间内会有关于我们所在范围的很多记录;但信号塔还会有很长一段时间没有任何方位记录,因为我们那个时候没有使用手机。这种杂乱无章的记录使得用户没有想象中好预测。
1703958056
1703958057 事实上,由于丹尼尔总是在几个地方(家、办公室以及餐厅)规律地运动着,所以他的行踪才比较好预测。但要是我们只有在他打电话的时候才知道他的行踪,那我们就需要花上很久才会知道他的生活如此规律。如果他偶尔偏离规律的生活轨道,比如散步到附近的公园去吃午饭,或者早早下班去跟朋友一起下馆子吃大餐,那么根据我们掌握的散乱的数据,他的行踪看上去的确是随机的。从某种程度上讲,我感到自在多了,因为那表明我们的生活被无数个爆发点笼罩着,想要追踪每个人的行踪变得很难,而想要做出预测就更难了。不过,我马上意识到爆发并不能使我们躲过所有的雷达网。
1703958058
1703958059 宋朝明从我们日常活动的一个重要特性上得到了意外的灵感——重复[1]。如果我们去国外旅行,那我们的朋友肯定会很高兴定期收到我们在做什么以及我们在哪儿的状态更新。然而,如果是在工作日中,每小时给研究员打个电话核对他们的进度是一个非常惹人厌的举动。事实上,我们的工作在某段时间会毫无进展,这样我只能重复同一个答案:我还在工作、工作中、还是在工作、仍然在工作。我知道,亲爱的——你总是在工作。
1703958060
1703958061 爆发洞察
1703958062
1703958063 宋朝明恰好能从这种重复性中获益,因为它能帮他完成一开始时那个毫无头绪的工作:揭开电话模型爆发的不确定面纱。也就是说,依靠我们做事时习惯上的重复性,朝明巧妙地设计了一个能精确预测每个用户的熵的程序。基于此,我们最终能够为那个一直困扰我们的问题给出一个定量的答案了:我们到底有多好预测?
1703958064
1703958065 每个人都有一个最大可预测性
1703958066
1703958067 1927年,年轻的德国物理学家维尔纳·海森堡(Werner Heisenberg)发现了一个不等式,也就是有名的“不确定性原理”(uncertainty principle)。这个原理指出,在不确定的情况下你对一个物体的方位知道得越多,就越不能确定它会去哪儿。也就是说,如果我们费尽心思确定一个粒子的精确位置,那么我们就不可能得出它的速度;但如果我们测出了它的速度,那我们肯定不确定它的位置。
1703958068
1703958069 海森堡的预测之所以违反直觉,是因为它对我们的研究质量没有什么帮助——它指出即使是最好的实验也不能同时确定一个粒子的位置和速度。但正是这一点才显示出它的重要性,从电子到人类,这个定律适用于所有事物。实际上,对于一辆正在行驶的自行车或是疾驰的汽车来说,可预测的不确定性太小以至于大家都没注意到。但事实就是如此。(我自己曾在一辆自行车和一辆疾驰的汽车之间弄伤了手腕,但海森堡不需要为此负责。)
[ 上一页 ]  [ :1.70395802e+09 ]  [ 下一页 ]