打字猴:1.703958003e+09
1703958003 爆发:大数据时代预见未来的新思维 [:1703955588]
1703958004 爆发的频率:熵
1703958005
1703958006 我们到底有多好预测?我们终于能够为这个一直困扰我们的问题给出一个定量的答案了。虽然人与人存在很多不同,但我们的可预测程度都差不多,无情的统计规律使得异类根本不存在。我们的行踪都深受规律影响,而它的影响力比我们想象中要大得多。
1703958007
1703958008 新时代的奥威尔式“高科技妄想症惊悚小说”《游侠》(The Traveler)于2005年面世后,网络上就掀起了一场奇怪的论战。书中描绘了一个没有危机和意外的世界,一个无趣的平常世界。这个大同世界由一个名为“巨型机器”(Vast Machine)、遍布世界各地的电脑系统维持。这个系统由数以百万的监视器、感应器和探测机组成。只有一个曾经很强大的古老部落的后人以及他们的持剑保护者“哈里昆人”(Harlequins)能够意识到“巨型机器”的出现,并准备将它摧毁。
1703958009
1703958010 博客和论坛上关于这本书的讨论,很容易都集中到了对后9·11时代与书中那个被严密监视世界的比较上。另外,讨论还集中在对这本书文学价值的批评上。正如一位批评家所说,这本书“看起来可能只有七年级的阅读水平”。而对于这一评价,很少人会去质疑。不过,还有一些讨论是关于这本书的作者十二只鹰(John Twelve Hawks)。
1703958011
1703958012 这本书的大卖以及电影版权的敲定应该会让十二只鹰跃身为世界名人,使他成为像史蒂芬·金(Stephen King)以及丹·布朗(Dan Brown)一样的知名作家。但事实并非如此。这不是因为媒体故意回避他。人们没听说过十二只鹰的真正原因是,没人认识他。他不做图书签售,也不参加任何图书推广会。实际上,他从未出现在公众视线中,甚至跟他的编辑都只通过无法追踪的卫星电话联系。就像书中终其一生追踪“巨型机器”的哈里昆人一样,十二只鹰“生活在社交网络之外”。而正是这种神秘的隐居生活才让人们一直讨论他的真实身份。
1703958013
1703958014 《游侠》的主角是一个哈里昆人。她从来不用信用卡,也不去银行开户,甚至不会长期居住在同一个地方,她就这样一直生活在社交网络之外。她意识到“任何能够反映哈里昆人日常生活习惯以及生活圈”的现象都能被“巨型机器”捕捉到,并进而查到她的所在地,所以她总是“随机行事”。也就是说,她依靠随机数生成器来替自己做决定。“奇数是对,偶数是错。只用按下按钮,随机数生成器就会帮你做决定”,而这样一来她的活动也就变得完全不可预测了。
1703958015
1703958016 书中不仅描绘了一场善恶争斗,将读者带到了一个犹如西奥多·卡鲁扎呈现给爱因斯坦的五维世界当中,还融合了日本剑术武打和量子计算机科学等诸多元素。但它回避了一个问题:谁能将这个可预知人类行为的“巨型机器”建造出来?
1703958017
1703958018 我们完全相信粒子物理学家能将对质子的运动轨迹的预测误差缩小在微微米的范围内,也相信火箭专家能够成功发射一颗卫星,并保证在9个月后在火星上放置一个机器人。但跟质子和卫星不一样,人类会在不断改变的世界中寻求新的体验,所以想要预测人的长期行为是不可能的。事实上,基于我忙碌的行程安排,到目前为止我发现任何试图预测我在一周之后的行踪的尝试都是徒劳。这也让我更确信“巨型机器”将会永远待在属于它的地方——科幻小说中。然而,最近我开始对此有所怀疑。
1703958019
1703958020 让数据变得更有意义
1703958021
1703958022 我们心中有一个根深蒂固的观念:年轻意味轻狂和未知。受到西方20世纪六七十年代主张教政分离者那种反主流文化的影响,加上如今的网络青年开创的那种速食潮流,“年少轻狂”成了无数广告宣传、电影剧本和前40名榜单金曲的惯用标语。基于此,我们开始将大学,这个青年文化的摇篮浪漫化,将学生视为最天真率直,至少是最容易被预测的人。然而,经常跟学生交流的麻省理工学院的教授桑迪·彭特兰(Sandy Pentland)却发现这个观点十分荒谬。
1703958023
1703958024 在20世纪90年代早期,彭特兰教授在麻省理工学院的媒体实验室开始了对便携式电脑的研究。他指出,随着电脑的不断变小,不久之后,我们会将它一刻不离地带在身边。桑迪的预测惊人地准确,因为现在电脑已经变成了我们的行头以及时装配件之类的东西。实际上,通常情况下我们已经不称它们为“电脑”,而是简单地称之为“智能电话”。
1703958025
1703958026
1703958027
1703958028
1703958029 2004年秋天,桑迪实验室里的博士生内森·伊格尔(Nathan Eagle)免费给100名学生每人发了一部当时最高级、最值得拥有的诺基亚智能手机。不过,这可不是白给,条件是手机拥有者的一举一动都会被记录下来:他们在何时何地给谁打电话,他们的聊天时长,他们的位置以及周围都有些什么人等。在为期一年的实验结束后,内森·伊格尔和桑迪·彭特兰一共搜集了45万小时的数据。这些数据是对75位媒体实验室的教员和学生,以及25位斯隆管理学院的新生的通信、行踪以及各种行为的记录。
1703958030
1703958031 为了使数据变得有意义,内森将每个学生的行踪分为三部分:家、工作地以及“其他”。最后一项指的是他们既不在家也不在工作地,而是在沿着查尔斯河慢跑或在朋友家聚会的时候。然后,内森开发了一个运算系统来探测重复的行为动作,并很快发现工作日学生们大多在晚上10点到早上7点之间待在家里,在早上10点到晚上8点之间待在学校。他们的行动只有在周末才有细微的变动,那时候他们往往愿意一直在家待到早上10点。
1703958032
1703958033 每个熟悉学生生活的人都不会对这一结果感到惊奇。但系统对他们行踪的预测确实准得惊人。内森发现,如果他知道一个商学院的学生上午待在哪儿,他就能以90%的准确率预测出他下午的行踪。对媒体实验室的学生来说,这个系统发挥得更好,准确率一度达到96%。
1703958034
1703958035 生活如此抵触随机运动,渴望朝更安全、更规则的方向发展这一点引起了我们的兴趣。如果真是这样,那么学生们的生活就是按部就班的,而不是像掷骰子那样日复一日地进行着。事实上,内森的运算系统一周之内只有两次没有预测出他们的行踪。在这短暂的“叛逆”时光里,他们终于表现出了人们内心中的狂放和自由。但这些不可预测的时间并不是随机的——是星期五和星期六晚上,典型的聚会时间。在每周剩下的时间里,一天24小时中的22小时,他们既不是如遁形般难以定位的奥萨马·本·拉丹,也不是无处不在的布兰妮·斯皮尔斯,而是一成不变地过着机械生活的普通人。所以,那些坚持用随机数生成器做决定的哈里昆人可能真是想到哪儿做到哪儿吧。但如果他们在麻省理工学院读书,那么他们的行踪就不再是秘密——对内森来说不是,对“巨型机器”来说更不是。但我们还是可以避免《游侠》一书中描绘的那种奥威尔式世界的出现。
1703958036
1703958037 对我来说,当我在2007年夏天买了一支巨型手表之后,无助感就油然而生了。那是一块扎眼的反流行表,同时也是个能每分每秒定位我的位置的GPS装置。我戴上它几个月后,一个计算机专业的客座学生瞿泽辉(Zehui Qu)利用内森·伊格尔和桑迪·彭特兰的运算系统计算了GPS上记录的数据。果然,瞿在熟悉了几天之后已经能以80%的准确率预测到我的行踪了。
1703958038
1703958039 虽然这个运算系统的表现令人吃惊,但内森用它对麻省理工学院学生所做预测的96%的准确度,同对我的80%的准确度之间的差距还是有待分析。我和麻省理工学院的学生都不能代表大部分人。玛尔塔对手机记录的研究已经解释了这个问题:一旦涉及人类的运动模型,每个人都是有差异的。一些人,如麻省理工学院的学生和我,都是在家和工作地之间往返的类型。但还有一些人是经常旅行,几乎不着家的异类。
1703958040
1703958041 这是不是就意味着有些人比麻省理工学院的学生和我更难预测?是那些一连好几周全国各地到处跑的卡车司机?抑或是那些开着小面包车载着孩子在钢琴课和剑术课之间跑来跑去的“足球妈妈”?还是我们的那位“行踪可疑”又惹祸上身的超级旅行者哈桑·伊拉希?这些人跟你我有什么差别?我们周围真的有靠掷骰子做决定以至于我们永远无法预知他们行踪的哈里昆人吗?
1703958042
1703958043 你的重复性决定你的熵
1703958044
1703958045 如果丹尼尔每个工作日都是上午8点开始工作,中午在同一个餐厅吃午饭,然后在下午6点左右下班,并在家里一直待到第二天早上,那么他未来的行踪对我们而言就没什么秘密可言了。用物理学或信息科学的术语来说,丹尼尔的熵就是零。换句话说,他的行踪是完全能被预测的。相反,利用随机数生成器做决定的哈里昆人的熵就趋于无限大,如此一来他们的行踪就是完全不可知的。
1703958046
1703958047 爆发洞察
1703958048
1703958049 熵是用来描述一个体系的混乱程度的(或者是有序度)。奥地利物理学家路德维格·波尔兹曼(Ludwig Boltzmann)将熵S和系统可用状态数Ω通过公式S=logΩ联系了起来。换句话说,如果系统现在的状态很明朗,那么状态数就是1,也就是说Ω=1,那么熵就是0。然而,如果一个系统的状态数是N,那么它有一个无限大的熵,也就是Smax=logN。
1703958050
1703958051 如果丹尼尔的日常生活异常规律,那么任何时候他的行踪都是明朗的。所以,对他来说就是S=0。然而,对哈里昆人来说,他们某个时间可能会在N个不同的地方,那么熵就是logN。波尔兹曼同时代的人认为熵的发现很重要,因此就将它刻在了波尔兹曼的墓碑上。他们是对的,它的确很重要。
1703958052
[ 上一页 ]  [ :1.703958003e+09 ]  [ 下一页 ]