打字猴:1.70395695e+09
1703956950
1703956951 2004年春天,当我在灵感四溢的布达城分析这些数据的时候,我得出了一个明确的结论:所有人的电子邮件都不符合泊松过程描述的那种掷硬币般枯燥而刻板的节奏。相反,每个用户的电子邮件模型都跟我的差不多——它们充满了爆发点,就像暴雨频发的夏末天气,在狂轰滥炸般发送了大量邮件之后,总会有长时间的沉默。
1703956952
1703956953 正如我们在前几章看到的,千万不要忽略一个完全随意的模型的偏差,因为它很可能会揭示社会和自然的深层规律。这次的情况就恰恰如此。
1703956954
1703956955 幂律,主宰着我们真实生活的节奏
1703956956
1703956957 在《致命争吵的统计数字》这本研究战争与和平的书中,理查森发现了随意性的一个显著偏差值:冲突的等级数。一些战争的伤亡人数过百万,而另一些战争的死伤人数只有几十个。这种显著的差异促使他使用伤亡总数的以10为底的对数来标示战争的等级。根据他的分级方法,1514年2月28日这天,匈牙利人和奥斯曼土耳其人在贝尔格莱德发生的小冲突属于零级,因为当时只有艾利一人死亡。伤亡人数为10的战争是一级,伤亡人数为100的是二级。我们之前看到的数千名农民军丧生于骑兵和河流之间的战争为三级。
1703956958
1703956959
1703956960
1703956961
1703956962 如果战争真是随机发生的,那么大多数战争的伤亡人数应该都差不多。但理查森发现,1820—1949年之间发生的282次战争中,有188次是三级以下(或死伤人数在千人以下)的小型战争。伤亡人数在1万人左右的战争相对较少——四级战争只有63次。但他还是发现6次六级战争以及两次死伤人数达千万的七级战争。
1703956963
1703956964 大家很容易猜到这两次七级战争是两次世界大战。但那6次死伤人数均达百万的战争可能就不那么出名了。按照时间排列,这些战争分别是:太平天国运动(1851—1864)、西班牙内战(1936—1939)、第一次国共内战(1927—1936)、拉普拉塔大战(the Great War in La Plata,1865—1870)、北美内战(1861—1865),以及十月革命之后的俄国内战(1918—1920)。
1703956965
1703956966 通过观察,理查森发现伤亡人数与战争数量之间的关系遵循着一个简单的数学规律——“越少就越大”。也就是说,大部分战争都是死伤几百人的小型战争,而伤亡人数巨大的大型战役则少之又少。
1703956967
1703956968 理查森并不是第一个发现这一模型的人。19世纪的经济学家维弗雷多·帕累托也发现,大多数人都很穷,而少数人则积累了大部分财富。富人的出现并不令人吃惊,因为即使财富的获取是随机的,还是会有人比较富有。令人吃惊的是,帕累托还发现那些富人的富有程度远远超过了财富随机分配能达到的水平。
1703956969
1703956970 爆发洞察
1703956971
1703956972 理查森和帕累托的研究表明,战争和财富符合幂律分布。具体来讲,很多小事件都是与个别大事件共存的。[1]这意味着,每次世界大战都伴随着无数小战争,而每出现一个比尔·盖茨或洛克菲勒就会有一大群穷人诞生。
1703956973
1703956974 1999年,当我研究网页的出名问题时也跟幂律有过一次亲密接触。我和我的研究团队发现,虽然很多网站都默默无闻,但像谷歌、亚马逊以及雅虎这样的顶级网站总是拥有百万条点击率。我们将这种几支独秀的网络称为“无尺度网络”。在接下来的10年中,我一直在研究各个领域中(从细胞到因特网)的顶尖者在整个复杂体系中的作用。
1703956975
1703956976 爆发洞察
1703956977
1703956978 我的经验告诉我,理查森那句“越少就越大”的箴言实际上是误导。它让人们以为幂律分布的主要特征是大事件或大人物占少数——如世界大战、超级富豪,以及万维网上的佼佼者等,而我们在某种程度上也期望他们越少越好。但事实恰恰相反,我们必须仰仗他们的出现,而泊松的理论将这些异常值禁锢了起来。
1703956979
1703956980 在随机世界中,谷歌和雅虎不会吸引数以百万的点击率;比尔·盖茨也不会聚集亿万财富;战争更不会造成数百万人的伤亡。然而,真实的世界并非如此。
1703956981
1703956982 幂律分布的本质就是它能自然而然地预测出这些稀罕事儿,告诉大家总有严重偏离平均值的异常值。换句话说,一旦幂律出现,我们总能发现异常值。
1703956983
1703956984 幂律出现,爆发点就出现
1703956985
1703956986 我们从埃克曼的数据中得出的结论很简单:他数据库中的所有用户都不符合随机原理。相反,他们使用的模型都一样:短时间频繁发送邮件后就会有长时间(经常是好几天)的停顿。这当然很好理解。我们会参加会议、看电影、约会、吃饭、睡觉,会做许多各种各样的事情,所以我们无法一直待在电脑旁。等到终于有时间查看邮箱,我们肯定会在短时间内发送很多邮件,我们的邮件模型因此而产生了一个爆发点。然后,其他事情会让我们再次离开电脑,这标志着邮件流中下一个休息时间开始了。
1703956987
1703956988 基于这样的生活节奏,人类活动中出现爆发点就不那么稀奇了。有人会说,你的生活方式跟我的大不相同,我们的邮件模型肯定也没有什么相似之处。有些人一周只发几封邮件;有些人一天之内要发上百封;还有些人每天只是扫一眼邮箱;当然,也有些人时时刻刻跟电脑不分离。这就是当人们看到大家的邮件模型都差不多的时候,会觉得那么吃惊的原因。
1703956989
1703956990 事实上,当我们检查同一个人每次连续发送邮件之间的时间间隔时,没有人遵循我们熟知的泊松分布。相反,不管是谁,他的模型都符合幂律分布。
1703956991
1703956992 爆发洞察
1703956993
1703956994 一旦幂律出现,爆发点的出现就在所难免。实际上,幂律预测出大部分邮件都是在短时间内连续发送的,所以我们的邮件模型中出现了一个爆发点。同时,它也预见了人们会数小时或数天不发邮件。跟理查森资料中少有的大型战役,以及帕累托分析的少数富豪是一样的道理,最终,我们的邮件模型遵循着一种内在和谐,短时间的活跃和长时间的耽搁相互交替,形成的一个精确的规律,一个我们从未想到,也不用花费力气去遵守,甚至一开始人们认为其并不存在的规律。
1703956995
1703956996 人类行为遵循共同的幂律分布
1703956997
1703956998 那又怎样呢?且不说你的生活不只是围着邮件转,就算是,谁又会在乎它们遵循什么数学规律呢?若我们在认为这一切都是随意为之时并未感到困扰,那为什么在知道了它们不是随意发生的时候会耿耿于怀呢?
1703956999
[ 上一页 ]  [ :1.70395695e+09 ]  [ 下一页 ]