打字猴:1.70106789e+09
1701067890
1701067891 如果我们将万维网看作一个网络,节点是网页,边是网页之间的超链接,我们就能发现网页排名之所以有效是因为这个网络具有特定的结构:同典型的社会网络一样,大部分网页为低连接度(入连接相对较少),极少部分网页具有高连接度(入连接相对较多)。此外,网页之间的入连接数量差别很大,这样才使得排名有意义——能真正对网页进行区分。换句话说,万维网具有前面描述的那种度分布和中心节点结构。而且它也具有高度的集群性——一些网页“群体”内部相互连接。用网络科学的术语说,万维网是无尺度网络。这在最近的复杂系统研究中是最热门的话题,因此我们来稍加深入地了解一下万维网的度分布,以及无尺度到底指的是什么。
1701067892
1701067893 复杂 [:1701064817]
1701067894 万维网的度分布
1701067895
1701067896 怎样分析万维网的度分布呢?万维网连接有两种:入连接和出连接。如果我的网页有一个链接指向你的网页,而你却没有指向我,则我有一个出连接而你则有一个入连接。我们必须明确考虑的是哪种连接。最初的网页排名算法只关注入连接而忽略出连接——在我们的讨论中也是一样。我们将网页的入连接数量称为网页的入度(in—degree)。
1701067897
1701067898 这样问题就是万维网的入度分布是怎样的?要考虑所有的网页和入连接极为困难——并不存在完整的列表,而且不断有新的连接产生,旧的连接消失。不过一些网络学家还是通过采样和巧妙的网络爬虫(Web—crawling)技术得到了近似结果。对网页总数的估计各种各样;2008年时,我看到的估计从1亿到100亿都有,而且显然网页数量还在迅速增长。
1701067899
1701067900 几个研究团体都发现网页入度分布可以用非常简单的规则来描述:具有某一入度的网页数量大致正比于入度的平方的倒数。如果用字母k表示入度。则(在文献中对于k的指数的具体数值有些分歧,但是都接近2——细节见注释)这个规则实际上只适用于  [238]  入度(k)为数千或更大的情形。
1701067901
1701067902 入度为k的网页数量正比于1/k  2  。
1701067903
1701067904 为了解释为何万维网是“无尺度”,我用三种不同的尺度画出了遵循上面的规则的入度分布(图15.10)。第一幅图画了9000个入度对应的分布,从1000开始,这是规则开始变得相当精确的地方。类似于图15.7,横轴为1000—10000的入度值,纵轴标示的长条高度则是各入度值的频率(具有相应入度的网页数量)。长条太多以至于形成了一整块黑色区域。
1701067905
1701067906 图中给出的并不是频率的真实值,因为我想强调图形的形状(据我所知,也没有人对实际频率有很好的估计)。图中可以看到入度k为1000的网页相对较多,随着入度增大,频率下降很快。在k=5000和k=10000之间,网页数量已经很少了,对应的长条高度已基本接近0。
1701067907
1701067908 如果我们改变尺度,将这片“基本接近0”的区域放大,会怎么样呢?第二幅图绘制了k=10000到k=100000之间的入度分布。我改变了图形的尺度,让k=10000处与前一幅图中k=1000处的长条高度相等。在这个尺度下,入度为k=10000的网页数量相对较多,在k=50000和k=100000之间的长条高度则“基本接近0”。
1701067909
1701067910
1701067911
1701067912
1701067913 ▲图15.10 三种不同尺度下网页入度分布的近似形状
1701067914
1701067915 但还有一点很惊人——除了坐标轴上的数字不同,第二幅图与第一幅图是一样的。第一幅图画了9000个值的分布,而第二幅图画了90000个值的分布,足足大了一个数量级。
1701067916
1701067917 第三幅图中可以看到在更大的尺度上仍然有相同的现象。k为100000到1000000之间,画出的分布形状仍然是一样的。
1701067918
1701067919 这样的分布被称为是自相似的,因为不管在哪种尺度上进行绘制,形状都是一样的。说得更专业一点,就是“在不同尺度下具有不变性”。这就是无尺度一词的由来。自相似这个词可能会让你觉得似曾相识。因为在第7章讨论分形时我们见过它。这里与分形确实有一些联系,到第17章我们再来详细讨论。
1701067920
1701067921 复杂 [:1701064818]
1701067922 无尺度分布和钟形曲线
1701067923
1701067924 无尺度网络没有“特征尺度”。要解释这一点,最好的办法是将无尺度分布与另一种著名的分布——钟形曲线——进行比较。
1701067925
1701067926 假设我们绘制全世界成年人身高的分布。世界上最矮的(成年)人大约是70厘米,最高的人则大约是270厘米。成年人的平均身高大约是165厘米,而且大部分人的身高介于150—200厘米之间。人类身高分布大致像图15.11那样。画出来的曲线像一座钟,钟形曲线也因此而得名。很多东西的分布都接近钟形曲线——身高、体重、考试成绩、篮球赛得分、各种物种的数量,等等。自然界中有许多量都遵循这种分布,因此钟形曲线也被称为正态分布。正态分布有特定的尺度——比如,身高是70—270厘米,考试成绩是0—100分。在正态分布中,平均值同时也是频率最高的值,例如165厘米既是身高平均值也是最常见的值。大部分取值与平均值相差不大——分布相当单一。如果网页的入度值是正态分布,网页排名就不会起作用,因为几乎所有网页的入连接都差不多。甲壳虫乐队的官网与其他包含“apple records”的网页的入连接数量就会相差不大,因而无法用来区分可能的相关程度。
1701067927
1701067928
1701067929
1701067930
1701067931 ▲图15.11 人类身高的钟形曲线分布
1701067932
1701067933 幸运的是(对谷歌的股东来说尤其如此),网页的度分布是无尺度而不是钟形曲线。无尺度网络有4个显著特征:①相对较少的节点具有很高的度(中心节点);②节点连接度的取值范围很大(度的取值多样);③自相似性;④小世界结构。所有的无尺度网络同时也具有小世界特性,但不是所有具有小世界特性的网络都是无尺度网络。
1701067934
1701067935 说得专业一点,无尺度网络一定遵循连接度幂律分布。前面已经讲了,网页的入度分布大致是:
1701067936
1701067937 入度为k的网页数量正比于1/k  2  。
1701067938
1701067939 你可能还记得高中数学学过1/k  2  也可以写成k  -2  。即“指数为-2的幂律分布”。类似的,1/k即(k  -1  )就是“指数为-1的幂律分布”。幂律分布的形式一般为x  d  ,其中x是入度这一类的量。描述这种分布的关键是指数d;不同的指数会产生不同的分布。
[ 上一页 ]  [ :1.70106789e+09 ]  [ 下一页 ]