1701067900
几个研究团体都发现网页入度分布可以用非常简单的规则来描述:具有某一入度的网页数量大致正比于入度的平方的倒数。如果用字母k表示入度。则(在文献中对于k的指数的具体数值有些分歧,但是都接近2——细节见注释)这个规则实际上只适用于 [238] 入度(k)为数千或更大的情形。
1701067901
1701067902
入度为k的网页数量正比于1/k 2 。
1701067903
1701067904
为了解释为何万维网是“无尺度”,我用三种不同的尺度画出了遵循上面的规则的入度分布(图15.10)。第一幅图画了9000个入度对应的分布,从1000开始,这是规则开始变得相当精确的地方。类似于图15.7,横轴为1000—10000的入度值,纵轴标示的长条高度则是各入度值的频率(具有相应入度的网页数量)。长条太多以至于形成了一整块黑色区域。
1701067905
1701067906
图中给出的并不是频率的真实值,因为我想强调图形的形状(据我所知,也没有人对实际频率有很好的估计)。图中可以看到入度k为1000的网页相对较多,随着入度增大,频率下降很快。在k=5000和k=10000之间,网页数量已经很少了,对应的长条高度已基本接近0。
1701067907
1701067908
如果我们改变尺度,将这片“基本接近0”的区域放大,会怎么样呢?第二幅图绘制了k=10000到k=100000之间的入度分布。我改变了图形的尺度,让k=10000处与前一幅图中k=1000处的长条高度相等。在这个尺度下,入度为k=10000的网页数量相对较多,在k=50000和k=100000之间的长条高度则“基本接近0”。
1701067909
1701067910
1701067911
1701067912
1701067913
▲图15.10 三种不同尺度下网页入度分布的近似形状
1701067914
1701067915
但还有一点很惊人——除了坐标轴上的数字不同,第二幅图与第一幅图是一样的。第一幅图画了9000个值的分布,而第二幅图画了90000个值的分布,足足大了一个数量级。
1701067916
1701067917
第三幅图中可以看到在更大的尺度上仍然有相同的现象。k为100000到1000000之间,画出的分布形状仍然是一样的。
1701067918
1701067919
这样的分布被称为是自相似的,因为不管在哪种尺度上进行绘制,形状都是一样的。说得更专业一点,就是“在不同尺度下具有不变性”。这就是无尺度一词的由来。自相似这个词可能会让你觉得似曾相识。因为在第7章讨论分形时我们见过它。这里与分形确实有一些联系,到第17章我们再来详细讨论。
1701067920
1701067922
无尺度分布和钟形曲线
1701067923
1701067924
无尺度网络没有“特征尺度”。要解释这一点,最好的办法是将无尺度分布与另一种著名的分布——钟形曲线——进行比较。
1701067925
1701067926
假设我们绘制全世界成年人身高的分布。世界上最矮的(成年)人大约是70厘米,最高的人则大约是270厘米。成年人的平均身高大约是165厘米,而且大部分人的身高介于150—200厘米之间。人类身高分布大致像图15.11那样。画出来的曲线像一座钟,钟形曲线也因此而得名。很多东西的分布都接近钟形曲线——身高、体重、考试成绩、篮球赛得分、各种物种的数量,等等。自然界中有许多量都遵循这种分布,因此钟形曲线也被称为正态分布。正态分布有特定的尺度——比如,身高是70—270厘米,考试成绩是0—100分。在正态分布中,平均值同时也是频率最高的值,例如165厘米既是身高平均值也是最常见的值。大部分取值与平均值相差不大——分布相当单一。如果网页的入度值是正态分布,网页排名就不会起作用,因为几乎所有网页的入连接都差不多。甲壳虫乐队的官网与其他包含“apple records”的网页的入连接数量就会相差不大,因而无法用来区分可能的相关程度。
1701067927
1701067928
1701067929
1701067930
1701067931
▲图15.11 人类身高的钟形曲线分布
1701067932
1701067933
幸运的是(对谷歌的股东来说尤其如此),网页的度分布是无尺度而不是钟形曲线。无尺度网络有4个显著特征:①相对较少的节点具有很高的度(中心节点);②节点连接度的取值范围很大(度的取值多样);③自相似性;④小世界结构。所有的无尺度网络同时也具有小世界特性,但不是所有具有小世界特性的网络都是无尺度网络。
1701067934
1701067935
说得专业一点,无尺度网络一定遵循连接度幂律分布。前面已经讲了,网页的入度分布大致是:
1701067936
1701067937
入度为k的网页数量正比于1/k 2 。
1701067938
1701067939
你可能还记得高中数学学过1/k 2 也可以写成k -2 。即“指数为-2的幂律分布”。类似的,1/k即(k -1 )就是“指数为-1的幂律分布”。幂律分布的形式一般为x d ,其中x是入度这一类的量。描述这种分布的关键是指数d;不同的指数会产生不同的分布。
1701067940
1701067941
在第17章我们再深入讨论幂律分布。现在只需记住无尺度网络遵循连接度幂律分布。
1701067942
1701067944
网络稳健性
1701067945
1701067946
无尺度网络有一个非常重要的特性,在节点被删除时具有稳健性。也就是说,如果随机删除一些节点,不会改变网络的基本特性:仍然会有多样的度分布、很短的平均路径以及很高的集群性,即使删除的节点很多也不会有什么变化。原因很简单:如果随机删除节点,则极有可能删除的是低连接度的节点,因为网络中绝大部分节点都是低连接度节点。删除这种节点对总体的度分布和路径长度的影响很小。万维网就是这样,网络上不断有计算机出故障或是被移除,但是这对万维网的运转不会有明显影响,也不会改变其平均路径长度。类似的,网页和链接也在不断被删除,但网上冲浪不会受到什么影响。
1701067947
1701067948
不过,这种稳健性是有代价的:如果删除了中心节点,网络就有可能会失去无尺度特性,并且无法正常运转。例如,芝加哥(航班网络的中心节点)的暴风雪可能会导致全国大面积的航班延误或取消。谷歌出故障会对整个万维网形成很大冲击。
1701067949
[
上一页 ]
[ :1.7010679e+09 ]
[
下一页 ]