1700515542
图 4-4
1700515543
1700515544
到这一步,它还算不上是一个特别好的算法,因为不稳定,并且效率相当低,没有达到理想算法的两个关键标准。佩奇和布林的洞见之伟大在于,他们意识到,需要找到一种方法,通过观察网络的连通性来分配球。结果,他们在线性代数中找到了一个诀窍,可以一步算出正确的分布情况。
1700515545
1700515546
这种算法从构建一个矩阵开始,该矩阵描述球在网站间的重新分配方式。矩阵的第1列表示球从网站A到其他网站的分配比例:0.5转到网站B,0.5转到网站C。由此,可以得到球的重分配矩阵:
1700515547
1700515548
1700515549
1700515550
1700515551
难点是寻找这个矩阵特征值为1的特征向量,这是一个与该矩阵相乘不会发生改变的列向量。找到特征向量的方法我们在大学本科时就学过了,因此在这个网络中我们发现,通过重分配矩阵找到的列向量非常稳定:
1700515552
1700515553
1700515554
1700515555
1700515556
注:矩阵的乘法运算规则是:
1700515557
1700515558
1700515559
1700515560
1700515561
这就表明,如果我们按照2:1:2的比例给各网站分配球,会看到这个权重比例是稳定的。用之前9轮分配的例子中得到的数据也可以验证这一结论,各网站拥有的球的比例总是约等于2:1:2。
1700515562
1700515563
矩阵的特征向量是在数学和其他科学领域中非常有效的一种工具,是量子物理中用来计算粒子能级的秘密武器,可以用于研究旋转流体的稳定性(比如旋转的恒星或者病毒的繁殖率),甚至可以用于研究素数在所有数字中是怎样分布的问题。
1700515564
1700515565
通过计算网络连通性的特征向量,我们发现网站A和网站C的排名应该是相同的。虽然网站A只连接到一个网站(网站C),但由于网站C的权值较高,它会赋予网站A较高的权值。
1700515566
1700515567
这是算法的核心基础,但需要加入一些额外的细节处理才能使其充分发挥作用。例如,该算法可能需要考虑一些异常情况:如果存在未链接其他网站的孤立网站,它的球会无法重新分配。
1700515568
1700515569
尽管基础引擎是公开的,但算法内部的一些重要参数还是保密的,并且随着时间的推移不断发展变化、更新换代,这些在一定程度上使得算法难以被破解。谷歌算法最吸引人的地方在于它本身的健壮性和防止欺骗的策略——一个网站很难在自己的网站上做手脚来提高排名,它必须依靠其他网站来提升自己的排名。
1700515570
1700515571
如果你关注一下谷歌搜索,就会发现排名很靠前的网站主要都是新闻媒体网站和大学官方网站,比如牛津大学、哈佛大学的官网。许多外部网站都会链接到大学网站上的研究资料及观点页面,这正是由于这些大学的研究成果受到了世界各地许多人的关注。
1700515572
1700515573
当牛津大学网络中的任何一个网站链接到外部网站时,该链接将提升其所链接的外部网站的排名,这意味着牛津大学认可与该网站共享其巨大的声望。这也就是为什么我经常会被其他人要求,让我把在牛津数学系的网站链接到外部网站。这么做有助于提高外部网站的排名,毕竟能够在谷歌搜索排名登顶是每一个网站的终极“圣杯”。
1700515574
1700515575
谷歌的算法再强大,也不可避免地被那些了解数学原理的人用更加聪明的办法攻击并加以利用。在2018年夏天的某段时间里,如果你在谷歌上搜索“白痴”(idiot),首先弹出的便是唐纳德·特朗普(Donald Trump)的照片。一些激进分子知道怎样利用Reddit[1] 在互联网的巨大影响力:他们在网上发布一个包含“白痴”这个关键词和特朗普照片的帖子让大家投票,两者的组合很快就登上了谷歌搜索的首位。但随着时间的推移,这些另类的搜索结果的峰值会通过算法本身而不是人工干预进行降级,并被算法慢慢剔除。谷歌不喜欢扮演“上帝”,但从长远来看,它相信的是数学的力量。
1700515576
1700515577
互联网就像一头会变身的妖兽,瞬息万变,每一纳秒就会有一个新网站诞生。随着网站的关闭和更新,新的链接关系也在不断地生成、变化,这意味着网站页面的搜索优先级需要动态调整。为了让谷歌跟上互联网不断发展的步伐,他们会使用一个有着相当可爱名字的工具,定期在互联网上搜罗网站信息并更新网站链接的统计点击量,这个工具叫作“谷歌蜘蛛侠”(Google spiders)。
1700515578
1700515579
技术控和体育教练发现,这种评估网络节点的方法也可以应用于其他“类网络”领域,尤其是足球。当评估对手时,评估对手的关键球员非常重要,因为他会控制整个球队的打法或者成为比赛的焦点。如果在比赛初期就能找到这名球员,并对他的发挥进行有效的遏制,那么在战略上就能冻结对手整个球队的战斗力。
1700515580
1700515581
来自伦敦的两位数学家哈维尔·洛佩斯·佩纳(Javier López Pena)和雨果·杜塞特(Hugo Touchette)都是狂热的足球迷,他们决定研究一下,看看谷歌的算法是否有助于分析世界杯参赛球队的情况。他们是这样考虑的:如果把每位球员看作一个网站,一个球员给另一个球员传球就好比一个网站链接另一个网站,那么比赛中的传球路线就可以被视为一个网络;传球给队友是信任那个球员的标志,因为球员通常会避免传球给一个容易丢球的“笨”队友;一个不会积极跑动、有效控球的球员是很难拿到球的,所以只有有能力控球的人才会有人给他传球。
1700515582
1700515583
因此,他们决定使用国际足联在2010年世界杯期间提供的传球数据来分析球员实力排名。当对英格兰队的比赛进行分析时,他们发现史蒂文·杰拉德(Steven Gerrard)和弗兰克·兰帕德(Frank Lampard)两位球员的数据明显高于其他人。这反映出一个情况:足球会频繁传给这两位中场球员,遏制他们在场上的发挥极有可能使英格兰队输球。最终,英格兰队在世界杯中确实没有走太远,复赛就被老对手德国队淘汰了。
1700515584
1700515585
以最终胜者西班牙队的数据来说,经过算法统计分析,西班牙队中没有明显的核心球员,这反映了整个球队很好地贯彻了“全攻全守”“快速短传”的战术思想,这最终促成了西班牙队走上冠军领奖台。
1700515586
1700515587
与美国许多依靠数据分析发展起来的体育项目不同,足球需要经过一段时间的积累才能利用数学和数据统计挖掘比赛背后隐藏的规律。但是到了2018年俄罗斯世界杯,许多球队都聘请了科学家在幕后提供技术支持——通过分析数据来了解对手的优势和弱点,这其中就包括对每支球队中传球依赖度的分析。
1700515588
1700515589
网络分析还应用于文学领域。安德鲁·贝弗里奇(Andrew Beveridge)和单杰(Jie Shan)用一套名为“网络科学”的方法分析了乔治·雷蒙德·理查德·马丁(George R.R.Martin)的史诗奇幻巨著《冰与火之歌》[2] (Song of Ice and Fire)。了解该故事剧情的人都知道,想要预测哪些角色会在剧本下一卷中出现不太容易,因为马丁先生会为了剧情需要,不惜“写死”哪怕是剧中最好的角色。
1700515590
1700515591
贝弗里奇和单杰决定在书中的人物之间建立一个网络。他们选定了剧中107个关键人物作为网络中的节点,然后根据关系重要程度为人物节点之间的连接线赋予权值。但算法如何评估节点间连接的重要性呢?该算法只是简单地计算剧情中两个人物名字在连续的15个单词内出现的次数。这并不是在衡量人物之间的友谊,而是在衡量他们之间的互动或联系频度。
[
上一页 ]
[ :1.700515542e+09 ]
[
下一页 ]