1704087710
1704087711
“数字图书馆倡议”原本与互联网无关,它在1994年还没有成为数字世界的重要力量。斯坦福政府原来的拨款提案甚至没有提及互联网。
1704087712
1704087713
但在1994年,网景通信公司推出了具有图形界面的Web浏览器。接下来的一年里,整个世界突然有了一个存储和共享一切信息的系统,这使得“数字图书馆倡议”成为昨日黄花。也是在这一年,雅虎公司成立。“互联网完全改变了我们脚下的一切。”时任斯坦福大学计算机科学系主任的埃克托尔·加西亚-莫利纳教授说。
1704087714
1704087715
每当一种新技术出现时,很少有人真正懂得怎样去恰当运用。通常只有第二代公司才能取得实质性进展。对于搜索引擎而言,这确是事实。在整个20世纪90年代,搜索引擎先是根据某站点的特定关键词的发现次数来检索网页。这些引擎并未利用互联网的互联特性,只是寻找站点、存储信息。互联网所要求的新技术尚不存在。是拉里缔造了它。
1704087716
1704087717
当谷歌的搜索引擎在1998年12月正式推出时,它在一个杰出特质方面卓尔不群:它确实管用。
1704087718
1704087719
它的核心是PageRank系统,这是由拉里(并以其名字命名)在攻读博士期间发明的。它利用了网络的独特优势——与其名称如此贴切的互联网络。
1704087720
1704087721
加西亚-莫利纳回忆了公司起步阶段的点点滴滴。他是佩奇的顾问,1995年的一天,他的学生走进办公室,给他看所发现的巧妙把戏。AltaVista搜索引擎不仅从各个站点收集关键词,还能显示出与其链接的其他网站。AltaVist并没有以谷歌的方式利用这一链接信息,但那天在加西亚-莫利纳的办公室里,佩奇暗示这是一个排名网站重要程度的好办法。
1704087722
1704087723
起先,这只是一个游戏。“我们那天很开心,一直在看哪些计算机科学网页在各个大学中最受欢迎。”加西亚-莫利纳回忆道。他们高兴地发现,像斯坦福大学的数据库小组就比对手威斯康星大学的类似部门吸引了更多链接。
1704087724
1704087725
拉里对于链接有自己的看法。他告诉加西亚-莫利纳:“既然它对我们如此重要,为什么不把它作为搜索程序的一部分?”
1704087726
1704087727
拉里的想法是受其科学背景的启发。众所周知,在科学界,当研究人员在自己的论文中引用你的论文时,就会提高你的论文的可信度。你被引用的次数越多,你的论文就越被科学界关注。这个想法体现在尤金·加菲尔德(Eugene Garfield)1960年创建的科学引文索引数据库上,尤金是科学情报研究所的创始人。拉里推断,网络链接与科学引文相似,链接最多的引文,可能就是最受研究人员欢迎的引文,并将被证明最为有用。这些站点应该在搜索结果中首先列出。然后他开始开发自己的软件,用于分析站点之间的链接。
1704087728
1704087729
这需要一些棘手的程序。该系统不仅需要计算某个特定站点的链接次数,还要进一步确定所链接网站的重要性。这要通过计算对反向链接网站的链接数来实现,从而大大增加了分析的复杂性。为了计算相关性,PageRank还必须反向追踪两步链接,并将数据与关键词关联。鉴于该系统反向追踪链接的特性,拉里最初称其为BackRub,但他后来将其命名为更复杂的PageRank,这是他姓氏的双关语。
1704087730
1704087731
也是出于偶然,谢尔盖开始了搜索引擎的研究。在斯坦福大学主修数学和计算机科学博士课程时,他在数据库小组里致力于一个研究项目。1995年,他和布赖恩·兰特试图研究另一种被称为“关联数据挖掘”(associative data mining)的计算机科学方法。这个过程是用来寻找往往同时发生的信息片段。零售商用它来查询其销售记录,并确定客户是否经常一并购买其他物品。不过,数据挖掘是计算机科学的一个新领域。它需要存储大量的网络数据,所以谢尔盖不得不写了一个“爬虫”(Crawler)程序——用来访问网站、总结其内容并在研究生和搜索公司可以访问的中心位置存储数据的软件。其他搜索引擎已经有了自己的爬虫程序。
1704087732
1704087733
谢尔盖是一个了不起的程序员和工程师。他的互联网数据挖掘工作涉及对海量数据的解析。“他的大手笔其他人根本不会去考虑。”谢尔盖的顾问杰弗里·乌尔曼(Jeffrey Ullman)说。(谢尔盖关于谷歌搜索引擎概况的论文,被他自己在另一篇科学论文《服务质量和电子报纸:Etel解决方案》中引用。)
1704087734
1704087735
谢尔盖也是一个聪明的硬件工程师。他需要磁盘驱动器来存储所收集的数据,但是他资金不足,所以他买下了所能找到的最便宜的驱动器。但是当他试用时,驱动器却不够快。谢尔盖没有将它们扔掉,而是想出了一个办法,通过加倍驱动器接口的终端数量,总算使它们可以使用。“我从未想过这么做,”乌尔曼说,“这是一流的工程技术。”
1704087736
1704087737
1995年年底,拉里和谢尔盖各自的项目使两人走到了一起。“我和拉里聊了很多,”谢尔盖回忆说,“我们相处得很愉快。”如果拉里要搜索网页,他也需要一个爬虫。所以他招募谢尔盖参与数字图书馆项目,将他的搜索技术和谢尔盖的网络爬虫结合起来。
1704087738
1704087739
这是一个伟大的结合。“谢尔盖喜欢数学方面的东西,”斯坦福大学教授安德烈亚斯·佩普基(Andreas Paepcke)说,他负责数字图书馆项目。“拉里只喜欢开发。这正好合乎成长之道。”
1704087740
1704087741
另一位与拉里和谢尔盖共事的斯坦福大学研究生斯科特·哈桑回忆说,那个项目主要以拉里为主。“对于拉里而言,那是他最重要的事情。谢尔盖的参与只是因为感兴趣。”他们常常工作到深夜,在供应5美元“学生特餐”的帕罗奥多“新选择”餐馆编写网页索引,并进行解析。他们经常忙碌到凌晨5点。
1704087742
1704087743
永远不会有另一个雅虎
1704087744
1704087745
在斯坦福大学时,拉里和谢尔盖的搜索引擎每秒钟可以分析30到50个网页。两年后,速度提高到每秒大约1000个网页。今天则是数百万个网页。这一成功耗费了大量研究和编程。“我们开发了很多数学方法来解决这一问题,”2000年,谢尔盖告诉一位记者说,“我们将整个网络转换成了一个拥有数亿变量的庞大方程式。”
1704087746
1704087747
他们为自己的搜索引擎瞎起了一通名字,其中之一是“WhatBox”。“但紧接着我们就发现它的发音像是‘湿盒子’(wetbox),听起来像是某种色情网站。”谢尔盖回忆说。为了创造一个大数字,他们打算将爬虫称做“Googol”——数学家爱德华·卡斯纳(Edward Kasner)9岁的侄儿创造的一个单词,即指10的100次方。卡斯纳只是想为这个从未有过名字的超大数字命名。后来他也杜撰了另一个名称“Googolplex”,它是“Googol”的10倍(。拉里和谢尔盖后来采用了“Googolplex”来命名他们的公司园区。)
1704087748
1704087749
没有人想过这将成为公司的雏形。大多数人认为雅虎已经在搜索引擎的竞争中胜出,尽管雅虎实际上只是一个类似于杜威十进位制(不带小数)的分类系统。雅虎是一个门户网站,它甚至没有自己的搜索引擎,而是获准使用Akamai的服务。其他搜索公司的高管也不认为搜索技术可以改进,或者需要改进。拉里的看法则不同。如果互联网要挖掘其潜能,它就需要新的发明来更方便地寻找到正确的东西。如果没有谷歌,互联网可能仍处于前希腊化时代。尽管如此,兰特说:“在1996年年初,我们大家都说:‘永远不会有另一个雅虎’。”
1704087750
1704087751
尽管这是一项学术活动,但并不意味着拉里没有野心。为了建立一个系统来测试他们的理论,他和谢尔盖一再从其他学生和教师那里借钱,还“借用”抵达“盖茨馆”卸货站台而物主尚未认领的设备。“我们从全(计算机科学)系偷来这些电脑。”谢尔盖回忆说。到了后来,加西亚-莫利纳教授问拉里究竟想搜索互联网的多大部分,拉里的回答是:“它的全部。”加西亚-莫利纳设法从数字图书馆项目那里搞来一些资金,以便他们能够购买更多计算机。
1704087752
1704087753
谷歌搜索引擎的建立,首先是为了搜索斯坦福大学自己的网页,它立即在师生中引起了轰动,佩奇和布林也开始认识到它的商业潜力。到了1996年年底,谢尔盖在一次接受采访时回忆说:“我们有一些自视甚高的东西。”
1704087754
1704087755
谁需要搜索引擎?
1704087756
1704087757
但他们仍不认为这会是一个公司的雏形。他们计划完成博士学业,所以他们试图将其技术出售给其他搜索引擎公司。
1704087758
1704087759
幸运的是,他们没找到接手的人。要是他们得手了,谷歌就会不复存在。原因之一,是拉里和谢尔盖为他们的技术要价太高,大约是100万美元。
[
上一页 ]
[ :1.70408771e+09 ]
[
下一页 ]