打字猴:1.70761173e+09

1707611730 [8]望月新一自创的那种数学工具被称为inter-universal Teichmuller theory或inter-universal geometry。他在其网站上则称自己为Inter-universal Geometer。

1707611731

1707611732 [9]对此事感兴趣的读者可参阅拙作《黎曼猜想漫谈》的第35章。

1707611733

1707611734 [10]陶哲轩的“概率启发式理由”的要点是将数论命题——比如一个数是素数——视为概率性命题，并利用概率工具来猜测数学命题的成立与否。这种做法的一个例子是对强孪生素数猜想成立的猜测（参阅收录于本书的拙作“孪生素数猜想”所介绍的有关该猜想的“简单的定性分析”）。

1707611735

1707611736 [11]望月新一的证明发布至今已两年多，这期间美国耶鲁大学（Yale University）的数学系研究生季米特洛夫（Vesselin Dimitrov）及斯坦福大学（Stanford University）的数学家文卡塔斯（Akshay Venkatesh）曾写信向他指出过一个错误。望月新一承认了错误，但表示那是一个不影响结论的小错误。此后，他数度更新了自己的论文，截至本文修订之日（2014年10月1日），他更新后的四篇论文总长度超过了550页，最近一次更新的日期则为2014年9月15日。

1707611737

1707611738

1707611739

1707611740

1707611741 因为星星在那里：科学殿堂的砖与瓦 [:1707611255]

1707611742

1707611743 因为星星在那里：科学殿堂的砖与瓦

1707611744

1707611745 绘画：张京

1707611746

1707611747

1707611748

1707611749

1707611750 因为星星在那里：科学殿堂的砖与瓦谷歌背后的数学[1]

1707611751

1707611752 因为星星在那里：科学殿堂的砖与瓦 [:1707611256]

1707611753 一、引言

1707611754

1707611755 在如今这个互联网时代，有一家公司家喻户晓——它自1998年问世以来，在极短的时间内就声誉鹊起，不仅超越了所有竞争对手，而且彻底改观了整个互联网的生态。这家公司就是当今互联网上的第一搜索引擎：谷歌（Google）。

1707611756

1707611757 在这样一家显赫的公司背后，自然有许许多多商战故事，也有许许多多成功因素。但与普通商战故事不同的是，在谷歌的成功背后起着最关键作用的却是一个数学因素。

1707611758

1707611759 本文要谈的就是这个数学因素。

1707611760

1707611761 谷歌作为一个搜索引擎，它的核心功能顾名思义，就是网页搜索。说到搜索，我们都不陌生，因为那是凡地球人都会的技能。我们在字典里查个生字，在图书馆里找本图书，甚至在商店里寻一种商品，等等，都是搜索。只要稍稍推究一下，我们就会发现那些搜索之所以可能，并且人人都会，在很大程度上得益于以下三条：

1707611762

1707611763 （1）搜索对象的数量较小——比如一本字典收录的字通常只有一两万个，一家图书馆收录的不重复图书通常不超过几十万种，一家商店的商品通常不超过几万种，等等。

1707611764

1707611765 （2）搜索对象具有良好的分类或排序——比如字典里的字按拼音排序，图书馆里的图书按主题分类，商店里的商品按品种或用途分类，等等。

1707611766

1707611767 （3）搜索结果的重复度较低——比如字典里的同音字通常不超过几十个，图书馆里的同名图书和商店里的同种商品通常也不超过几十种，等等。

1707611768

1707611769 但互联网的鲜明特点却是以上三条无一满足。事实上，即便在谷歌问世之前，互联网上的网页总数就已超过了诸如图书馆藏书数量之类传统搜索对象的数目。而且这还只是冰山一角，因为与搜索图书时单纯的书名搜索不同，互联网上的搜索往往是对网页内容的直接搜索，这相当于将图书里的每一个字都变成了搜索对象，由此导致的数量才是真正惊人的，它不仅直接破坏了上述第一条，而且连带破坏了二、三两条。在互联网发展的早期，像雅虎（Yahoo）那样的门户网站曾试图为网页建立分类系统，但随着网页数量的激增，这种做法很快就“挂一漏万”了。而搜索结果的重复度更是以快得不能再快的速度走向失控。这其实是可以预料的，因为几乎所有网页都离不开几千个常用词，因此除非搜索生僻词，否则出现几十万、几百万、甚至几千万条搜索结果都是不足为奇的。

1707611770

1707611771 互联网的这些“不良特点”给搜索引擎的设计带来了极大的挑战。而在这些挑战之中，相对来说，对一、二两条的破坏是比较容易解决的，因为那主要是对搜索引擎的存储空间和计算能力提出了较高要求，只要有足够多的钱来买“装备”，这些都还能算是容易解决的——套用电视连续剧《蜗居》中某贪官的台词来说，“能用钱解决的问题就不是大问题”。但对第三条的破坏却要了命了，因为无论搜索引擎的硬件如何强大，速度如何快捷，要是搜索结果有几百万条，那么任何用户想从其中“海选”出自己真正想要的东西都是几乎不可能的。这一点对早期搜索引擎来说可谓是致命伤，而且它不是用钱就能解决的问题。

1707611772

1707611773 这致命伤该如何治疗呢？药方其实很简单，那就是对搜索结果进行排序，把用户最有可能需要的网页排在最前面，以确保用户能很方便地找到它们。但问题是：网页的水平千差万别，用户的喜好更是万别千差，互联网上有一句流行语叫做：“在互联网上，没人知道你是一条狗（On the Internet, nobody knows you’re a dog）。”连用户是人是狗都“没人知道”，搜索引擎又怎能知道哪些搜索结果是用户最有可能需要的，并对它们进行排序呢？

1707611774

1707611775 在谷歌主导互联网搜索之前，多数搜索引擎采用的排序方法，是以被搜索词语在网页中的出现次数来决定排序——出现次数越多的网页排在越前面。这个判据不能说毫无道理，因为用户搜索一个词语，通常表明对该词语感兴趣。既然如此，那该词语在网页中的出现次数越多，就越有可能表示该网页是用户所需要的。可惜的是，这个貌似合理的方法实际上却行不大通。因为按照这种方法，任何一个像祥林嫂一样翻来覆去倒腾某些关键词的网页，无论水平多烂，一旦被搜索到，都立刻会“金榜题名”，这简直就是广告及垃圾网页制造者的天堂。事实上，当时几乎没有一个搜索引擎不被“祥林嫂”们所困扰，其中最具讽刺意味的是：在谷歌诞生之前的1997年11月，堪称早期互联网巨子的当时四大搜索引擎在搜索自己公司的名字时，居然只有一个能使之出现在搜索结果的前十名内，其余全被“祥林嫂”们挤跑了。

1707611776

1707611777

1707611778

1707611779

[ 上一页 ] [ :1.70761173e+09 ] [ 下一页 ]