1702378210
1702378211
抛开数学细节内容不看,我们发现,为了让讲话者群体进化出一致的语法,对于给定的信息量(样例语句的数量)来说,我们能指定通用文法的具体程度。从直觉就能看出,通用文法越具体,孩子学习某一具体语法所需要的样例语句就越少。在第6章中,我讲述了曼弗雷德·艾根和彼得·舒斯特如何找到了遗传学中类似的“自然法则”:对于给定的突变率来说,要想让遗传进化成为可能,基因组的长度就存在一个上限。超过了这个上限,一座遗传巴别塔的坍塌就只能给你一堆毫无意义的DNA信息。
1702378212
1702378213
沙漏中的词汇
1702378214
1702378215
信任你的人,会助(holp)你一臂之力。
1702378216
1702378217
莎士比亚,《错误的喜剧》
1702378218
1702378219
语言总是在不断变迁之中。莎士比亚的作品有时会让人费解。其中模样奇怪的“holp”一词是一个古法拼写,还是笔误?原来,在莎士比亚于1589年到1594年间撰写这部剧作的时候,“holp”曾被用于“help”的过去式。这是一个很有说服力的例子,因为这个词所讲的就是合作这件事。那句谚语说得好:“你若想幸福终生,就去帮助下一代吧。”
1702378220
1702378221
我在语言领域的研究工作转移到了动词的进化上。但我这一阶段的研究工作是在哈佛大学进行的,而非普林斯顿。虽然我在哈佛拥有财务和情感方面的支持,但在那里成立我的新研究中心还是花了我一些时间,后来,我在普林斯顿的学生还在我之前捷足先登。这位学生就是埃雷兹·利伯曼。他曾在约旦河西岸,以色列的军事分界线——1949年停战线之外生活过一年。
1702378222
1702378223
在高等研究院时,埃雷兹总是不打招呼直接到我办公室来,而且每次他来的时候,我手头肯定正忙着钻研某个麻烦百出的问题。但后来我发现,无论当时困扰我的问题有多么复杂,我都可以与埃雷兹共同探讨。我喜欢他与生俱来的才华,喜欢他利用非传统独创性方法的非凡能力,而埃雷兹反过来也视我为“优质问题的源泉”。
1702378224
1702378225
埃雷兹完成了两份学生论文,一份关于数学,另一份关于哲学。在哲学论文中,他对“语言的哲学”进行了分析,这一哲学是由伟大的维特根斯坦提出,并由著名现代哲学家索尔·克里普克(Saul Kripke)诠释的。在这一哲学范畴内,我们的语言规则更为明确,其变化的可能性大大降低。人们也戏称这一哲学为“克里普克斯坦”,以此表示这是克里普克对维特根斯坦思想富有争议性的特殊理解。埃雷兹跟着我完成的数学论文获得了一等奖。这篇论文的主题是有限语言的学习。这一主题也与经典的“球体填充问题”有关。为了达到可以学习的目的,语言必须具有鲜明的区分,不至于彼此重叠,就像装在竹篮中的桔子一样。
1702378226
1702378227
在纽约完成了为期一年的犹太教学习之后,埃雷兹跟我说,他想要申请哈佛研究院。在我自己产生前往哈佛的念头之前,就已经为他写了一封热情洋溢的推荐信。没过多久,我接到了一个电话。电话那头的声音告诉我,哈佛大学“正在考虑埃雷兹·利伯曼的申请”。这位官员告诉我,利伯曼的简历很不错,但却没有收到关于他的介绍信。这时我才意识到,我的推荐信已经不知身处何方了,于是我在电话里给埃雷兹做了精彩的广告。他被录取了。从这个角度看,埃雷兹甚至打破了博弈论的主人——因《美丽心灵》而著称的约翰·纳什创下的纪录。纳什被普林斯顿大学录取之时,推荐信的内容是所有申请人中最短的。信上只写了这样一句话:“此人是个天才。”这一次很明显,在没有任何推荐信的情况下,利伯曼就被哈佛录取了。
1702378228
1702378229
接下来的一年,埃雷兹成了我在哈佛的研究生。他讲出他的哲学时,颇有语惊四座的风采:一般情况下,人们会用一生的时间来研究他们撰写博士论文时学到的东西。但埃雷兹自己却并不想归于此类。他希望利用论文作为工具,来学习每一样事物,学习所有的事物。对他来说,一部论文并不是对未来研究领域的牛刀小试,而是一场知识的大杂烩。埃雷兹博士生阶段所进行的项目,足够他写出三、四份博士论文。但最后,却回过头来将第一个项目整理成为了论文。
1702378230
1702378231
他在知识上处于一种混杂的状态。只要别人愿意听他讲话,他就愿意与这个人结成协作关系。没过多久,他开始与伟大的基因大师埃里克·兰德(Eric Lander)共同开展研究工作。我们访问位于剑桥的Google办公室时,所有人都需要登记。而埃雷兹则不同,他在那里早已是知名人物,可以随时自由进出。
1702378232
1702378233
后来,因为一个不幸的原因,他的研究议程再一次发生了变化。他的祖母不小心摔了一跤,摔得很重,甚至到了致命的程度。于是,埃雷兹决定与美国国家航空航天局共同研究宇航员的平衡问题。而后,在这项研究的基础上成立了一家创业公司,制造可以诊断人们步履蹒跚程度的智能鞋底。他用来分析来自鞋底信号的算法,与兰德用来寻找基因的算法有异曲同工之妙。
1702378234
1702378235
最终,埃雷兹加入到了我们对语言进化的持续研究之中。哈佛大学著名语言研究学者史蒂芬·平克在一次针对不规则动词的讨论中,为克里普克斯坦式哲学提升了新的高度。对此,埃雷兹说,克里普克斯坦式哲学对语言规则的理解依然渗透在他的思想之中。英语的一般规则是,在动词末尾加上-ed来形成过去时形式,但也存在很多例外情况,令埃雷兹兴趣大增。人们是如何学会违反语言规则,并创造出这一大串例外用法的呢?这种趋势随着时间的发展会发生怎样的变化?与富有创意的法国博士生让—巴普蒂斯特·米歇尔(Jean-Baptiste Michel)、“罗马人”乔·杰克逊(Joe Jackson)和蒂娜·唐(Tina Tang)一起,埃雷兹和我决定就此问题进行深入研究。我用了几年时间,收集到了研究所需要的数据。最终,我们将重点放在了动词的进化上。我们的使命很简单,就是要预测未来的过去时是什么样的。
1702378236
1702378237
蒂娜·唐通过不辞劳苦的努力,从大量文献资料中寻找到了各种例子,我们对从《贝奥武夫》(Beowulf)到《坎特伯雷故事集》(Canterbury Tales)再到《哈里·波特》等作品中横跨1 200年的177个不规则动词的进化过程进行了研究。我们把握住了一些人们觉得根本无法测度的东西,并取得了惊人的成果。在古英语中表达过去时的7种规则中,只有一种得以幸存,这就是通过加-ed的后缀,形成一般过去时和过去分词形式。就像经历着自然选择的基因和有机体一样,词汇,特别是像“holp”这样并不以-ed做结尾的不规则动词过去时,也要在语言发展的过程中,受制于“规则化”的强大压力。
1702378238
1702378239
1200年前,古英语中共有177个不规则动词;到了中古英语时期(约公元1150年到公元1475年间的英语),还有145个。如今,在几个世纪的发展作用下,像“help”“laugh”“reach”“walk”“work”等词都已经完成规则化,也仅剩下了98个不规则动词。令人感到吃惊的是,“不规则词汇的衰退” 遵从着一个非常清晰的趋势,其中的“误差条”非常小。数学函数对这一衰退给出了这样的解释:使用频率较标准动词低100倍的动词,其规则化的速度会提升10倍以上。换句话说,动词进化的速度与其在英语语言中普遍性的平方根成反比。不那么经常出现的不规则动词,会被人们更快地遗忘。这样看来,不规则动词似乎与放射性原子有着相同的行为方式,也存在半衰期。我们可以根据不规则动词的使用频率,来计算其半衰期。
1702378240
1702378241
现在时的“I Know”,其过去时是“I Knew”。虽然小孩子会运用简单的语言逻辑说出“I knowed”这样的话,但“know”这一动词还尚未实现规则化。“I know”实在太常见,因此拒绝改变。孩子们在学会“grow”的过去时“grew”之前,也会说出“growed”这样的词。同样,“hit”(打)这个动词的过去时依然是“hit”,而非“hitted”。但小孩子们并不了解,可能会说:“妈妈,鲍勃打(hitted)我了。”妈妈纠正道:“鲍勃打(hit)我。”孩子道:“连你也打了?呵呵,鲍勃这家伙要倒大霉了。”
1702378242
1702378243
孩子需要经常听到这些不规则动词,才能记住。由此推论,相对不太常用的词汇,就更容易屈从于改变的压力。而像“to google”这样近现代产生的新动词,都是规则动词。总的来看,数学分析得出的结论,会令至今依然捍卫纯净法语的那些顽固不化的法国学究们惊骇不已。他们对英语外来词汇充满了恐惧与厌恶情绪。这些人不过是在浪费时间罢了,谁也无法与进化做对。同样,纯正英式英语的守卫者们,也要开始考虑采纳克努特式的姿态了。
1702378244
1702378246
文化的未来
1702378247
1702378248
蒂娜·唐的肩膀上抗着一份沉重而繁琐的任务:阅读众多学术文献,从中跟踪英语动词的进化。我们当时真应该安下心来再等几年。Google Books项目将大量文献进行了数字化处理,其中也包括我们含辛茹苦地细读过的许多著作。埃雷兹想到,我们应该能与Google一起开发一个工具,在汪洋大海一般的数据之中采掘出珍奇的宝藏。MIT研究生沈原(Yuan Shen)与让—巴普蒂斯特·米歇尔一起,与埃雷兹和Google合作,设计出了Google Bookworm这一工具,允许我们在几百万册图书、5 000亿个词汇构成的巨大藏书库中跟踪语言的主要发展趋势,而且也能透视文化的变迁。
1702378249
1702378250
我们可以横跨地理、时间等因素,发现数据库中这5 000个亿词汇的变化趋势。埃雷兹十分关注“第一次世界大战”和“第二次世界大战”的说法,以及对发生在1914年到1918年间这场军事冲突的另一种称谓——“伟大的战争”(the Great War)。在运用后一种说法时,一般都是要强调战争的大规模、机械化,及其前所未有的影响。但我们发现,在20世纪40年代,随着人们逐渐意识到“伟大的战争”是两次大规模全球战事中的第一次,使用这一称谓的频率便越来越低了。
1702378251
1702378252
在某些不常见的情况下,规则动词也会向不规则化的方向转变。比如第一个千年之后,出现了“snuck”这样的词汇。我们可以利用制图的方式看出各种脏话的涨落,在咒骂语和暴力的发展之间建立起有趣的联系。很多证据显示,“进化”遵从着“富者更富”的规律,因而常用词汇往往得以发展延续,而不那么常用的词汇则逐渐淡出了人们的视野。
1702378253
1702378254
埃雷兹和让—巴普蒂斯特创建起了由500万本著作构成的迄今为止规模最大的可搜索语言数据库,其中包括英文、德语、俄语和中文。埃雷兹总喜欢这样说:“如果用常规字号将数据库中的所有文字写出来,其长度相当于从位于美国加州山景城的Google总部到月球走20个来回。相比之下,如果将全世界第二大数据库——英国国家语料库书写出来,其长度则只能从山景城走到位于卡纳维拉尔角的航空发射台。”
1702378255
1702378256
这一语言数据库是非常了不起的资源。人们可以利用这一资源对文化及其变迁进行测评。埃雷兹喜欢将这一项目称为“文化组学”(culturomics)。通过对“文化基因组”进行研究,人们可以识别出社会发展过程中的脉搏和节奏,从流行性传染病疫情的发展变化,到技术的兴起与衰落等。
1702378257
1702378258
我们利用数据库,对从1800—1960年中的154项发明创造(如微波炉、脑电图仪)进行了研究。研究发现,越是近期出现的创新技术,其推广所需要的时长就越短。我们还发现,上帝并没有离我们而去,他不过是需要一位新的公关专家罢了。在过去两百年间教育与宗教相分离的过程中,“上帝”、“耶稣”等说法的出现频率有了缓慢下滑,但还是远远高于其他任何名字(虽然有几年,德国语料库中“希特勒”的使用频率比“耶稣”更加频繁)。我们还研究了审查与镇压制度所造成的影响。在第三帝国统治时期,艺术家、作家、政治学者、哲学家和历史学家的名字从德国文献中消失,而提及纳粹党员名字的次数则是其他时代的6倍还多。
1702378259
[
上一页 ]
[ :1.70237821e+09 ]
[
下一页 ]