1705128390
1705128391
不过这个挖山故事对我们只是个引子而已。我们要讲的是大约70年前,美国的一个学者写的一段挖山的故事:两个城市之间有大山挡路。假设某人想从一个城市去另一城市,那么他有几种选择呢?
1705128392
1705128393
●如果他希望走最短的路程,那么他就必须从山脚下挖个隧道通过去,但这样做会需要很多脑力、体力劳动和耗费大量资金;
1705128394
1705128395
●如果选择最快的途径,那可能要选择翻山过去了,但这样做很费力且有危险;
1705128396
1705128397
●如果选择最简单易行的方式,就只能走平路而绕山过去了,但这样做走的路程最长,时间花费也很多。
1705128398
1705128399
在这三个合理的方案中,他会选择哪个方案呢?如果只需要到山的另一边去很少的次数,显然凿隧道不划算,只要比较爬山或绕路走哪个相对更适合自己就行了。但如果今后需要经常到山那边去,那么现在多费些力气开凿个隧道,就会一劳永逸,虽然现在麻烦,但长期下来更划算。至于到底哪个方案最佳,就需要定量计算一下哪个方案能让自己今后的“总消耗”最小。这种理性的选择逻辑正是人类行为的基本准则,即“趋省力远费力”的本性。挖山当然是可行的,但把山铲平搬走这种猪脑子才会想出来的方案根本没有讨论的必要。
1705128400
1705128401
讲这个挖山故事的学者,是哈佛大学的语言学家乔治·齐夫博士。他从挖山开始讲起,完成了一部名为《人类行为和最省力原则》的巨著。人类趋向采取可能耗费最少劳动的方式,来完成特定任务的行为特征,被他总结为“最省力原则”(the least effort theory)。有趣的是,齐夫博士总结出的省力原则最有力的实证分析,来源于他对自然语言中不同单词出现频率的统计分析。正是他发现和解释了为什么认得前面说的那100个英语单词就能认得书中总数一半的单词。下面跟大家介绍一下。
1705128402
1705128403
1705128404
1705128405
1705128406
George Kinsley Zipf,1902—1950
1705128407
1705128408
齐夫博士发现,自然语言中某个单词的使用频率数值(词频)与它的频率排名顺序的倒数成正比,这就是著名的“齐夫定律”(Zipf’s law)。比如英语单词中,使用频率排名第一的单词是”the”,它的使用频率数值为7%。也就是说,统计一下大量对话和书籍中使用的全部英语单词,发现平均100个单词中有7个the这个词;排在第二位的单词是”of”,它的使用频率为3.5%,正好是第一名的频率值的1/2;排在第三名的是”and”,它的使用频率则是第一名的1/3,也就是2.33%……下面排名单词的词频,按照这个规律递减。这样一来,排在前面的极少数单词,出现频率相当高,而排在后面的大量单词,出现概率却很低,呈现“长尾”特征。
1705128409
1705128410
1705128411
1705128412
1705128413
Vocabulary frequency chart
1705128414
1705128415
世界上各种自然语言单词的使用频率,目前都被证实基本符合齐夫定律。自然界中还有很多现象都符合齐夫定律,比如城市人口数量以及互联网网站访问量等。
1705128416
1705128417
那怎么知道某个单词的词频呢?不同的语料库有不同的词频统计。我们可以用英国国家语料库(British National Corpus,简称BNC)动态词频查询器:www.wordcount.org。
1705128418
1705128419
BNC是个巨大的对话、书籍和媒体中出现文字的集合,单词总出现量为1亿个,其中不同的单词是86800个。大家在检索栏中输入任意单词,就会看到这个单词在词库中的词频排名。
1705128420
1705128421
如下图(查询了says这个词,排名211):
1705128422
1705128423
1705128424
1705128425
1705128426
1705128427
1705128428
1705128430
词行天下:像学母语一样学英语 多用少,少用多
1705128431
1705128432
为什么少数单词被大量使用,而多数单词却被很少使用呢?齐夫博士认为,这正是省力原则的表现。在自然语言交流中的双方,存在着这样一个有趣的平衡:说话的人希望使用最少的词汇来表达最多的含义,这样自己最省力。但对于听的人来说,这样做会很难了解对方的准确语义,所以希望说的人对语言中的每个独特概念,都用不同的单词来表达,这样理解起来不会发生混淆。在两种反方向需求的共同作用下最终达到了一个平衡,结果就是少数的常用词被使用得非常频繁,多数的低频词被很少使用。
1705128433
1705128434
单词使用中“贫富分化”严重,大部分的单词都是“屌丝”。
1705128435
1705128436
在英语中,单词使用频率与其在语料库全部词汇的覆盖率关系是这样的。
1705128437
1705128438
1705128439
[
上一页 ]
[ :1.70512839e+09 ]
[
下一页 ]