1705128400
1705128401
讲这个挖山故事的学者,是哈佛大学的语言学家乔治·齐夫博士。他从挖山开始讲起,完成了一部名为《人类行为和最省力原则》的巨著。人类趋向采取可能耗费最少劳动的方式,来完成特定任务的行为特征,被他总结为“最省力原则”(the least effort theory)。有趣的是,齐夫博士总结出的省力原则最有力的实证分析,来源于他对自然语言中不同单词出现频率的统计分析。正是他发现和解释了为什么认得前面说的那100个英语单词就能认得书中总数一半的单词。下面跟大家介绍一下。
1705128402
1705128403
1705128404
1705128405
1705128406
George Kinsley Zipf,1902—1950
1705128407
1705128408
齐夫博士发现,自然语言中某个单词的使用频率数值(词频)与它的频率排名顺序的倒数成正比,这就是著名的“齐夫定律”(Zipf’s law)。比如英语单词中,使用频率排名第一的单词是”the”,它的使用频率数值为7%。也就是说,统计一下大量对话和书籍中使用的全部英语单词,发现平均100个单词中有7个the这个词;排在第二位的单词是”of”,它的使用频率为3.5%,正好是第一名的频率值的1/2;排在第三名的是”and”,它的使用频率则是第一名的1/3,也就是2.33%……下面排名单词的词频,按照这个规律递减。这样一来,排在前面的极少数单词,出现频率相当高,而排在后面的大量单词,出现概率却很低,呈现“长尾”特征。
1705128409
1705128410
1705128411
1705128412
1705128413
Vocabulary frequency chart
1705128414
1705128415
世界上各种自然语言单词的使用频率,目前都被证实基本符合齐夫定律。自然界中还有很多现象都符合齐夫定律,比如城市人口数量以及互联网网站访问量等。
1705128416
1705128417
那怎么知道某个单词的词频呢?不同的语料库有不同的词频统计。我们可以用英国国家语料库(British National Corpus,简称BNC)动态词频查询器:www.wordcount.org。
1705128418
1705128419
BNC是个巨大的对话、书籍和媒体中出现文字的集合,单词总出现量为1亿个,其中不同的单词是86800个。大家在检索栏中输入任意单词,就会看到这个单词在词库中的词频排名。
1705128420
1705128421
如下图(查询了says这个词,排名211):
1705128422
1705128423
1705128424
1705128425
1705128426
1705128427
1705128428
1705128430
词行天下:像学母语一样学英语 多用少,少用多
1705128431
1705128432
为什么少数单词被大量使用,而多数单词却被很少使用呢?齐夫博士认为,这正是省力原则的表现。在自然语言交流中的双方,存在着这样一个有趣的平衡:说话的人希望使用最少的词汇来表达最多的含义,这样自己最省力。但对于听的人来说,这样做会很难了解对方的准确语义,所以希望说的人对语言中的每个独特概念,都用不同的单词来表达,这样理解起来不会发生混淆。在两种反方向需求的共同作用下最终达到了一个平衡,结果就是少数的常用词被使用得非常频繁,多数的低频词被很少使用。
1705128433
1705128434
单词使用中“贫富分化”严重,大部分的单词都是“屌丝”。
1705128435
1705128436
在英语中,单词使用频率与其在语料库全部词汇的覆盖率关系是这样的。
1705128437
1705128438
1705128439
1705128440
1705128441
布朗语料库中词频排名与覆盖率的百分比关系
1705128442
1705128443
所以使用频率从高到低的单词数量和它们在语言中的覆盖率可以大致如下图所示。
1705128444
1705128445
1705128446
1705128447
1705128448
单词出现频率的不同,正是单词具有的不同特性的重要标志。既然英语单词在实际的使用频繁程度上落差巨大,不同单词在句子中起的作用也会因此产生很大差异,那我们对不同词频单词的学习方式理应有所区别才合理。大致按照单词使用频率从高到低来学习单词,显然是效率比较高的学习路线。大部分英语教材的编写和课程的设计,都基本上遵循这个单词的选择标准。就大部分同学需要学习的英语词汇范围来说,我们大致把单词按使用频率从高到低分为6个频段:基础词汇、核心词汇、提高词汇、学院词汇、扩展词汇、低频词汇。
1705128449
[
上一页 ]
[ :1.7051284e+09 ]
[
下一页 ]