1705128407
1705128408
齐夫博士发现,自然语言中某个单词的使用频率数值(词频)与它的频率排名顺序的倒数成正比,这就是著名的“齐夫定律”(Zipf’s law)。比如英语单词中,使用频率排名第一的单词是”the”,它的使用频率数值为7%。也就是说,统计一下大量对话和书籍中使用的全部英语单词,发现平均100个单词中有7个the这个词;排在第二位的单词是”of”,它的使用频率为3.5%,正好是第一名的频率值的1/2;排在第三名的是”and”,它的使用频率则是第一名的1/3,也就是2.33%……下面排名单词的词频,按照这个规律递减。这样一来,排在前面的极少数单词,出现频率相当高,而排在后面的大量单词,出现概率却很低,呈现“长尾”特征。
1705128409
1705128410
1705128411
1705128412
1705128413
Vocabulary frequency chart
1705128414
1705128415
世界上各种自然语言单词的使用频率,目前都被证实基本符合齐夫定律。自然界中还有很多现象都符合齐夫定律,比如城市人口数量以及互联网网站访问量等。
1705128416
1705128417
那怎么知道某个单词的词频呢?不同的语料库有不同的词频统计。我们可以用英国国家语料库(British National Corpus,简称BNC)动态词频查询器:www.wordcount.org。
1705128418
1705128419
BNC是个巨大的对话、书籍和媒体中出现文字的集合,单词总出现量为1亿个,其中不同的单词是86800个。大家在检索栏中输入任意单词,就会看到这个单词在词库中的词频排名。
1705128420
1705128421
如下图(查询了says这个词,排名211):
1705128422
1705128423
1705128424
1705128425
1705128426
1705128427
1705128428
1705128430
词行天下:像学母语一样学英语 多用少,少用多
1705128431
1705128432
为什么少数单词被大量使用,而多数单词却被很少使用呢?齐夫博士认为,这正是省力原则的表现。在自然语言交流中的双方,存在着这样一个有趣的平衡:说话的人希望使用最少的词汇来表达最多的含义,这样自己最省力。但对于听的人来说,这样做会很难了解对方的准确语义,所以希望说的人对语言中的每个独特概念,都用不同的单词来表达,这样理解起来不会发生混淆。在两种反方向需求的共同作用下最终达到了一个平衡,结果就是少数的常用词被使用得非常频繁,多数的低频词被很少使用。
1705128433
1705128434
单词使用中“贫富分化”严重,大部分的单词都是“屌丝”。
1705128435
1705128436
在英语中,单词使用频率与其在语料库全部词汇的覆盖率关系是这样的。
1705128437
1705128438
1705128439
1705128440
1705128441
布朗语料库中词频排名与覆盖率的百分比关系
1705128442
1705128443
所以使用频率从高到低的单词数量和它们在语言中的覆盖率可以大致如下图所示。
1705128444
1705128445
1705128446
1705128447
1705128448
单词出现频率的不同,正是单词具有的不同特性的重要标志。既然英语单词在实际的使用频繁程度上落差巨大,不同单词在句子中起的作用也会因此产生很大差异,那我们对不同词频单词的学习方式理应有所区别才合理。大致按照单词使用频率从高到低来学习单词,显然是效率比较高的学习路线。大部分英语教材的编写和课程的设计,都基本上遵循这个单词的选择标准。就大部分同学需要学习的英语词汇范围来说,我们大致把单词按使用频率从高到低分为6个频段:基础词汇、核心词汇、提高词汇、学院词汇、扩展词汇、低频词汇。
1705128449
1705128450
1 基础词汇,频率排名最高的250个单词,基本上就是国内目前小学三年级英语教材中的词汇,覆盖了英语单词出现概率的60%。在频率排名第250位左右,出现了一个明显的拐点,所以我们的基础词汇以此为界。
1705128451
1705128452
2 核心词汇,频率排名251~2000,国内初中英语课本中的单词基本都在这个范围内。这时已经达到英语单词出现概率的80%。掌握这2000左右单词可以算是单词学习的一个里程碑。
1705128453
1705128454
3 提高词汇,频率排名2001~5000,高中到大学英语六级考试之间所学的词汇范围。单词出现概率达到了89%。排名2000之后的词汇,词汇覆盖变化已经比较平缓。达到5000词汇量时,英语水平算是到了中级阶段,所以我们把提高词汇定为2001到5000这个阶段。
1705128455
1705128456
既然英语单词在实际的使用频繁程度上落差巨大,不同单词在句子中起的作用也会因此产生很大差异,那我们对不同词频单词的学习方式理应有所区别才合理。大致按照单词使用频率从高到低来学习单词,显然是效率比较高的学习路线。
[
上一页 ]
[ :1.705128407e+09 ]
[
下一页 ]