1705242280
1705242281
Fuzzy Wuzzy was a bear,
1705242282
1705242283
Fuzzy Wuzzy had no hair.
1705242284
1705242285
Fuzzy Wuzzy wasn’t fuzzy,
1705242286
1705242287
Was he?
1705242288
1705242289
In fir tar is,
1705242290
1705242291
In oak none is.
1705242292
1705242293
In mud eel is,
1705242294
1705242295
In clay none is.
1705242296
1705242297
Goats eat ivy.
1705242298
1705242299
Mares eat oats.
1705242300
1705242301
有一些是老师在批阅学生的论文和作业时无意中发现的:
1705242302
1705242303
Jose Can you see by the donzerly light?(与“Oh say can you see by the dawn’s early light?”同音)
1705242304
1705242305
It’s a doggy-dog world.(“doggy-dog”与“dog-eat-dog”同音)
1705242306
1705242307
Eugene O’Neill won a Pullet Surprise.(“Pullet Surprise”与“Pulitzer Prize”同音)
1705242308
1705242309
My mother comes from Pencil Vanea.(“Pencil Vanea”与“Pennsylvania”同音)
1705242310
1705242311
He was a notor republic.(“notor republic”与“notary public”同音)
1705242312
1705242313
They played the Bohemian Rap City.(“Bohemian Rap City”与“Bohemian Rhapsody”同音)
1705242314
1705242315
即使是单词的内部音序也是一种错觉。如果对录有“cat”一音的磁带进行分切,你无法从中分离出[k]、[a]、[t]这三个片段,这三个被称为“音素”(phoneme)的单位与字母表中的字母形成了大致的对应关系。如果你将这三个音素倒着拼接起来,你听到的不会是“tack”,而是一个不知所云的声音。正如我们将要看到的,单词的每个构件所携带的语音信息都混杂于整个单词之内。
1705242316
1705242317
语音知觉是构成语言本能的另一个生物学奇迹。将口、耳作为交流工具有着极其明显的优点。我们从没有发现哪个听力正常的社群会选择用手语进行交流,虽然手语同样具有表达功能。用口说话不需要良好的照明,也不需要面对面地直视对方,从而将手和眼睛解放出来。我们既可以远距离地大声喊话,也可以凑在一起低声私语,以防被人听见。不过,在享受以声音为媒介所带来的好处时,口语也必须克服耳朵在接受信息方面存在的瓶颈。在20世纪40年代,工程师试图为盲人开发一种阅读设备,他们设计了一组与字母相对应的声音。但是,即便经过刻苦的训练,人们还是无法迅速辨认出这些声音,最多只能像老道的摩尔斯电码发报员一样,一秒钟辨认三个单位。而真实的语音感知却比这快了不知多少倍:在随意的谈话中,我们每秒可以感知10~15个音素,电视推销节目主持人的感知速度可以达到每秒20~30个音素,而人为的快速说话则可达到每秒40~50个音素。考虑到人类听觉系统的工作原理,这个速度简直不可思议。当一个类似于“滴答”的声音以20次/秒或者更快的速度不断重复时,我们就无法辨别出一个个单独的声音,而是把它们听成一串连续的长音。如果我们每秒能感知45个音素,那么这些音素就不是以声音片段的形式连续出现的,我们必须将好几个音素压缩到同一个声音片段中,然后由我们的大脑来解压。因此到目前为止,口语是通过听觉获取信息的最快方式。
1705242318
1705242319
没有任何一个人造系统可以与人类的语音解码相媲美,这并非是因为缺乏发明的必要,也不是因为没有人愿意去发明它。一台语音识别器将是四肢瘫痪者和其他残疾人士的福音,它也将更有助于专业人士将信息输入计算机,从而将他们的眼睛和手解放出来。此外,对于没学过打字的人、电话业务的客户以及越来越多肌腱劳损的打字员来说,这也是好事一桩。因此也就无怪乎工程师们已经花费了40多年的时间来研究这一问题,力图使计算机能够识别口语。但是,工程师总是被一个两难问题所困扰:如果一个系统能够听懂很多人的声音,那么它就只能识别少量的单词。例如,一些电话公司已经开始装备电话查询语音系统,它可以听懂任何人说的“yes”,甚至还有一些更为先进的系统可以识别从0到9这十个英文数字的读音(这对工程师来说已经很不容易,因为这十个数字在读音上完全不同)。但是,如果一个系统可以识别很多单词,那么它只能听懂一个人的声音。当今的语音识别系统还无法复制人类的解码能力,即不但可以听懂许多单词,也可以听懂许多人的声音。目前最为先进的语音识别系统当属“声龙听写”(DragonDictate),它是一款计算机软件,可以识别30 000个单词,不过它仍然存在明显的局限。它必须花费大量时间来适应用户的声音。你……必……须……以……这……样……的……速……度……说……话,每个单词之间必须停顿0.25秒,这只相当于日常语速的1/5。如果你使用的单词不在它的词典内,比如说一个人名,你就必须用“Alpha”“Bravo”“Charlie”这种字母代号拼写出来。此外,这个软件还存在15%的错误率,平均每句话中就会有一个以上的错误。所以,虽然“声龙听写”是一款相当出色的语音识别软件,但它的识别能力甚至不如一个二流的速记员。
1705242320
1705242321
语音背后的生理和神经机制解决了人类语言交流系统的两个问题。一个人可能认识60 000个单词,但是,一个人的嘴里不可能发出60 000个不同的音(即便可以发出,人的耳朵也无法完全分辨),因此语言又一次用到了离散组合系统的原则。句子和短语由单词构成,单词由语素构成,语素又由音素构成。然而,与单词和语素不同的是,音素对于单词整体意义的构成毫无帮助。我们无法从“d”“o”“g”的意思及其顺序中推导出“dog”(狗)一词的意思。音素是一种独特的语言单位。它与外在的语音连接,却不与内在的心语连接。每个音素都对应一种发音方式,它们构成离散组合系统中的一个独立成分,将无意义的语音组合成有意义的语素,然后再由其他成分将有意义的语素组合成有意义的单词、短语和句子。这是人类语言的基本结构,语言学家查尔斯·霍盖特(Charles Hockett)将其称为“模式二重性”(duality of patterning)。
1705242322
1705242323
不过,语言本能的语素模块并非只用于拼写语素。语言规则是一套离散组合系统:音素组合成语素,语素组合成单词,单词组合成短语。它们不能相互混合或者合并。“Dog bites man”(狗咬人)不同于“Man bites dog”(人咬狗),“believing in God”(信仰上帝)不同于“believing in Dog(信仰狗)。但是,要使这些结构从一个人的脑中传到另一个人的脑中,就必须将它们转化为声音信号。人们所发出的声音信号并非如按键式电话那样发出一串清脆的哔哔声,人们的言语是一条由气息构成的河流,并在口腔和喉头肌肉的制约下形成一个个蜿蜒曲折、清浊高下的弯道。大自然在语音上面临的问题不外乎以下两种:一是将说话者头脑中的一串离散信号编码为一串音流,即数字信号向模拟信号的转换;二是在听者头脑中将一串音流解码为一串离散信号,即模拟信号向数字信号的转换。
1705242324
1705242325
因此,语音的诞生取决于几个步骤。首先,形成一组数量有限并可以通过排列组合的方式构成单词的音素列表;其次,对这串音素进行抛光打磨,使它们易于发音,也易于理解;最后,将它们运用到实际的交流场合。我将对这些步骤做详细的解说,并告诉你它们如何塑造我们日常遇到的各种言语现象的:诗歌、耳误、口音、语音识别设备以及不可理喻的英语拼写体系。
1705242326
1705242327
1705242328
1705242329
[
上一页 ]
[ :1.70524228e+09 ]
[
下一页 ]