1705242272
1705242273
Mairzey doats and dozey doats
1705242274
1705242275
And little lamsey divey,
1705242276
1705242277
A kiddley-divey do,
1705242278
1705242279
Wouldn’t you?
1705242280
1705242281
Fuzzy Wuzzy was a bear,
1705242282
1705242283
Fuzzy Wuzzy had no hair.
1705242284
1705242285
Fuzzy Wuzzy wasn’t fuzzy,
1705242286
1705242287
Was he?
1705242288
1705242289
In fir tar is,
1705242290
1705242291
In oak none is.
1705242292
1705242293
In mud eel is,
1705242294
1705242295
In clay none is.
1705242296
1705242297
Goats eat ivy.
1705242298
1705242299
Mares eat oats.
1705242300
1705242301
有一些是老师在批阅学生的论文和作业时无意中发现的:
1705242302
1705242303
Jose Can you see by the donzerly light?(与“Oh say can you see by the dawn’s early light?”同音)
1705242304
1705242305
It’s a doggy-dog world.(“doggy-dog”与“dog-eat-dog”同音)
1705242306
1705242307
Eugene O’Neill won a Pullet Surprise.(“Pullet Surprise”与“Pulitzer Prize”同音)
1705242308
1705242309
My mother comes from Pencil Vanea.(“Pencil Vanea”与“Pennsylvania”同音)
1705242310
1705242311
He was a notor republic.(“notor republic”与“notary public”同音)
1705242312
1705242313
They played the Bohemian Rap City.(“Bohemian Rap City”与“Bohemian Rhapsody”同音)
1705242314
1705242315
即使是单词的内部音序也是一种错觉。如果对录有“cat”一音的磁带进行分切,你无法从中分离出[k]、[a]、[t]这三个片段,这三个被称为“音素”(phoneme)的单位与字母表中的字母形成了大致的对应关系。如果你将这三个音素倒着拼接起来,你听到的不会是“tack”,而是一个不知所云的声音。正如我们将要看到的,单词的每个构件所携带的语音信息都混杂于整个单词之内。
1705242316
1705242317
语音知觉是构成语言本能的另一个生物学奇迹。将口、耳作为交流工具有着极其明显的优点。我们从没有发现哪个听力正常的社群会选择用手语进行交流,虽然手语同样具有表达功能。用口说话不需要良好的照明,也不需要面对面地直视对方,从而将手和眼睛解放出来。我们既可以远距离地大声喊话,也可以凑在一起低声私语,以防被人听见。不过,在享受以声音为媒介所带来的好处时,口语也必须克服耳朵在接受信息方面存在的瓶颈。在20世纪40年代,工程师试图为盲人开发一种阅读设备,他们设计了一组与字母相对应的声音。但是,即便经过刻苦的训练,人们还是无法迅速辨认出这些声音,最多只能像老道的摩尔斯电码发报员一样,一秒钟辨认三个单位。而真实的语音感知却比这快了不知多少倍:在随意的谈话中,我们每秒可以感知10~15个音素,电视推销节目主持人的感知速度可以达到每秒20~30个音素,而人为的快速说话则可达到每秒40~50个音素。考虑到人类听觉系统的工作原理,这个速度简直不可思议。当一个类似于“滴答”的声音以20次/秒或者更快的速度不断重复时,我们就无法辨别出一个个单独的声音,而是把它们听成一串连续的长音。如果我们每秒能感知45个音素,那么这些音素就不是以声音片段的形式连续出现的,我们必须将好几个音素压缩到同一个声音片段中,然后由我们的大脑来解压。因此到目前为止,口语是通过听觉获取信息的最快方式。
1705242318
1705242319
没有任何一个人造系统可以与人类的语音解码相媲美,这并非是因为缺乏发明的必要,也不是因为没有人愿意去发明它。一台语音识别器将是四肢瘫痪者和其他残疾人士的福音,它也将更有助于专业人士将信息输入计算机,从而将他们的眼睛和手解放出来。此外,对于没学过打字的人、电话业务的客户以及越来越多肌腱劳损的打字员来说,这也是好事一桩。因此也就无怪乎工程师们已经花费了40多年的时间来研究这一问题,力图使计算机能够识别口语。但是,工程师总是被一个两难问题所困扰:如果一个系统能够听懂很多人的声音,那么它就只能识别少量的单词。例如,一些电话公司已经开始装备电话查询语音系统,它可以听懂任何人说的“yes”,甚至还有一些更为先进的系统可以识别从0到9这十个英文数字的读音(这对工程师来说已经很不容易,因为这十个数字在读音上完全不同)。但是,如果一个系统可以识别很多单词,那么它只能听懂一个人的声音。当今的语音识别系统还无法复制人类的解码能力,即不但可以听懂许多单词,也可以听懂许多人的声音。目前最为先进的语音识别系统当属“声龙听写”(DragonDictate),它是一款计算机软件,可以识别30 000个单词,不过它仍然存在明显的局限。它必须花费大量时间来适应用户的声音。你……必……须……以……这……样……的……速……度……说……话,每个单词之间必须停顿0.25秒,这只相当于日常语速的1/5。如果你使用的单词不在它的词典内,比如说一个人名,你就必须用“Alpha”“Bravo”“Charlie”这种字母代号拼写出来。此外,这个软件还存在15%的错误率,平均每句话中就会有一个以上的错误。所以,虽然“声龙听写”是一款相当出色的语音识别软件,但它的识别能力甚至不如一个二流的速记员。
1705242320
1705242321
语音背后的生理和神经机制解决了人类语言交流系统的两个问题。一个人可能认识60 000个单词,但是,一个人的嘴里不可能发出60 000个不同的音(即便可以发出,人的耳朵也无法完全分辨),因此语言又一次用到了离散组合系统的原则。句子和短语由单词构成,单词由语素构成,语素又由音素构成。然而,与单词和语素不同的是,音素对于单词整体意义的构成毫无帮助。我们无法从“d”“o”“g”的意思及其顺序中推导出“dog”(狗)一词的意思。音素是一种独特的语言单位。它与外在的语音连接,却不与内在的心语连接。每个音素都对应一种发音方式,它们构成离散组合系统中的一个独立成分,将无意义的语音组合成有意义的语素,然后再由其他成分将有意义的语素组合成有意义的单词、短语和句子。这是人类语言的基本结构,语言学家查尔斯·霍盖特(Charles Hockett)将其称为“模式二重性”(duality of patterning)。
[
上一页 ]
[ :1.705242272e+09 ]
[
下一页 ]