打字猴:1.705242496e+09
1705242496 语言本能:人类语言进化的奥秘 [:1705239628]
1705242497 语言本能:人类语言进化的奥秘 为什么语音识别如此之难
1705242498
1705242499 那么,为什么我们已经可以将人送上月球,却制造不出一台具有听读功能的计算机呢?根据我前面的解释,每个音素都拥有一个专有的听觉签名:对元音来说是一组共振,对擦音来说是一段噪声,对塞音来说是一个气流的爆破过程。按部就班的音位规则以可预测的方式对音素的排列次序进行规范调整。假设我们可以循着这些规则原路返回,想必就可以回到最初的起点。
1705242500
1705242501 语音识别之所以如此困难,是因为人类的大脑和口头之间存在许多龃龉之处。世界上没有两个人的声音是相同的,无论是声道形状还是发音习惯,都存在个体差异。说话的语气和速度也会影响音素的听觉效果。在快速交谈的时候,许多音素会被直接略过。
1705242502
1705242503 但是,为什么我们目前还无法制造出一台电子速记设备?主要原因就是一种肌肉控制现象的存在:“协同发音”(coarticulation)。假设在你面前放一个碟子,在碟子旁边30厘米的地方放一个咖啡杯。现在要求你快速地触碰一下碟子,然后再拿起咖啡杯。显然,你会选择触碰离咖啡杯最近的碟子边缘,而不会触碰碟子的中心。而且,在你的手伸向碟子的同时,你的手指就已经做出了触碰碟子边缘的姿势。这一组平稳、自然的重叠动作是运动控制的一个普遍现象,它缩小了身体移动的必要力量,降低了关节的劳损度。在这一点上,舌头与喉头也不例外。当我们要发一个音素的音时,我们的舌头无法瞬间判断出自己应该抵达的目标位置。舌头是一块分量不轻的肉,它的移动需要一定的时间。因此在舌头移动的过程中,我们的大脑就已经通过轨道的计算,预测出了它的下一个位置,正如触碰碟子、拿起咖啡杯的操作一样。在条件允许的范围内,我们总是将舌头放在离下一个音素的发音位置最近的地方。如果当前的音素并没有要求发音器官必须处于怎样的状态,我们就会预测下一个音素的发音位置,并将发音器官提前摆好。但大多数人根本察觉不到这种调整,除非被有意提醒。请念一下“Cape Cod”(科德角),如果不是本书提醒,你可能永远都不会注意到这一点:在发这两个[k]音时,舌面的位置其实不同。此外,“horseshoe”中的第一个[s]音变成了[sh]音,“NPR”中的[n]音变成了[m]音,“month”和“width”中的[n]音和[d]音的发音位置是齿部,而不是通常的齿龈。
1705242504
1705242505 由于声波对共振腔的形状极其敏感,因此这种协同发音会对语音造成严重干扰。每个音素的语音特征都染上了前后音素的色彩,有时在其他音素的组合下甚至会丧失自己的语音特征。这就是为什么我们无法将录有“cat”一词的磁带进行剪裁,从中找出包含一个单独的[k]音的片段的原因。当你一路剪下去时,你得到的片段最终会从一个类似[ka]的音演变为类似一声“喳喳”声或口哨的声音。从理论上说,语流中的音素叠加现象对语音识别器来说是一个福音。正如我在本章开头部分提到的,辅音和元音的信号被同时传递出来,这极大地提高了音素的发音速度。此外,我们可以为每个给定的音素找到大量羡余的声音线索。但是,只有高度发达的语音识别器才能享受这一便利,这个识别器必须对声道的混音机制有所了解。
1705242506
1705242507 显然,人类的大脑就是这样一台高度发达的语音识别器,但没有人知道它是如何做到的。出于这个原因,研究语音知觉的心理学家和设计语音识别装置的工程师密切关注着彼此的研究工作。语音识别的难度大得惊人,从理论上说,我们或许只能找到仅有的几条解决方案。在这种情况下,大脑的工作原理可以为语音识别装置的设计提供最好的参考,反过来说,一台语音识别装置也可以帮助我们了解大脑的工作原理。
1705242508
1705242509 在言语研究的早期阶段,人们已经发现听者能够预测说话者可能要说的内容。这种预测可以缩小听者对语音信号的分析范围。我们已经注意到,音位规则能够提供一种可资利用的羡余度,但人类的能力并非仅限于此。心理学家乔治·米勒曾用磁带播放出一些夹杂着背景噪声的句子,并要求被试复述他们听到的内容。其中一些句子符合英语语法且合乎情理:
1705242510
1705242511 Furry wildcats fight furious battles.
1705242512
1705242513 毛茸茸的野猫们发生了激烈的搏斗。
1705242514
1705242515 Respectable jewelers give accurate appraisals.
1705242516
1705242517 受人尊敬的珠宝商给出了准确的鉴定。
1705242518
1705242519 Lighted cigarettes create smoky fumes.
1705242520
1705242521 点燃的香烟散发出呛人的烟雾。
1705242522
1705242523 Gallant gentlemen save distressed damsels.
1705242524
1705242525 勇敢的绅士们解救了受困的少女。
1705242526
1705242527 Soapy detergents dissolve greasy stains.
1705242528
1705242529 柔滑的洗涤剂溶解了油污。
1705242530
1705242531 而另一些句子则像“无颜的绿色念头”一样,由单词胡乱拼凑成短语,虽然符合语法,但意思却十分荒谬:
1705242532
1705242533 Furry jewelers create distressed stains.
1705242534
1705242535 毛茸茸的珠宝商们散发出受困的污渍。
1705242536
1705242537 Respectable cigarettes save greasy battles.
1705242538
1705242539 受人尊敬的香烟解救了油腻的战斗。
1705242540
1705242541 Lighted gentlemen dissolve furious appraisals.
1705242542
1705242543 点燃的绅士们溶解了激烈的鉴定。
1705242544
1705242545 Gallant detergents fight accurate fumes.
[ 上一页 ]  [ :1.705242496e+09 ]  [ 下一页 ]