打字猴:1.707606181e+09

1707606181

1707606182 在整个19世纪和20世纪初期，改进版本的声音生成器不断推陈出新。最成功的例子是贝尔实验室于20世纪20年代推出的声码器。声码器可以用来给信息加密，或者把普通的语音压缩为特定频宽的格式。但是声码器的设计过于复杂，并没有得到实际的应用。

1707606183

1707606184 计算机除了发出声音以外还有其他潜力。在信息技术的历史上，让计算机发出声音是非常原始的想法。计算机科学家艾伦·图灵在曼彻斯特大学的计算机上首次用程序生成音乐。那台计算机连接着一个扩音器，当计算机出错的时候，一声警报会随之响起。图灵意识到，他可以对这个功能进行编程，让它产生微弱的嘀嘀声。如果一秒钟内的播放频率可以达到1 000次，嘀嘀声的不同频率就会产生不同的音调。虽然这项技术常被误认为是贝尔实验室于1957年发明的，但是第一段由计算机生成的音乐的确是出现于1950年曼彻斯特大学的“自动计算机”（ACE）上，由图灵手动编程实现的（图灵只是想用不同的音调表达不同的反馈信息）。

1707606185

1707606186 虽然在拍摄《2001太空漫游》电影的时候，已经有很多关于语音系统的理论，但却没有太多关于如何生成合成语音的研究。20世纪70年代以后，计算机越来越便宜，计算机语音系统的商业潜力也随之越来越大。从20世纪70年代英国物理学家斯蒂芬·霍金使用的声音生成系统到当代更加先进的语音系统，电子发声技术与时俱进。但要想让计算机像Hal一样与人交谈（电影中的Hal毕竟是由真人配音），我们还有很长的路要走。

1707606187

1707606188 语音合成技术固然重要，但让计算机按照声音指令做出反应在技术上更困难。我们已经实现了一些技术突破。毕竟，手机上安装的导航系统清晰易懂，语音助手Siri也能按照我们的语音命令做事。但是，手机并没有Hal那么复杂的结构，也没有Hal储存和处理大数据的能力。

1707606189

1707606190 仔细想想，Siri的交流能力其实非常有限，虽然Siri的设计者设计了一些有趣的问答。当我对着手机说“把舱门打开，Hal”（电影中，说这句话的宇航员戴夫·鲍曼直面Hal，穿着太空服但是没戴头盔）时，Siri的回答呼应了电影的场景：“没戴头盔的话，我开门你会……喘不上气的。”当我让Siri像影片结尾的Hal那样唱“黛西，黛西”时，Siri说：“你不会喜欢的。”

1707606191

1707606192 制定时间表、在网上查信息、导航、放音乐，诸如此类的功能让Siri更像一个电子秘书。Siri并不能真正和人对话，它不理解词语背后的真正含义，也不理解音调不同会产生不同的意思。虽然Siri的语音识别能力很强，但有时候它也会遇到困难。Siri不能很好地识别不标准的口音，现在的语音识别系统都不太能有效地识别英国格拉斯哥或者美国缅因等地区的口音。语音识别系统还必须有能力处理我们在平常说话时下意识使用的俚语和连音。

1707606193

1707606194 这并不是说，机器不可能理解人类的语言。下面这句话是我利用苹果电脑的内置语音系统录入的：“the factors as you can see it can slip up（就像你看到的这些因素，语音识别系统并不总是有效）。”但我实际上说的是：“But the fact is, as you can see, it can slip up（事实上，就像你看到的，语音识别系统并不总是有效）。”类似于“但是”一类的转折词会把一句话一分为二，然而，“fact is”（事实上）和“factors”（因素）在英式英语中的发音非常相似。现今的计算机语音识别系统可以达到99%的准确率，尽管如此，相较于人类，计算机在语音识别方面还是很容易出错。优化语音识别的方式之一是，让软件识别某个人的发音技巧。

1707606195

1707606196 计算机面对的一个问题是，无法理解上下文。我们在听某个人说话的时候，会习惯性地把某个词语放在整个对话的背景中去思考它的意思。有些同音字必须得借助上下文才能准确理解意思。这一点在跨语言互译方面尤其重要。如果我对着计算机阅读文字，那么我一眼看过去就能发现同音字错误；但如果我只是在听自动翻译机器的翻译，那么我不可能知道哪儿出错了。科幻作品中常常出现这样的翻译机器，比如《神秘博士》中由塔迪斯发明的宇宙通用的心电转换器。翻译必将成为计算机语言能力的重要方面。

1707606197

1707606198 Hal绝不是一个译者，但我完全相信它有翻译的能力。手机上的谷歌翻译可以或多或少地完成信息分析的工作。我对着手机说：“最近的超市在哪儿？”手机屏幕上准确地出现了这句话，或者手机会大声复述我的问题。这一切都让我清楚地知道，我会得到我想要的答案。也许这句话并不算日常用语，可是手机知道我想问什么。对话肯定更加复杂，在对话的背景下，谷歌翻译就不那么可信了。在联合国大会上，现在还不能只靠机器翻译推进多方会谈。

1707606199

1707606200 包括加拿大发明家亚历山大·格雷厄姆·贝尔在内的很多人都尝试过用机械的方法分解语音（当然，罗杰·培根的铜人头像之类的东西应该不仅能分解语音，还能理解语义），计算机的出现让这一切成为现实。1952年，贝尔实验室制造出第一台语音识别器。好消息是，这台识别器的准确率可以达到97%；坏消息是，这台机器只能识别数字。这个问题在日常生活中的电话自动答复系统中也颇为常见，并广受诟病。

1707606201

1707606202 20世纪90年代末期，语音识别专家雷·库兹韦尔论述了Hal的能力，并称有望在2001年前在个人电脑上实现语音操作功能。但是，这样的语音操作系统并没有得到普及。库兹韦尔的计划比他预想的慢得多，甚至可能永远不会实现。虽然苹果台式机上自带的语音操作系统很好用，但我却不经常使用。很多用苹果电脑的人甚至不知道自己的电脑里有语音操作系统。

1707606203

1707606204 这是因为语音识别的先驱者过于关注分解语音，而忽略了这项技术也要有些实际的用途。我们当然可以问电脑，“我明天的时间安排是什么”，但如果你的身体没有不便，打字肯定比对着电脑说话更简单。对于我们中的大多数人来说，电脑的语音操作功能不是一个自然的过程，因为电脑不像人类的秘书那样灵活机动、随机应变，我们也不会自然地说出完整、缜密的可行性命令。

1707606205

1707606206 如果软件不仅可以把声音转换成文字，还可以有效理解文意，情况就不一样了。理解文意从技术上来说非常难。Hal听到声音后，可以解析其中的含义，并做出相应的回复或者执行指令。现在常见的车载语音系统则常常会错意，因此成为喜剧里常见的笑料。在没有干扰的情况下对着电话的麦克风清楚地提出问题是一回事，边开车边在嘈杂的环境中对着车载语音系统说出指令又是另外一回事。在通常的对话环境中，中途打断最简单的语句也可能会造成误解。

1707606207

1707606208 一个能真正理解语句的计算机必定有很多用处。在20世纪80年代，由百事公司前总裁约翰·斯卡利领导的苹果公司常被批评，直到史蒂夫·乔布斯回归掌舵，苹果公司才重拾创造力。但是，在斯卡利仍在位的1987年，苹果公司在某段视频短片中提出了“知识领航员”的模糊概念。“知识领航员”是一个个人电子助理，但是和Siri不同，“知识领航员”可以理解复杂的命令，比如“让我看看上学期的笔记”，或者搜索某篇论文，甚至是某个朋友刚发表的一篇相关文章。短片中展现的一些其他功能，比如复述行程安排，确实有些过时了，但是“知识领航员”展示出了解析语义并据此行动的能力。

1707606209

1707606210 Hal比“知识领航员”的行动力更强。Hal在日常交谈中和真正的人类无异。在日常交谈中，语境远比遣词造句重要。在过去的几十年中，让计算机语音系统十分困惑的句子是“Fruit flies like an apple”。对这句话进行语音识别并不难，我是用苹果电脑自带的语音系统录入这句话的。但这句话到底是什么意思呢？不考虑语境将很难说清楚。你可以理解为“果蝇喜欢苹果”，也可以理解为“水果能像苹果一样飞”。

1707606211

1707606212 这种特殊的句子不会经常出现在对话中，然而毋庸置疑，让计算机仅通过对话去理解人们想表达的意思有一定困难。计算机科学家艾伦·图灵提出了判断机器是否具有智能的测试方法。机器和测试者分处两个房间，测试者通过提出问题来判断位于另一个房间里的是人还是机器。（图灵最早提出的测试方法更加复杂，以上是简化的做法。）在之后的几十年里，计算机科学家尝试挑战所谓的“图灵测试”，计算机通过图灵测试的报道屡见不鲜。事实上，计算机从未通过图灵测试，这可能还需要10—20年的时间才能实现。

1707606213

1707606214 虽然电影中的Hal肯定可以通过图灵测试（但电影中少言寡语的宇航员戴夫是否可以通过图灵测试就不好说了），但是现有的图灵测试的结构决定了它的可信度并不高。现有的图灵测试并不能检测图灵当年提出的计算机类似人类的交流能力。图灵测试的常用流程是，机器和测试者完成一段5分钟的谈话，如果机器在超过30%的时间里被错认为人类，就意味着机器“通过”了图灵测试。因此，许多软件并不是为了实现和人类的交流而设计的，它们只是为了通过测试。

1707606215

1707606216 聊天机器人的鼻祖之一是名为“伊莉莎”的软件。《2001太空漫游》上映不到两年，伊莉莎面世。它的程序很短，但却可以进行还算合理（有时也让人着急上火）的对话。这个程序取巧的办法在于，它扮演的是心理医生的角色，所以它会复述你对它说的话，但它不提供新的信息，也不回答你的问题。考虑到伊莉莎只有不到400行程序代码，它的功能已经足以让人啧啧称奇了。

1707606217

1707606218 类似的项目进展迅速。（这并不出人意料，在我写作本书时，伊莉莎已经出现将近50年了。）2014年，一个叫作“尤金·戈斯特曼”的程序假扮为一个英语非母语的13岁乌克兰小男孩，通过了图灵测试。但我没能找到戈斯特曼聊天程序，于是我和另一个技术领先的聊天程序Cleverbot有了如下的对话：

1707606219

1707606220 布赖恩（本书作者）：喂，你好吗？

1707606221

1707606222 Cleverbot：我很好，你呢？

1707606223

1707606224 布赖恩：就那样，天气实在太热了。

1707606225

1707606226 Cleverbot：你为什么不喜欢热呢？

1707606227

1707606228 布赖恩：因为它让我觉得不舒服。

1707606229

1707606230 Cleverbot：这个理由太逊了！

[ 上一页 ] [ :1.707606181e+09 ] [ 下一页 ]