1700517813
1700517814
鉴于输入了符合语法的句子,你可能会认为已经完成了驾驭语言的工作,逐字逐词对应地翻译就可以了。但是,简单的单词替换常常会把原意搅成一锅粥。以《包法利夫人》(Madame Bovary)中的一段为例:“La parole humaine est comme un chaudron fêléoùnous battons des mélodiesàfaire danser les ours,quand on voudrait attendrir lesétoiles.”我使用法英词典逐词翻译(因为每个词有不同意思的翻译,所以必须做出取舍):“The speech human is like a cauldron cracked where we fight of the melodies to make to dance the bears,when one would like to tenderise the stars.”(讲话人就像一口破锅,在那里,我们为了跳熊舞而战斗的旋律,当人想要软化星星的时候)。我想,这肯定不是福楼拜想要说的!这正是对于特定的语言工作机制该具有的至关重要的敏感性!当发现单词“battons”与“mélodies”连在一起出现时,我们就应该把“battons”翻译成“beat”(拍子、敲击、有规律的一连串敲打)而不是“fight”(打斗、战斗),甚至我们可以把它译成“the rhythm”(节奏、韵律)。但我仍然有一个疑惑:“tenderise the stars(软化星星)”是什么意思?
1700517815
1700517816
一个可以有效工作的翻译算法需要很好地理解词语之间的关联性和词语组合的模式。我记得在大学时,我最要好的哥们儿在学习波斯语。闲来无事,我随手翻看他的波斯语–英语词典时惊奇地发现,似乎每个单词都至少有三个完全不同的意思,此外单词还有阴性、阳性之分。将一个波斯语句子翻译成令人满意的英语句子是很费一番工夫的。
1700517817
1700517818
现代翻译算法正在深入研究语言的基本数学形态。通过试验,我们可以把语言中的单词绘制成高维几何空间中的点,然后在彼此具有结构性关系的单词之间绘制连线。例如,“men”(男人)之于“king”(国王)的意义相当于“women”(女人)之于“queen”(王后或女王)的意义。从数学上来说,连接“men”和“king”之间的线和连接“women”和“queen”之间的线一定是平行的,并且它们指向的方向都是一致的。按照这样的方式,我们最终将得到一个高维的晶体结构,有趣的是,英语和法语的晶体结构在外观上非常近似。这是为什么?我们必须弄清楚是什么使它们保持这样相当高的近似性。
1700517819
1700517820
我把《包法利夫人》中的那段话放到谷歌翻译中,看看其能不能很好地捕捉到这段话的意思。谷歌翻译的结果是:“The human word is like a cracked cauldron where we beat melodies to make the bears dance,when we want to soften the stars.”(人类的语言就像一个破裂的大锅,当我们想让星星变柔和的时候,我们会敲打旋律让熊跳舞)。“soft”这个词用在这里确实要比“tenderise”好很多,但仍不够贴切。我又尝试去看OUP(牛津大学出版社)翻译出版的世界名著系列丛书中是如何翻译的,此翻译由人工完成,译者是玛格丽特·莫尔登(Margaret Mauldon)。译文是这样的:“Human speech is like a cracked kettle on which we tap crude rhythms for bears to dance to,while we long to make music that will melt the stars.”(人类的语言就像一只裂开的鼓,我们敲着粗糙的节奏让熊跟着跳舞,而我们渴望创作出能融化星星的音乐)。[2]
1700517821
1700517822
这个过程会让你意识到,翻译不仅要选择正确的单词,重要的是要能捕捉到字里行间的情感。算法翻译只能译出“敲打旋律让熊跳舞”,而人则能翻译出“感动天上的星辰”这样的美文。大多数情况下,机器翻译只要能传达句子的意思,大体翻译一下就可以了(诗歌不在此列[3] )。作为算法翻译成功的代表,谷歌翻译目前支持103种语言,每天翻译超过1400亿个单词。
1700517823
1700517824
到什么时候,从事翻译的人会失业?或是人们不再需要整篇整篇地翻译出新的文章,而是检查订正机器翻译中的小错误?对于这样的问题,我是这样看的:实际上,在人工智能解决意识的问题之前,这些算法永远不可能达到人工翻译的水平。翻译不仅仅是语言之间的迁移,而是思想在语种之间流动。除非机器有了灵魂、生出了灵智,否则它将永远无法深刻理解并充分利用人类交流的精妙。
1700517825
1700517826
回顾对《包法利夫人》选段的翻译,我觉得谷歌翻译的“cauldron”(大锅)比玛格丽特·莫尔登翻译的“kettle”(壶、罐、鼓)好,[4] 此外,谷歌翻译的“to make the bears dance”更有冲击性和威胁性。也许最好的翻译是人机结合的翻译。
1700517827
1700517828
为了获得更准确的翻译,谷歌聘请了人工翻译人员来改进它的算法,但这并不总能带来更加令人满意的结果。总是有人在试图扰乱算法,所以谷歌有时会用错误的例子加载数据,从而改变概率,最终导致翻译的错误。类似的黑客攻击也曾发生在俄罗斯,俄罗斯联邦的官方名被翻译成了乌克兰语的“Mordor(魔多)”。魔多是奇幻作家托尔金《指环王》中的地名,位于中土世界东南方,归属黑魔王索伦(Sauron)管辖。
1700517829
1700517830
尽管存在这些问题,谷歌翻译还是越来越擅长人类语言翻译。甚至有人提议以动物交流的声音为对象,绘制高维晶体图,看看它们的图像是否与人类交流具有相同或相似的形状,以便让我们能够理解我们的宠物到底在说些什么。当我在巴黎的索尼计算实验室见证了一个非凡的语言创造力试验(吕克·斯蒂尔斯(Luc Steels)开发了可以自行开发自己语言的机器人)以后,我开始考虑这样的一个问题:我们可能需要一种新工具来帮助我们理解机器语言了。
1700517831
1700517832
[1] 1952—2001,英国著名的科幻小说作家,幽默讽刺文学的代表人物,第一个成功结合喜剧和科幻的作家。此外,他也是一位广播剧作家和音乐家。其作品《银河系漫游指南》以广播剧起家,后来发展成包括五本书的“三部曲”,还被拍成了电视连续剧。——译者注
1700517833
1700517834
[2] 以上翻译按照英文直译,如果结合其他因素,译者认为这样更好:人类的语言只像走街串巷、撂地卖艺的马戏人在戏耍狗熊时敲打的破锣,怎能痴心妄想其去感动天上的星辰?——译者注
1700517835
1700517836
[3] 诗歌除了包含意思表达,还包含语音、音韵等内容,不是简单的内容翻译就可以。——译者注
1700517837
1700517838
[4] 译者觉得译成“破锣”更好,但这种事情见仁见智,各位读者也许有更好的翻译。——译者注
1700517839
1700517840
1700517841
1700517842
1700517844
天才与算法:人脑与AI的数学思维 机器人术语
1700517845
1700517846
我去参观了斯蒂尔斯的实验室。镜子前20个机器人一字排开,它们探索着用自己的身体在镜子里做出各种形状。每当有新的动作和形状出现时,它们就创造一个新词来描述它。例如,机器人将其左臂置于水平位置,它就为这个动作起个名字(发明一个词)。每一台机器人都为自己独特的动作创造了一套属于自己的独特语言。
1700517847
1700517848
真正令人兴奋的时刻是这些机器人开始互相交流时。一个机器人从它的词典中选取一个单词,并要求另一机器人执行与该词相对应的动作。当然,第二个机器人不知道它想要什么,所以它选择一个动作作为猜测。如果猜对了,第一个机器人就会给出正向的肯定;如果没有猜对,它将向第二个机器人展示该动作。
1700517849
1700517850
第二个机器人可能已经给这个动作起了自己的名字,在这种情况下,它不会放弃自己的选择,而是会更新字典来包含这个新词。随着交互的进行,机器人会根据交互的成功程度来衡量单词的价值,对交互失败的单词进行降级处理,以减少交互的不畅。交互进行一周后,令人大为吃惊的是,一种共同的语言出现了。通过不断的更新和学习,机器人发展出了自己的语言。这种语言足够复杂,甚至包含了像代表“左”和“右”等更为抽象的单词。这些词,是在词和动作与位置的直接对应关系的基础上发展而来的。在这个试验中,任何趋同的进展都是令人兴奋的。但对我来说,真正引人注目的是:这些机器人有一种它们可以互相理解的新语言,但研究人员在试验进行的一周内一直无法理解这种语言,直到他们与机器人进行了极大量的交互,才能解译这些新词的含义。
1700517851
1700517852
斯蒂尔斯的试验为洛夫莱斯的预言提供了一个很好的反证。斯蒂尔斯编写的代码允许机器生成自己的语言,代码中出现了一些新的东西,演示证明除了机器以外,没有任何人类能够理解它们的共同语言。学习这门语言的唯一方法就是让机器人演示每个单词所对应的动作或位置。
1700517853
1700517854
谷歌的Google Brain提出了一种新的加密算法,即创建独有的语言算法,这样就可以在不被第三方窃密的情况下进行交互通信。他们在密码学的视域下进行了这样的试验:Alice的任务是向Bob发送秘密信息,Eve尝试截获并破译该秘密信息。如果Eve不能截获或破译Alice所发送的信息,则Alice得分;反之亦然。此试验中,Alice和Bob共享一个数字,这是Eve唯一不能访问的。这个数字是Alice和Bob创建代码的关键。Alice和Bob的任务是使用这个数字创建一种秘密语言,这种秘密语言只有在知道密钥的情况下才能被解密。
1700517855
1700517856
一开始Alice试图掩盖信息的企图很容易被黑掉,但经过15 000次交互以后,Bob就能解读Alice所发送的信息了,而Eve解读的概率还是跟瞎猜没任何区别。Alice和Bob使用的神经网络意味着,它们的交互很快就会被不断重新定义的语言所掩盖,所以不止Eve被挡在门外,就算是人类,即使通过查看结果代码,也不可能解读出它们正在做的交互。这些机器人可以安全地交谈,而我们人类却无法窃听它们的私语。
1700517857
1700517858
1700517859
1700517860
1700517862
天才与算法:人脑与AI的数学思维 受阻于“中文房间”试验[1]
[
上一页 ]
[ :1.700517813e+09 ]
[
下一页 ]