1700517793
1700517794
当詹宁斯得知“华生”是如何运行的时候,他大吃一惊:“电脑破解《危险边缘》的方法,听起来和我的差不多。”詹宁斯会在线索中找到关键词,然后在他的记忆中搜索,并找出与这些词相关联的一串串词(“华生”可以访问一个容量为15TB的人类知识数据库)。然后,他根据自己收集到的所有信息将它们进行关联性的考量,仔细地考虑最可能的选项。关联性的线索包括:线索中暗示的时间、地点、性别,抑或是体育、文学、政治等范畴。詹宁斯说:“对于人类选手来说,这是一个即时的、直观的过程,但我确信在这背后,我的大脑或多或少在做着同样的事情。”
1700517795
1700517796
为什么IBM要付出这么大的人力、物力、财力去赢得这样一个问答游戏比赛?这么做看起来似乎没有什么实际意义,但对于IBM和DeepMind这样的公司来说,赢得比赛为其提供了一个相当明确的成功指标。比赛要么赢要么输,没有模棱两可的暧昧。赢得比赛这件事给需要销售产品的公司提供了极好的宣传噱头,因为人人都喜欢“人机大战”的戏码。这就像一场算法的“时装秀”,让计算机公司展示自己傲人的编码能力。
1700517797
1700517798
IBM的“华生”已经改变了我们对计算机的认知——它不仅击败了所有选手问鼎《危险边缘》的冠军,还被应用于医学诊断领域。是什么让“华生”与众不同?它又有什么不同?通过我们对它的训练,“华生”对非结构化数据进行处理的能力是它最大的优势所在。此外,人们只需将文本输入“华生”,实际上就组建了一个可靠的可以理解文本内重要信息的系统。“华生”在参加《危险边缘》之前,就已经将整个维基百科进行了离线存储,以供其随时调用。此外,人类可以告知“华生”哪一个信息源更为可靠。IBM将这种成果称为“认知计算处理”,这是因为人类在此过程中的角色从调度安排转变成了训练。
1700517799
1700517800
在未来,我们将减少死记硬背的计算,更多地依靠互动和学习。算法非常聪明,只要有更多的信息,它就能够做到排除某些答案,或者提高对某些已经提供的待选答案的信心值。当“华生”在当前的应用程序中处理一个困难的问题时,它可以生成一组可能的答案集,也可以使提出的问题趋于简单明了。大多数这种问答系统都是为处理一类特定的、边界明确的问题而设计的,这就意味着它只能回答某些类型的问题,而且在输入问题时必须要以特定的方式进行措辞,方能获得算法的响应。“华生”可以处理“开放域”的问答,这意味着面对“华生”,你想问什么就可以问什么。它使用“自然语言”处理技术来分解你抛给它的词句,这样可以使算法真正理解问题,即便你在问它时使用了不寻常的方式,它也能有所回应。
1700517801
1700517802
IBM发布过一个关于“华生”和IBM DeepQA(DeepQA是“华生”在生成假设时使用的一项基础技术)的FAQ(常见问题解答),这个常见问题解答非常详尽、有用。《星际迷航》中的电脑就是一个合适的范例。这个虚拟的计算机系统可以被看作一个交互式的系统,它可以回答任何问题,还可以提供关于任何主题的精确信息。
1700517803
1700517804
[1] 加尔各答黑洞事件:加尔各答黑洞是一座用来监禁英国俘虏的场所,据说是一间环境极为恶劣的普通小土牢。1756年6月20日,被俘的146名英国人中有123人在此处因窒息死亡。此事件引起了国际争论,亦为英法两国为争夺印度半岛殖民利益所发生的纠纷战争中著名的历史事件。很多学者对此事件(即“黑洞悲剧”)进行过论述,认为未必可信。——译者注
1700517805
1700517806
1700517807
1700517808
1700517810
天才与算法:人脑与AI的数学思维 在翻译中迷失
1700517811
1700517812
虽说在学校里学习语言的时候很痛苦,但我还记得在《银河系漫游指南》(The Hitchhiker’s Guide to the Galaxy)里看到过的“巴别鱼”(babel fish)的故事。“巴别鱼”是一种黄色的、类似水蛭的小动物,当它掉到你的耳朵里时,会以脑电波为食,即时翻译出你听到的任何语种的语言。这听起来真是太棒啦!正如经常发生的那样,昨天的科幻小说已经成为今天的科学事实。谷歌最近宣布其发明了一款名为“Pixel Buds”的耳机,这发明正是道格拉斯·亚当斯[1] (Douglas Adams)梦寐以求的。
1700517813
1700517814
鉴于输入了符合语法的句子,你可能会认为已经完成了驾驭语言的工作,逐字逐词对应地翻译就可以了。但是,简单的单词替换常常会把原意搅成一锅粥。以《包法利夫人》(Madame Bovary)中的一段为例:“La parole humaine est comme un chaudron fêléoùnous battons des mélodiesàfaire danser les ours,quand on voudrait attendrir lesétoiles.”我使用法英词典逐词翻译(因为每个词有不同意思的翻译,所以必须做出取舍):“The speech human is like a cauldron cracked where we fight of the melodies to make to dance the bears,when one would like to tenderise the stars.”(讲话人就像一口破锅,在那里,我们为了跳熊舞而战斗的旋律,当人想要软化星星的时候)。我想,这肯定不是福楼拜想要说的!这正是对于特定的语言工作机制该具有的至关重要的敏感性!当发现单词“battons”与“mélodies”连在一起出现时,我们就应该把“battons”翻译成“beat”(拍子、敲击、有规律的一连串敲打)而不是“fight”(打斗、战斗),甚至我们可以把它译成“the rhythm”(节奏、韵律)。但我仍然有一个疑惑:“tenderise the stars(软化星星)”是什么意思?
1700517815
1700517816
一个可以有效工作的翻译算法需要很好地理解词语之间的关联性和词语组合的模式。我记得在大学时,我最要好的哥们儿在学习波斯语。闲来无事,我随手翻看他的波斯语–英语词典时惊奇地发现,似乎每个单词都至少有三个完全不同的意思,此外单词还有阴性、阳性之分。将一个波斯语句子翻译成令人满意的英语句子是很费一番工夫的。
1700517817
1700517818
现代翻译算法正在深入研究语言的基本数学形态。通过试验,我们可以把语言中的单词绘制成高维几何空间中的点,然后在彼此具有结构性关系的单词之间绘制连线。例如,“men”(男人)之于“king”(国王)的意义相当于“women”(女人)之于“queen”(王后或女王)的意义。从数学上来说,连接“men”和“king”之间的线和连接“women”和“queen”之间的线一定是平行的,并且它们指向的方向都是一致的。按照这样的方式,我们最终将得到一个高维的晶体结构,有趣的是,英语和法语的晶体结构在外观上非常近似。这是为什么?我们必须弄清楚是什么使它们保持这样相当高的近似性。
1700517819
1700517820
我把《包法利夫人》中的那段话放到谷歌翻译中,看看其能不能很好地捕捉到这段话的意思。谷歌翻译的结果是:“The human word is like a cracked cauldron where we beat melodies to make the bears dance,when we want to soften the stars.”(人类的语言就像一个破裂的大锅,当我们想让星星变柔和的时候,我们会敲打旋律让熊跳舞)。“soft”这个词用在这里确实要比“tenderise”好很多,但仍不够贴切。我又尝试去看OUP(牛津大学出版社)翻译出版的世界名著系列丛书中是如何翻译的,此翻译由人工完成,译者是玛格丽特·莫尔登(Margaret Mauldon)。译文是这样的:“Human speech is like a cracked kettle on which we tap crude rhythms for bears to dance to,while we long to make music that will melt the stars.”(人类的语言就像一只裂开的鼓,我们敲着粗糙的节奏让熊跟着跳舞,而我们渴望创作出能融化星星的音乐)。[2]
1700517821
1700517822
这个过程会让你意识到,翻译不仅要选择正确的单词,重要的是要能捕捉到字里行间的情感。算法翻译只能译出“敲打旋律让熊跳舞”,而人则能翻译出“感动天上的星辰”这样的美文。大多数情况下,机器翻译只要能传达句子的意思,大体翻译一下就可以了(诗歌不在此列[3] )。作为算法翻译成功的代表,谷歌翻译目前支持103种语言,每天翻译超过1400亿个单词。
1700517823
1700517824
到什么时候,从事翻译的人会失业?或是人们不再需要整篇整篇地翻译出新的文章,而是检查订正机器翻译中的小错误?对于这样的问题,我是这样看的:实际上,在人工智能解决意识的问题之前,这些算法永远不可能达到人工翻译的水平。翻译不仅仅是语言之间的迁移,而是思想在语种之间流动。除非机器有了灵魂、生出了灵智,否则它将永远无法深刻理解并充分利用人类交流的精妙。
1700517825
1700517826
回顾对《包法利夫人》选段的翻译,我觉得谷歌翻译的“cauldron”(大锅)比玛格丽特·莫尔登翻译的“kettle”(壶、罐、鼓)好,[4] 此外,谷歌翻译的“to make the bears dance”更有冲击性和威胁性。也许最好的翻译是人机结合的翻译。
1700517827
1700517828
为了获得更准确的翻译,谷歌聘请了人工翻译人员来改进它的算法,但这并不总能带来更加令人满意的结果。总是有人在试图扰乱算法,所以谷歌有时会用错误的例子加载数据,从而改变概率,最终导致翻译的错误。类似的黑客攻击也曾发生在俄罗斯,俄罗斯联邦的官方名被翻译成了乌克兰语的“Mordor(魔多)”。魔多是奇幻作家托尔金《指环王》中的地名,位于中土世界东南方,归属黑魔王索伦(Sauron)管辖。
1700517829
1700517830
尽管存在这些问题,谷歌翻译还是越来越擅长人类语言翻译。甚至有人提议以动物交流的声音为对象,绘制高维晶体图,看看它们的图像是否与人类交流具有相同或相似的形状,以便让我们能够理解我们的宠物到底在说些什么。当我在巴黎的索尼计算实验室见证了一个非凡的语言创造力试验(吕克·斯蒂尔斯(Luc Steels)开发了可以自行开发自己语言的机器人)以后,我开始考虑这样的一个问题:我们可能需要一种新工具来帮助我们理解机器语言了。
1700517831
1700517832
[1] 1952—2001,英国著名的科幻小说作家,幽默讽刺文学的代表人物,第一个成功结合喜剧和科幻的作家。此外,他也是一位广播剧作家和音乐家。其作品《银河系漫游指南》以广播剧起家,后来发展成包括五本书的“三部曲”,还被拍成了电视连续剧。——译者注
1700517833
1700517834
[2] 以上翻译按照英文直译,如果结合其他因素,译者认为这样更好:人类的语言只像走街串巷、撂地卖艺的马戏人在戏耍狗熊时敲打的破锣,怎能痴心妄想其去感动天上的星辰?——译者注
1700517835
1700517836
[3] 诗歌除了包含意思表达,还包含语音、音韵等内容,不是简单的内容翻译就可以。——译者注
1700517837
1700517838
[4] 译者觉得译成“破锣”更好,但这种事情见仁见智,各位读者也许有更好的翻译。——译者注
1700517839
1700517840
1700517841
1700517842
[
上一页 ]
[ :1.700517793e+09 ]
[
下一页 ]