打字猴:1.700517729e+09
1700517729 天才与算法:人脑与AI的数学思维 [:1700514936]
1700517730 天才与算法:人脑与AI的数学思维 《危险边缘》
1700517731
1700517732 十几年前IBM的超级计算机“深蓝”战胜了国际象棋冠军加里·卡斯帕罗夫(Garry Kasparov),从他手中夺取了国际象棋的桂冠。2011年,IBM将注意力转向了与国际象棋或围棋截然不同的一个方向:挑战变幻莫测的“自然语言”——参加益智问答节目《危险边缘》[1] 。
1700517733
1700517734 《危险边缘》是一个常识问答节目。考虑到对计算机来说上网搜索维基百科是相当简单的事,这看起来不像是一个对于算法的测试。那么难点在哪里呢?更多的困难来自问答的方式。节目以一种问答倒置的方式进行,以答案的形式提问、提问的形式作答。例如,题目是“这是一个元素,在元素周期表上的序号是27,它可以制造‘绿’和‘蓝’的颜料”,答案是“是‘钴’吗?”(What is‘cobalt’?)
1700517735
1700517736 决胜《危险边缘》!这个过程包括理解、解析问题,访问大型的知识数据库,并尽快选择可能性最高的答案。《危险边缘》常常利用双关语、文字游戏、转移注意力等方法来迷惑参与者,即使是人有时也很难理解其问题的意思。由这些因素带来的模糊性使得算法几乎不可能100%准确。但对于IBM来说,它并不需要做到100%准确,只需要比其他选手好就足够了。尽管在IBM内部仍有一些人认为,把时间花在这样一个微不足道的问答游戏节目上是在浪费资源,但其他人坚持认为,赢得比赛将标志着机器在解析语言语义方面的能力有了重大提升。
1700517737
1700517738 如果卡斯帕罗夫是国际象棋之王。那布拉德·拉特(Brad Rutter)和肯·詹宁斯(Ken Jennings)就是《危险边缘》之王,他们两人都创造了非凡的战绩。詹宁斯已经连胜74场,而拉特通过该节目赢取的奖金已超过400万美元。虽然拉特一直被认为是一个“学痞”,但两人在学校的智力测验小组中都曾崭露头角。《危险边缘》中通常有三个参赛者,这两个人类的“王者”同意和IBM的算法“华生(Watson)”同台竞技。IBM的算法“华生”,不是以夏洛克·福尔摩斯的助手名字命名的,而是为了纪念该公司的第一任首席执行官托马斯·J.沃森[2] (Thomas J.Watson)。
1700517739
1700517740 2011年1月,拉特和詹宁斯在两天多的时间里勇敢地与“华生”决战。由于无法将电脑硬件设备搬到电视演播室,节目的拍摄工作不得不在位于纽约州约克城高地的IBM研究实验室进行。除了地点不一样外,节目一切如常,主持人亚历克斯·特里贝克(Alex Trebek)像往常一样主持节目并发问。节目在全美电视网上播出,让所有人看到了人类被机器超越。
1700517741
1700517742 开局阶段,人类选手发挥得不错,并在一段时间内保持了领先,但最终还是不敌IBM算法的威力。要赢得比赛不仅仅要擅长回答问题,有时也需要一定的策略:参赛者可以在最后一个题目上下赌注,这使得落后的选手有可能在最后一题时将手里的钱数翻倍,从而赢得比赛。正因为如此,“华生”也分出了一部分算力,来确保它能有效地运用所有数学技能进行下注。
1700517743
1700517744 “华生”在比赛中似乎有一个不公平的优势:抢答器。按照规则,只有先按下抢答器的选手才有资格回答问题。一开始“华生”被允许使用电子信号的方式按抢答器,而不是像人类那样按下实物按钮。但人们很快意识到,这将给“华生”带来巨大的优势。因此,在发现这个漏洞之后,“华生”就需要激活一个机械手指来按下按钮了。虽然这样使“华生”的速度稍慢了一点,但它在这方面仍然比人类快得多。就像詹宁斯说的:“如果你想赢,那么抢答器就是一切。”问题是“华生”每次都能在微秒级精确地按下抢答器。在这方面,人类的反应能力和计算机电路相比差远了。其实,这其中也有一定程度的运气因素:答题的过程中在题板上会给出所谓的“双赌法”[3] ,“华生”很幸运地在比赛中选到了。如果人类选手运气好的话,究竟鹿死谁手还不得而知呢。
1700517745
1700517746 尽管“华生”赢得了比赛,但它确实犯了一些很明显的、常识性的错误。例如,比赛中有一题是猜美国的一座城市,题面是:该城市最大的机场是以一位二战英雄的名字命名;该城市第二大机场以二战的一场战役命名。人类做出的正确回答是“芝加哥”,而“华生”却回答“多伦多”。多伦多是加拿大的一座城市,连美国的边都不挨呀!
1700517747
1700517748 负责研发“华生”的IBM研究员大卫·费鲁奇(David Ferrucci)说:“对于当时所发生的我们也了解得不够。现实状况是这样,有很多数据的标题是美国的城市,但内容确实是其他国家、欧洲城市、人物、官员……也就是说,尽管‘华生’认为某名称是美国的城市,但我们对其判别的数据特征是存疑的。”值得称道的是,“华生”也对答案不那么确定,它在自己的答案之后加上了一串问号。这个问题是需要下注的,在下注的环节,“华生”依然对自己的答案表示不那么确定,所以它下了很小的赌注。
1700517749
1700517750 在最后一个问题提出时,当时“华生”很明显已取得了胜利,故詹宁斯在回答“布拉姆·斯托克”后紧接着补充道:“欢迎我们的新电脑霸主。”这是在模仿《辛普森一家》中的桥段,该桥段是对1977年的一部B级电影——《蚂蚁帝国》(改编自H.G.威尔斯(H.G.Wells)的作品)的恶搞(该电影中的一个角色以这种方式屈服于一只巨大的昆虫)。
1700517751
1700517752 显然,“华生”并没弄明白这种幽默。
1700517753
1700517754 [1] 哥伦比亚广播公司的益智问答游戏节目,已有数十年历史。该节目以一种独特的问答形式进行,问题涵盖的知识面非常广,涉及历史、文学、艺术、流行文化、科技、体育、地理、文字游戏等领域。与一般的问答节目相反,《危险边缘》以答案的形式提问、提问的形式作答。参赛者需具备广泛的文化知识,还得解析隐晦含义、反讽与谜语等,而电脑并不擅长进行这类复杂的思考。——译者注
1700517755
1700517756 [2] “Watson”曾被译为“华生”。——译者注
1700517757
1700517758 [3] 通常指在赛马博彩中,选择两场次指定的比赛都胜出即为赢的押注法。——译者注
1700517759
1700517760
1700517761
1700517762
1700517763 天才与算法:人脑与AI的数学思维 [:1700514937]
1700517764 天才与算法:人脑与AI的数学思维 “华生”的工作模式
1700517765
1700517766 要解释“华生”的工作原理,最好的方法就是请你想象一个巨大的场景,其中有单词、名字和其他可能的答案,它们散布在各处。IBM所做的第一步是以某种连贯的方式排列单词;第二步是理解每个问题,并为该问题生成候选位置标记。
1700517767
1700517768 这个场景不同于你从窗口望出去所看到的三维世界的样子,而是一个复杂的数学场景:不同的特定属性由不同的维度衡量,这些特定的属性将决定一个单词所拥有的特性和品质。识别和选择这些特性和品质是一门艺术,例如某个词可能与地理或年代具有很强的关联,抑或与艺术或体育相关。当然,它也可能与几个不同的性质相关,在这种情况下,它的位置将被定位在这几个相关的属性之下。例如,爱因斯坦会演奏小提琴,那么他就会被定位于“科学家”和“音乐家”这两个方向。但你不会从音乐家的角度继续推演,而是会从科学家的角度继续推演。IBM团队分析了2万个样本问题,发现了大约2500种不同的答案类型,其中大约200种类型涵盖了被问到的50%以上的问题所对应的答案。
1700517769
1700517770 “华生”算法的运行要经历四个阶段的分析:
1700517771
1700517772 (1)分析问题,以确定可能的答案范围。
1700517773
1700517774 (2)在候选范围里根据问题选择大约200个可能的答案。
1700517775
1700517776 (3)评价这些可能的答案。评价过程是将这200个多维点压缩在一个数值维度上,然后对这些答案进行评分并依次排列,最后对答案的信任值进行评价。
1700517777
1700517778 (4)给出答案。当评分以及信任值评价高于一个设定的阈值时,算法就会给出建议的答案。
[ 上一页 ]  [ :1.700517729e+09 ]  [ 下一页 ]