打字猴:1.700517759e+09
1700517759
1700517760
1700517761
1700517762
1700517763 天才与算法:人脑与AI的数学思维 [:1700514937]
1700517764 天才与算法:人脑与AI的数学思维 “华生”的工作模式
1700517765
1700517766 要解释“华生”的工作原理,最好的方法就是请你想象一个巨大的场景,其中有单词、名字和其他可能的答案,它们散布在各处。IBM所做的第一步是以某种连贯的方式排列单词;第二步是理解每个问题,并为该问题生成候选位置标记。
1700517767
1700517768 这个场景不同于你从窗口望出去所看到的三维世界的样子,而是一个复杂的数学场景:不同的特定属性由不同的维度衡量,这些特定的属性将决定一个单词所拥有的特性和品质。识别和选择这些特性和品质是一门艺术,例如某个词可能与地理或年代具有很强的关联,抑或与艺术或体育相关。当然,它也可能与几个不同的性质相关,在这种情况下,它的位置将被定位在这几个相关的属性之下。例如,爱因斯坦会演奏小提琴,那么他就会被定位于“科学家”和“音乐家”这两个方向。但你不会从音乐家的角度继续推演,而是会从科学家的角度继续推演。IBM团队分析了2万个样本问题,发现了大约2500种不同的答案类型,其中大约200种类型涵盖了被问到的50%以上的问题所对应的答案。
1700517769
1700517770 “华生”算法的运行要经历四个阶段的分析:
1700517771
1700517772 (1)分析问题,以确定可能的答案范围。
1700517773
1700517774 (2)在候选范围里根据问题选择大约200个可能的答案。
1700517775
1700517776 (3)评价这些可能的答案。评价过程是将这200个多维点压缩在一个数值维度上,然后对这些答案进行评分并依次排列,最后对答案的信任值进行评价。
1700517777
1700517778 (4)给出答案。当评分以及信任值评价高于一个设定的阈值时,算法就会给出建议的答案。
1700517779
1700517780 以上过程要在短短的几秒钟之内完成,不然人类选手将会抢先按下抢答器。
1700517781
1700517782 让我们考量这样的问题:
1700517783
1700517784 黑洞[1] (THE HOLE TRUTH):1756年6月20日夜,亚洲地区,众所周知的不好的事件。
1700517785
1700517786 答案是:加尔各答黑洞事件。在这一题里,该答案的时间和地点的评分很高,大概同一时间、同一区域也发生了其他的不好的事件。答案中“hole”这个单词,更加有助于“华生”的评价。到这一步时,“加尔各答黑洞事件”的评分和信任值评价就远高于在同一时间、同一区域内发生的其他事件了。所以“华生”给出了正确的答案。
1700517787
1700517788 当出现“写作”“作曲”“笔”“出版”这样的词语时,算法将推动你走向艺术创作的范围。“普希金写成的第一首诗”这个线索会把我们引向“作者”所在的答案区域。一旦选定了200个候选选项,算法马上会开始对这些候选选项进行评分,这个过程就需要仔细权衡所选取的每个答案的不同维度的权重。算法必须要找出一种方法来衡量假定的答案与问题的接近程度。能与维基百科中的内容进行准确的语义匹配的数据,在其他限制因素也匹配的情况下,很可能会得到非常高的分数。例如,“人,男性,1594年,安达卢西亚,做税务员”。关于这个问题,答案“梭罗”和“塞万提斯”在语义匹配上的得分都很高。但是,“塞万提斯”生卒年信息是“1547—1616”,而“梭罗”生于1817年,故“塞万提斯”比“梭罗”在时间维度上更匹配,所以在时间维度上“塞万提斯”得分更高。
1700517789
1700517790 “华生”研究团队提出了50种不同的评分模型。在未知评分情况的状态下,“华生”会广泛地选择候选答案:采用广泛撒网、重点培养的模式运作,即先倾向于选择包含多种可能的答案,然后利用评分机制选取得分靠前的几个选项。这有点像选择旅店入住。首先你需要选择想入住的区域,并搜集该区域所有旅店的信息。这时你会根据网上的价格和评价信息进行选择,但这样的选择方式就很有可能有利于一家值得入住但位置偏远的旅店。
1700517791
1700517792 该算法进行评分的方式允许它以自下而上的方式从错误中学习并细化参数,有点像转动刻度盘来重新定义函数。这其中的艺术在于算法试图为你拨动的刻度盘找到最佳的设置,在尽可能多的不同的背景下得到正确的答案。让我们考量一下这样一个问题:“国家,与智利的陆地国界最长。”与智利接壤的国家有两个,分别是阿根廷和玻利维亚。对于这两个候选答案,你如何进行评分呢?如果其中一个经常出现在人们的视野里,那么人们就有可能给它更高的分数。在这种情况下,玻利维亚可能会得到更高的分数,因为智利和玻利维亚在边界问题上有很多纷争,新闻报道上进行着长篇累牍的报道。但如果使用更具有地理性质的原始资料数据,并对这两个国家在出版物中被提及的次数进行评分,那么阿根廷的得分就会高很多,因为它就是正确答案。
1700517793
1700517794 当詹宁斯得知“华生”是如何运行的时候,他大吃一惊:“电脑破解《危险边缘》的方法,听起来和我的差不多。”詹宁斯会在线索中找到关键词,然后在他的记忆中搜索,并找出与这些词相关联的一串串词(“华生”可以访问一个容量为15TB的人类知识数据库)。然后,他根据自己收集到的所有信息将它们进行关联性的考量,仔细地考虑最可能的选项。关联性的线索包括:线索中暗示的时间、地点、性别,抑或是体育、文学、政治等范畴。詹宁斯说:“对于人类选手来说,这是一个即时的、直观的过程,但我确信在这背后,我的大脑或多或少在做着同样的事情。”
1700517795
1700517796 为什么IBM要付出这么大的人力、物力、财力去赢得这样一个问答游戏比赛?这么做看起来似乎没有什么实际意义,但对于IBM和DeepMind这样的公司来说,赢得比赛为其提供了一个相当明确的成功指标。比赛要么赢要么输,没有模棱两可的暧昧。赢得比赛这件事给需要销售产品的公司提供了极好的宣传噱头,因为人人都喜欢“人机大战”的戏码。这就像一场算法的“时装秀”,让计算机公司展示自己傲人的编码能力。
1700517797
1700517798 IBM的“华生”已经改变了我们对计算机的认知——它不仅击败了所有选手问鼎《危险边缘》的冠军,还被应用于医学诊断领域。是什么让“华生”与众不同?它又有什么不同?通过我们对它的训练,“华生”对非结构化数据进行处理的能力是它最大的优势所在。此外,人们只需将文本输入“华生”,实际上就组建了一个可靠的可以理解文本内重要信息的系统。“华生”在参加《危险边缘》之前,就已经将整个维基百科进行了离线存储,以供其随时调用。此外,人类可以告知“华生”哪一个信息源更为可靠。IBM将这种成果称为“认知计算处理”,这是因为人类在此过程中的角色从调度安排转变成了训练。
1700517799
1700517800 在未来,我们将减少死记硬背的计算,更多地依靠互动和学习。算法非常聪明,只要有更多的信息,它就能够做到排除某些答案,或者提高对某些已经提供的待选答案的信心值。当“华生”在当前的应用程序中处理一个困难的问题时,它可以生成一组可能的答案集,也可以使提出的问题趋于简单明了。大多数这种问答系统都是为处理一类特定的、边界明确的问题而设计的,这就意味着它只能回答某些类型的问题,而且在输入问题时必须要以特定的方式进行措辞,方能获得算法的响应。“华生”可以处理“开放域”的问答,这意味着面对“华生”,你想问什么就可以问什么。它使用“自然语言”处理技术来分解你抛给它的词句,这样可以使算法真正理解问题,即便你在问它时使用了不寻常的方式,它也能有所回应。
1700517801
1700517802 IBM发布过一个关于“华生”和IBM DeepQA(DeepQA是“华生”在生成假设时使用的一项基础技术)的FAQ(常见问题解答),这个常见问题解答非常详尽、有用。《星际迷航》中的电脑就是一个合适的范例。这个虚拟的计算机系统可以被看作一个交互式的系统,它可以回答任何问题,还可以提供关于任何主题的精确信息。
1700517803
1700517804 [1] 加尔各答黑洞事件:加尔各答黑洞是一座用来监禁英国俘虏的场所,据说是一间环境极为恶劣的普通小土牢。1756年6月20日,被俘的146名英国人中有123人在此处因窒息死亡。此事件引起了国际争论,亦为英法两国为争夺印度半岛殖民利益所发生的纠纷战争中著名的历史事件。很多学者对此事件(即“黑洞悲剧”)进行过论述,认为未必可信。——译者注
1700517805
1700517806
1700517807
1700517808
[ 上一页 ]  [ :1.700517759e+09 ]  [ 下一页 ]