打字猴:1.703947518e+09

1703947518 我们可以在大量数据对计算机其他领域进步的重要性上看到类似的变化。我们都知道，如摩尔定律所预测的，过去一段时间里计算机的数据处理能力得到了很大的提高。摩尔定律认为，每块芯片上晶体管的数量每两年就会翻一倍。这使得电脑运行更快速了，存储空间更大了。大家没有意识到的是，驱动各类系统的算法也进步了——美国总统科技顾问委员会的报告显示，在很多领域这些算法带来的进步还要胜过芯片的进步。然而，社会从“大数据”中所能得到的，并非来自运行更快的芯片或更好的算法，而是更多的数据。

1703947519

1703947520 由于象棋的规则家喻户晓，且走子限制良多，在过去的几十年里，象棋算法的变化很小。计算机象棋程序总是步步为赢是由于对残局掌握得更好了，[1]而之所以能做到这一点也只是因为往系统里加入了更多的数据。实际上，当棋盘上只剩下六枚棋子或更少的时候，这个残局得到了全面的分析，并且接下来所有可能的走法（样本=总体）都被制入了一个庞大的数据表格[2]。这个数据表格如果不压缩的话，会有一太字节那么多。所以，计算机在这些重要的象棋残局中表现得完美无缺和不可战胜。

1703947521

1703947522 大数据在多大程度上优于算法这个问题在自然语言处理上表现得很明显（这是关于计算机如何学习和领悟我们在日常生活中使用语言的学科方向）。在2000年的时候，微软研究中心的米歇尔·班科（Michele Banko）和埃里克·布里尔（Eric Bill）一直在寻求改进Word程序中语法检查的方法。但是他们不能确定是努力改进现有的算法、研发新的方法，还是添加更加细腻精致的特点更有效。所以，在实施这些措施之前，他们决定往现有的算法中添加更多的数据，看看会有什么不同的变化。很多对计算机学习算法的研究都建立在百万字左右的语料库基础上。最后，他们决定往4种常见的算法中逐渐添加数据，先是一千万字，再到一亿字，最后到十亿。

1703947523

1703947524 结果有点令人吃惊。他们发现，随着数据的增多，4种算法的表现都大幅提高了。

1703947525

1703947526 大数据的力量

1703947527

1703947528 当数据只有500万的时候，有一种简单的算法表现得很差，但当数据达10亿的时候，它变成了表现最好的，准确率从原来的75%提高到了95%以上。与之相反地，在少量数据情况下运行得最好的算法，当加入更多的数据时，也会像其他的算法一样有所提高，但是却变成了在大量数据条件下运行得最不好的。它的准确率会从86%提高到94%。

1703947529

1703947530 后来，班科和布里尔在他们发表的研究论文中写到，“如此一来，我们得重新衡量一下更多的人力物力是应该消耗在算法发展上还是在语料库发展上。”

1703947531

1703947532 大数据时代：生活、工作与思维的大变革 [:1703946856]

1703947533 大数据的简单算法比小数据的复杂算法更有效

1703947534

1703947535 所以，数据多比少好，更多数据比算法系统更智能还要重要。那么，混乱呢？在班科和布里尔开始研究数据几年后，微软的最大竞争对手，谷歌，也开始更大规模地对这些问题进行探讨。谷歌用的是上万亿的语料库，而不是十亿的。谷歌做这类研究不是因为语法检查，而是为了解决翻译这个更棘手的难题。

1703947536

1703947537 20世纪40年代，电脑由真空管制成，要占据整个房间这么大的空间。而机器翻译也只是计算机开发人员的一个想法。在冷战时期，美国掌握了大量关于苏联的各种资料，但缺少翻译这些资料的人手。所以，计算机翻译也成了亟须解决的问题。

1703947538

1703947539 最初，计算机研发人员打算将语法规则和双语词典结合在一起。1954年，IBM以计算机中的250个词语和六条语法规则为基础，将60个俄语词组翻译成了英语，结果振奋人心。IBM 701通过穿孔卡片读取了“Mi pyeryedayem mislyi posryedstvom ryechyi”这句话，并且将其译成了“我们通过语言来交流思想”。在庆祝这个成就的发布会上，一篇报道就有提到，这60句话翻译得很流畅。这个程序的指挥官利昂·多斯特尔特（Leon Dostert）表示，他相信“在三五年后，机器翻译将会变得很成熟”。

1703947540

1703947541 事实证明，计算机翻译最初的成功误导了人们。1966年，一群机器翻译的研究人员意识到，翻译比他们想象的更困难，他们不得不承认自己的失败。机器翻译不能只是让电脑熟悉常用规则，还必须教会电脑处理特殊的语言情况。毕竟，翻译不仅仅只是记忆和复述，也涉及选词，而明确地教会电脑这些非常不现实。法语中的“bonjour”就一定是“早上好”吗？有没有可能是“今天天气不错”、“吃了吗”或者“喂”？事实上都有可能——这需要视情况而定。

1703947542

1703947543 在20世纪80年代后期，IBM的研发人员提出了一个新的想法。与单纯教给计算机语言规则和词汇相比，他们试图让计算机自己估算一个词或一个词组适合于用来翻译另一种语言中的一个词和词组的可能性，然后再决定某个词和词组在另一种语言中的对等词和词组。

1703947544

1703947545 20世纪90年代，IBM这个名为Candide的项目花费了大概十年的时间，将大约有300万句之多的加拿大议会资料译成了英语和法语并出版。由于是官方文件，翻译的标准就非常高。用那个时候的标准来看，数据量非常之庞大。统计机器学习从诞生之日起，就聪明地把翻译的挑战变成了一个数学问题，而这似乎很有效！计算机翻译能力在短时间内就提高了很多。然而，在这次飞跃之后，IBM公司尽管投入了很多资金，但取得的成效不大。最终，IBM公司停止了这个项目。

1703947546

1703947547 大数据先锋

1703947548

1703947549 无所不包的谷歌翻译系统

1703947550

1703947551 2006年，谷歌公司也开始涉足机器翻译。这被当作实现“收集全世界的数据资源，并让人人都可享受这些资源”这个目标的一个步骤。谷歌翻译开始利用一个更大更繁杂的数据库，也就是全球的互联网，而不再只利用两种语言之间的文本翻译。

1703947552

1703947553 谷歌翻译系统为了训练计算机，会吸收它能找到的所有翻译。它会从各种各样语言的公司网站上寻找对译文档，还会去寻找联合国和欧盟这些国际组织发布的官方文件和报告的译本。它甚至会吸收速读项目中的书籍翻译。谷歌翻译部的负责人弗朗兹·奥齐（Franz Och）是机器翻译界的权威，他指出，“谷歌的翻译系统不会像Candide一样只是仔细地翻译300万句话，它会掌握用不同语言翻译的质量参差不齐的数十亿页的文档。”不考虑翻译质量的话，上万亿的语料库就相当于950亿句英语。

1703947554

1703947555 尽管其输入源很混乱，但较其他翻译系统而言，谷歌的翻译质量相对而言还是最好的，而且可翻译的内容更多。到2012年年中，谷歌数据库涵盖了60多种语言，甚至能够接受14种语言的语音输入，并有很流利的对等翻译。之所以能做到这些，是因为它将语言视为能够判别可能性的数据，而不是语言本身。如果要将印度语译成加泰罗尼亚语，谷歌就会把英语作为中介语言。因为在翻译的时候它能适当增减词汇，所以谷歌的翻译比其他系统的翻译灵活很多。

1703947556

1703947557 谷歌的翻译之所以更好并不是因为它拥有一个更好的算法机制。和微软的班科和布里尔一样，这是因为谷歌翻译增加了很多各种各样的数据。从谷歌的例子来看，它之所以能比IBM的Candide系统多利用成千上万的数据，是因为它接受了有错误的数据。2006年，谷歌发布的上万亿的语料库，就是来自于互联网的一些废弃内容。这就是“训练集”，可以正确地推算出英语词汇搭配在一起的可能性。

1703947558

1703947559 20世纪60年代，拥有百万英语单词的语料库——布朗语料库算得上这个领域的开创者，而如今谷歌的这个语料库则是一个质的突破，后者使用庞大的数据库使得自然语言处理这一方向取得了飞跃式的发展。自然语言处理能力是语音识别系统和计算机翻译的基础。

1703947560

1703947561 彼得·诺维格（Peter Norvig），谷歌公司人工智能方面的专家，和他的同事在一篇题为《数据的非理性效果》（The Unreasonable Effectiveness of Data）的文章中写道，“大数据基础上的简单算法比小数据基础上的复杂算法更加有效。”他们就指出，混杂是关键。

1703947562

1703947563 “从某种意义上，谷歌的语料库是布朗语料库的一个退步。因为谷歌语料库的内容来自于未经过滤的网页内容，所以会包含一些不完整的句子、拼写错误、语法错误以及其他各种错误。况且，它也没有详细的人工纠错后的注解。但是，谷歌语料库是布朗语料库的好几百万倍大，这样的优势完全压倒了缺点。”

1703947564

1703947565 大数据时代：生活、工作与思维的大变革 [:1703946857]

1703947566 纷繁的数据越多越好

1703947567

[ 上一页 ] [ :1.703947518e+09 ] [ 下一页 ]