打字猴:1.7040267e+09
1704026700
1704026701 从一个孩子第一次拥有手机或者第一次玩电子游戏的时候,他就开始建立个人信息,而在他的一生中,这些信息将不断增长、累积,它一直可以被收录、关联、整理、出售。20多年前,我上大学的时候,没有发送或者接收过任何电子邮件和短信。我没有在社交媒体上发过任何东西,也没有手机。即使是这样,现在我也已经像大多数美国人一样,个人信息完全被编目然后被用来赚钱。现在,每个普通的美国消费者,会被私营企业收集并销售多达75 000个单独数据点的个人信息。而在未来的形势面前,这个数字也只是小巫见大巫。
1704026702
1704026703 数据创建是最近才开始爆炸性增长的,从那之后,数据存储一直呈指数级增长。几千年来,保存记录都是用泥板、纸莎草卷轴、用动物皮制成的羊皮纸和牛皮纸。第一批现代意义上的纸由木头或草浆制成,的确算是一次重大进步,但是印刷机的发明,才真正建立了大规模数据生产的第一个里程碑。第一台印刷机现世的第一个50年里,就有800万本图书被印刷成册,比之前的1 000年里,欧洲所有抄写员抄写出的书籍还要多。
1704026704
1704026705 随后,电报、电话、无线电、电视、电脑陆续被发明,因此在20世纪,世界上的数据量迅速增长。1996年,数据量的增长和运算成本的降低,使得数字存储第一次比用纸张存储更物有所值。
1704026706
1704026707 2000年,只有25%的数据是以数字形式存储的,而不到10年后的2007年,该数字就已经飙升到94%,并在那之后持续上涨。
1704026708
1704026709 数字化显著扩大了收集数据信息的可能性。世界上90%的数字化数据,都是在过去两年中生成的。每年,数字化数据的数量都会增长50%。每分钟都会有2.4亿封电子邮件被发送,240万条内容被发布在Facebook上,21.6万张新图片被发布到Instagram(一家图片分享网站)。工业公司在它们的产品中嵌入传感器,来更好地管理供应链和物流。所有这些活动,在2015年共创造了5.6泽字节数据。一个泽字节就是1021个字节,也就是一兆个千兆字节。
1704026710
1704026711 “大数据”是个涵盖广泛的词,被人们用来描述如此大量的数据,现在被用来实时理解、分析和预测趋势。“大数据”也可以被叫作“大数据分析学”“分析学”或“深度分析学”。很多人都有这样的误解,认为大数据带来的进步只和收集数据的数量有关。但实际上,如果处理数据的能力停滞不前的话,数据量的增长本身是没有作用的。即使在我相对来说很少使用数据的童年,我和我的朋友们也在每周参加的考试和成绩报告单中,生产了大量的学术数据,但是当时我们没有办法把这些数据点连在一起进行分析。商业也是一样:想想过去那些传递商业数据的信件和电报吧。它们携带着大量的信息,但这些信息都是不可被搜索的,无法被大规模使用。因此,大数据的衍生价值,一部分与人们创建的数据量有关,但同样重要甚至更为重要的另一部分,是实时使用这些数据,做出更聪明、更高效决定的新能力。数据可视化的新发展,使得在满是数据的电子表格中并不明显的趋势,能够被人们更轻松地观察和理解,这也进一步促进了大数据的发展。
1704026712
1704026713 对于我来说,巴拉克·奥巴马的两次总统竞选,第一次在真正意义上灵活运用了大数据。现在,这两次竞选对于大数据的运用已经声名远扬。在激烈的竞选中,奥巴马的竞选团队利用大数据,深入了解诸如如何筹措资金、在哪里进行竞选活动和如何进行宣传等问题,在这方面,其他对手的竞选团队望尘莫及。从募集资金到实地操作再到分析民意调查,一个由几百名数字操作人员和数据科学家组成的团队,大胜他们的对手共和党。2012年,奥巴马的竞选活动中,拉拢选民和提高投票率的项目表现出色,而罗姆尼竞选活动的这些项目却表现得不尽如人意。
1704026714
1704026715 在2012年的竞选中,奥巴马这边由18人组成的电子邮件团队,测试了超过一万个版本的电子邮件信息。举个例子,奥巴马的竞选活动使用了同一封电子邮件的18个不同版本,每个版本的标题都各不相同,以此来决定哪一个版本最有效。最成功的标题“别的竞选人会花的比我多”,为竞选募集到了267.327 8万美元,而表现最差的标题是“民意调查说对了的一件事……”,只募集到了40.360 3万美元。
1704026716
1704026717 这不是竞选活动的筹划人凭直觉就能想到的事。就像奥巴马的电子邮件团队中,一名资深成员坦白的那样,“基本来说,我们发现直觉一文不值。”这次以数据为依据的资金募集成果是惊人的。2012年,奥巴马竞选活动募集了共计11.23亿美元,其中有6.9亿美元来自线上的440万捐款者。他的竞选活动,比共和党竞选人米特·罗姆尼的竞选活动规模要大一倍,而成果则是其4倍。
1704026718
1704026719 奥巴马竞选团队的领导人之一,分析总监丹·瓦格纳,用童年一件简短的趣闻逸事总结了他的策略:“有一次,在我密歇根州的家里,我和我的父亲在给起重机安装销轴。我想我当时本来是想造一个匝道或者类似的东西,来连接两个平面、搬运物品。我的父亲看着我说道,‘孩子,如果你有60秒来做一件事,那么你就用10秒来想出一个更好的做那件事的方法。’”
1704026720
1704026721 瓦格纳将他父亲的教诲铭记在心,并在2012年的选举中将其付诸实践。简而言之,他所做的一切,都是为了弄清楚,如何更加高效和有效地给起重机安装销轴。瓦格纳的方法渐渐被越来越多的企业所认识,尤其是随着数据变得越来越廉价和灵活。瓦格纳说,“从传统意义上来讲,一个机构的正常心理,不会觉得‘如果我有这么多钱来做一件事,那我就会用预算中的一部分,来弄清楚剩下的预算有没有投入在值得的事情上’。不幸的是,这样的想法并不是机构的常态,但是我认为它正在成为新常态。你需要在预算中留出一部分,弄清楚剩下的预算究竟有没有在实现你想做的事。这只会增加间接费用,但是却能够使你资产的收益前景更加光明。而且比起从前,现在你可以这样安排预算,因为其中涉及的许多事物都需要通过一些现在可用的数据进行测量,而以前我们并没有这些数据。”
1704026722
1704026723 奥巴马数据驱动型竞选活动的另一名架构师迈克尔·斯拉拜认为,除了新的可用数据,运算领域的最新进展也造就了大数据的超前地位:“我们收集大量数据已经很长时间了,所以‘大数据’真正的含义是,接近实时地处理大量信息,从而使我们能够利用信息做出行动的能力。如果有这样的能力,我们就能以战略性的方式而不是事后回顾性的方式,做出不同的决定。过去典型的大数据分析,总是在事后的反思中进行,比如在一些大型研究或长期的项目中,而不是作为现有战略进程的一部分进行。”
1704026724
1704026725 如果你想知道正在进行的全国大选的投票情况,就要思考全国普查长达数年的分析和实时分析之间有什么区别。速度使得全新的项目成为可能。这就是斯拉拜认为大数据的崛起了不起的地方:“大数据其实只是运算能力商业化的应用,结合了云计算更广泛的实用性。我们现在能够以人们负担得起的方式,足够快速地消化足够多的数据……而且储存现在变得廉价,因此我们可以存储大量数据……然后就可以足够快地处理并利用这些数据。”
1704026726
1704026727 数据收集的增长与运算能力的提升相辅相成。数据越多,就有越多人投资高性能计算机和大量被存储数据,来消化数据并从中提取商业情报。而计算机的性能越强大,收集更多数据和制造更大、更深入的数据集就更容易。
1704026728
1704026729 大数据本身是自相矛盾的。它既是个人的也是广阔的。它调查细小的事件,并将这些有限的事件集合成既全面又能被个性化的信息。学者们将大数据比作显微镜和望远镜的合体——作为一个工具,它让我们既能检视比以前所能观察到的更小的细节,又能更大规模地审视数据,揭示之前离我们太远而无法被察觉的相互关系。
1704026730
1704026731 大数据在现实世界的影响力,到这里为止在很大程度上都是关于物流和说服的。大数据对于供应链、选举和广告来说都是福音,因为这些领域倾向于涉及许多小的、重复的、可量化的行动,所以大数据才成了亚马逊和网飞的“推荐引擎”,向用户提供更精确的推荐。但是这些领域只是一个开始,等到我的孩子们就业的时候,“大数据”将不再是一个时髦短语。现在的生活中,我们认为并不扎根于数据分析的那些部分,到那时都将被大数据渗透。大数据将改变我们吃什么、我们怎么说话以及我们的公开和私人角色之间的界限。
1704026732
1704026733 你会运用多少种语言?
1704026734
1704026735 未来10年,大数据的目标之一是让每个人都能用几十种外语流利地阅读本书,消除所谓的语言障碍。过去常有这种情况,每当出国旅游,我会带本袖珍字典,上面有常见单词短语的翻译。如果想造个句子,我常常要查阅5分钟才能说出一个生硬的词组,不知道动词用法是否正确,名词发音有没有问题。而现在我拿出手机,把短语输入谷歌翻译,只要连网,就能快速得到答案,90多种语言任意选择。结果当然总是称心如意。当我不知道要怎么说时,我会举起手机屏幕,我那位不会英语的同伴就能读懂我未能表达之意。当然,我的发音断断续续,而且一次只能说几个句子,我也不知道其他人在回答我的问题时说了什么。基本上会问洗手间在哪里,然后对方能听懂就已经很厉害了。
1704026736
1704026737 如今的机器翻译发展迅速,远比我那古老的查字典的方法有效,但是它的准确性、功能性和达意程度仍有待提高。实际上,这只是数据和计算问题。专业的译者认为当地方言、句子的婉转变化和语义的细微差别对计算机来说过于复杂,机器无法充分表达出来。但是他们错了。现在由机器提供的翻译工具每天要为2亿多人服务,翻译10亿多次。随着数据呈指数级增长,这一数字不久就只代表一下午的翻译量,然后就是一个小时的翻译量。大量语言数据将不断被更新。而当翻译的数据量呈指数级增长,机器翻译的准确度也将成倍增加,甚至能照顾到细枝末节。只要机器翻译出错,用户就会标注错误,这些数据将被纳入数据库以供机器在未来的翻译中避免它们。我们只是需要更多数据、更强大的运算能力和更高级的软件。这些随着时间的推移都会实现,也将填补我们在发音和口头交流方面的沟通隔阂。
1704026738
1704026739 机器翻译最有趣的创新将伴随人性化界面接踵而来。未来10年内,一只小小的耳机就几乎能用母语传递你听到的外语。而滞后时间只是音速。这的确不可思议。你耳朵听到的声音不会是像Siri那样的机械的机器声音。由于生物声学工程测量频率、波长、声音强度和其他声音特质的进步,与耳机相连的云端软件将使发言者的声音更人性化,并用你的母语表达。当你回答时,你的语言将通过你同伴的耳机被翻译成他的母语,或者通过手机、手表以及其他2025年才会有的个人设备上的扬声器被放大。
1704026740
1704026741 现在的翻译工具也倾向于只在两种语言之间转换。让任何一种机器尝试翻译三种语言,简直就是一团乱。未来,会说多少种语言已经不再重要。你可以举办一个8人晚餐派对,席间你们可以说8种不同语言,而你耳中听到的声音永远会是你所擅长的语言。
1704026742
1704026743 机器翻译的普及将大规模加速全球化进程。虽然现阶段在很大程度上通过把英语作为商业通用语言来推动全球化发展——目前把英语作为第二语言的人数是以英语为母语人数的两倍——而下一轮全球化将消除对通用语言的需求,更进一步扩大交流。最近在巴西召开的一次会议上,当一位韩国商人要和中国商人交流,他们都要将母语翻译成英语。但将来不会再有这种需要,全球经济的大门将为非精英人士和大量不会说英语的人敞开。
1704026744
1704026745 机器翻译也将在那些因语言障碍而难以驾驭的市场占据一席之地,解决语言障碍问题。印度尼西亚正是如此。虽然雅加达和巴厘岛有很多人说英语、中文和法语,但是其他6 000个有人居住的小岛上几乎没人会说这三种语言。如果大家不必用流利的爪哇语(或者另外700种印度尼西亚语言)和其他地方的人做生意,那么他们的交流就会变得很简单,反过来也更容易获得外部资本。
1704026746
1704026747 跨过临近印度尼西亚东部的班达和阿拉弗拉海,就是资源丰富的巴布亚新几内亚。巴布亚新几内亚富含矿藏,拥有肥沃的土地以及名贵海鲜水产(拥有全世界18%的金枪鱼),但是该国使用的850种语言却让外国投资商敬而远之。被应用于翻译的大数据将改变这个局面,它将找出与世界经济分离的地区,帮助它们融入全球经济。
1704026748
1704026749 正如任何一种新技术一样,全球机器翻译的兴起也会有不足,其中有两点尤为显著。首先是翻译行业的消失。未来10年,就连仅有的专业译员都要为翻译软件工作。虽然大多数机器翻译软件(比如谷歌翻译)仍会很大程度上继续依赖人工翻译,但是一旦翻译数据库足够大,译员将不再被需要。专业译员的工作可能就像是点灯者,或者像现在的煤矿开采工作一样;现在依然需要少量能够超越机器的煤矿工人,但他们不是亲自去地下挖煤。那些经过精简、与机器一起工作的专业译员负责俚语翻译和速记,俚语和速记才总能进入语言的生命系统。我曾建议,为了收录得更及时、全面,在希拉里·克林顿演讲的同时我们看看机器在如何翻译。我记得美国国务院那些外交官们被我的建议吓坏了。“这绝不可能发生。”他们惊叫道。这些外交官们是对的,现在的解决方案还不够完美,一些错误甚至可能导致外交骚动。但他们认为这绝不会发生倒是错了,实现这一步只是时间问题。
[ 上一页 ]  [ :1.7040267e+09 ]  [ 下一页 ]