1707567600
1707567602
微粒社会:数字化时代的社会模式 预测机器
1707567603
1707567604
蓝色远景公司的员工们每天都在研究消费的未来。这家位于卡尔斯鲁厄的数据公司的主要工作是计算出商品在超市或者经销商那里是如何出售的。这对于商业规划和采购来说相当重要,这样一来,就不会有太多的食物由于未能出售而腐烂了。
1707567605
1707567606
蓝色远景是德国最具创新性的数据公司,办公地点是卡尔斯鲁厄市南郊的一幢废旧厂房,雇员很多,但没有人知道那里的数据科学家们在做什么。控制革命的表现形式就是:把人置于屏幕之前。
1707567607
1707567608
这家公司的核心部分是不可见的。它被亲切地称为“神经贝叶斯”,是一种由米夏埃尔·法因特参与编写的计算机程序算法。个子高高的法因特待人亲切,是卡尔斯鲁厄技术研究所的教授,也是一位高能物理学家,曾在欧洲核子研究组织[1]学习过数据拆分。欧洲核子研究组织的粒子加速器是世界上最大的数据机器,每秒会产生1PB[2]的数据量,而它每60秒所产生的数据量,比整个人类直到21世纪所产生的数据量还要大。
1707567609
1707567610
谈到大规模的数据处理,我们有必要引入“大数据”这个概念。关于大数据,现在有许多愿景,比如更加深刻透明地认识世界;利用大数据发现以前从未被发现的关联性;基于不断增加的数据量,而不再基于专家们有限的知识进行决策。大,意味着巨大,而且难以想象;而数据的拉丁语为datum,意为已有的、现存的。
1707567611
1707567612
但是,在数据世界中没有什么是准备好了的。超市就是巨大的大数据制造者。蓝色远景会为了一位顾客夜以继日地给出多达5亿条的预测:预测接下21天内所有商店所有商品的打折情况。这些数据会流向顾客的预订系统,该系统会依据情况发出补货指令。
1707567613
1707567614
人们通过导入数据协助程序算法工作。在销售预测方面,可能需要上百种不同的数据:历史销售数据、商品描述、价格、假期时间、重大事件(比如世界杯足球比赛、奥运会)、广告促销、竞争对手,所有这些因素都可能对销售造成影响。众多销售预测模型中的固定组成部分大约是“薪酬日周六”,即发放薪水后的第一个周六,这一天,某些特定商品的销售额会飞速上涨。
1707567615
1707567616
这样一组变量会作为数据输入算法当中。法因特解释说,这样做是“为了训练”。同时机器也会学着将这些可能性组合起来,从而尽可能真实地计算出目前的销售数字。蓝色远景的数据训练者们称这种目标值为:“真相”。从数学上看,这种训练的目标就是“网络中的边际权重优化”。事实上,机器正在学着认识人类。机器也在学习理解人类:他们在购物时会做些什么,他们有哪些偏好。机器还会汇总人们的独特性。
1707567617
1707567618
很久以来,人工智能领域的科研人员都在力图教会计算机人类的思维。但是在此过程中他们明确地认识到,计算机有自己的独特性,它们不会像我们一样思考。因此像法因特这样的专家才会将尽可能多的数据输入计算机当中,然后让它们从中得出自己的结论。这种“机器学习”现在也发生在谷歌的每一次搜索、信用卡的每一次支付和手机的每一次呼叫中:程序算法一直都在学习。
1707567619
1707567620
一个引人注意的例子发生在谷歌公司。数年前,谷歌公司在美国开通了一项名为“GOOG 411”的免费服务。这项服务的内容是,用户随意说出一个搜索项,然后由机器读出搜索结果。也就是通过声控实现谷歌搜索。谷歌的竞争对手当时很疑惑,为什么谷歌要免费提供在那时如此昂贵的服务。谷歌公司结束这项服务时,竞争对手才恍然大悟:用户的询问训练了计算机,为它提供了巨大的词汇库,并帮助谷歌成为世界上最擅长做语音识别的公司。
1707567621
1707567622
在蓝色远景公司,计算机已经从人类那里学到了很多,它们甚至可以轻松地击败人类。由计算机给出的销售预测的准确率比由销售专家给出的预测高40%。这意味着:腐烂的香蕉会更少,未售出的肉会更少,所有东西的库存都会更少。一家连锁超市甚至解雇了销售专家,只相信机器的预测。智能革命也在其中发挥着作用。“我们的直觉比不过机器。”米夏埃尔·法因特说起这句话时并没有摆出一副胜利者的姿态,他没有恶意,他所说的只是他的经验。任何时候,只要人开始对抗程序算法,获胜的总是机器。“人最多只能将三种不同的事情联系起来,而计算机可以将上千种事情联系起来。”
1707567623
1707567624
机器在大量数据中发现的规律性,就是它们做出预测的基础。这些数据中的绝大部分极其有用,而且不包含任何敏感信息。来自斯坦福大学的科研人员就是仅仅通过统计分析发现,如果同时服用两种非常流行的药品——抗抑郁剂和降胆固醇药,可能引发严重的糖尿病。这种药品之间的功效转换在颁发药品许可证时通常不会得到足够的检测,这在由成百上千种活性成分组成的药品中并不奇怪。科研人员在相互校正多个数据库时,发现了这种毁灭性功效的蛛丝马迹。除此之外,他们还分析了那些经常在网络搜索引擎必应上搜索这两种药品的人是否也更频繁地搜索糖尿病症状——这本身就证明了一些东西。运用同样的方法,南非的科学家发现维生素B能够延缓艾滋病患者的患病过程。
1707567625
1707567626
这些案例中,有两点值得注意。首先,机器所使用的数据往往不是专门为某个问题搜集的;必应上的搜索请求当然不是为了医学目的而搜集的。因此人们从不确定,某些数据会在某一天被用于某种目的——这明显妨碍了人们对于数据的控制。其次,不同的数据库相连会带来全新的、令人意想不到的结果,而这些结果仅仅通过两种数据库的结合是完全无法预测到的。数据越多,惊喜越多。这就是数据的智能。
1707567627
1707567628
许多公司都对此有所体会。通信运营商发现,一旦一位顾客解除电话合约,与这位顾客使用同一运营商的朋友解除合约的可能性会提高5倍。自此之后,运营商就开始尝试在朋友圈中做宣传,一旦有一个人解除合约,运营商就会有针对性地向其朋友提供支付优惠。
1707567629
1707567630
美国在线视频提供商奈飞公司在推出取得巨大成功的剧集《纸牌屋》之前,分析了大约4 000万名顾客的偏好,然后推断,有政治、凯文·斯派西和讽刺等元素的加入,该剧会大受欢迎。
1707567631
1707567632
一家信用卡公司在它搜集到的数据中发现了某种奇怪的巧合:在人们给其汽车加油之后,存在一个购物高峰。为什么会这样,没有人能够解释。
1707567633
1707567634
在这些“认识”当中,涉及的不仅是消费者群体以及单个消费者的特征,所有参与因素都会影响人的认知。有两个原因能够解释这种现象。第一个原因是过于乐观。人们总结规律发现,成功与失败的概率通常是相当的。从大规模的数据中解读出有用的信息是极其困难的。人们会在大量的数据中找到众多的关联,这些关联虽然在统计学上具有显著的价值,但实际上完全没有意义。概括来说,数据越多,看起来可信的“垃圾”也越多。这种现象就是错觉[3]:人们似乎看到了模型,但是实际上什么都没有——那只是数据世界中的海市蜃楼。有研究人员甚至演示了美国标准普尔500指数与孟加拉国的黄油生产之间的一种强关联(但实际上这种关联并不存在)。在这个案例中是错的东西,在其他案例中未必。
1707567635
1707567636
由于机器常常展示出人类无法评估的结果,因为在多达上万种变量中,人是无法找出关联性的。数字化研究专家塔尔顿·希列斯彼写道:“我们目前无法用语言描述由程序算法总结出的意外的联系。”而且现在的我们太容易被我们认为权威但无法理解的结果征服。
1707567637
1707567638
这种情况往往还和糟糕的数据质量有关。许多数据并不是纯净的和结构化的,也不是像数字一样整齐地摆在我们眼前,而是由文字碎片、脸谱网记录、图片或者统计图表组成,这些数据的整理和结构化需要由程序花费很长时间才能完成,而且容易出错。
1707567639
1707567640
因此,控制革命往往需要借助统计的拐杖才能蹒跚前行,但是这并不会影响控制革命的效果。重要的根本就不是所有的计算预测都是对的,只要这些预测存在并且能够影响我们的观察和决定就足够了。控制革命之所以能够发挥影响,是因为它向我们提供了一种神奇的简化,以及社会学家尼克拉斯·鲁曼经常提到的“复杂性降低”。数字正在重塑我们的世界,即使我们并不清楚它们到底是如何被计算出来的以及我们能否信赖它们。
1707567641
1707567642
从整理到评价就只差很小的一步了。从数字中会产生规则,从数值中会产生准则。依据目前的计算,我们开始将人分类,进而区分人、控制人。这就是大数据如此危险的第二个原因。
1707567643
1707567644
[1]欧洲核子研究组织是世界上最大型的粒子物理学实验室,位于瑞士日内瓦西部与法国接壤的边境。它成立于1954年9月29日,科学家们在那里研究物质如何构成以及物质之间的力量。——译者注
1707567645
1707567646
[2]1PB=250B。——译者注
1707567647
1707567648
[3]错觉是精神分裂症的一个症状,病人会在偶然的、无意义的细节中察觉到虚假的图像或者关系。这个概念是1958年由德国精神科医生克劳斯·康拉德新造的概念,他将其定义为“毫无缘由地看到某些联系,同时伴随有对某种病态意义的特殊感觉”。——译者注
1707567649
[
上一页 ]
[ :1.7075676e+09 ]
[
下一页 ]