1707567623
1707567624
机器在大量数据中发现的规律性,就是它们做出预测的基础。这些数据中的绝大部分极其有用,而且不包含任何敏感信息。来自斯坦福大学的科研人员就是仅仅通过统计分析发现,如果同时服用两种非常流行的药品——抗抑郁剂和降胆固醇药,可能引发严重的糖尿病。这种药品之间的功效转换在颁发药品许可证时通常不会得到足够的检测,这在由成百上千种活性成分组成的药品中并不奇怪。科研人员在相互校正多个数据库时,发现了这种毁灭性功效的蛛丝马迹。除此之外,他们还分析了那些经常在网络搜索引擎必应上搜索这两种药品的人是否也更频繁地搜索糖尿病症状——这本身就证明了一些东西。运用同样的方法,南非的科学家发现维生素B能够延缓艾滋病患者的患病过程。
1707567625
1707567626
这些案例中,有两点值得注意。首先,机器所使用的数据往往不是专门为某个问题搜集的;必应上的搜索请求当然不是为了医学目的而搜集的。因此人们从不确定,某些数据会在某一天被用于某种目的——这明显妨碍了人们对于数据的控制。其次,不同的数据库相连会带来全新的、令人意想不到的结果,而这些结果仅仅通过两种数据库的结合是完全无法预测到的。数据越多,惊喜越多。这就是数据的智能。
1707567627
1707567628
许多公司都对此有所体会。通信运营商发现,一旦一位顾客解除电话合约,与这位顾客使用同一运营商的朋友解除合约的可能性会提高5倍。自此之后,运营商就开始尝试在朋友圈中做宣传,一旦有一个人解除合约,运营商就会有针对性地向其朋友提供支付优惠。
1707567629
1707567630
美国在线视频提供商奈飞公司在推出取得巨大成功的剧集《纸牌屋》之前,分析了大约4 000万名顾客的偏好,然后推断,有政治、凯文·斯派西和讽刺等元素的加入,该剧会大受欢迎。
1707567631
1707567632
一家信用卡公司在它搜集到的数据中发现了某种奇怪的巧合:在人们给其汽车加油之后,存在一个购物高峰。为什么会这样,没有人能够解释。
1707567633
1707567634
在这些“认识”当中,涉及的不仅是消费者群体以及单个消费者的特征,所有参与因素都会影响人的认知。有两个原因能够解释这种现象。第一个原因是过于乐观。人们总结规律发现,成功与失败的概率通常是相当的。从大规模的数据中解读出有用的信息是极其困难的。人们会在大量的数据中找到众多的关联,这些关联虽然在统计学上具有显著的价值,但实际上完全没有意义。概括来说,数据越多,看起来可信的“垃圾”也越多。这种现象就是错觉[3]:人们似乎看到了模型,但是实际上什么都没有——那只是数据世界中的海市蜃楼。有研究人员甚至演示了美国标准普尔500指数与孟加拉国的黄油生产之间的一种强关联(但实际上这种关联并不存在)。在这个案例中是错的东西,在其他案例中未必。
1707567635
1707567636
由于机器常常展示出人类无法评估的结果,因为在多达上万种变量中,人是无法找出关联性的。数字化研究专家塔尔顿·希列斯彼写道:“我们目前无法用语言描述由程序算法总结出的意外的联系。”而且现在的我们太容易被我们认为权威但无法理解的结果征服。
1707567637
1707567638
这种情况往往还和糟糕的数据质量有关。许多数据并不是纯净的和结构化的,也不是像数字一样整齐地摆在我们眼前,而是由文字碎片、脸谱网记录、图片或者统计图表组成,这些数据的整理和结构化需要由程序花费很长时间才能完成,而且容易出错。
1707567639
1707567640
因此,控制革命往往需要借助统计的拐杖才能蹒跚前行,但是这并不会影响控制革命的效果。重要的根本就不是所有的计算预测都是对的,只要这些预测存在并且能够影响我们的观察和决定就足够了。控制革命之所以能够发挥影响,是因为它向我们提供了一种神奇的简化,以及社会学家尼克拉斯·鲁曼经常提到的“复杂性降低”。数字正在重塑我们的世界,即使我们并不清楚它们到底是如何被计算出来的以及我们能否信赖它们。
1707567641
1707567642
从整理到评价就只差很小的一步了。从数字中会产生规则,从数值中会产生准则。依据目前的计算,我们开始将人分类,进而区分人、控制人。这就是大数据如此危险的第二个原因。
1707567643
1707567644
[1]欧洲核子研究组织是世界上最大型的粒子物理学实验室,位于瑞士日内瓦西部与法国接壤的边境。它成立于1954年9月29日,科学家们在那里研究物质如何构成以及物质之间的力量。——译者注
1707567645
1707567646
[2]1PB=250B。——译者注
1707567647
1707567648
[3]错觉是精神分裂症的一个症状,病人会在偶然的、无意义的细节中察觉到虚假的图像或者关系。这个概念是1958年由德国精神科医生克劳斯·康拉德新造的概念,他将其定义为“毫无缘由地看到某些联系,同时伴随有对某种病态意义的特殊感觉”。——译者注
1707567649
1707567650
1707567651
1707567652
1707567654
微粒社会:数字化时代的社会模式 评价型社会
1707567655
1707567656
2013年,戴夫·艾格斯出版了小说《圆环》。他在书中描述了一家同样名为“圆环”的公司,这家公司拥有一种由数据驱动的世界统治力,借助无处不在的摄像头和对整个互联网的完全监控,这家公司几乎知道每个人的一切。“发生的一切我们必会知道”,正是这家公司的口号。
1707567657
1707567658
评论家们赞誉这部小说是首部关于像谷歌、脸谱网之类的大型数据公司的高水平小说,而技术专家则嘲笑这部小说在所有基本技术问题上的幼稚和错误。双方都有道理,就像作者自己所说的那样,这部小说虽然写得很快,但他对文中描绘的那些技术并非一窍不通,所以他在书中的描绘不会那么不恰当:这家公司自动计算关于用户的所有数据,自动评估他们的行为,还会进行比较和分级。“圆环”公司的雇员将会根据人们在社交媒体上的参与程度对其进行评价(就是所谓的参与评级)。那些被社区警察记录在案的人,将会在增强现实档案中被标记为蓝色——这意味着人们可以与他安心相处。而对于犯罪分子,人们会根据其危险等级而做不同的标记:顺手牵羊的盗窃犯会被标为黄色,暴力犯罪分子会被标为红色。所有人的“真实特征”,这些从社交网站、银行汇款信息、信用卡消费记录、视频摄像头等当中得来的所有数据,将会允许人们对某人的信誉等级、购买行为、职业道德以及更多的信息做出评价和分级。
1707567659
1707567660
这远没有人们想象的那样不靠谱。很早以前,我们作为人和消费者就如同iTunes上的音乐以及亚马逊上的书籍一样被丰富地评价。而且每一次点击都会使评价更加全面:总是回答“这条评论对您有用吗?”的人会为程序算法的发展做出贡献。那些数字化的评价,有时被称作分数,有时被称作画像。求职者的在线活动会透露出其在创造力和领导力方面的素质,编程人员会根据他人对其所写代码的评价预期奖励多少,信用卡公司会让程序算法调低那些使用信用卡向治疗医师、婚姻咨询师付费的人的信用等级,更滑稽的是,使用信用卡偿付轮胎维修服务的持卡人的信用等级也会被调低。一家加拿大银行在他们的云端数据库中发现,那些光顾某个特定酒吧的人的破产风险特别高,银行会相应地调低所有这些酒吧光顾者的信用等级。
1707567661
1707567662
甚至用颜色标记犯罪分子的事情也不再只是小说中的情节。在美国,超过50家行政机构和警察机关开始采用MORIS——一个苹果手机上的应用程序。它可以进行面部识别,而且能在不同的犯罪数据库以及Flickr(一个图片分享网站)和脸谱网上搜索嫌疑人。每个人都可以在几秒钟内被识别出来,甚至比德国的通行做法更加厉害。在德国,每个人随时可以通过其个人身份证件得以识别。
1707567663
1707567664
每一条评价同时包含着一种预测:根据过去推测未来。那些经常在亚马逊上购买爱情小说的人,不可能明天就转而投向恐怖视频的怀抱。那些通过MORIS发现的“犯罪分子”相比于一个正派的公民会得到警察的区别对待。得分、画像、样本总是与过去和未来有关:昨天和明天都很重要。我们看到,许多案例都在佐证这个道理:人会对自己保持忠诚。仅仅因此,就值得数据公司和国家投入如此多的资金和资源用于分析已经发生的过去。
1707567665
1707567666
尽管所有的行为方式都被认为是稳定的,能够改变未来的恰恰是那些评价和预测。评价和预测不是中立的,它们介入个体的生活之中,考验着我们对于民主体制中平等的理解。这可以在一种被认为无可置疑的领域——科学论文的发表——得到体现。来自麻省理工学院的一组科研人员已经计算出,哪些专业文章在未来有可能被频繁引用。文章会在发表后数天被一种网络结构测评,这种网络结构会评估数年后这篇文章是否有可能大受欢迎。这样一来,那些青年科学家的前途可能在他们开始钻研之前就终结了,只是他们不知道。
1707567667
1707567668
如果一台计算机向50岁的阿尔伯特·爱因斯坦预测他在未来很有可能成为诺贝尔奖获得者,会发生什么呢?恰好成为诺贝尔奖得主,还是这个预测可能会诱使爱因斯坦游手好闲最终无所事事?这些打着程序算法比人更客观的幌子的预测是如何介入我们生活的呢?我们又该如何应对它们?是将其视作现实、趋势还是谬论呢?诸如“根据您的基因分析,您在50岁前有37%的可能患上一种可怕的疾病”这样的句子意味着什么呢?这会使我们的生活更好还是更坏,它会促使我们做出什么样的举动呢?
1707567669
1707567670
不过大部分的计算机评估结果只在幕后起作用。几乎所有的数据公司都会搜集用户的个人信息资料,并且对其进行全方位的打分:商业信誉、购买意愿、在社交媒体上的影响、固执性、可被影响性。用户对此通常并不知晓。这会使人们产生巨大的不适,并且会激发人们对于普遍歧视的怀疑。人们会感觉被以某种方式观察,同时受到糟糕的对待。只有透明才能改变这种状况。
1707567671
1707567672
但问题是,我们无法轻易地回答这些程序有益于谁,又有害于谁。一个经常听到的观点认为,首先会因为这种评分而受到损害的是穷人和被歧视者。银行将会通过更多的数据更好地识别那些财务状况不稳定的顾客,信用卡公司也可以更加轻易地从顾客的支付记录中解读出风险情况从而区别对待他们。博客作者萨沙·洛沃写道:“那些私人数据将会被自动计算,而且在个体不知情的情况下遭到滥用。”洛沃曾是数字化进程的狂热追随者,而现在他变成了一个持有悲观看法的雄辩者。
[
上一页 ]
[ :1.707567623e+09 ]
[
下一页 ]