打字猴:1.700549991e+09
1700549991 将决策交给机器的真正风险在于,算法系统中的偏见可能会延续甚至放大社会上的一些有害偏见。例如,哈佛大学教授拉坦娅·斯威尼(Latanya Sweeney)就有一段广为人知的郁闷经历,有一次她在谷歌搜索引擎中输入自己的名字,与搜索结果一起出现的还有这么一段广告:
1700549992
1700549993 拉坦娅·斯威尼,被捕?(1)输入名称和所在州(2)访问完整的背景信息。立即检查可至www.instantcheckmate.com。
1700549994
1700549995 该广告提示她有犯罪记录,但事实上她从未被捕。
1700549996
1700549997 随着进一步的研究,斯威尼发现,与劳丽(Laurie)、布兰登(Brendan)等白人的名字相比,搜索诸如特利文(Trevon)、拉基沙(Lakisha)或拉坦娅之类的非裔美国人名字更可能显示“被逮捕?”的信息。虽然我们不知道为什么会出现这种模式,但斯威尼提出了一种令人不安的解释:谷歌的自动化广告投放算法可能已经注意到,当广告与貌似黑人的名字相关联时,人们更可能点击去看。因此,这一种族偏见并非反映任何投放广告的人或谷歌公司的人有意歧视,它更可能是反映并放大了数百万用户点击广告而生成的全社会歧视决策类型。同样,2017年1月,在谷歌的图像搜索中输入“科学家”或“祖母”时,产生的绝大多数是白人头像。
1700549998
1700549999 在《自然》杂志的一篇文章中,凯特·克劳福德(Kate Crawford)和赖恩·卡洛(Ryan Calo)指出了这么一种危险:“在当前的一些情况下,人工智能系统的缺点不成比例地影响了因种族、性别和社会经济背景等因素而处于不利地位的群体,这凸显了考虑此类系统有意或无意的社会影响的重要性。”
1700550000
1700550001 我们认同这些关注,也看到越来越依赖算法决策的挑战和机会。挑战就是:这种方法会嵌入和延续不公平的、有害的和不必要的偏见。更糟糕的是,即使设计人员有创建无偏见系统的良好初衷,这些偏见也可能会出现,如果没有广泛的测试,它们可能难以识别。所有的系统设计都必须直面这一挑战。
1700550002
1700550003 机会则是:人们通常可以测试和改进基于机器的系统。一经纠正,它们就不太可能再犯同样的错误。相比之下,让人类承认自己的偏见很难,有多少人会公开声称种族歧视或性别歧视呢?更不用说要克服这些困难了。采用一种决策系统(无论是基于机器,基于人类,还是基于两者的某种组合)的最终标准实际上都不是完美的。任何系统都可能会出错,都有偏见。因此,我们的目标应该是选择使偏差和错误最小化,并能够使之轻易快速被纠正的方法。
1700550004
1700550005 让人类加入系统决策过程
1700550006
1700550007 人们应该在决策中扮演什么角色?根据我们所知的系统1的偏见和错漏,以及唾手可得的海量数据和计算能力,第二经济看起来就要接管第一经济了,而数字化的系统2也很快就能做出大部分的决定。有一个古老的笑话,未来的工厂只有两个员工:一个人和一条狗。人的工作是喂狗,狗的工作是不让人接触任何机器。未来的企业果真如此吗?
1700550008
1700550009 我们并不这么看。虽然我们确实带有电脑所没有的偏见,但我们也有电脑不具备的优势。首先,我们一直从感官中吸收非常大量的数据,没有预先选择,只是来者不拒。即使在短时间内,我们也难以只倾听某些声音或只看到某些事物。而电脑正相反,它们很难从其开发者和程序员所允许的数据源搜集多种多样的数据。
1700550010
1700550011 这种差异为米尔所说的“断腿角色”人群带来了一项重要的工作。看一看他举出的例子:几年来,有位教授每周二晚上都去看电影。电脑模型会合理地预测她下周是否会再去看电影。不幸的是,教授周二上午摔断了腿,臀部装了固定器,没法坐在电影院的座位上(这是1954年编造的故事)。任何一个人都会马上知道教授的电影之夜将被取消,但这种“特殊力量”不容易被电脑算法复制。影响教授行为的“不寻常的、意料之外的因素”实在太多了。任何设计电脑系统的人都无法搜集所有这些因素的优质数据,以使程序能够考虑它们。唯一的办法就是建立一个比任何电脑系统都要全面得多的世界级模型。
1700550012
1700550013 人类拥有的另一个巨大优势是古老常识。一些人比其他人有更多常识,但是所有人的常识都比最先进的电脑要多得多。人出生之后就开始学习关于世界如何运作的重要事情,我们认真、快速地学习。然而,尽管经过几十年的研究,我们仍然不太了解人如何获得常识,而且,正如我们在下一章所讨论的,迄今为止,将常识植入电脑的尝试是败绩累累。
1700550014
1700550015 因此,在很多情况下,让人检查电脑决策以确保万无一失是有道理的。资深的数据分析和技术学者托马斯·达文波特(Thomas Davenport)把这种做法称为“看看窗外”。这句话不仅仅是一个令人深思的比喻。它是达文波特偶遇一位飞行员所得到的启示,飞行员讲述他自己如何严重依赖飞机的仪器,但发现视线偶尔扫向天际依然至关重要。这种方法非常有益,它不仅可以防止错误,而且还可以维护公司的声誉。
1700550016
1700550017 打车服务商Uber在2014年年底艰难地掌握了这种方法。当时,该公司因其高峰定价(繁忙时段提高票价)而臭名昭著,这是一种许多用户难以接受的方法。Uber坚称高峰定价有助于平衡这些时段的供需关系,我们也同意这一点。该公司的算法给出高价,以期当实际或预期的汽车供应跟不上消费者需求时,鼓励更多的司机参与进来。
1700550018
1700550019 2014年12月,当一名伊朗牧师在澳大利亚悉尼的一家咖啡馆绑架18名人质时,这种做法使该公司受到非议。许多人逃离事发地区,其中有些人试图呼叫Uber。Uber的电脑系统启动高峰定价,应对这一突如其来的需求。对许多人来说,这是对一场危机的一个非常不合适的反应,于是该公司面临激烈抨击。
1700550020
1700550021 Uber发表了这样的声明:“我们没有(在悉尼事件期间)直接叫停高峰定价。这是错误的决定。”该公司也显然建立了在某些情况下推翻自动化高峰定价的能力。从2015年11月13日晚上开始,恐怖分子在巴黎进行了一系列袭击。事发30分钟内,Uber就取消了该市的高峰定价,并提醒其所有用户进入紧急状态。[12]
1700550022
1700550023 这些例子表明了让人类的主观判断和算法同时发挥作用的明智之处。但是,企业采用这种方式时要非常小心。人类非常喜欢自己的判断力,对此过分自信,所以即使电脑的决策更好,我们中的许多人(如果不是大部分人)也会很快地推翻它。本章前面提到克里斯·斯奈德斯针对采购经理的预测进行研究,他发现,“你通常看到的是,有电脑辅助的专家的判断效果处于模型和无电脑帮助的专家之间。所以说,如果你把模型给专家,他们会做得更好,但模型本身表现得更好”。
1700550024
1700550025 基于米尔和达文波特所描述的原因,我们支持让人类进入模型决策过程,但是我们也主张企业尽可能地“保留分数”,即随时跟踪算法决策相对于人类决策的准确性。如果人类决策比基准算法更好,那么一切就应该照常。不然的话,事情就需要改变,而第一步就是让人们意识到自己真正的成功率。
1700550026
1700550027 这种反馈机制至关重要,因为它是系统1学习和改进的原理。正如卡尼曼和心理学家加里·克莱恩(Gary Klein)所写:“你不该相信自己的本能。你要把自己的直觉看作一个重要的数据点,但你必须有意识地、深思熟虑地评估它,看看它在此环境下是否有意义。”提高系统1的准确性并减少偏见的最好办法是举出很多例子,然后对系统1的准确性给出频繁快速的反馈。
1700550028
1700550029 翻转决策
1700550030
1700550031 一些公司开始使用另一种有价值的方法,那就是把人机分工的标准安排颠倒过来。人类做判断时不再使用机器提供的数据作为输入,相反,人类的判断被用作算法的输入。谷歌率先将这一方法用于招聘工作,这是公司的关键领域,有分析表明,以往的标准安排在该领域效果不佳。
1700550032
1700550033 拉兹洛·伯克(Laszlo Bock)担任谷歌人事部负责人时就意识到,多数用于选择新员工的技术几乎无济于事。在考察公司员工在职表现差异的实际影响因素时,他的团队发现,招聘前的简历检查仅解释了约7%的差异,之前工作经历的年份解释了3%,非结构化的工作面试仍然是最常见的情形,它始于“你的最大优势是什么”或“请做自我介绍”等问题,但是只能解释14%的差异。伯克说,这些面试存在的问题是:
1700550034
1700550035 它们创造了一个情景,在面试中试图确认我们对某些人的看法,而不是真正评估他们。
1700550036
1700550037 心理学家把这情况称为证实性偏见。我们基于轻度交流,做出了草率的、无意识的判断,此判断深受我们现有偏见和信念的影响。我们没有意识到这一点,于是把评估申请人的工作变成寻找证据来证实我们的初步印象。
1700550038
1700550039 在这里,系统1又一次运行了,然后把它的偏见和缺陷引入一个重要的决定。
1700550040
[ 上一页 ]  [ :1.700549991e+09 ]  [ 下一页 ]