打字猴:1.703948884e+09
1703948884
1703948885 不幸的是,我们的担忧一语中的。大数据的价值不再单纯来源于它的基本用途,而更多源于它的二次利用。这就颠覆了当下隐私保护法以个人为中心的思想:数据收集者必须告知个人,他们收集了哪些数据、作何用途,也必须在收集工作开始之前征得个人的同意。虽然这不是进行合法数据收集的唯一方式,“告知与许可”已经是世界各地执行隐私政策的共识性基础(虽然实际上很多的隐私声明都没有达到效果,但那是另一回事)。
1703948886
1703948887 更重要的是,大数据时代,很多数据在收集的时候并无意用作其他用途,而最终却产生了很多创新性的用途。所以,公司无法告知个人尚未想到的用途,而个人亦无法同意这种尚是未知的用途。但是只要没有得到许可,任何包含个人信息的大数据分析都需要向个人征得同意。因此,如果谷歌要使用检索词预测流感的话,必须征得数亿用户的同意,这简直无法想象。就算没有技术障碍,又有哪个公司能负担得起这样的人力物力支出呢?
1703948888
1703948889 同样,一开始的时候就要用户同意所有可能的用途,也是不可行的。因为这样一来,“告知与许可”就完全没有意义了。大数据时代,告知与许可这个经过了考验并且可信赖的基石,要么太狭隘,限制了大数据潜在价值的挖掘,要么就太空泛而无法真正地保护个人隐私。
1703948890
1703948891 同时,想在大数据时代中用技术方法来保护隐私也是天方夜谭。如果所有人的信息本来都已经在数据库里,那么有意识地避免某些信息就是此地无银三百两。我们把谷歌街景作为一个例子来看,谷歌的图像采集车在很多国家采集了道路和房屋的图像(以及很多备受争议的数据)。但是,德国媒体和民众强烈地抗议了谷歌的行为,因为民众认为这些图片会帮助黑帮窃贼选择有利可图的目标。有的业主不希望他的房屋或花园出现在这些图片上,顶着巨大的压力,谷歌同意将他们的房屋或花园的影像模糊化。但是这种模糊化却起到了反作用,因为你可以在街景上看到这种有意识的模糊化,对盗贼来说,这又是一个此地无银三百两的例子。
1703948892
1703948893 另一条技术途径在大部分情况下也不可行,那就是匿名化。匿名化指的是让所有能揭示个人情况的信息都不出现在数据集里,比方说名字、生日、住址、信用卡号或者社会保险号等。这样一来,这些数据就可以在被分析和共享的同时,不会威胁到任何人的隐私。在小数据时代这样确实可行,但是随着数据量和种类的增多,大数据促进了数据内容的交叉检验。
1703948894
1703948895 2006年8月,美国在线(AOL)公布了大量的旧搜索查询数据,本意是希望研究人员能够从中得出有趣的见解。这个数据库是由从3月1日到5月31日之间的65.7万用户的2000万搜索查询记录组成的,整个数据库进行过精心的匿名化——用户名称和地址等个人信息都使用特殊的数字符号进行了代替。这样,研究人员可以把同一个人的所有搜索查询记录联系在一起来分析,而并不包含任何个人信息。
1703948896
1703948897 尽管如此,《纽约时报》还是在几天之内通过把“60岁的单身男性”、“有益健康的茶叶”、“利尔本的园丁”等搜索记录综合分析考虑后,发现数据库中的4417749号代表的是佐治亚州利尔本的一个62岁寡妇塞尔玛·阿诺德(Thelma Arnold)。当记者找到她家的时候,这个老人惊叹道:“天呐!我真没想到一直有人在监视我的私人生活。”这引起了公愤,最终美国在线的首席技术官和另外两名员工都被开除了。
1703948898
1703948899 事隔仅仅两个月之后,也就是2006年10月,DVD租赁商奈飞公司做了一件差不多的事,就是宣布启动“Netflix Prize”算法竞赛。该公司公布了大约来自50万用户的一亿条租赁记录,并且公开悬赏100万美金,举办一个软件设计大赛来提高他们的电影推荐系统的准确度,胜利的条件是把准确度提高10%。同样,奈飞公司也对数据进行了精心的匿名化处理。然而还是被一个用户认出来了,一个化名“无名氏”的未出柜的同性恋母亲起诉了奈飞公司,她来自保守的美国中西部。
1703948900
1703948901 通过把奈飞公司的数据与其他公共数据进行对比分析,得克萨斯大学的研究人员很快发现,匿名用户进行的收视率排名与互联网电影数据库(IMDb)上实名用户所排的是匹配的。
1703948902
1703948903 大数据的力量
1703948904
1703948905 概括地说,研究发现每对6部不出名的电影进行排序,我们就有84%的概率可以辨认出奈飞公司这个顾客的身份。而如果我们知道这个顾客是哪天进行了排序的话,那么他被从这个50万人的数据库中挑出来的概率就会高达99%。
1703948906
1703948907 在美国在线的案例中,我们被我们所搜索的内容出卖了。而奈飞公司的情况则是因为不同来源数据的结合暴露了我们的身份。这两种情况的出现,都是因为公司没有意识到匿名化对大数据的无效性。而出现这种无效性则是由两个因素引起的,一是我们收集到的数据越来越多,二是我们会结合越来越多不同来源的数据。
1703948908
1703948909 科罗拉多大学的法学教授保罗·欧姆(Paul Ohm),同时也是研究反匿名化危害的专家,认为针对大数据的反匿名化[2],现在还没有很好的办法。毕竟,只要有足够的数据,那么无论如何都做不到完全的匿名化。更糟的是,最近的研究表明,不只是传统数据容易受到反匿名化的影响,人们的社交关系图,也就是人们的相互联系也将同受其害。
1703948910
1703948911 大数据洞察
1703948912
1703948913 在大数据时代,不管是告知与许可、模糊化还是匿名化,这三大隐私保护策略都失效了。如今很多用户都觉得自己的隐私已经受到了威胁,当大数据变得更为普遍的时候,情况将更加不堪设想。
1703948914
1703948915 与25年之前的民主德国相比,现在我们所受的监控没有减少,反而变得越来越容易、严密以及低成本。采集个人数据的工具就隐藏在我们日常生活所必备的工具当中,比如网页和智能手机应用程序。我们知道大多数的汽车中都装了一个“黑盒子”——用来监测安全气囊激活的情况,而如今,一旦出现具有争议的交通案件,这个黑盒子所采集的数据就可以在法庭上充当证据。当然,如果企业采集数据只是来提高绩效,我们就不用像被Stasi窃听那样而感到那么害怕。毕竟企业再强大,也不如国家强制力。
1703948916
1703948917 不过,即使它们不具备国家强制力,想到各种各样的公司在我们不知情的情况下采集了我们日常生活方方面面的数据,并且进行了数据共享以及一些我们未知的运用,这还是很恐怖的。对大数据大加利用的不只是私营企业,政府也不甘落后。
1703948918
1703948919 据《华盛顿邮报》2010年的研究表明,美国国家安全局每天拦截并存储的电子邮件、电话和其他通信记录多达17亿条。前美国安全局官员威廉·宾尼(William Binney)估计政府采集的美国及他国公民的通信互动记录有20万亿次之多,其中包括谁和谁通过话、发过电子邮件、进行过电汇等信息。为了弄明白这所有的数据,美国建立了庞大的数据中心,其中美国国家安全局就耗资12亿美元在犹他州的威廉姆斯堡建立了一个。
1703948920
1703948921 如今,不再只是负责反恐的秘密机关需要采集更多的数据,所有的政府部门都需要,所以,数据采集扩展到了金融交易、医疗记录和Facebook状态更新等各个领域,数据量之巨可想而知。政府其实处理不了这么多数据,那为什么要费力采集呢?
1703948922
1703948923 这是因为在大数据时代,监控的方式已经改变了。过去,调查员为了尽可能多地知道嫌疑人的信息,需要把鳄鱼夹夹到电话线上。当时最重要的是能深入调查某个人,而现在情况不一样了,比如谷歌和Facebook的理念则是人就是社会关系、网上互动和内容搜索的加和。所以,为了全面调查一个人,调查员需要得到关于这个人的最广泛的信息,不仅是他们认识的人,还包括这些人又认识哪些人等。过去的技术条件没法做到这样的分析,但是今非昔比了。
1703948924
1703948925 不过,虽然企业和政府拥有的这种采集个人信息的能力,让我们感到很困扰,但也还是没有大数据所引起的另一个新问题让我们更恐慌,那就是用预测来判断我们。
1703948926
1703948927 大数据时代:生活、工作与思维的大变革 [:1703946894]
1703948928 预测与惩罚,不是因为“所做”,而是因为“将做”
1703948929
1703948930 约翰·安德顿(John Anderton)是华盛顿特区警局预防犯罪组的负责人。这是特别的一天,早上,他冲进了住在郊区的霍华德·马克斯(Howard Marks)的家中并逮捕了他,后者打算用剪刀刺杀他的妻子,因为他发现他妻子给他戴了“绿帽子”。安德顿又防止了一起暴力犯罪案件的发生。他大声说:“我以哥伦比亚特区预防犯罪科的名义逮捕你,你即将在今天谋杀你的妻子萨拉·马克斯(Sarah Marks)……”其他的警察开始控制霍华德,霍华德大喊冤枉,“我什么都没有做啊!”
1703948931
1703948932 这是电影《少数派报告》(Minority Report)开始时的场景,这部电影描述的是一个未来可以准确预知的世界,而罪犯在实施犯罪前就已受到了惩罚。人们不是因为所做而受到惩罚,而是因为将做,即使他们事实上并没有犯罪。虽然电影中预测依靠的不是数据分析,而是三个超自然人的想象,但是《少数派报告》所描述的这个令人不安的社会正是不受限制的大数据分析可能会导致的:罪责的判定是基于对个人未来行为的预测。
1703948933
[ 上一页 ]  [ :1.703948884e+09 ]  [ 下一页 ]