打字猴:1.703949238e+09
1703949238 最初,许多数据形式都不可用。例如,在一个城市里,描述地理位置的方法不是唯一的,每个机构和部门似乎都有自己的描述方式。建筑部门给予每个建筑物一个独特的号码;房屋维护部门也有自己独有的编号系统;税务部门依照街区和地皮,给予每个建筑物特定的标识;警察局采用笛卡尔坐标系;消防局依托“电话亭”临近体系,将建筑物与各个消防站的位置联系在一起,尽管这些电话亭并非真实存在。弗劳尔的小伙子们处理这种不统一的方式是:以笛卡尔坐标系为基础,取用建筑物周围的一片辐射范围并从其他机构的数据库调取地理位置数据,从而建立一个系统。这些数据本身并不精确,但是巨大的信息量弥补了这点瑕疵。
1703949239
1703949240 尽管如此,他们并不满足于仅仅对数据进行运算,而是会到现场观看检查员的工作。他们不断做着大量笔记,并询问一切流程的开展效果。当一个头发斑白的领头人哼了一声说“找到那个建筑不是问题”时,他们很想知道为什么这个人会这么自信。但领头人自己也说不清楚为什么,不过弗劳尔的小伙子们渐渐发现,这种直觉来自建筑物外新的砖工,它暗示着建筑物的主人很重视这个地方。
1703949241
1703949242 小伙子们回到自己的工作间,钻研着如何能将“新的砖工”作为一种信号融入到他们的模型中,毕竟,砖块是没有被数据化的。但是可以肯定的是,做任何外部砖工都需要城市许可证。这些信息都可以用于提高系统的预测功能,并且他们发现,很多传统意义上可疑的特点其实都无关紧要。
1703949243
1703949244 这种分析法或许揭示了:有些历史最悠久的做事方法并不是最好的,就好比《点球成金》中的球探们不得不接受他们直觉中的缺陷一样。例如,人们将城市“311”投诉热线的来电数量作为衡量问题严重性的指标,来电越多说明问题越严重。但是这种引导是错误的。在繁华的上东区发现一只老鼠也许会在仅仅一个小时之内引发30个投诉电话。然而在布朗克斯区,街坊只有在看到成群结队的老鼠时,才会觉得有必要打个投诉电话。同样,很多非法改建的投诉也许会让人们议论纷纷,但是其后果并没有那么严重。
1703949245
1703949246 2011年6月,弗劳尔和他的小伙子们开始启用他们的系统和方法。他们每周浏览一次可归为“非法改建”一类的投诉,将他们认为前5%有火灾危险的投诉转交给检查员立刻跟进。当拿回结果时,所有人都惊呆了。
1703949247
1703949248 大数据的力量
1703949249
1703949250 在大数据分析之前,检查员会先跟进他们认为最急迫的投诉,而只有13%的案件足够严重,需要立刻去处理。现在,他们立即处理的投诉案件占他们所有安全监测的70%。大数据节省了检查员的时间,将效率提高到原来的5倍。他们的工作也越来越令人满意:精力都集中于最严重的问题。他们新发现的成果还带来了额外利益。非法改建中的火灾更可能导致消防员受伤或死亡,概率是普通案件的15倍。消防局因此非常满意。弗劳尔和他的小伙子们就好像巫师一样,手中的水晶球让他们可以预见未来,看到哪里是最危险的。他们利用了大量搁置多年的数据,这些数据自收集以来几乎没被用过。他们用新的方法管理这些信息,从而提取出它们真正的价值。他们从大的信息库中释放了洞察力,而这在较小数据中是做不到的,这就是大数据的缩影。
1703949251
1703949252 纽约市分析炼金师的经验凸显了本书中的不少主题。他们使用了庞大的数据量,而不仅是一些数据。他们所列的城市建筑基本上可以视为“样本=总体”。位置信息或救护车记录等数据比较凌乱,但是这并没让他们就此放弃。更多数据所带来的好处远比原始信息少所带来的弊端更重要。他们之所以能取得成功,是因为城市的很多功能都以数据的形式呈现(尽管存在不一致),从而使他们能够处理和使用这些信息来提高预测效果。
1703949253
1703949254 专家暗示,无论是自大的统计学家还是专管投诉热线的公务员,在数据驱动方法面前都应退居次席。与此同时,弗劳尔和他的小伙子们不断地让经验丰富的检查员来测试他们的模型,借鉴检察员们的经验,使系统表现得更好。这个项目成功最重要的原因是,它更多依赖的是相关关系而非因果关系。
1703949255
1703949256 “我对因果关系不感兴趣,除非它用行动说话。”弗劳尔解释道。“因果关系是别人的事,坦白说,谈论因果关系是非常冒险的。我不认为有人提出房产止赎程序和那个地方是否长期存在结构性的火灾风险之间有任何关系。我认为这么想很愚蠢。他们会认为有一些潜在的因素,但没有人会站出来承认。我不想深究这个,我需要一个能够把握的特定数据点来告诉我它的意义。如果它很重要,我们就会采取行动。如果不重要,我们就不会行动。你知道,我们有真正需要解决的问题。我不会闲逛,或者像现在一样想着因果关系的事儿。”
1703949257
1703949258
1703949259
1703949260
1703949261 大数据时代:生活、工作与思维的大变革 [:1703946904]
1703949262 大数据时代:生活、工作与思维的大变革 大数据时代,名副其实的“信息社会”
1703949263
1703949264 大数据在实用层面的影响很广泛,解决了大量的日常问题。大数据更是利害攸关的,它将重塑我们的生活、工作和思维方式。在某些方面,我们面临着一个僵局,比其他划时代创新引起的社会信息范围和规模急剧扩大所带来的影响更大。我们脚下的地面正在移动。过去确定无疑的事情正在受到质疑。大数据需要人们重新讨论决策、命运和正义的性质。我们的世界观正受到相关性优势的挑战。拥有知识曾意味着掌握过去,现在则更意味着能够预测未来。
1703949265
1703949266 当我们准备开发电子商务、寓生活于互联网、进入计算机时代或者拿起算盘时,这些事情比那些代表他们的问题更加重要。我们寻找原因的想法可能被高估了,很多情况下,弄清楚“是什么”比找寻“为什么”更加重要,因为前者表明事实才是我们生活和思维的基础。这些问题可能没有答案。或许,它们是关于人在宇宙中的位置以及能否在喧嚣混乱、不可理喻的世界中寻找到意义这一永恒争论的一部分。[1]
1703949267
1703949268 最终,大数据标志着“信息社会”终于名副其实。我们收集的所有数字信息现在都可以用新的方式加以利用。我们可以尝试新的事物并开启新的价值形式。但是,这需要一种新的思维方式,并将挑战我们的社会机构,甚至挑战我们的认同感。可以肯定的是,数据量将继续增长,处理这一切的能力也是如此。但是,现在大多数人都认为大数据是一个技术问题,应侧重于硬件或软件,而我们认为应当更多地考虑当数据说话时会发生什么。
1703949269
1703949270 大数据洞察
1703949271
1703949272 现在,我们可以获得比以前更多的信息并进行分析。在我们诠释世界时,数据不再是限制我们努力的因素了。我们可以利用更多的数据,某些情况下,甚至是全部数据。但是这需要我们采取非传统的方法,特别是要改变我们理想中构成有用信息的因素。
1703949273
1703949274 除了纠结于数据的准确性、正确性、纯洁度和严格度之外,我们也应该容许一些不精确的存在。数据不可能是完全对或完全错的。当数据的规模以数量级增加时,这些混乱也就算不上问题了。事实上,它甚至可以是有好处的,因为当我们只想使用一小部分时,无须捕捉这么多的知识细节。又因为我们可以用更快更便宜的方式找到数据的相关性,并且效果往往更好,而不必努力去寻找因果关系。当然在某些情况下,我们仍然需要精心策划的数据来做因果关系研究和控制实验,如测试药物的副作用或设计关键的飞机部件。但是在日常情况下,知道“是什么”就已经足够,不必非要弄清楚“为什么”。大数据的相关性将人们指向了比探讨因果关系更有前景的领域。
1703949275
1703949276 这些相关性能让我们节省机票钱和预测流感爆发,并知道在一个资源有限的世界中应该检查哪些沙井盖和过度拥挤的建筑物。它可以帮助健康保险公司不做体检就能决定保险覆盖面,并降低提醒病人服药的成本。通过大数据的相关性,语言可以得到翻译,汽车可以在预测的基础上自行驾驶。沃尔玛可以了解飓风前应在门店准备哪种口味的蛋挞[2]。当然,如果能从中得到因果关系更好。问题是,因果关系往往很难找到,通常我们认为找到了的时候,都是在自欺欺人。
1703949277
1703949278 我们之所以能做所有这些事,新工具只是个很小的因素,无论是更快的处理器、更多的存储器,还是更智能的软件和算法。这些固然重要,但是更为根本的原因是我们拥有了更多的数据,继而世界上更多的事物被数据化了。诚然,人类量化世界的雄心先于计算机革命,但是数字工具将数据化提升到了新的高度。不仅移动电话能够跟踪到我们呼叫的人和我们所在的位置,而且同样的数据也能用于断定我们是否生病了。不久之后,它或许还能够辨别我们是否恋爱了。
1703949279
1703949280 大数据洞察
1703949281
1703949282 我们“做新、做多、做好、做快”的能力能释放出无限价值,产生新的赢家和输家。大部分的信息价值来自二级用途,即潜在价值,而不是我们所习惯认为的基本用途。结果,对于大多数数据来说,尽可能多地收集、等待信息增值并且让其他更适合挖掘其价值的人来分析它才是明智之举(前提是此人能够分享开发出的利润)。
1703949283
1703949284 能置身于信息流中央并且能收集数据的公司通常会繁荣兴旺。有效利用大数据需要专业技术和丰富的想象力,即一个能容纳大数据的心态,但价值的核心归功于数据本身。有时,重要的资产并不仅仅是能清楚看到的信息,更是从人们与信息交互中收集到的数据废气,聪明的公司可以用它来改善现有的服务,或推出全新的服务。
1703949285
1703949286 大数据同时也给我们带来了巨大的风险。它使得目前用以保护隐私的法律手段和核心技术失去了效果。过去个人身份信息包含的是名字、社会安全号码、税收记录等,其构成简单明了。因此隐私保护相对比较简单,只要确保不使用这些信息即可。而今天,即使是最无害的数据,只要被数据收集器采集到足够的量,也会暴露出个人身份。匿名化或是单纯隐藏已不再适用。不仅如此,现在要是对某人进行监督,必定会侵犯到较之以往范围更广的个人隐私内容。因为政府在管理上不仅要求个人信息尽可能完善,还记录了其所有的社会关系、交往和交流信息。
1703949287
[ 上一页 ]  [ :1.703949238e+09 ]  [ 下一页 ]