打字猴:1.703947318e+09
1703947318
1703947319 实际上,大数据与三个重大的思维转变有关,这三个转变是相互联系和相互作用的。
1703947320
1703947321 ●首先,要分析与某事物相关的所有数据,而不是依靠分析少量的数据样本。
1703947322
1703947323 ●其次,我们乐于接受数据的纷繁复杂,而不再追求精确性。
1703947324
1703947325 ●最后,我们的思想发生了转变,不再探求难以捉摸的因果关系,转而关注事物的相关关系。
1703947326
1703947327 本章就将介绍第一个转变:利用所有的数据,而不再仅仅依靠一小部分数据。
1703947328
1703947329 很长一段时间以来,准确分析大量数据对我们而言都是一种挑战。过去,因为记录、储存和分析数据的工具不够好,我们只能收集少量数据进行分析,这让我们一度很苦恼。为了让分析变得简单,我们会把数据量缩减到最少。这是一种无意识的自省:我们把与数据交流的困难看成是自然的,而没有意识到这只是当时技术条件下的一种人为的限制。如今,技术条件已经有了非常大的提高,虽然人类可以处理的数据依然是有限的,也永远是有限的,但是我们可以处理的数据量已经大大地增加,而且未来会越来越多。
1703947330
1703947331 在某些方面,我们依然没有完全意识到自己拥有了能够收集和处理更大规模数据的能力。我们还是在信息匮乏的假设下做很多事情,建立很多机构组织。我们假定自己只能收集到少量信息,结果就真的如此了。这是一个自我实现的过程。我们甚至发展了一些使用尽可能少的信息的技术。别忘了,统计学的一个目的就是用尽可能少的数据来证实尽可能重大的发现。事实上,我们形成了一种习惯,那就是在我们的制度、处理过程和激励机制中尽可能地减少数据的使用。为了理解大数据时代的转变意味着什么,我们需要首先回顾一下过去。
1703947332
1703947333 大数据时代:生活、工作与思维的大变革 [:1703946852]
1703947334 小数据时代的随机采样,最少的数据获得最多的信息
1703947335
1703947336 直到最近,私人企业和个人才拥有了大规模收集和分类数据的能力。在过去,这是只有教会或者政府才能做到的。当然,在很多国家,教会和政府是等同的。有记载的、最早的计数发生在公元前8000年的,当时苏美尔的商人用黏土珠来记录出售的商品。大规模的计数则是政府的事情。数千年来,政府都试图通过收集信息来管理国民。
1703947337
1703947338 以人口普查为例。据说古代埃及曾进行过人口普查,《旧约》和《新约》中对此都有所提及。那次由奥古斯都恺撒主导实施的人口普查,提出了“每个人都必须纳税”,这使得约瑟夫和玛丽搬到了耶稣的出生地伯利恒。1086年的《末日审判书》(The Doomsday Book)对当时英国的人口、土地和财产做了一个前所未有的全面记载。皇家委员穿越整个国家对每个人、每件事都做了记载,后来这本书用《圣经》中的《末日审判书》命名,因为每个人的生活都被赤裸裸地记载下来的过程就像接受“最后的审判”一样。
1703947339
1703947340 然而,人口普查是一项耗资且费时的事情。国王威廉一世(King William I)在他发起的《末日审判书》完成之前就去世了。但是,除非放弃收集信息,否则在当时没有其他办法。尽管如此,当时收集的信息也只是一个大概情况,实施人口普查的人也知道他们不可能准确记录下每个人的信息。实际上,“人口普查”这个词来源于拉丁语的“censere”,意思就是推测、估算。
1703947341
1703947342 三百多年前,一个名叫约翰·格朗特(John Graunt)[1]的英国缝纫用品商提出了一个很有新意的方法。他采用了一个新方法推算出鼠疫时期伦敦的人口数,这种方法就是后来的统计学。这个方法不需要一个人一个人地计算。虽然这个方法比较粗糙,但采用这个方法,人们可以利用少量有用的样本信息来获取人口的整体情况。
1703947343
1703947344 虽然后来证实他能够得出正确的数据仅仅是因为运气好,但在当时他的方法大受欢迎。样本分析法一直都有较大的漏洞,因此无论是进行人口普查还是其他大数据类的任务,人们还是一直使用一一清点这种“野蛮”的方法。
1703947345
1703947346 考虑到人口普查的复杂性以及耗时耗费的特点,政府极少进行普查。古罗马在拥有数十万人口的时候每5年普查一次。美国宪法规定每10年进行一次人口普查,而随着国家人口越来越多,只能以百万计数。但是到19世纪为止,即使这样不频繁的人口普查依然很困难,因为数据变化的速度超过了人口普查局统计分析的能力。
1703947347
1703947348 大数据先锋
1703947349
1703947350 穿孔卡片与美国人口普查
1703947351
1703947352 美国在1880年进行的人口普查,耗时8年才完成数据汇总。因此,他们获得的很多数据都是过时的。1890年进行的人口普查,预计要花费13年的时间来汇总数据。即使不考虑这种情况违反了宪法规定,它也是很荒谬的。然而,因为税收分摊和国会代表人数确定都是建立在人口的基础上的,所以必须要得到正确的数据,而且必须是及时的数据。
1703947353
1703947354 美国人口普查局面临的问题与当代商人和科学家遇到的问题很相似。很明显,当他们被数据淹没的时候,已有的数据处理工具已经难以应付了,所以就需要有更多的新技术。
1703947355
1703947356 后来,美国人口普查局就和当时的美国发明家赫尔曼·霍尔瑞斯(Herman Hollerith)签订了一个协议,用他的穿孔卡片制表机来完成1890年的人口普查。
1703947357
1703947358 经过大量的努力,霍尔瑞斯成功地在1年时间内完成了人口普查的数据汇总工作。这简直就是一个奇迹,它标志着自动处理数据的开端,也为后来IBM公司的成立奠定了基础。但是,将其作为收集处理大数据的方法依然过于昂贵。毕竟,每个美国人都必须填一张可制成穿孔卡片的表格,然后再进行统计。这么麻烦的情况下,很难想象如果不足十年就要进行一次人口普查应该怎么办。但是,对于一个跨越式发展的国家而言,十年一次的人口普查的滞后性已经让普查失去了大部分意义。
1703947359
1703947360 这就是问题所在,是利用所有的数据还是仅仅采用一部分呢?最明智的自然是得到有关被分析事物的所有数据,但是当数量无比庞大时,这又不太现实。那如何选择样本呢?有人提出有目的地选择最具代表性的样本是最恰当的方法。1934年,波兰统计学家耶日·奈曼(Jerzy Neyman)指出,这只会导致更多更大的漏洞。事实证明,问题的关键是选择样本时的随机性。[2]
1703947361
1703947362 统计学家们证明:采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量的增加关系不大。虽然听起来很不可思议,但事实上,一个对1100人进行的关于“是否”问题的抽样调查有着很高的精确性,精确度甚至超过了对所有人进行调查时的97%[3]。这是真的,不管是调查10万人还是1亿人,20次调查里有19次都能猜对。为什么会这样?原因很复杂,但是有一个比较简单的解释就是,当样本数量达到了某个值之后,我们从新个体身上得到的信息会越来越少,就如同经济学中的边际效应递减一样。
1703947363
1703947364 认为样本选择的随机性比样本数量更重要,这种观点是非常有见地的。这种观点为我们开辟了一条收集信息的新道路。通过收集随机样本,我们可以用较少的花费做出高精准度的推断。因此,政府每年都可以用随机采样的方法进行小规模的人口普查,而不是只能每十年进行一次。事实上,政府也这样做了。例如,除了十年一次的人口大普查,美国人口普查局每年都会用随机采样的方法对经济和人口进行200多次小规模的调查。当收集和分析数据都不容易时,随机采样就成为应对信息采集困难的办法。
1703947365
1703947366 很快,随机采样就不仅应用于公共部门和人口普查了。在商业领域,随机采样被用来监管商品质量。这使得监管商品质量和提升商品品质变得更容易,花费也更少。以前,全面的质量监管要求对生产出来的每个产品进行检查,而现在只需从一批商品中随机抽取部分样品进行检查就可以了。本质上来说,随机采样让大数据问题变得更加切实可行。同理,它将客户调查引进了零售行业,将焦点讨论引进了政治界,也将许多人文问题变成了社会科学问题。
1703947367
[ 上一页 ]  [ :1.703947318e+09 ]  [ 下一页 ]