1703948050
1703948051
大数据洞察
1703948052
1703948053
今天,技术专家都默认大数据的发展和计算机的变革是同步的。但事实并不是这样的。毫无疑问,是现代信息系统让大数据成为了可能,但是大数据发展的核心动力来源于人类测量、记录和分析世界的渴望。信息技术变革随处可见,但是如今信息技术变革的重点在“T”(技术)上,而不是在“I”(信息)上。现在,我们是时候把聚光灯打向“I”,开始关注信息本身了。
1703948054
1703948055
为了得到可量化的信息,我们要知道如何计量;为了数据化量化了的信息,我们要知道怎么记录计量的结果。这需要我们拥有正确的工具。计量和记录的需求也是数据化的前提,而我们在数字化时代来临的几个世纪前就已经奠定好了数据化的基础。
1703948056
1703948058
量化一切,数据化的核心
1703948059
1703948060
记录信息的能力是原始社会和先进社会的分界线之一。早期文明最古老的抽象工具就是基础的计算以及长度和重量的计量。公元前3000年,信息记录在印度河流域、埃及和美索不达米亚平原地区就有了很大的发展,而日常的计量方法也大有改善。美索不达米亚平原上书写的发展促使了一种记录生产和交易的精确方法的产生,这让早期文明能够计量并记载事实情况,并且为日后所用。计量和记录一起促成了数据的诞生,它们是数据化最早的根基。
1703948061
1703948062
计量和记录能够再现人类活动。比如通过记录建筑物的建筑方式和原材料,我们就能再建同样的建筑,或进行实验性的操作,比如通过改变一些方式保存其他部分而建造出新的建筑物,然后再记录这些新建筑物。交易情况一旦得到记录,我们就可以知道一块地丰收时稻谷的产量是多少、需要上缴多少政府税收。计量和记录为预测和计划奠定了基础,虽然这建立在假定明年的收成和今年一样的基础上。有了记录,交易双方才会知道他们赊账的情况,而如果没有这些凭证的支持,欠债的一方则完全可以不用还钱。
1703948063
1703948064
几百年来,计量从长度和重量不断扩展到了面积、体积和时间。公元前的最后一个千年,西方的计量方法已经基本准备就绪,但是还是有着比较严重的缺陷。早期文明的计量方法不太适合计算,哪怕是比较简单的计算。比如罗马数字的计算系统就不适合数字计算,因为它没有一个以10为底的记数制或者说是十进制,所以大数目的乘除就算是专家都不知道该怎么算,而简单的乘除对一般人来说也不容易。
1703948065
1703948066
大约公元1世纪的时候,印度发明了一种自己的数字系统。它传播到了波斯,并在那里得到改善,而后传入阿拉伯国家,得到了极大的改进。这也就是今天使用的阿拉伯数字的前身。十字军东征给当地人民带来了彻头彻尾的灾难,但同时也把西欧文明带到了地中海东部,而其中最重要的引入就是阿拉伯数字。公元1000年,教皇西尔维斯特二世开始倡导使用阿拉伯数字。12世纪,介绍阿拉伯数字的书籍被翻译成拉丁文,传播到了整个欧洲地区。这也就开启了算术的腾飞。
1703948067
1703948068
早在阿拉伯数字传播到欧洲之前,计数板的使用就已经改善了算术。计数板就是在光滑的托盘上放上代币来表示数量,人们通过移动代币到某个区域进行加减。但是,这种计数板有着严重的缺陷,即过大和过小的计算无法同时进行。最主要的缺陷还在于,这些计数板上的数字变化很快,不小心的碰撞或者是摆错一位都会导致完全错误的结果。而且,即便计数板勉强可以进行计算,它也不适合用来记录。因为一旦需要将数字记录在计数板以外的地方,就必须把计数板上的数字转化成罗马数字,这可就费时费力了。[2]
1703948069
1703948070
算术赋予了数据新的意义,因为它现在不但可以被记录还可以被分析和再利用。阿拉伯数字从12世纪开始在欧洲出现,而直到16世纪晚期才被广泛采用。到16世纪的时候,数学家们大肆鼓吹他们使用阿拉伯数字计算能比使用计数板快6倍。但最终让阿拉伯数字广为采用的还是复式记账法[3]的出现,它也是数据化的一种工具。
1703948071
1703948072
公元前3000年,会计手稿就出现了。但是,记账法在接下来的几百年里发展缓慢,基本上一直保持在记录某地的某个特定交易的阶段。记账人和他的雇主最关心的就是判断某个账户或者自己所从事的行业是否赚钱,而这正是当时的记账手法无法轻易做到的事情。到了14世纪,随着意大利的会计们开始使用两个账本记录交易明细,这种尴尬的境地开始发生改变。这种记账法的优势在于,人们只需要将借贷相加,就可进行制表并得知每个账户的盈亏情况。如此,数据骤然发声了,虽然仅限于读出盈亏情况。
1703948073
1703948074
如今,复式记账法通常被看成是会计业和金融业不断发展的成果。事实上,在数据利用的推进过程中,它也是一个里程碑似的存在。它的出现实现了相关账户信息的“分门别类”记录。它建立在一系列记录数据的规则之上,也是最早的信息记录标准化的例子,使得会计们能够读懂彼此的账本。复式记账法可以使查询每个账户的盈亏情况变得简单容易。它会提供交易的记账线索,这样就更容易找到需要的数据。它的设计理念中包含了“纠错”的思想,这也是今天的技术人才们应该学习的。如果一个账本看着不对劲,我们可以查询另一个相对应的账本。
1703948075
1703948076
但是,和阿拉伯数字一样,复式记账法也没有立即取得成功。直到200年之后,一个数学家和一个商业家族才让它大受欢迎,他们也改变了数据化的历史。
1703948077
1703948078
这个数学家就是方济各会的修士路萨·帕西奥利(Luca Pacioli)。1494年,他出版了一本为普通读者和商人所写的数学教材。这本书大获成功,成为盛行一时的数学教科书。这是第一本全书都使用阿拉伯数字的书籍,因此也促进了阿拉伯数字在欧洲的传播。当然,这本书最大的贡献在于它对复式记账法的详尽论述。接下来的几十年间,这个论述复式记账法的部分被分别译成了6种语言,并且成为几个世纪的通用范本。
1703948079
1703948080
而所谓的一个商业家族,就是指美第齐家族——威尼斯商人和艺术资助人。16世纪,这个家族能成为欧洲最有影响力的银行家族,很大一部分要归功于他们使用的一种高级数据记录方法——复式记账法。帕西奥利的著作和美第齐家族的成功奠定了复式记账法成为标准数据记录法的基础,也奠定了阿拉伯数字在此之后不可取代的地位。
1703948081
1703948082
伴随着数据记录的发展,人类探索世界的想法一直在膨胀,我们渴望能更精准地记录时间、距离、地点、体积和重量,等等。到了19世纪,随着科学家们发明了新工具来测量和记录电流、气压、温度、声频之类的自然科学现象,科学已经离不开定量化了。那是一个一切事物都需要被测量、划分和记录的时代,人们理解自然的热情甚至高涨到通过分析测量人的颅骨来试图分析人的心智能力。好在,对颅相学这类伪科学的热情最终淡去了,但是人类对于量化一切的热情却始终没有减退。
1703948083
1703948084
新工具和开放的思维促进了测量事物和记录数据的繁荣,而现代数据化就诞生于这片沃土之中。数据化的基础已经奠定完好,只是在模拟时代这依然是费时费力的。有时候似乎需要无穷无尽的激情和耐心,或者说,起码也要有奉献一生的准备,比如16世纪的第谷·布拉赫(Tycho Brahe)就夜夜细心观察天体运动。数据化在模拟时代成功的例子并不多,因为这需要很好的运气——一大串的偶然巧妙地结合在一起。中校莫里就很幸运,他因伤坐进了办公室,但是却在那里发现了珍贵的航海日志,可不是每个人都能这么幸运的。然而,数据化的实现有一点必不可少,那就是要从潜在的数据中挖掘出巨大的价值,然后揭示出新的深刻洞见。
1703948085
1703948086
计算机的出现带来了数字测量和存储设备,这样就大大提高了数据化的效率。计算机也使得通过数学分析挖掘出数据更大的价值变成了可能。简而言之,数字化带来了数据化,但是数字化无法取代数据化。数字化是把模拟数据变成计算机可读的数据,和数据化有本质上的不同。
1703948087
1703948089
当文字变成数据
1703948090
1703948091
数字化和数据化的差异是什么?回答这个问题很容易,我们来看一个两者同时存在并且起作用的领域就可以理解了,这个领域就是书籍。2004年,谷歌发布了一个野心勃勃的计划:它试图把所有版权条例允许的书本内容进行数字化,让世界上所有的人都能通过网络免费阅读这些书籍。为了完成这个伟大的计划,谷歌与全球最大和最著名的图书馆进行了合作,并且还发明了一个能自动翻页的扫描仪,这样对上百万书籍的扫描工作才切实可行且不至于太过昂贵。
1703948092
1703948093
刚开始,谷歌所做的是数字化文本,每一页都被扫描然后存入谷歌服务器的一个高分辨率数字图像文件中。书本上的内容变成了网络上的数字文本,所以任何地方的任何人都可以方便地进行查阅了。然而,这还是需要用户要么知道自己要找的内容在哪本书上,要么必须在浩瀚的内容中寻觅自己需要的片段。因为这些数字文本没有被数据化,所以它们不能通过搜索词被查找到,也不能被分析。谷歌所拥有的只是一些图像,这些图像只有依靠人的阅读才能转化为有用的信息。
1703948094
1703948095
虽然这是一个现代的、数字化的亚历山大图书馆,比历史上任何一个图书馆都要强大,但谷歌依然希望它能做得更多。谷歌知道,这些信息只有被数据化,它的巨大潜在价值才会被释放出来。因此谷歌使用了能识别数字图像的光学字符识别软件来识别文本的字、词、句和段落,如此一来,书页的数字化图像就转化成了数据化文本。
1703948096
1703948097
如今,不仅人类可以使用这些文本信息,计算机也可以处理和分析这些文本数据了。通过检索和查询,我们可以对它进行无穷无尽的文本分析;也可以揭示一个词以及词组第一次出现的时间及其成为流行词的时间,据此发现几百年来人类思维发展和思想传播的轨迹。这种分析支持好几种语言。
1703948098
1703948099
大数据先锋
[
上一页 ]
[ :1.70394805e+09 ]
[
下一页 ]