1703948017
通过分析这些数据,莫里知道了一些良好的天然航线,这些航线上的风向和洋流都非常利于航行。他所绘制的图表帮助商人们节省了一大笔钱,因为航海路程减少了三分之一左右。一个船长感激地说:“我在得到你的图表之前都是在盲目地航行,你的图表真的指引了我。”有一些顽固的人拒绝使用这个新制的图表,而当他们因为使用旧方法航行到半路出了事故或者花费的航行时间长很多的时候,他们反而帮助证明了莫里系统的实用性。
1703948018
1703948019
1855年,莫里的权威著作《关于海洋的物理地理学》(The Physical Geography of the Sea)出版,当时他已经绘制了120万数据点了。莫里写道,在这些图表的帮助下,年轻的海员们不用再亲自去探索和总结经验,而能够通过这些图表立即得到来自成千上万名经验丰富的航海家的指导。
1703948020
1703948021
他的工作为第一根跨大西洋电报电缆的铺设奠定了基础。同时,在公海上发生了一次灾难性的碰撞事件之后,他马上修改了他的航线分析系统,这个修改后的系统一直沿用至今。他的方法甚至应用到了天文学领域,1846年当海王星被发现的时候,莫里有了一个好点子,那就是把错把海王星当成一颗恒星时的数据都汇集起来,这样就可以画出海王星的运行轨迹了。
1703948022
1703948023
这个土生土长的弗吉尼亚人在美国历史上并不受关注,这也许是因为他在美国内战期间不再为海军效力,而是摇身一变成为了美国联邦政府在英国的间谍。但是多年前,当他前去到欧洲为他绘制的图表寻求国际支持的时候,四个国家授予了他爵士爵位,包括梵蒂冈在内的其他八个国家还颁给了他金牌。即使到今天,美国海军颁布的导航图上仍然有他的名字。
1703948024
1703948026
数据,从最不可能的地方提取出来
1703948027
1703948028
庞大的数据库有着小数据库所没有的价值,莫里中校是最早发现这一点的人之一。大数据的核心就是挖掘出庞大的数据库独有的价值。更重要的是,他深知只要相关信息能够提取和绘制出来,这些脏乱的航海日志就可以变成有用的数据。通过这样的方式,他重复利用了别人眼里完全没有意义的数据信息。从这个意义上讲,莫里就是数据化的先驱。就像奥伦·埃齐奥尼对Farecast所做的事情一样,用航空业过去的价格信息催生了一个大有赚头的新公司;也像谷歌的工程师所做的一样,通过过去的检索记录预测到了流感的爆发;而莫里则是发挥出了单纯用于记录航行位置的数据的其他用途。
1703948029
1703948030
虽然与今天的大数据技术大体类似,但是一想到他是通过人工一笔一画完成的图表绘制,就让人不禁感到惊叹。这说明在远在信息数字化之前,对数据的运用就已经开始了。如今我们经常把“数字化”和“数据化”这两个概念搞混,但是对这两个概念的区分实际上非常重要。我们来看一个更加现代的例子,帮助我们理解数据其实可以从看上去最不可能的东西中提取出来。
1703948031
1703948032
大数据先锋
1703948033
1703948034
日本先进工业技术研究所的坐姿研究与汽车防盗系统
1703948035
1703948036
日本先进工业技术研究所(Japan’s Advanced Institute of Industrial Technology)的教授越水重臣(Shigeomi Koshimizu)所做的研究就是关于一个人的坐姿。很少有人会认为一个人的坐姿能表现什么信息,但是它真的可以。当一个人坐着的时候,他的身形、姿势和重量分布都可以量化和数据化。越水重臣和他的工程师团队通过在汽车座椅下部安装总共360个压力传感器以测量人对椅子施加压力的方式。把人体屁股特征转化成了数据,并且用从0~256这个数值范围对其进行量化,这样就会产生独属于每个乘坐者的精确数据资料。
1703948037
1703948038
在这个实验中,这个系统能根据人体对座位的压力差异识别出乘坐者的身份,准确率高达98%。
1703948039
1703948040
这个研究并不愚蠢。这项技术可以作为汽车防盗系统安装在汽车上。有了这个系统之后,汽车就能识别出驾驶者是不是车主;如果不是,系统就会要求司机输入密码;如果司机无法准确输入密码,汽车就会自动熄火。把一个人的坐姿转化成数据后,这些数据就孕育出了一些切实可行的服务和一个前景光明的产业。比方说,通过汇集这些数据,我们可以利用事故发生之前的姿势变化情况,分析出坐姿和行驶安全之间的关系。这个系统同样可以在司机疲劳驾驶的时候发出警示或者自动刹车。同时,这个系统不但可以发现车辆被盗,而且可以通过收集到的数据识别出盗贼的身份。
1703948041
1703948042
越水重臣教授把一个从不被认为是数据、甚至不被认为和数据沾边的事物转化成了可以用数值来量化的数据模式。同样,莫里中校从看上去没什么用处的事物中提取出了信息,转化成了极其有用的数据。这样创新性的应用创造出了这些信息独特的价值。
1703948043
1703948045
数据化,不是数字化
1703948046
1703948047
“数据”(data)这个词在拉丁文里是“已知”的意思,也可以理解为“事实”。这是欧几里得的一部经典著作的标题,这本书用已知的或者可由已知推导的知识来解释几何学。如今,数据代表着对某件事物的描述,数据可以记录、分析和重组它。我们还没有合适的词用来形容莫里和越水重臣教授所做的这些转变,所以我们姑且称其为“数据化”吧——这是指一种把现象转变为可制表分析的量化形式的过程。
1703948048
1703948049
数据化和数字化大相径庭。数字化指的是把模拟数据转换成用0和1表示的二进制码,这样电脑就可以处理这些数据了。数字化并不是计算机改革的开始,最初的计算机革命是计算能力的飞跃。我们通过计算机计算过去需要耗费很长时间的项目,比方说导弹弹道表、人口普查结果和天气预报。直到后来才出现了模拟数据和数字化。所以1995年,当美国麻省理工学院媒体实验室的尼古拉斯·尼葛洛庞帝(Nicholas Negroponte)发表他的标志性著作《数字化生存》(Being Digital)的时候,他的主题就是“从原子到比特”。20世纪90年代,我们主要对文本进行数字化。随着过去的几十年里存储能力、处理能力和带宽的提高,我们也能对图像、视频和音乐等类似的内容执行这种转化了。
1703948050
1703948051
大数据洞察
1703948052
1703948053
今天,技术专家都默认大数据的发展和计算机的变革是同步的。但事实并不是这样的。毫无疑问,是现代信息系统让大数据成为了可能,但是大数据发展的核心动力来源于人类测量、记录和分析世界的渴望。信息技术变革随处可见,但是如今信息技术变革的重点在“T”(技术)上,而不是在“I”(信息)上。现在,我们是时候把聚光灯打向“I”,开始关注信息本身了。
1703948054
1703948055
为了得到可量化的信息,我们要知道如何计量;为了数据化量化了的信息,我们要知道怎么记录计量的结果。这需要我们拥有正确的工具。计量和记录的需求也是数据化的前提,而我们在数字化时代来临的几个世纪前就已经奠定好了数据化的基础。
1703948056
1703948058
量化一切,数据化的核心
1703948059
1703948060
记录信息的能力是原始社会和先进社会的分界线之一。早期文明最古老的抽象工具就是基础的计算以及长度和重量的计量。公元前3000年,信息记录在印度河流域、埃及和美索不达米亚平原地区就有了很大的发展,而日常的计量方法也大有改善。美索不达米亚平原上书写的发展促使了一种记录生产和交易的精确方法的产生,这让早期文明能够计量并记载事实情况,并且为日后所用。计量和记录一起促成了数据的诞生,它们是数据化最早的根基。
1703948061
1703948062
计量和记录能够再现人类活动。比如通过记录建筑物的建筑方式和原材料,我们就能再建同样的建筑,或进行实验性的操作,比如通过改变一些方式保存其他部分而建造出新的建筑物,然后再记录这些新建筑物。交易情况一旦得到记录,我们就可以知道一块地丰收时稻谷的产量是多少、需要上缴多少政府税收。计量和记录为预测和计划奠定了基础,虽然这建立在假定明年的收成和今年一样的基础上。有了记录,交易双方才会知道他们赊账的情况,而如果没有这些凭证的支持,欠债的一方则完全可以不用还钱。
1703948063
1703948064
几百年来,计量从长度和重量不断扩展到了面积、体积和时间。公元前的最后一个千年,西方的计量方法已经基本准备就绪,但是还是有着比较严重的缺陷。早期文明的计量方法不太适合计算,哪怕是比较简单的计算。比如罗马数字的计算系统就不适合数字计算,因为它没有一个以10为底的记数制或者说是十进制,所以大数目的乘除就算是专家都不知道该怎么算,而简单的乘除对一般人来说也不容易。
1703948065
1703948066
大约公元1世纪的时候,印度发明了一种自己的数字系统。它传播到了波斯,并在那里得到改善,而后传入阿拉伯国家,得到了极大的改进。这也就是今天使用的阿拉伯数字的前身。十字军东征给当地人民带来了彻头彻尾的灾难,但同时也把西欧文明带到了地中海东部,而其中最重要的引入就是阿拉伯数字。公元1000年,教皇西尔维斯特二世开始倡导使用阿拉伯数字。12世纪,介绍阿拉伯数字的书籍被翻译成拉丁文,传播到了整个欧洲地区。这也就开启了算术的腾飞。
[
上一页 ]
[ :1.703948017e+09 ]
[
下一页 ]