打字猴:1.703948079e+09

1703948079

1703948080 而所谓的一个商业家族，就是指美第齐家族——威尼斯商人和艺术资助人。16世纪，这个家族能成为欧洲最有影响力的银行家族，很大一部分要归功于他们使用的一种高级数据记录方法——复式记账法。帕西奥利的著作和美第齐家族的成功奠定了复式记账法成为标准数据记录法的基础，也奠定了阿拉伯数字在此之后不可取代的地位。

1703948081

1703948082 伴随着数据记录的发展，人类探索世界的想法一直在膨胀，我们渴望能更精准地记录时间、距离、地点、体积和重量，等等。到了19世纪，随着科学家们发明了新工具来测量和记录电流、气压、温度、声频之类的自然科学现象，科学已经离不开定量化了。那是一个一切事物都需要被测量、划分和记录的时代，人们理解自然的热情甚至高涨到通过分析测量人的颅骨来试图分析人的心智能力。好在，对颅相学这类伪科学的热情最终淡去了，但是人类对于量化一切的热情却始终没有减退。

1703948083

1703948084 新工具和开放的思维促进了测量事物和记录数据的繁荣，而现代数据化就诞生于这片沃土之中。数据化的基础已经奠定完好，只是在模拟时代这依然是费时费力的。有时候似乎需要无穷无尽的激情和耐心，或者说，起码也要有奉献一生的准备，比如16世纪的第谷·布拉赫（Tycho Brahe）就夜夜细心观察天体运动。数据化在模拟时代成功的例子并不多，因为这需要很好的运气——一大串的偶然巧妙地结合在一起。中校莫里就很幸运，他因伤坐进了办公室，但是却在那里发现了珍贵的航海日志，可不是每个人都能这么幸运的。然而，数据化的实现有一点必不可少，那就是要从潜在的数据中挖掘出巨大的价值，然后揭示出新的深刻洞见。

1703948085

1703948086 计算机的出现带来了数字测量和存储设备，这样就大大提高了数据化的效率。计算机也使得通过数学分析挖掘出数据更大的价值变成了可能。简而言之，数字化带来了数据化，但是数字化无法取代数据化。数字化是把模拟数据变成计算机可读的数据，和数据化有本质上的不同。

1703948087

1703948088 大数据时代：生活、工作与思维的大变革 [:1703946870]

1703948089 当文字变成数据

1703948090

1703948091 数字化和数据化的差异是什么？回答这个问题很容易，我们来看一个两者同时存在并且起作用的领域就可以理解了，这个领域就是书籍。2004年，谷歌发布了一个野心勃勃的计划：它试图把所有版权条例允许的书本内容进行数字化，让世界上所有的人都能通过网络免费阅读这些书籍。为了完成这个伟大的计划，谷歌与全球最大和最著名的图书馆进行了合作，并且还发明了一个能自动翻页的扫描仪，这样对上百万书籍的扫描工作才切实可行且不至于太过昂贵。

1703948092

1703948093 刚开始，谷歌所做的是数字化文本，每一页都被扫描然后存入谷歌服务器的一个高分辨率数字图像文件中。书本上的内容变成了网络上的数字文本，所以任何地方的任何人都可以方便地进行查阅了。然而，这还是需要用户要么知道自己要找的内容在哪本书上，要么必须在浩瀚的内容中寻觅自己需要的片段。因为这些数字文本没有被数据化，所以它们不能通过搜索词被查找到，也不能被分析。谷歌所拥有的只是一些图像，这些图像只有依靠人的阅读才能转化为有用的信息。

1703948094

1703948095 虽然这是一个现代的、数字化的亚历山大图书馆，比历史上任何一个图书馆都要强大，但谷歌依然希望它能做得更多。谷歌知道，这些信息只有被数据化，它的巨大潜在价值才会被释放出来。因此谷歌使用了能识别数字图像的光学字符识别软件来识别文本的字、词、句和段落，如此一来，书页的数字化图像就转化成了数据化文本。

1703948096

1703948097 如今，不仅人类可以使用这些文本信息，计算机也可以处理和分析这些文本数据了。通过检索和查询，我们可以对它进行无穷无尽的文本分析；也可以揭示一个词以及词组第一次出现的时间及其成为流行词的时间，据此发现几百年来人类思维发展和思想传播的轨迹。这种分析支持好几种语言。

1703948098

1703948099 大数据先锋

1703948100

1703948101 谷歌的数字图书馆

1703948102

1703948103 你可以自己试一试。输入网址http：//books.google.com/ngrams，打开Google Ngram Viewer，它利用谷歌所拥有的所有图书作为数据资源，为你提供单词和短语历年使用次数的展示图表。眨眼之间，我们就能发现“causality”（因果关系）这个词在1900年之前的使用频率比“correlation”（相关关系）高；而在1900年之后，情况就与之前相反了。对于作者存在争议的书籍，我们自己也可以进行作品风格鉴定。数据化的实现让抄袭学术作品的行为越来越无处藏身，因此，很多欧洲政客（包括一名德国国防部长）的抄袭行为被曝光，最终不得不引咎辞职。

1703948104

1703948105 15世纪中叶，人类发明了印刷机，在这之后大约出版了1.3亿册图书。到2010年为止，也就是谷歌的数字化图书计划实行7年之后，大约有2000万图书被扫描成了数字图书，这几乎相当于人类所有书写文明的15%，这是多么惊人的数字！这诱发了一个新的学术方向——文化组学[4]。“文化组学”是一个计算机专业词汇，指的就是通过文本的定量分析来揭示人类行为和文化发展的趋势。

1703948106

1703948107 在一项研究中，哈佛大学的研究员们对几百万册书籍和超过5000亿个单词进行了深入研究，发现这些书中出现过的单词有一半以上在字典中是无法找到的。[5]他们写道，这些因为不够规范而没有录入正规词典中的词汇如此之多，是一个巨大的宝藏。通过系统分析人们如何提及纳粹德国时期的犹太画家马克·夏加尔（Marc Chagall）[6]，他们发现对于思想或是个人的审查和压制会留下“可量化的痕迹”。词语就像是藏于书中而非沉积岩中的化石；信奉“文化组学”的人可以像考古学家一般，挖掘它们所蕴藏的财富。当然，这可能会导致一些可能的偏差，比如图书馆的书籍是不是真实地反映了现实呢？还是反映的只是作者和图书管理员看到的世界？尽管如此，“文化组学”还是会为人们带来很多惊喜的发现。

1703948108

1703948109 当文字变成数据，它就大显神通了——人可以用之阅读，机器也可用之分析。但是作为典型的大数据公司，谷歌自然知道收集信息并进行数据化的价值，因为这些数据有非常多的潜在用途。所以，谷歌精明地利用这些数据化了的文本来改进它的机器翻译服务。就像第3章介绍过的一样，这个系统会自动扫描译本，然后找出译语的单词和词组在源语中的对应词和词组是什么。一旦得到答案，系统就可以把翻译看成是一个简单的数学问题，只需要用电脑找出两种语言之间最恰当的对等词和词组。

1703948110

1703948111 当然，谷歌并不是第一个梦想在计算机时代唤醒书写文明所蕴含的财富的公司，它也不是第一个吃螃蟹的人。1971年，一个志愿者提出倡议把公共领域的书籍放上网络，制成电子书，方便更多的人阅读，这就是古登堡计划（Project Gutenburg）。这是非常有意义的，但是这个计划没有把书籍数据化，也没有开发出书籍的其他功能；它关注的是阅读，而不是扩充书籍用途。同样地，出版社多年来也一直致力于电子书领域的开发，但是他们都只是把书籍内容作为核心价值，而没有把书籍看作一种数据并纳入自己的商业模式中。因此，他们没有做到把书籍的数据价值挖掘出来，也不允许别人这样做。他们没有看到数据化的需求，也意识不到书籍的数据化潜力。

1703948112

1703948113 现在很多公司都在电子书领域激烈地竞争着，亚马逊连同它的Kindle电子书就是这个领域的先驱者。同样在这里，亚马逊和谷歌的发展策略差异显而易见。

1703948114

1703948115 亚马逊拥有数据化的书籍，却不曾挖掘书籍数据化之后的附加价值。该公司创始人兼执行总裁贝索斯说服了上百家出版社在Kindle上发布它们的图书，所以Kindle的图书并不是数字图像，人们可以更改字体大小和用黑白以及彩色两种方式看书。这些书籍是数据化了的，不只是数字化。事实上，亚马逊把上百万的新书都数据化了，而谷歌却在费力地数据化很多旧版本的数据。然而，亚马逊把它的眼光聚焦于用来阅读的书籍内容上，而不是分析数据化文本上。当然，有可能它面对了来自传统出版社的压力，后者可能限制了书籍内容的使用方法，毕竟版权在人家手中。谷歌，作为一个喜欢跨界的叛逆的大数据公司，就没有这样的压力了，毕竟谷歌的资源来源于用户点击，而不关出版社什么事。至少现在，可以不失公允地说，亚马逊深谙数字化内容的意义，而谷歌触及了数据化内容的价值。

1703948116

1703948117 大数据时代：生活、工作与思维的大变革 [:1703946871]

1703948118 当方位变成数据

1703948119

1703948120 地球本身构成了世界上最基础的信息。但是，历史上它几乎从来没有被量化和数据化过。其实，人和事物的地理定位自然是信息的组成部分，不然我们如何能够吟唱“所谓伊人，在水一方”，但是，这些信息需要转变为数据。

1703948121

1703948122 大数据洞察

1703948123

1703948124 对地理位置的数据化需要满足一些前提条件。我们需要能精确地测量地球上的每一块地方；我们需要一套标准的标记体系；我们需要收集和记录数据的工具。简而言之，就是地理范围、标准、工具或者说量化、标准化、收集。只有具备了这些，我们才能把位置信息当成数据来存储和分析。

1703948125

1703948126 在西方，对位置信息的量化起源于希腊。公元前200年，埃拉托色尼发明了用格网线来划分区域的系统，类似于经纬度法。但是，如同很多古代的好想法一样，它也在历史长河中被慢慢遗忘了。大约1500年之后，也就是公元1400年，托勒密著成的《地理学》（Geographia）的复印本从君士坦丁堡传到了佛罗伦萨，那正是文艺复兴和贸易船点燃了对科学和古典知识的热情的时候。著作轰动一时，而书中提到的系统现在仍被用来解决航海导航的难题。从那以后，地图上标上了经纬度和比例尺。这套系统在1570年得到了佛兰德制图师墨卡托的改善，至此海员们就能利用它画出笔直的航线了。

1703948127

1703948128 虽然那时就出现了记录地理方位的方法，但却缺乏广为认可的标记标准，使得信息共享依然难以实现。人们急需一套标准的标记系统，就像互联网需要有域名才能正常运行一样。经纬度的标准化是一个漫长的过程。直到1884年，在美国华盛顿召开的国际子午线会议上，25个与会国家中的24个国家一致同意将英格兰格林尼治定为本初子午线和零度经线所穿过的地方（只有自命不凡的法国投了弃权票）。20世纪40年代，墨卡托方位法把世界划分成了60个区域，提高了地理定位的精确性。

[ 上一页 ] [ :1.703948079e+09 ] [ 下一页 ]