打字猴:1.703948094e+09
1703948094
1703948095 虽然这是一个现代的、数字化的亚历山大图书馆,比历史上任何一个图书馆都要强大,但谷歌依然希望它能做得更多。谷歌知道,这些信息只有被数据化,它的巨大潜在价值才会被释放出来。因此谷歌使用了能识别数字图像的光学字符识别软件来识别文本的字、词、句和段落,如此一来,书页的数字化图像就转化成了数据化文本。
1703948096
1703948097 如今,不仅人类可以使用这些文本信息,计算机也可以处理和分析这些文本数据了。通过检索和查询,我们可以对它进行无穷无尽的文本分析;也可以揭示一个词以及词组第一次出现的时间及其成为流行词的时间,据此发现几百年来人类思维发展和思想传播的轨迹。这种分析支持好几种语言。
1703948098
1703948099 大数据先锋
1703948100
1703948101 谷歌的数字图书馆
1703948102
1703948103 你可以自己试一试。输入网址http://books.google.com/ngrams,打开Google Ngram Viewer,它利用谷歌所拥有的所有图书作为数据资源,为你提供单词和短语历年使用次数的展示图表。眨眼之间,我们就能发现“causality”(因果关系)这个词在1900年之前的使用频率比“correlation”(相关关系)高;而在1900年之后,情况就与之前相反了。对于作者存在争议的书籍,我们自己也可以进行作品风格鉴定。数据化的实现让抄袭学术作品的行为越来越无处藏身,因此,很多欧洲政客(包括一名德国国防部长)的抄袭行为被曝光,最终不得不引咎辞职。
1703948104
1703948105 15世纪中叶,人类发明了印刷机,在这之后大约出版了1.3亿册图书。到2010年为止,也就是谷歌的数字化图书计划实行7年之后,大约有2000万图书被扫描成了数字图书,这几乎相当于人类所有书写文明的15%,这是多么惊人的数字!这诱发了一个新的学术方向——文化组学[4]。“文化组学”是一个计算机专业词汇,指的就是通过文本的定量分析来揭示人类行为和文化发展的趋势。
1703948106
1703948107 在一项研究中,哈佛大学的研究员们对几百万册书籍和超过5000亿个单词进行了深入研究,发现这些书中出现过的单词有一半以上在字典中是无法找到的。[5]他们写道,这些因为不够规范而没有录入正规词典中的词汇如此之多,是一个巨大的宝藏。通过系统分析人们如何提及纳粹德国时期的犹太画家马克·夏加尔(Marc Chagall)[6],他们发现对于思想或是个人的审查和压制会留下“可量化的痕迹”。词语就像是藏于书中而非沉积岩中的化石;信奉“文化组学”的人可以像考古学家一般,挖掘它们所蕴藏的财富。当然,这可能会导致一些可能的偏差,比如图书馆的书籍是不是真实地反映了现实呢?还是反映的只是作者和图书管理员看到的世界?尽管如此,“文化组学”还是会为人们带来很多惊喜的发现。
1703948108
1703948109 当文字变成数据,它就大显神通了——人可以用之阅读,机器也可用之分析。但是作为典型的大数据公司,谷歌自然知道收集信息并进行数据化的价值,因为这些数据有非常多的潜在用途。所以,谷歌精明地利用这些数据化了的文本来改进它的机器翻译服务。就像第3章介绍过的一样,这个系统会自动扫描译本,然后找出译语的单词和词组在源语中的对应词和词组是什么。一旦得到答案,系统就可以把翻译看成是一个简单的数学问题,只需要用电脑找出两种语言之间最恰当的对等词和词组。
1703948110
1703948111 当然,谷歌并不是第一个梦想在计算机时代唤醒书写文明所蕴含的财富的公司,它也不是第一个吃螃蟹的人。1971年,一个志愿者提出倡议把公共领域的书籍放上网络,制成电子书,方便更多的人阅读,这就是古登堡计划(Project Gutenburg)。这是非常有意义的,但是这个计划没有把书籍数据化,也没有开发出书籍的其他功能;它关注的是阅读,而不是扩充书籍用途。同样地,出版社多年来也一直致力于电子书领域的开发,但是他们都只是把书籍内容作为核心价值,而没有把书籍看作一种数据并纳入自己的商业模式中。因此,他们没有做到把书籍的数据价值挖掘出来,也不允许别人这样做。他们没有看到数据化的需求,也意识不到书籍的数据化潜力。
1703948112
1703948113 现在很多公司都在电子书领域激烈地竞争着,亚马逊连同它的Kindle电子书就是这个领域的先驱者。同样在这里,亚马逊和谷歌的发展策略差异显而易见。
1703948114
1703948115 亚马逊拥有数据化的书籍,却不曾挖掘书籍数据化之后的附加价值。该公司创始人兼执行总裁贝索斯说服了上百家出版社在Kindle上发布它们的图书,所以Kindle的图书并不是数字图像,人们可以更改字体大小和用黑白以及彩色两种方式看书。这些书籍是数据化了的,不只是数字化。事实上,亚马逊把上百万的新书都数据化了,而谷歌却在费力地数据化很多旧版本的数据。然而,亚马逊把它的眼光聚焦于用来阅读的书籍内容上,而不是分析数据化文本上。当然,有可能它面对了来自传统出版社的压力,后者可能限制了书籍内容的使用方法,毕竟版权在人家手中。谷歌,作为一个喜欢跨界的叛逆的大数据公司,就没有这样的压力了,毕竟谷歌的资源来源于用户点击,而不关出版社什么事。至少现在,可以不失公允地说,亚马逊深谙数字化内容的意义,而谷歌触及了数据化内容的价值。
1703948116
1703948117 大数据时代:生活、工作与思维的大变革 [:1703946871]
1703948118 当方位变成数据
1703948119
1703948120 地球本身构成了世界上最基础的信息。但是,历史上它几乎从来没有被量化和数据化过。其实,人和事物的地理定位自然是信息的组成部分,不然我们如何能够吟唱“所谓伊人,在水一方”,但是,这些信息需要转变为数据。
1703948121
1703948122 大数据洞察
1703948123
1703948124 对地理位置的数据化需要满足一些前提条件。我们需要能精确地测量地球上的每一块地方;我们需要一套标准的标记体系;我们需要收集和记录数据的工具。简而言之,就是地理范围、标准、工具或者说量化、标准化、收集。只有具备了这些,我们才能把位置信息当成数据来存储和分析。
1703948125
1703948126 在西方,对位置信息的量化起源于希腊。公元前200年,埃拉托色尼发明了用格网线来划分区域的系统,类似于经纬度法。但是,如同很多古代的好想法一样,它也在历史长河中被慢慢遗忘了。大约1500年之后,也就是公元1400年,托勒密著成的《地理学》(Geographia)的复印本从君士坦丁堡传到了佛罗伦萨,那正是文艺复兴和贸易船点燃了对科学和古典知识的热情的时候。著作轰动一时,而书中提到的系统现在仍被用来解决航海导航的难题。从那以后,地图上标上了经纬度和比例尺。这套系统在1570年得到了佛兰德制图师墨卡托的改善,至此海员们就能利用它画出笔直的航线了。
1703948127
1703948128 虽然那时就出现了记录地理方位的方法,但却缺乏广为认可的标记标准,使得信息共享依然难以实现。人们急需一套标准的标记系统,就像互联网需要有域名才能正常运行一样。经纬度的标准化是一个漫长的过程。直到1884年,在美国华盛顿召开的国际子午线会议上,25个与会国家中的24个国家一致同意将英格兰格林尼治定为本初子午线和零度经线所穿过的地方(只有自命不凡的法国投了弃权票)。20世纪40年代,墨卡托方位法把世界划分成了60个区域,提高了地理定位的精确性。
1703948129
1703948130 这样一来,地理定位信息终于能在标准化的数值范式下进行标记、记录、测量、分析和共享了。但是因为在模拟数据时代,测量和记录地理位置信息耗费很大,人们很少执行。因此,发明能低成本测量地理方位的工具迫在眉睫。到20世纪70年代,进行地理位置定位还只能依靠地标、天文星座、航位推测法和尚显欠缺的无线电定位技术。
1703948131
1703948132 1978年见证了一个伟大的转变,当时构成全球定位系统(GPS)的24颗卫星第一次发射成功。无论是汽车上的导航系统还是智能手机,地面上的接收器都能通过计算接收信号所需时间的差异对它们进行三角定位,而这些信号就来自于距离我们20372千米的天空。20世纪80年代,这个系统第一次对民用开放,到90年代才完全投入使用,而同时为了实现商业运用,它的精确度在十年后得到了大幅提升。如今,全球定位系统的地理定位能精确到米,就这样,它实现了自古以来无数航海家、制图家和数学家的梦想。通过与技术手段的融合,全球定位系统能够快速、相对低价地进行地理定位,而且不需要任何专业知识。
1703948133
1703948134 定位时时刻刻都可能生成信息。只要愿意,埃拉托色尼或者墨卡托大可以每时每刻都对他们所处的位置进行定位,这谁也管不着。但就算这是可行的,也不现实。同样地,早期的接收器非常复杂和昂贵,适用于潜艇而不是出租车。幸好,改变发生了,这多亏了数字设备中廉价芯片的普及。GPS导航的价格由20世纪90年代的上百美元骤降到了今天的1美元以下。用GPS进行定位一般仅需要几秒钟的时间,它使用的是标准化坐标表示法;所以37°14′06″N 115°48′40″W说明这个人一定是位于内华达州偏远的51号区域(Area 51),一个美军超高安全、超级保密的军事基地——传说那里面关的都是外星人呢!
1703948135
1703948136 如今,GPS已经只是众多定位系统中的一种了。中国和欧洲也正在研发新的卫星定位系统来与之抗衡。这些新系统通过对电塔和无线路由器的信号强度进行三角测量来定位地理位置,从而弥补了GPS无法在室内和高楼之间进行定位的缺陷,这也是谷歌、苹果和微软需要自己研发地理定位系统来辅助GPS的原因。谷歌的街景车(Street View Cars)边拍照边收集无线路由器信息;iPhone本身就是一个“移动间谍”,一直在用户不知情的情况下收集位置和无线数据然后传回苹果公司;当然,谷歌的安卓手机和微软的手机操作系统也在收集这一类数据。
1703948137
1703948138 除了人以外,我们也可以跟踪事物的地理位置信息。随着汽车装上了无线传感器,地理位置信息的数据化深刻变革了保险的概念。这些数据提供了关于时间、地点和实际行驶路程的详细信息,使保险公司能更好地为车险定价。在英国,车主可以根据他的实际驾驶地点和时间购买汽车保险,而不是只能根据他的年龄、性别和履历来购买年险。这种保险定价法激励投保人产生更好的行为习惯。同时,这改变了保险的基础,从考虑一个群体的平均风险转变为个性化的分析。通过汽车定位每个人的地理方位也改变了一些固定资产投入的模式,比方说公路和其他基础设施可以让使用这些资源的司机和其他人分担一部分投入。当然,在实现对所有人和事以数据形式保持持续定位之前,这显然还无法实现,但这是我们的发展方向。
1703948139
1703948140 大数据先锋
1703948141
1703948142 多效地理定位与UPS的最佳行车路径
1703948143
[ 上一页 ]  [ :1.703948094e+09 ]  [ 下一页 ]