1703948267
1703948268
巴诺与NOOK快照
1703948269
1703948270
在线教育课程,找到最合适阅读的论坛帖子
1703948271
1703948272
Facebook,从66亿到1040亿
1703948273
1703948274
DataMarket与InfoChimps,提供免费与付费数据
1703948275
1703948276
ReCaptcha与数据再利用
1703948277
1703948278
20世纪90年代后期,网络逐渐变得拥堵起来。有人开发了一款名为“Spambots”的垃圾邮件程序软件,向成千上万名用户批量发送广告信息,淹没收件人的电子邮箱。他们会在各种网站上注册,然后在评论部分留下成百上千条广告。网络因此成了一个不守规矩、不受欢迎、不够友善的地方。而且,这种软件似乎打破了网络原有的开放性和易用性模式,要知道,正是这种模式向人们提供了各种便利,比如免费电子邮件。当特玛捷这一类公司根据“先到先服务”的原则提供演唱会门票网上订票服务时,作弊软件会偷偷摸摸跑到真正排队的人之前,将门票全部买下。
1703948279
1703948280
2000年,22岁大学刚毕业的路易斯·冯·安(Luis Von Ahn)提出了解决这个问题的想法:要求注册人提供真实身份证明。他试图找出一些人类容易辨别但对机器来说却很难的东西,最后他想到了一个办法,即在注册过程中显示一些波浪状、辨识度低的字母。人能够在几秒钟内识别并输入正确的文本信息,但电脑却可能会被难倒。雅虎采用了这个方法以后,一夜之间就减轻了垃圾邮件带来的苦恼。冯·安将他的这一创作称为验证码(全称为“全自动区分计算机和人类的图灵测试”)。五年后,每天约有2亿的验证码被用户输入。
1703948281
1703948282
这一切给冯·安这位家里经营糖果厂的危地马拉人带来了相当高的知名度,使他能够在取得博士学位后进入卡内基梅隆大学工作,教授计算机科学;也使他在27岁时获得了50万美元的麦克阿瑟基金会“天才奖”。但是,当他意识到每天有这么多人要浪费10秒钟的时间输入这堆恼人的字母,而随后大量的信息被随意地丢弃时,他并没有感到自己很聪明。
1703948283
1703948284
于是,他开始寻找能使人的计算能力得到更有效利用的方法。他想到了一个继任者,恰如其分地将其命名为ReCaptcha。和原有随机字母输入不同,人们需要从计算机光学字符识别程序无法识别的文本扫描项目中读出两个单词并输入。其中一个单词其他用户也识别过,从而可以从该用户的输入中判断注册者是人;另一个单词则是有待辨识和解疑的新词。为了保证准确度,系统会将同一个模糊单词发给五个不同的人,直到他们都输入正确后才确定这个单词是对的。在这里,数据的主要用途是证明用户是人,但它也有第二个目的:破译数字化文本中不清楚的单词。ReCaptcha的作用得到了认可,2009年谷歌收购了冯·安的公司,并将这一技术用于图书扫描项目。
1703948285
1703948286
大数据的力量
1703948287
1703948288
与雇用人所需要花费的成本相比较,它释放出的价值是非常巨大的。每天完成的ReCaptcha超过2亿,按平均每10秒输入一次的话,一天加起来一共是50万个小时,而2012年美国的最低工资是每小时7.25美元。从市场的角度来看,解疑计算机不能识别的单词每天需要花费约350万美元,或者说每年需要花费10亿多美元。冯·安设计的这个系统做到了这一点,并且,没有花一分钱。
1703948289
1703948290
ReCaptcha的故事强调了数据再利用的重要性。随着大数据的出现,数据的价值正在发生变化。
1703948291
1703948292
大数据洞察
1703948293
1703948294
在数字化时代,数据支持交易的作用被掩盖,数据只是被交易的对象。而在大数据时代,事情再次发生变化。数据的价值从它最基本的用途转变为未来的潜在用途。这一转变意义重大,它影响了企业评估其拥有的数据及访问者的方式,促使甚至是迫使公司改变他们的商业模式,同时也改变了组织看待和使用数据的方式。
1703948295
1703948296
信息对于市场交易而言是必不可少的。数据使价格发现成为可能,比如众所周知的一点,它是决定生产数量的信号。一些特殊类型的信息也早已在市场上交易,如书籍、文章、音乐、电影以及金融信息(如股票价格)等。这些在过去的几十年中已经通过个人数据加入数据库。美国的专业数据经纪人,如安客诚(Acxiom)、益百利和艾可飞(Equifax)等,专门负责从数亿名消费者中收集个人信息加入综合档案。随着Facebook、Twitter、LinkedIn、Foursquare等社交平台的出现,我们的人脉关系、想法、喜好和日常生活模式也逐渐被加入到巨大的个人信息库中。
1703948297
1703948298
总之,尽管数据长期以来一直是有价值的,但通常只是被视为附属于企业经营核心业务的一部分,或者被归入知识产权或个人信息中相对狭窄的类别。但在大数据时代,所有数据都是有价值的。
1703948299
1703948300
这里所说的“所有数据”包含了那些最原始的、看似最平凡的信息单位。想一想工厂机器上热传感器的读数,GPS坐标上的实时数据流,某一辆或者60000辆车的加速度传感器读数和燃料水平。再想想数十亿旧的搜索查询,或者过去数年美国每趟商务航班上每个座位的价格。
1703948301
1703948302
但是,直到目前仍然没有一个简单的方法来收集、存储和分析这些数据,这严重限制了提取其潜在价值的机会。在亚当·斯密论述18世纪劳动分工时所引用的著名的大头针制造案例中,监督员需要时刻看管所有工人、进行测量并用羽毛笔在厚纸上记下产出数据,而且测量时间在当时也较难把握,因为可靠的时钟都尚未普及。技术环境的限制使古典经济学家在经济构成的认识上像是戴了一副墨镜,而他们却几乎没有意识到这一点,就像鱼不知道自己是湿的一样。因此,当他们在考虑生产要素(土地、劳动力和资本)时,信息的作用严重地缺失了。虽然在过去的两个世纪中,数据的采集、存储和使用成本一直在下降,但直到今天也仍然维持在相当昂贵的水平。
1703948303
1703948304
我们所处的时代之所以与众不同,是因为数据的收集不再存在固有的局限性。技术已经发展到一定程度,大量信息可以被廉价地捕捉和记录。数据经常会得到被动地收集,人们无须投入太多精力甚至不需要认识这些数据。而且,由于存储成本的大幅下降,保存数据比丢弃数据更加容易。这使得以较低成本获得更多数据的可能性比以往任何时候都大。
1703948305
1703948306
大数据的力量
1703948307
1703948308
在过去的50年中,数字存储成本大约每两年就削减一半,而存储密度则增加了5000万倍。
1703948309
1703948310
在Farecast或谷歌这样的信息公司眼里,数据开始被视为一个新的生产要素,原始材料在数字流水线的一端输入,而处理后的信息则从另一端输出。
1703948311
1703948312
大部分数据的直接价值对收集者而言是显而易见的。事实上,数据通常都是为了某个特定的目的而被收集——商店为了会计核算而收集销售数据,工厂为了确保产品符合质量标准而监控输出,网站记录每一个用户点击(即使是鼠标光标的移动)来分析和优化其呈现给访客的内容。数据的基本用途为信息的收集和处理提供了依据。亚马逊同时记录下了客户购买的书籍和他们浏览过的页面,便可以利用这些数据来为客户提供个性化的建议。同样,Facebook跟踪用户的“状态更新”和“喜好”,以确定最佳的广告位从而赚取收入。
1703948313
1703948314
不同于物质性的东西,数据的价值不会随着它的使用而减少,而是可以不断地被处理。这就是经济学家所谓的“非竞争性”的好处:个人的使用不会妨碍其他人的使用,而且信息不会像其他物质产品一样随着使用而有所耗损。因此,亚马逊在向其用户,不论是生成这些数据的客户或是其他客户做出建议时,都可以不断地使用过去的交易数据。
1703948315
1703948316
大数据洞察
[
上一页 ]
[ :1.703948267e+09 ]
[
下一页 ]