打字猴:1.70480456e+09
1704804560
1704804561 大数据究竟有多大?它是怎么来的?
1704804562
1704804563 人类将世界“数据化”的努力已经持续了上万年,从结绳记事到统一度量衡,再到十进制算法和复式记账法的发明,数据化给人类的生产和生活带来了无数便利;现代科学使得气压、电流、温度、磁场等现象被量化,这一轮数据化浪潮使得人类文明又前进了一大步。
1704804564
1704804565 加州大学伯克利分校信息学院的研究者估计,人类在计算机商品化之前的整个历史过程中积累了约12艾字节(Exabyte,1EB=260 字节)的数据,但是到2006年,积累的数据已经达到180艾字节。2010年,全球线上和线下产生的数据量首次超过1泽字节(Zettabyte,1ZB=270 字节)。1泽字节大约等于1万亿GB,大约可以装8000亿部清晰电影,或者相当于1000亿人一辈子说的话——1个人一生大约要说10亿句话。
1704804566
1704804567 可以说人类从2010年开始进入大数据(Big Data)时代。2012年,有人统计了互联网一天产生的数据总量:每天发出的邮件有2940亿封,相当于美国两年的纸质信件数量;发出的博文达200万篇,相当于《时代》杂志770年的文字量;每天有2.5亿张照片上传至Facebook,如果把它们都印出来,摞在一起能有80座埃菲尔铁塔那么高;每天会有1.87亿个小时的音乐在音乐网站Pandora上播放……总之,一天之中,互联网产生的全部内容可以刻满1.68亿张DVD。这还只是大数据时代刚起步时期的数据量。
1704804568
1704804569 大数据一方面来自我们在网络上的各种活动,比如搜索、社交和网购记录等。互联网的快速发展使得数据量井喷,每个人每天的活动都数据化了——邮件、日历、定位、商品和服务的订单、身份识别,用户的行为、喜好、知识以及社交联系都在大数据中显现。
1704804570
1704804571 大数据的另一个来源是廉价传感器的普及,各种智能手机和可穿戴式设备、智能车载设备都有非常精准的传感器,此外监测空气质量、交通流量、海浪高度的传感器也在持续增加。
1704804572
1704804573 今天,我们已经依靠互联网实现了信息和信息、人和人的互联,展望未来,所有物品也将靠廉价传感器连接在一起。每件物品上都将贴上一个售价仅4美分的RFID(这是指甲盖大小的不干胶,可通过无线电讯号识别特定目标并读写相关数据)。纳米物联网尤其值得关注。科学家们已经开始把传感器的尺寸从毫米或微米级缩小到纳米级,小到能在生物体内循环、能直接混合到建筑材料内,这是朝纳米物联网迈出的关键第一步。未来数十亿纳米传感器会为我们提供与城市、房屋、工厂甚至我们身体有关的更详细、更廉价、更新的图像。
1704804574
1704804575 当一切信息、人和物品都连接在一起,每年产生的数据量将会比互联网时代更上一个新台阶。
1704804576
1704804577 温故人类发展史,我们才能深刻理解大数据的意义。
1704804578
1704804579 在农业社会和工业社会,自然资源是经济社会发展的主要动力,比如各种动植物、能源、矿产等。进入信息社会,知识和信息成为经济社会发展的主要资源,知识的力量开始远超金属的力量,正如工业革命期间金属的力量远超身体的力量。
1704804580
1704804581 知识可以细分成四类:数据、信息、知识和智慧。数据经过整理变成信息,从信息中可以总结出知识,比如开普勒总结出行星运动的三大定律,知识通过反复实践融会贯通就是智慧。
1704804582
1704804583 两千多年前,人类只能利用竹简和羊皮等笨重或贵重载体,因此只能把最重要的东西书写下来,比如四书五经、《老子》《庄子》《伤寒杂病论》这样的智慧结晶与核心知识。
1704804584
1704804585 进入工业社会,造纸术和印刷术高度发达,各种各样重要或不重要的知识都得以被书本记载和传承,重要的信息也能通过报刊来普及,这对于人类的经济发展和文化繁荣起到了重要作用。
1704804586
1704804587 在信息社会,从国家大事到明星八卦,从企业动态到家长里短,从股票交易到网络购物,所有种类的信息漫天飞舞。虽然很多人在抱怨“信息过剩”“信息过载”,但与此同时经济的繁荣却更上一层楼。
1704804588
1704804589 从上述历史可以看到,从智慧到知识,从知识到信息,随着知识普及层级的一步步降低,经济社会的发展一步步升高。
1704804590
1704804591 今天我们进入了大数据时代,进入知识层级的底层,这显然意味着一个巨大历史机遇的到来。
1704804592
1704804593 数据是一种资产,是一种待挖掘的资源。数字化增加了人类对这个世界的了解,提高了预测的准确性,让科学研究更加畅通。比如《第二次机器革命》的作者埃里克曾创建一个简单的数据模型,这个模型把搜索词语的变化和随后的房产销量和房价的变化联系在一起做预测。它比美国房地产经纪人协会的预测专家们的预测结果还要准确23.6%。
1704804594
1704804595 大数据已经成为许多公司的核心资产,马云曾表示,“我们是通过卖东西收集数据,数据是阿里最值钱的财富”。
1704804596
1704804597 但目前的大数据并没有实现全面流通。政府、银行、通信运营商、医疗机构都拥有庞大的含金量很高的数据,但缺乏一种安全有效的办法把它们开放出来,无法在众多领域发挥出价值。
1704804598
1704804599 目前制约人工智能领域很多重大突破的关键,是缺乏高质量的数据集。这一问题已经得到包括中国政府在内的各国政府的重视。随着这些数据在未来获得安全有效的开放,人工智能将依托大数据了解每一个人的生活,了解社会的每一个细节。
1704804600
1704804601 要利用大数据,必须深刻理解大数据的特征。
1704804602
1704804603 除了数据量巨大(一千万个数据算小数据)这个特征,大数据还有两个重要特征:多维度和完备性。接下来我们通过案例来理解这两个特征。
1704804604
1704804605 气象局会结合空气湿度、气压信息、云图信息来预测天气,这就是我们所说的多维度。
1704804606
1704804607 2013年,百度从“百度知道”的7700万条和吃有关的问题里“挖掘”出来一些有趣的结论,发布了《中国十大“吃货”省市排行榜》。百度发现,东南省份的网友很关心什么虫子能吃;西北地区的网友最关心“蘑菇能吃吗”;江苏、上海、北京等地的网友最经常问“什么的皮能不能吃”;在缺少江河湖泊滋润的宁夏,网友最关心的是“螃蟹能吃吗”;历史浏览量最高的问题是“看电影吃爆米花的习惯是从何时形成的”,有863万网友热切关注。
1704804608
1704804609 百度研究的这批大数据的维度很多,比如食物的做法、吃法、成分、营养价值、价格,问题的来源地域和时间,提问者所用的电脑或手机的型号、浏览器和操作系统的类型(从中可以推测出提问者的收入高低)。百度如果深入分析,可以通过提问统计出不同生活习惯的人(比如正常作息的、夜猫子们、经常出差的或者不爱运动的等)的饮食习惯,还可以统计出不同年龄、性别和文化背景的人的饮食习惯,还可以根据不同年份所提问题的变化,看出不同地区人饮食习惯的变化。
[ 上一页 ]  [ :1.70480456e+09 ]  [ 下一页 ]