打字猴:1.704599961e+09

1704599961 如果社会交往、新闻资讯、文化娱乐、思想传播都更主要地通过数据化形式进行，那么，是抗拒或封杀这样的传播方式还是努力去适应这样的传播方式？

1704599962

1704599963 如果人们居住的房屋、驾驶的车辆、使用的器具、穿戴的衣物都变成数据化终端，那么，人类该怎样去适应这样的生活方式，该形成怎样的社会习俗？

1704599964

1704599965 仅仅把大数据看作一种技术现象、经济现象、社会现象或政治现象是不够的。从个人层面讲，轻视大数据就容易在各种生活选择中不知所措，诸如上学、就业、居家、社交都有可能陷入困境。从企业层面讲，看不到大数据的趋势，轻视各行各业走向数据化的趋势，以为随便做做就算互联网+了，都可能是首先被淘汰被取代的企业。从社会层面讲，文化、道德、习俗如果比较保守，比较内向，比较排外，那就会在大数据浪潮面前不知所措，消极被动地应对危机。从国家层面讲，如果抓不住大数据的机遇，消极抵抗大数据浪潮，就会像许多处于农业社会的国家面对工业革命的冲击却错失良机，再想赶超就需要数百年的努力。

1704599966

1704599967 大数据是一种世界观，大数据是一种历史观，大数据是一种价值观，大数据是一种方法论。大数据其中的技术问题自有专业人士应对，商业问题自有企业家们操心，但由此引发的社会文化、道德、习俗的变迁，国家兴衰与全球范围的竞争，每个人都很难不去面对，不去思考，不去选择。

1704599968

1704599969 如果把人类走向信息化社会的努力分为三个阶段或三个时代的话，可以分为计算机时代、互联网时代和大数据时代，理由在于不同时代的驱动力不同。计算机解决的是数据计算问题，互联网解决的是数据传输问题，大数据则是在此基础上直奔主题，用数据化的方式解决人类生存发展的各种问题。

1704599970

1704599971 苏联解体后专家们统计，美国与苏联相比，20 世纪 80 年代末计算机拥有量是 25 比 1。当苏联还痴迷于原子弹、航母、导弹、坦克的数量时，却不知道或不理解人类已经开始走向信息化社会了，一个国家的国力已经不再仅仅以军事力量去衡量，而更主要的是以信息生产能力去衡量。

1704599972

1704599973 和苏联相仿，中国几乎完全错过了计算机时代，直到 20 世纪 70 年代末的改革开放才急起直追。今天虽然在计算机应用的深度和广度上还落后于发达国家，但基本上算是齐头并进了。在互联网兴起时，中国落后美国 10 年以上。但同样感谢改革开放的国策，从 20 世纪 90 年代中期开始奋起，今天也算是第二互联网大国。在 2010 年左右世界开始进入大数据时代，中国第一次有了和发达国家同时出发的历史机遇。但是，种种迹象表明，中国走向大数据时代的决心不那么大，步伐不那么快，基础性建设不那么多。如果蹉跎十来年，就又会与发达国家拉开整整一个时代的差距。

1704599974

1704599975 所以，认识大数据，思考大数据，努力大数据，就应该成为此时此刻的一个重要话题。

1704599976

1704599977

1704599978

1704599979

1704599980 大数据经济：大数据时代，互联网加法如何做？ [:1704599847]

1704599981 大数据经济：大数据时代，互联网加法如何做？关于大数据，你知道的都不对

1704599982

1704599983 一个概念，无论它可以抽象到多么高深的程度，其形成、演变、推广的过程往往却很实在、具体，充斥着不同社会力量的博弈。这个概念的对错与否、生命力的短长、对社会的影响往往不取决于概念本身，而在于它的社会价值。

1704599984

1704599985 例如，PM2.5 是一个衡量空气污染的指标概念，是描述客观存在的一种尺度。但是，这个概念在中国的落地生根却经过了两三年惊心动魄、迂回曲折的艰难历程。这个概念长期被拒绝在中国采用，理由是不合中国国情，不能反映出环境保护方面取得的伟大成就。然后，当亿万百姓可以通过网络获取这一指标的实时报道时，又被说成是外部势力居心叵测的挑衅。终于，现在 PM2.5 检测体系开始在全国逐步建立，大众的兴奋度却逐步降低，因为据说不经过二三十年，中国是很难达到联合国规定的空气优良标准的。

1704599986

1704599987 再例如，基尼系数是世界各国广泛用来衡量社会发展水平和社会不平等程度的一个客观指标概念。但是，这个曾经被中国学界广泛使用的概念近年来却无法获取权威的全国性数据，据说是因为基尼系数七八年前就达到了 0. 45 的水平，这被认为是一个社会贫富差距过大、继续增加就会导致社会动荡的临界点。一些学人体谅苦心，跳出来说普适性的基尼系数计算方式不适合中国国情，需要建立具有中国特色的基尼系数。因为城乡二元化，所以应该分别计算城乡基尼系数；因为沿海内地发展水平差异巨大，所以应该分别计算沿海地区和内陆地区的基尼系数；因为城市地区有户口的居民与新迁移进城的无户口居民之间生活水平差异巨大，所以应该分别计算正式居民与非正式居民的基尼系数，甚至干脆将非正式居民排除于统计体系之外。于是，社会贫富差距就成了一个只能泛泛而谈而无法实际度量的东西。

1704599988

1704599989 还例如，世界多数国家普遍采用的时区制，在中国从来就没有实行过，据说是怕影响国家统一。夏令时制曾经试行过两三年又被取消，据说是因为既麻烦又节电效果不明显。邮政编码先是被大力推行，然后又被取消，然后又被推行，理由先是推行成本过高，后是不推行成本过高。相反，有些概念的命运没有这么坎坷，一旦引进国门就大行其道。纳米是个只有极少数材料物理科学界专家才明白的概念，但今天在很多超市里却随处可见纳米除污剂、纳米装饰品，甚至还有什么纳米食品。

1704599990

1704599991 可见，一个新概念的出现，即使本身正确，孕育着推动科技进步和社会发展的巨大潜能，其真正实现也绝非易事，更可能的是由于社会环境的制约，被否定，被歪曲，被庸俗化。

1704599992

1704599993 今天，在中国相当范围内，开始流行一个全新的概念——大数据。我得承认，这个概念的流行中我自己起了一点作用。在大数据开始被讨论差不多一年的时候，它开始沦入其他新概念类似的命运：越来越说不清楚了。个中原因也不难解释：首先，大数据的概念是个舶来品，在发达国家尤其是美国逐渐成形、讨论和实践。在潮涌般的媒体报道、论文分析和专著论述中，大数据这个概念如同瞎子摸象一样，被不同视角、不同利益和不同水平的人描述出来，让人难以琢磨。一个被严格定义并被广泛接受的大数据概念还没有出现，它更像是一个宽泛的现象描述，各种各样的东西都被装在里面。这样的好处是百家争鸣，共识会逐渐形成；坏处是鱼龙混杂，存在走歪走偏的可能性。其次，大数据是个发展中的事物，人们对其理解、阐释也在思想的碰撞、利益的竞争和技术的发展中不断深化，在概念层次和理论框架上说不清楚是必然的，和历史上许多新理念的形成过程并无二致。再者，关心大数据的主力军是网络业和 IT 业人士，他们目前面临着沉重的竞争压力和创新突围的激烈竞争，难免情不自禁地把自己的战略、产品、技术和服务装进大数据这个筐里，图存发展。

1704599994

1704599995 在维基百科网站上，大数据开始是这样被定义的：“大数据通常包括这样一些数据集，其体量超出了业内常用软件工具的能力，无法在可以容忍的时间内获取、把握、管理和处理。”这个定义显然是描述性的、单向思维的、自相矛盾的：如果大数据仅仅等于数据体量大，那么大数据与其他数据有什么本质区别？这种区别仅仅在于软件处理能力上吗？近年在处理体量相对庞大的数据方面，最流行常用的软件程序叫 Hadoop，那么能够被它处理的数据算不算大数据呢？说不算吧，Hadoop 被很多人称为第一个大数据软件；说算吧，它面对的数据并没有超出它的能力。可见，这种大数据概念一定来自每日和数据纠缠在一起的软件工程师和数据工程师们，是一种具体的、狭隘的、操作性的定义，经不起时间和逻辑的检验。

1704599996

1704599997 2001 年，在全球 IT 咨询服务巨头 Gartner 工作的分析师 Doug Laney 写了一篇研究报告，第一次提出了一个三维模型，用以分析数据增长所带来的挑战和机会。这个三维模型的第一维是高速增长的数据体量（Volume），第二维是高速进出的数据运动（Velocity），第三维是高度异质的数据种类（Variety）。由这三维形成的空间里充满的就是我们今天称之为大数据的东西。Gartner 采用了这个 3V 模型，从此成了广为人知，也被 IT 业界普遍接受的大数据定义。2012 年，作为 Gartner 资深专家的 Laney 又在一篇新分析报告中更新了自己的大数据概念定义：“大数据是体量庞大、高速变动和/或种类繁多的信息资产，需要采用全新的处理形式以有助于提高人们在决策形成、视野拓展和过程优化中的能力。”

1704599998

1704599999 这是一个很不错的定义。首先，明确了大数据是一种以信息形态存在的资产，具有 3V 特性；其次，盘活这种资产需要全新的处理形式；再者，这种资产增值创利主要体现在决策、视野和过程优化三方面。这个定义比前面提过的定义有进步，至少把大数据从狭窄的数据处理领域扩展到了整个 IT 业，也就是信息技术业。而且，由于信息技术已经普及到各个产业，应用于社会生活的方方面面，所以，大数据也就应该被社会各领域的人们所关注。

1.7046e9

1704600001 但是，我对这样一个大数据概念的定义仍然有些不满足，有些困惑，有些疑虑。这个定义仍然是描述性的，有些含混不清、难以把握。例如，“体量庞大”是什么意思？体量为一个 MB 的数据等于 1024 KB，一个 GB 数据等于 1024 MB，一个 TB 数据等于 1024 GB，一个 PB 数据等于 1024 TB……数据体量大到什么程度就算大数据了？“高速变动”是什么意思？1 GB/s 还是 1 TB/s？或者是数据体量每年翻番？“种类繁多”是什么意思？1000 种不同数据？100 种数据来源？10 种数据格式？“全新的处理方式”是什么意思？今天的全新方式也许明天就过时了，明天的全新方式也许后天就落后了，怎样的处理方式才能在本质上算是大数据处理方式呢？另外，除了“有助于提高人们在决策形成、视野开拓和过程优化中的能力”，大数据就不能再干点别的什么事了？在这三种用途之外就不存在大数据现象和大数据生存空间了吗？尽管有大量的论文、书籍试图对此详加说明，但好像至今没有谁能说得很清楚。

1704600002

1704600003 可见，这样的定义仍然是技术性的、应用性的，隐约可见 IT 咨询服务业自我推销的影子。在这样的定义基础上，很难支撑正在被媒体大肆宣扬的“大数据革命”“大数据时代”“新工业革命”这样一些新概念。更糟糕的是，大家可能都在使用“大数据”这个概念，可能都认为“大数据时代”很令人振奋，甚至都赞同“不数据，毋宁死”的观点，但说着说着就南辕北辙，就自相矛盾，就互相为敌了。这里的主要原因就是因为大家对大数据的理解不一样，甚至完全相反。

1704600004

1704600005 在阅读大数据方面的文章书籍时，在各种场合与专家学者交流中，一个突出的感觉就是大家普遍在使用大数据这个概念的时候时态混乱，有的使用过去时，有的使用进行时，有的使用将来时，还有的各种时态混合使用，这就使一个本来就有些玄妙的概念更加难以理解了。

1704600006

1704600007 很多人非常正确地指出，大数据本不是个新东西，概念的提出和使用已经有几十年历史了。用这样的过去时态讨论大数据的大都是大学校园里的资深学者教授。我本人第一次听到大数据这个词，还是 20 世纪 80 年代中期在美国哥伦比亚大学就读社会学，学习宏观社会结构理论和社会网络分析的时候。当时一些学科，主要是天体物理学、生态学、自动控制以及社会学和经济学的某些分支，在前沿研究中都遇到了共同的问题，那就是学者们有机会获得了海量的研究对象数据，却因为计算机能力、研究经费不足和分析方法不够等原因而望洋兴叹。久而久之，“大数据”就成了描述这一现象的代名词，也就是数据量太大、太复杂以至于在当时条件局限下无法利用。大数据等于大麻烦、大障碍、大问题。

1704600008

1704600009 但是，在经过四分之一个世纪之后，我们今天所说的大数据还和当年的理解别无二致吗？当年的主要矛盾是计算能力大大落后于实际需求，在哥伦比亚大学这样世界闻名的顶尖学府里，计算机主机的能力大概也就相当于今天一台配置比较好的台式计算机，使用起来过程复杂，需要大量的研究经费支持。今天的主要矛盾正好反过来，是计算能力大大超过实际需求，以至于大批网络公司和其他各行各业的众多企业和机构面对潮水般涌来的数据不知所措，不知道如何利用，只好定期删除。问题不在于知道如何使用数据却受到计算能力的局限，而是空有充沛的计算能力却不知道如何利用手中的数据进行创新，产生显著的经济价值和社会效益。假如能够找到合适的应对之道，大数据完全有可能变成大机遇、大创新、大空间。

1704600010

[ 上一页 ] [ :1.704599961e+09 ] [ 下一页 ]