打字猴:1.704600253e+09

1704600253 大数据经济：大数据时代，互联网加法如何做？ [:1704599856]

1704600254 大数据经济：大数据时代，互联网加法如何做？数据大≠大数据

1704600255

1704600256 2012 年写了一篇《迎接大数据时代》的文章，发表后颇有反响。一些朋友找我去开这方面的会，一些媒体采访发表这方面的文章，一些资本想找这方面的项目投入。这可有点似曾相识燕归来的感觉了。当年写过 Web 2.0 革命，写过网络平台，写过资源开放，业内和社会上也都有过类似反应，想搭顺风车，混吃混喝的大有人在。为了避免以往悲剧的产生，减少鱼龙混杂、以假乱真的现象，只好多写一些这方面的感想，权作免责条款吧。

1704600257

1704600258 极而言之，如果全世界网民的网络行为记录都能紧密整合在一起，当然称得起大数据这个名称。反之，如果只有一个网民的一条孤零零网络记录，当然撑不起“大数据”这个概念。问题在于如何在这两个极端之间，找到一个划分大数据与否的区分点，或者找到一组指标，能够具体衡量数据量从量变到质变的相对标准。这无论是在学术研究上还是在商业实战上都很重要。试想若是某个公司自认为自己网络服务产生的数据量很大，觉得可以自称大数据公司了，于是说服董事会和投资者加大这方面的投入，购买大批专用设备和第三方专业服务，组建这方面的团队，而经过一段时间的实践，发现投入产出不成比例，建立在大数据基础上的商业模式和产品服务研发不能得到理想的回报，那岂不是个悲剧？

1704600259

1704600260 以我的观察和实践经验，网络业中一个公司是否称得起拥有大数据至少要从三个维度考量。

1704600261

1704600262 数据规模——所谓大数据，最基本的要求当然是数据规模大，但很难给出一个绝对的数字标准来确定大小，而只能用一些模糊的感觉来相对比较。例如，一个公司在年度预算中有了专门的、显著的数据存储和分析预算（例如，总预算的 3%～5%），有了独立的数据处理和分析部门，有了比较完整的数据存储、安全和保密政策与管理流程，有了高度依赖数据分析结果的商业模式，那么，就可以说这个公司面临着利用大数据的机会或挑战了。

1704600263

1704600264 数据结构——数据量只是反映数据性质的一个指标，也许还不是最重要的指标。一天产生 100 万 TB 数据的公司也许算不上大数据公司，而另一个一天只产生 1 万 TB 数据的公司也许反而是个大数据公司，其奥妙在于数据结构的复杂性。例如，A 公司拥有一亿用户，但用户在 A 公司网站上只干一件事或一类事，比如获取新闻资讯、买买东西，或者玩玩游戏。那么由此产生的数据量虽然不小，但结构简单、重复性高，分析起来很容易，无非就是根据用户背景和使用习惯分分组、归归类，有简单数据挖掘基本功就足够了，扯什么大数据就有点故弄玄虚了。B 公司只有一千万用户，却是个开放平台，用户在此可以干互联网能够支持的所有事情，网络行为又可分为个人、群体、组织等层次，那么这个数据的结构就够复杂，能够支持深度挖掘和复杂建模，因而就可以算作大数据。

1704600265

1704600266 数据关联度——网络业一个常见现象就是随着数据量的增加，用户行为所产生的数据间的关系越来越不清晰，越来越难以捉摸，越来越相互孤立，也就是所谓的数据碎片化。这种碎片化主要来自两个方面：一是网站结构碎片化、逻辑混乱化、各种产品与服务之间相互孤立化，因而导致数据之间关系断裂，关联度很低。例如，明明是同一个用户在一个网站上使用了十种不同的产品和服务，但由于其中五种无需注册使用，其他五种又需要分别注册使用，结果这十种网络行为的数据无法整合在一起，或者需要通过种种技术手段和工具进行高成本的数据整合，以至于入不敷出。这也就减少了数据的含金量，降低了数据的可挖掘度，使得无论数据量如何大，结构如何复杂，也形成不了大数据。反之，如果一个 Web 2.0 时代的开放平台，架构清晰、逻辑分明，用户与用户、用户与用户行为、行为与行为之间都具有确定的关联性，那么这样的数据就具有极高的含金量、极高的分析挖掘价值，也就可以形成大数据。

1704600267

1704600268 所以，简而言之，大数据与否取决于数据规模、结构复杂性和关联性，简单地说某个公司的数据量大并不等于说这个公司具备拥有和利用大数据的前景。例如，直到 Google+诞生前，谷歌都不能声称自己是个大数据公司，因为它的海量搜索数据虽然规模庞大，但结构简单。尽管听说它的搜索算法已经囊括了六万多个变量，成千上万的数学和统计学模型，上千的博士和工程师参与分析，但在数据挖掘深度、搜索结果个人化、搜索结果与广告之间的相关度上进展有限，只有改良，没有突破。更严重的是，谷歌数百个产品和服务之间相互关联度极低，各干各的，无数数据库互不相干。各个部门之间以邻为壑，互不配合，更不整合。所以，面对以 Facebook 和苹果为代表的 Web 2.0 时代以及由此产生的大数据战略机会，谷歌若干年来束手无策，只能靠不断扩展产品线对付。如果直到两年前谷歌还算不上大数据公司，那些自认为自己有点数据，或者会点加减乘除，或者以为掌握一些基本的数据库技术和 knowhow 就可以招摇过市，到网络业和资本界呼风唤雨，是不是有点不知深浅、过于幼稚了呢？

1704600269

1704600270

1704600271

1704600272

1704600273 大数据经济：大数据时代，互联网加法如何做？ [:1704599857]

1704600274 大数据经济：大数据时代，互联网加法如何做？大数据商业模式

1704600275

1704600276 在地球任意地方捡起一块石头，都可以验出铁元素。但是，说世界遍地都是铁矿一定是胡扯。只有石头中铁含量超过一定比例，而石头数量又达到相当规模，这堆石头才能称为铁矿，人们才会对它产生投资开采的兴趣。如果铁矿石埋藏不是太深、开采和运输的成本不是太高、市场有长期稳定的购买需求，那么铁矿开采的兴趣才会变成行动，成为有利可图的商业活动。

1704600277

1704600278 同样的道理也适用于对大数据由来的分析。有了互联网，也就有了网络数据。随着网民的增加和网络服务的日益丰富，网络数据也就丰富起来。做个网站，上面罗列些服务，无论它们是新闻资讯，还是产品商品，或者是娱乐游戏，只要有用户问津，就会给服务提供商留下些使用记录。无论这些数据如何简陋孤立，但只要有用户 ID 和点击量，就可以支撑起网络广告商业模式。只要有用户注册信息和支付账户，就可以支撑起电子商务和会员制服务的商业模式。随着新增网络用户增速的降低和同质性网络服务数量的增加，逼迫网络服务提供商开始从粗放式经营走向精细化经营，试图通过提高市场推广的投入产出比来提高收入和利润。在走向精细化经营的种种努力中，一个被普遍采用的方式就是数据挖掘。

1704600279

1704600280 过去由于大部分互联网公司是以产品与服务为中心，所以获得的基本上是单一产品与用户之间的行为记录，缺少产品之间、用户之间，以及更复杂的产品逻辑和用户行为逻辑的数据，也就是业内俗称的数据的非结构化、非关系化或碎片化。所以，尽管一些公司里有些专家在做数据整合与分析，也有一些专门从事数据发掘的公司、工具和专业服务，但总的看起来，数据收集、整理、挖掘所需的成本与产生的效益相比，性价比不高，吸引力不大。就像前面说到的贫铁矿一样，含金量不高的数据无论规模多大、挖掘多深，也是形同鸡肋，食之无味，弃之可惜。

1704600281

1704600282 这一局面到了 Web 2.0 时代发生了根本性的转变。以 Facebook 为例，可以看出大数据是如何在日常服务中自我形成的：首先，用户需要注册才可以使用，这一注册 ID 可以通行于数以千万计的网站之中（Facebook Connect），也通行于数以百万计的第三方应用之中（Open Platform）。这就构成了用户身份的确定性和唯一性。其次，用户与用户之间直接与间接的双向互动关系构成了动态的、稳定的、不断变动与发展的社会网络，信息传播和产品与服务的推广脉络清晰、结构分明。第三，开放平台的众多通用标准和接口诱导广大的第三方应用提供商使用统一的数据格式、结构和逻辑，使得数据的汇合与整合相对简单容易。第四，网站架构的简洁性（例如 Wall 和 Newfeed）使得众多平台功能所产生的数据自动耦合，使复杂的社交数据能够有序形成，便于整理分析。第五，Timeline，Opengraph，Credit 等一系列机制将千姿百态、错综复杂的用户网络行为整合成时空逻辑清楚、行为逻辑可查的行为数据链。凡此种种，Facebook 自觉或不自觉地成为了网络业内第一个能够生成大数据的公司。当然，这不是说它是生成大数据的唯一形式或者它已经在分析利用大数据领域很成功了。

1704600283

1704600284 正在成为大数据拥有和使用者的公司不止 Facebook 一家。苹果在操作系统和网络终端上正在努力形成大数据的生成之地；谷歌在操作系统、搜索系统和 Google+平台上正在努力整合众多产品，形成可资利用的大数据；亚马逊正在通过网络平台、云计算平台和阅读终端形成一个电子商务垂直领域的大数据汇集地。国内一些互联网公司也在有意无意之中，在一些较低层面上努力着，例如搞些云计算、输入法、浏览器、杀毒平台，以及各种木马、Cookie 之类的东西，试图获取和整合更多的用户行为数据。总之，增强数据结构性，加大数据关系性，把碎片化的数据用种种手段整合起来并加以利用，这是产业发展的一个显著走向。

1704600285

1704600286 就整个产业而言，网络业处于大数据时代的萌芽初期。在商业模式和经营水平对大数据的依赖程度上，除了搜索，整体上低于电信业、金融业、证券业、保险业、航空业、旅店业等传统产业的水平。但是，网络业的后发优势也十分明显。随着其他传统产业的互联网化，随着广大用户的日常工作与生活越来越依赖于互联网，一个由网络业牵头，整合各行各业，全面系统地记录与把握亿万用户的行为模式的大数据系统三五年内会有个雏形，一个巨大的富铁矿正在形成。至于谁会抢占先发地位，推出事实标准，发展崭新的服务模式和商业模式，就要看业内人士的悟性、努力与造化了。

1704600287

1704600288

1704600289

1704600290

1704600291 大数据经济：大数据时代，互联网加法如何做？ [:1704599858]

1704600292 大数据经济：大数据时代，互联网加法如何做？产业链的颠覆和重组

1704600293

1704600294 互联网进入商业化市场化运营的二十多年来，产业生态环境和产业链都发生了天翻地覆的变化。在即将到来的大数据时代，网络业的产业链也必将发生重组性的巨变。

1704600295

1704600296 近年来，网络业经历着一系列深刻的变化，姑且称之为“分离化”。在网络业早期，典型的模式是一个网络公司开发运营一个网站，其中包含若干产品和服务，公司的服务器通过网络线连接一台网络终端对一位用户服务，由此产生的网络数据归公司独有，形成单一固定封闭的循环。但时至今日，这种模式已经难以应对产业的发展。一个公司的网络产品和服务，未必只通过自己网站运营，还可以作为第三方应用在其他公司的开放平台上运营，形成网站与产品的分离。随着一个用户使用多个网络终端以及云计算成为时尚，产品与终端之间产生了分离。Web 2.0 模式兴起，使得信息的生产和传播以及产品与服务的推广更多地依赖用户之间的互动加以实现，网站与用户之间产生了分离。种种分离趋势对网络公司的运营产生了巨大的挑战。面对 N 个产品×N 个平台×N 个终端×N 个用户关系的庞大服务矩阵，按老一套玩法势必加剧网络数据的非结构化、非关系化和碎片化。一个公司在经营中仅仅抓住一个或几个点不可能取得全面的市场收益，处处都抓又消耗极大，资源不够分配。所以，必须找到一条路，能够从过去简单孤立的经营环境逐渐过渡到复杂互动的产业生态圈中去。也许，头尾倒置，从数据端而不是产品端开始重新一轮战略思考和定位是个值得尝试的路子。

1704600297

1704600298 如果从大数据的角度看去，整个网络业势必重组。产业的上游是一批能够掌握大数据标准、入口、汇集和整合过程的公司，它们在大数据储存、使用和分析的基础上推出个性化、精准化、智能化的机制，跨网站，跨产品，跨终端，跨平台，让人与人、人与物、物与物之间实现高效撮合与匹配，从而建立起崭新的商业模式。这些公司的理想目标是掌握全部网络用户和全部网络服务提供商的全部网络行为。这种驾驭大数据的能力反过来会深刻影响网络业未来的走向和人们使用互联网的方式。从目前的产业格局看，Facebook、谷歌和苹果是最接近这一目标的公司。当然也有相当的可能，目前领先的公司不能完成这一历史使命，要靠尚未创业的未知公司来重新制定游戏规则，颠覆现有格局。无论如何，下一个类似雅虎、谷歌和 Facebook 在产业发展史上地位的公司应该在大数据方向上产生。雅虎 1996 年上市，而此时谷歌尚未创业。8 年后的 2004 年谷歌上市，而此时 Facebook 尚未创业。再过 8 年的 2012年Facebook 上市，而下一个产业游戏规则制定者也许还没有创业，而这个尚未问世的公司也许会在 8 年后的 2020 年上市。

1704600299

1704600300 产业的中游是一批在某些垂直领域或者某些特定区域能够掌握大数据入口、汇集和整合的公司，它们的理想目标是掌握全部网络用户的部分网络行为或者是部分网络用户的全部网络行为。这些公司有机会在这些垂直领域或特定区域成为规则制定者和商业模式创新者。从目前的产业格局看，亚马逊是典型的产业中游领先者。在更低一点的层次上，中国的腾讯、百度、阿里和新浪微博也有机会把持产业中游的位置。

1704600301

1704600302 产业的下游由目前存在的一半左右的网络公司组成，它们基本上扮演的角色是大数据生态圈里的数据提供者、特色服务运营者和产品分销商，基本通过开放平台和搜索引擎获取用户，没有独立生存发展的能力和机会。剩下的另一半左右的网络公司，由于缺少足够的认识、决心或能力，未能及时转型加入大数据生态圈，或者被淘汰，或者苟活于产业的边缘地带。

[ 上一页 ] [ :1.704600253e+09 ] [ 下一页 ]