1704600214
大数据经济:大数据时代,互联网加法如何做? 得数据者得天下
1704600215
1704600216
如果你的网站拥有数以千万计的活跃用户,如果网站上拥有数以百计的产品服务,如果这些服务以多媒体的形式在多个网络终端上运行,如果正在或者打算尝试走向云计算和 Web 2.0 架构,那就恭喜你了,因为你已经不知不觉地成为大数据时代的先行者或受害者。
1704600217
1704600218
按照维基百科上的定义,所谓“大数据”(big data),在当今的互联网业指的是这样一种现象:一个网络公司日常运营所生成和积累用户网络行为数据“增长如此之快,以至于难以使用现有的数据库管理工具来驾驭,困难存在于数据的获取、存储、搜索、共享、分析和可视化等方面”。这些数据量是如此之大,已经不是以我们所熟知的多少 GB 和多少 TB 为单位来衡量,而是以 PB(1024 TB),EB(1024 PB)或 ZB(1024 EB)为计量单位,所以称为大数据。
1704600219
1704600220
大数据现象在物理学、生物学、环境生态学、自动控制等科学领域和军事、通信、金融等行业已经存在有些时日了,在互联网业却是近年来才逐渐引人注目的。这可以归结为三个基本原因。第一,网络用户的高速增长和用户平均网络使用时间的不断延长,这使得用户网络行为数据大增;第二,网络服务从单一的文字形式走向图片、语音和影像等多媒体形式,导致数据量大增;第三,网络终端由过去的单一台式机变为台式机、平板电脑、电子书刊阅读器、手机和电视等多终端,大大扩充了网络服务的内容与范围,大大提高了用户对互联网的依赖度,也就大大增加了数据量。
1704600221
1704600222
大数据的出现既为网络业带来了机遇也带来了挑战。从潜在的机会看,数据量的增加为网络公司提供了精确把握用户群体和个体网络行为模式的基础,如果能够充分利用,就可以探索个人化、个性化、精确化和智能化地进行广告推送和服务推广服务,创立比现有广告和产品推广形式性价比高数倍甚至数十倍的全新商业模式。同时,网络公司也可以通过对大数据的把握,寻找更多更好地增加用户黏性、开发新产品和新服务、降低运营成本的方法和途径。从现实的挑战看,主要集中在以下三个方面。
1704600223
1704600224
首先,大数据挑战着网络公司的战略决策能力。数据量的急剧增长不仅要求在带宽和存储设备等基础设施方面增加大量投入,而且使网络公司处于进退两难的境地。如果采取无所作为、固守原状的鸵鸟政策,那就可能失去未来发展的机会,失去业内竞争的本钱,早晚会被产业淘汰或者居于下游。如果与时俱进,转型适应大数据时代的到来,那就需要对公司的现有产品和运营体系进行全面的改造,例如网站架构的重建,产品的通用化、标准化、模块化,商业模式的创新等。这对绝大多数网络公司而言,既要维持现有业务、保持业绩的稳定和增长,又要加大投入、迅速转型,是个进退维谷的两难处境。
1704600225
1704600226
其次,大数据挑战着网络公司的技术开发和数据处理能力。大数据的出现以及潜在的商业价值不仅要求网络公司使用专门的数据库技术和专用的数据存储设备,而且更要求专门的数据分析方法和使用体系。目前业内流行的一般数据挖掘方法和通用商业数据库无法满足大数据时代的挑战。而且,网络公司需要大量高端专业人才,这不仅指一般的程序员和数据库工程师,而且指天体物理学家、生态学家、数学和统计学家、社会网络学家、社会行为心理学家等。对海量数据的分析不能仅仅局限在一般数据规律和模型的把握水平上,而且要有理论思维和全面把握的综合深入能力。
1704600227
1704600228
第三,大数据挑战着网络公司的组织和运营能力。一般中小网络公司都没有专门的数据管理和分析专家,即使是大型网络公司,数据管理和分析部门也处于分散、被动、辅助的地位,是公司的龙尾而不是龙头。大数据时代的数据分析基本单位是个人用户,寻找的是个人全面、完整、动态、实时的网络行为模式以及在此基础上归纳出来的群体行为模式,而不是过去那种基于单个产品、服务、频道的碎片式静态统计分析。所以,对大数据的整体把握是网络公司产品开发、运营设置、商业模式的基础和出发点,是龙头而不是龙尾。这就需要对现有公司架构、组织体系、资源配置和权力结构进行重组,让数据管理与分析部门处于公司整体的上游位置。重组成功的标志之一就是公司设立首席数据官(Chief Data Officer,CDO)的职位,与 CEO、COO、CFO、CTO 等一道组成公司核心决策层。
1704600229
1704600230
大数据是整个 Web 2.0 革命的重要组成部分,世界网络业的领军公司,例如谷歌、Facebook、苹果和亚马逊已经处于先发的位置上。中国网络业中哪家公司能急起直追,谁就是先行者,否则,只能扮演受害者的角色。
1704600231
1704600232
1704600233
1704600234
1704600236
大数据经济:大数据时代,互联网加法如何做? 扎克伯格定律
1704600237
1704600238
2011 年,Facebook 创始人扎克伯格在 Web 2.0 峰会上宣布,根据 Facebook 统计数据,社交分享信息量以倍数增长,今天分享信息总量比两年前增加了两倍,从现在开始后的一年,用户所产生的信息分享总量将会翻倍。扎克伯格的社交分享定律可以用一个公式来表示:Y=C×2x。其中,X 代表年时间,Y 代表用户的信息分享量,C 代表现在时刻的分享信息量。如果这个公式成立,那么 20 年后,一个用户的信息分享量将是今天的一百万倍还多,即 2 的 20 次方。
1704600239
1704600240
小扎推出这个定律是对 Web 2.0 时代网络用户行为产生的共享数据量变化的总结,其中当然也含有商业目的和对信息产业前辈的模仿因素。如果这个定律成立,那么 Facebook 的前景不可限量。即使是按照公司目前简单的基于访问流量的广告商业模式,Facebook 的年收入也可以水涨船高,永无止境。如果对现有商业模式加以改良优化,再不断推出新的营收方式,公司未来每年的收入还会长期保持高增长。小扎用这个简明易懂的定律做公关,用来忽悠投资者和合作伙伴,是个非常聪明的方法。这显然受到了享誉信息产业界多年的梅特卡夫定律的启发,这条定律说网络的价值等于网络节点数的平方,网络的价值与联网的用户数的平方成正比,即网络的价值 V=K×N2,其中 K 为价值系数,N 为用户数量。
1704600241
1704600242
扎克伯格定律真的成立吗?如果成立的话该如何理解呢?如果从个人用户简单直观的体验看这个定律不可能成立。一天只有 24 小时,每人上网的时间是有限的。如果 10 年后他的网络行为所贡献的数据量是今天的一千多倍(2 的 10 次方),20 年后是今天的一百万倍,一个人怎么可能在有限时间里面对如此庞大的数据量?不能想象一个人 10 年后阅读的新闻资讯量是今天的千倍,或者 20 年后一个人逛网上商城或玩网络游戏的时间是今天的一百万倍。同理,如果从运营传统网站的公司角度看,它们所能产生和使用的数据量最多只能按算术级数增长,和扎克伯格定律一点关系也没有,不可能用来忽悠投资者。
1704600243
1704600244
扎克伯格定律只能在诸如 Facebook 这样的网站里成立,也就是只适用于以个人用户为中心,通过人际关系进行信息互动与传播的 Web 2.0 架构下的网络服务系统之中。举例言之:按照社会学研究的结果,人们平均而言最多可以有效维持 145 个社会关系,也就是说 Facebook 上 9 亿用户每人可以拥有的朋友数量最多也就是平均 145 个。如果一个用户和他的朋友们今天只在那里说一句话或有一个动作,那么他会从朋友处得到 145 条共享信息,同时他自己生产的那条信息被传播给了 145 人。如果这个用户和他的朋友们明天在那里说十句话或做十个动作,那么他会从朋友处得到 1450 条信息,而网站中所产生的共享信息量则是 145 的 10 次方。换句话说,每个用户的网络行为如果是算术级增长,那用户间的传播、互动和共享信息则是几何级增长。同传统网站相比较,例如在一个门户网站上,一个用户看一条新闻只得到一条行为记录,多看十条新闻也只多得到十条记录,数据量并不会产生几何级增长的效应,扎克伯格定律失效了。
1704600245
1704600246
Facebook 的经验数据是说每年共享数据翻一番,其实理论上共享数据的增长应该翻许多番。所以,这条定律并不是一条精确的数学定律,而只是对一种趋势的统计学意义上的描述。不同网站在不同历史时期和不同运营水平上,共享数据的增长幅度也许会不一样。但是,大趋势是不会错的,这条定律会在相当长时期内有效。历史上著名的摩尔定律提出于 1967 年,但在 45 年后的今天仍然有效。
1704600247
1704600248
回想起 20 世纪 80 年代在美国学习社会网络分析时,最大的痛苦不在理论的把握,也不在统计模型的研讨或计算机编程,而在于无处获得大规模的、系统的、完整的、动态的社会网络数据。无奈之下只能采用计算机模拟或者用些局部的简单数据作为分析研究的基础,所以,多年来它只是一个小圈子里的自娱自乐的东西,发展不快,影响不大。直到最近几年,确切地说直到 Facebook 诞生,社会网络分析这门学问在相当大程度上和经济学理论或物理学理论一样,考验的是思维能力,而不是实证水平。正如“二战”后计算机的诞生促进了大学中计算机科学这个学科的独立产生和蓬勃发展一样,互联网上基于社会网络机制的服务的发展也许会促进作为社会学一部分的社会网络分析的勃兴。
1704600249
1704600250
1704600251
1704600252
1704600254
大数据经济:大数据时代,互联网加法如何做? 数据大≠大数据
1704600255
1704600256
2012 年写了一篇《迎接大数据时代》的文章,发表后颇有反响。一些朋友找我去开这方面的会,一些媒体采访发表这方面的文章,一些资本想找这方面的项目投入。这可有点似曾相识燕归来的感觉了。当年写过 Web 2.0 革命,写过网络平台,写过资源开放,业内和社会上也都有过类似反应,想搭顺风车,混吃混喝的大有人在。为了避免以往悲剧的产生,减少鱼龙混杂、以假乱真的现象,只好多写一些这方面的感想,权作免责条款吧。
1704600257
1704600258
极而言之,如果全世界网民的网络行为记录都能紧密整合在一起,当然称得起大数据这个名称。反之,如果只有一个网民的一条孤零零网络记录,当然撑不起“大数据”这个概念。问题在于如何在这两个极端之间,找到一个划分大数据与否的区分点,或者找到一组指标,能够具体衡量数据量从量变到质变的相对标准。这无论是在学术研究上还是在商业实战上都很重要。试想若是某个公司自认为自己网络服务产生的数据量很大,觉得可以自称大数据公司了,于是说服董事会和投资者加大这方面的投入,购买大批专用设备和第三方专业服务,组建这方面的团队,而经过一段时间的实践,发现投入产出不成比例,建立在大数据基础上的商业模式和产品服务研发不能得到理想的回报,那岂不是个悲剧?
1704600259
1704600260
以我的观察和实践经验,网络业中一个公司是否称得起拥有大数据至少要从三个维度考量。
1704600261
1704600262
数据规模——所谓大数据,最基本的要求当然是数据规模大,但很难给出一个绝对的数字标准来确定大小,而只能用一些模糊的感觉来相对比较。例如,一个公司在年度预算中有了专门的、显著的数据存储和分析预算(例如,总预算的 3%~5%),有了独立的数据处理和分析部门,有了比较完整的数据存储、安全和保密政策与管理流程,有了高度依赖数据分析结果的商业模式,那么,就可以说这个公司面临着利用大数据的机会或挑战了。
[
上一页 ]
[ :1.704600213e+09 ]
[
下一页 ]