1704600009
但是,在经过四分之一个世纪之后,我们今天所说的大数据还和当年的理解别无二致吗?当年的主要矛盾是计算能力大大落后于实际需求,在哥伦比亚大学这样世界闻名的顶尖学府里,计算机主机的能力大概也就相当于今天一台配置比较好的台式计算机,使用起来过程复杂,需要大量的研究经费支持。今天的主要矛盾正好反过来,是计算能力大大超过实际需求,以至于大批网络公司和其他各行各业的众多企业和机构面对潮水般涌来的数据不知所措,不知道如何利用,只好定期删除。问题不在于知道如何使用数据却受到计算能力的局限,而是空有充沛的计算能力却不知道如何利用手中的数据进行创新,产生显著的经济价值和社会效益。假如能够找到合适的应对之道,大数据完全有可能变成大机遇、大创新、大空间。
1704600010
1704600011
很多人以大数据的领先者自居,利用各种渠道和场合推销自己的硬件、软件或解决方案,自认为是大数据的终结者,说话的时态用的是完成时,这样说话的人大多出自 IT 业、软件业或咨询服务业。除了完全可以理解的商业动机外,这种完成时的大数据说法也不无道理。大数据发展是一个渐进过程,软硬件方面对此的配合适应也是一个连续的进程,很难找到一个清晰的边界划分什么才是大数据时代的软硬件或解决方案。但是,如果把今天的新产品、新技术都装进大数据这个筐里,势必混淆了大数据与非大数据的界限,削弱大数据所引发的革命性变革力量,无法区分产业进化与产业革命的分野。
1704600012
1704600013
很多人已经自认为是大数据的实践者了,四处可闻数据挖掘和精细化运营的实例宣讲和心得体会,说话的时态用的是进行时。这样说话的大多是网络公司,特别是电子商务和云计算领域的公司。从好处看,众多企业举起了大数据的旗帜,对大数据未来的发展绝对是个利好,众人拾柴火焰高;从坏处看,如果眼下这些数据挖掘和精细化运营的实践就算是大数据了,而由此产生的产业创新和经济效益却并无惊人之喜,这对大数据发展又是个利空,容易让人产生幻灭感。
1704600014
1704600015
凡此种种,不一而足。在使用大数据概念上的时空错乱反映了一个事实:大家对什么是大数据理解不一,做的东西真假都有,新旧俱全。力图尽可能地探究大数据的概念含义,并不是因为我喜欢咬文嚼字,或是认为只有从理论到实践才是成功的唯一道路。事实上,很多引发产业革命的创新者和成功者在开始阶段未必能想得很清楚,自己做的东西是否正确,甚至可能做错了再重来。但有两点却是共同的:一是做的东西前无古人,是创新,不是旧东西的延续、改良、精致化;二是虽然开始未必想得很清楚,甚至想错了,但一定是走在正确的大方向上。所以,在今天的大数据热初起的时刻,尽可能地厘清这一概念的内涵和外延,理顺概念的来龙去脉,推演概念的潜力与发展,是非常必要的。概念过小,必然难以产生大影响;概念过大,必然鱼龙混杂,失去生命力。
1704600016
1704600017
1704600018
1704600019
1704600021
大数据经济:大数据时代,互联网加法如何做? 数据的由来——从三千年前说起
1704600022
1704600023
人类是社会性动物,会思想,会表达,会学习,会互动。虽然越来越多的证据表明,这些能力不是唯一属于人类的,动物界还有许多种动物具有这些能力,但人类无疑是能力最高的。
1704600024
1704600025
虽然无法从考古材料中确凿地证明,但人类最初在发明语言和文字之前,一定是通过肢体动作、表情和声音表达自己的思想、情绪和愿望的,这从对其他灵长类动物的研究中得到了充分的证明。一个人的动作、表情和声音要想让另一个人明白其含义,不是简单的事,恐怕要经过漫长、反复试错的过程,才能让人们取得共识,让某一个动作、表情或声音表达一种确定的含义。一旦含义确定,就会成为一群人共同的精神财富,并代际相传。
1704600026
1704600027
我们今天所能见到的人类的思想情感表达的最初形式是数千年前,甚至数万年前人类刻画的岩画(有考古发现说有 2 万~3 万年前的岩画,但还未有足够多的例证)。我曾在埃及、土耳其、伊朗、阿塞拜疆、法国、美国等地的古迹中见到许多新石器时期的岩画,中国各地也都有岩画遗存。这些岩画共同的主题都是人、动物、植物、山水和日月星辰,以及某些无法识别的符号类标志。岩画主题主要是种植、战争、欢庆和生活。我所见过的最壮观的地画(也该算岩画的一种)应该算秘鲁纳斯卡地画了,是三千多年前的人类用碎石堆放而成,地画的直径至少几十米,大到数百米,只有乘飞机在数百米高空才能看明白地画的形状。
1704600028
1704600029
大约经过数千年甚至上万年的努力,人类的思想表达从岩画发展到木制品、金属制品、动物制品等,表达内容也从简单到复杂、具体到抽象,从自我或家族部落欣赏到进行权力表达或成为用来交换的商品。今天,有考古证据证明,至少在五千多年前,人类开始创造出文字并以石头、植物纤维、动物骨头等材料为依托,刻画留存至今。无论两河流域、埃及、希腊还是中国的古文字,主要是用来记载帝国兴衰、天灾人祸、祭祀占术以及国家律法的。这些文字多发现于古代王宫和相关的建筑遗址内。
1704600030
1704600031
自从文字发明后,就成为人类文明记录、传承和传播的主要工具。随着社会的发展,文字开始用于文化、思想、历史、发明和行为规范等方面。在早期,学习文字、拥有文字和使用文字是极少数人的事情,他们多属于权贵圈、宗教界和为这两种人服务的“知识分子”。识字的人很少,因为掌握文字的成本极高,需要富有家庭的长期投入。记录文字很难,因为能够留存的文字不是书写,而是刻画。保存文字不容易,要有房屋,有院落,甚至要有警卫。这就需要财富,需要不用劳动的人,需要专门教授文字和学习文字的人,更需要使用文字的人。于是,一个学字、识字、用字的社会阶层出现了,那就是社会精英阶层,也就是社会统治阶层及其附庸者。事实上,直到工业革命初期,世界各国无一例外地识字率都极低,不到 10%,文盲占 90% 以上。中国直到 20 世纪 50 年代初,扫盲仍然是个大任务,文盲占总人口的 80% 以上。农业社会低下的劳动生产率决定了没有多少社会财富可以用来让人读书识字,交通不便、社会流动率低、商品交换不发达决定了文字需求不多,只有统治者和精英阶层需要。
1704600032
1704600033
人类文字发展史上有几个重要的里程碑。第一个是拼音文字的出现。文字刚出现的时候都是象形文字,渐渐地有些难以找到相应物体形状的抽象概念无法准确表达,只好用比较抽象的形状代替。慢慢地,一些形状逐渐固定,形状数量逐渐减少,文字不再与所指物体相对应,而是与文字的发音关联起来。一个原始的文字加上前缀后缀以及变形又生成更多的词汇,使人们可以进行更复杂和更准确的思想表达和交流。在黎巴嫩首都贝鲁特附近的古堡中,我见到了遗存至今最古老并基本定形的字母表,一共二十三个字母,镶刻在三千多年前一位国王的棺材上,据说正是这位国王在确定字母表并加以推广上起到了决定性的历史作用。今天所有的拼音文字都是这个字母表的延伸、变化和改进,而象形文字只有中文还在大规模地使用和发展。
1704600034
1704600035
第二个里程碑是纸张的发明与普及。早期的文字保留在天然获取物上,例如石头、兽皮、兽骨和木头等,这存在获取不易、书写不易、保存不易、流传不易的问题。接着人类把文字保留在人工制品上,例如铜铁制品、丝麻制品、竹木制品等,这又存在产量低、成本高的问题。埃及的莎草纸(可以归为麻制品一类)虽然历史悠久,但由于原料只在尼罗河两岸生长,所以不能广为流传。只有基于纸浆或木浆造纸的技术发明后,文字才有了大规模普及与流传的基础。
1704600036
1704600037
第三个里程碑是印刷术的发明与发展。在文字出现后的两三千年里,文字的传播基本上是靠手抄。在欧洲和中东地区,宗教界是文字传播的主要力量。在中国,直到宋代,手抄仍然是文字传播的主渠道。渐渐地,石板印刷、雕版印刷被发明出来,但其仍然属于小众传播的技术。直到活字印刷,特别是印刷机的发明出现以后,书籍才成为大众可望而可及的东西,不再是极少数贵族的独占品。海德堡印刷机的问世,使得海量印刷成为可能,促进了以报纸为代表的大众传播的出现。以文字与纸张相结合、以书籍报刊为主要形式的知识与资讯传播是人类社会得以发展前进的主要手段之一。
1704600038
1704600039
文字的缺点是显而易见的。首先,文字只有一种表达方式,无法将人们的声音、动作、表情等完整地表现出来。其次,文字有太多的存在形式,今天世界上仍然被使用的文字有数百种之多,任何一个事物都有数百种文字表达方式,这使得文字的传播成本高昂,传播效率不高。第三,文字的学习掌握需要漫长的过程,花费不菲的代价,即使经过十来年的努力,能够很好掌握文字表达技巧的人在社会上仍是少数。第四,文字的表达能力有局限性,对很多自然现象和社会现象只能描述,很难精确定义。
1704600040
1704600041
与文字差不多同时诞生的是另一个表达体系,那就是数字。数字当然是文字的一部分,但是相对独立,自成一格。世界各地古文字中都有自己的数字符号,但进展不一。例如零的发现,印度最早,其他文字则要晚得多。时至今日,全球普遍采用阿拉伯数字体系,但伊朗仍坚持使用古代波斯语中的数字符号,使得我们这些外人在那里旅游时看不懂钞票的面值。与一般文字相比,数字的好处是精确定义,毫无歧义。架构在数字之上的数学则是人类思想中最缜密、最有逻辑、最有使用价值的一部分,整个科学体系完全依赖数学的发展,而不能使用数学的思想则不属于科学。
1704600042
1704600043
夹在文字与数字之间的是一种特别的东西。开始它是被文字表达,但却有精确、客观、无歧义的特征,多用来表达世上客观存在的东西或已经发生的事实。在古拉丁文中,这个东西被称为 Datum,其复数形式为 Data,后来在英文中普遍使用为 Data,意思是“to give”和“givens”,指的是内涵确定、定义明确、毫无歧义的东西。在中文中 Data 被翻译成“数据”,的确是个不错的翻译,有“数字化的根据”的意思。
1704600044
1704600045
例如,“日”这个中文词,两个最普遍使用的意思是指天上的太阳和时间上的一天。如果能精确说明“日”是太阳系的中心,“天”是地球自转一周的时间,那么“日”就从普通的文字变成了数据。圆周率是文字,3.1416 则是数据,尽管内涵是一样的。要想精确定义一个事物,或者说一个事物被定义的精确度,随着人类对世界的认识发展,越来越依赖数字化定义。哪个领域被研究认识的东西被数量化定义之后,它就变成了科学的对象,也就可以更多、更深、更快地被人类所利用。
1704600046
1704600047
数字与数据不是一回事。数字是普适性的概念,是对一切事物的数量性质的表达。数据则是具体性的概念,是对一个事物的数量性质的表达。“8848 米”是一个数字,没有任何具体内容,只是一个长度的数量表达。“珠穆朗玛峰海拔 8848 米”是一个数据,特指世界最高峰的高度。“珠穆朗玛峰是世界最高峰”是一个文字表达,具体但不准确。所以,文字是人类对世界认识的一种抽象表述,数据是比文字更高一层的抽象表述,数字则是最高层次的抽象表述。
1704600048
1704600049
对一个事物可以有多种数据表述形式,取决于人们的目的和认识程度。例如,中国人口为 13.6 亿是人口数量的数据,中国人口中 54% 为男性、46% 为女性是性别比例数据,中国人口平均受教育程度为 9 年是教育数据等。对一个事物的数据表述越多,对这个事物的定义越精准,人们对这个事物的认识就越深入,可利用程度就越高。
1704600050
1704600051
数据是个高难度的东西。看到一个东西用文字可以模模糊糊地去描述,用头脑可以似是而非地去思索,但是要用一组数字去准确定义这个东西则是非常困难的事。可以说,人类历史在一定意义上就是对外部世界、对内心世界、对人与人的关系从无知到有知,从模模糊糊地知到比较确切地知,然后逐渐开始加以利用的历史。所以,数据在很长的时间里,甚至直到第二次世界大战前,只在非常狭窄的领域,例如数学、统计学、物理、化学、经济学等领域里得到比较充分的利用。在其他领域,例如政治学、社会学、历史学等领域,则很难得到足够的数据去利用,更不用说人际互动、文化现象、心理活动这些更复杂的现象了。直到不久前,甚至即使时至今日,数据这个概念对专业人士以外的绝大多数人来说,仍然是个冷僻、生疏、似乎远隔万里的东西。
1704600052
1704600053
1704600054
1704600055
1704600057
大数据经济:大数据时代,互联网加法如何做? 数据的进化——从数据到大数据
1704600058
[
上一页 ]
[ :1.704600009e+09 ]
[
下一页 ]