打字猴:1.70460003e+09
1704600030
1704600031 自从文字发明后,就成为人类文明记录、传承和传播的主要工具。随着社会的发展,文字开始用于文化、思想、历史、发明和行为规范等方面。在早期,学习文字、拥有文字和使用文字是极少数人的事情,他们多属于权贵圈、宗教界和为这两种人服务的“知识分子”。识字的人很少,因为掌握文字的成本极高,需要富有家庭的长期投入。记录文字很难,因为能够留存的文字不是书写,而是刻画。保存文字不容易,要有房屋,有院落,甚至要有警卫。这就需要财富,需要不用劳动的人,需要专门教授文字和学习文字的人,更需要使用文字的人。于是,一个学字、识字、用字的社会阶层出现了,那就是社会精英阶层,也就是社会统治阶层及其附庸者。事实上,直到工业革命初期,世界各国无一例外地识字率都极低,不到 10%,文盲占 90% 以上。中国直到 20 世纪 50 年代初,扫盲仍然是个大任务,文盲占总人口的 80% 以上。农业社会低下的劳动生产率决定了没有多少社会财富可以用来让人读书识字,交通不便、社会流动率低、商品交换不发达决定了文字需求不多,只有统治者和精英阶层需要。
1704600032
1704600033 人类文字发展史上有几个重要的里程碑。第一个是拼音文字的出现。文字刚出现的时候都是象形文字,渐渐地有些难以找到相应物体形状的抽象概念无法准确表达,只好用比较抽象的形状代替。慢慢地,一些形状逐渐固定,形状数量逐渐减少,文字不再与所指物体相对应,而是与文字的发音关联起来。一个原始的文字加上前缀后缀以及变形又生成更多的词汇,使人们可以进行更复杂和更准确的思想表达和交流。在黎巴嫩首都贝鲁特附近的古堡中,我见到了遗存至今最古老并基本定形的字母表,一共二十三个字母,镶刻在三千多年前一位国王的棺材上,据说正是这位国王在确定字母表并加以推广上起到了决定性的历史作用。今天所有的拼音文字都是这个字母表的延伸、变化和改进,而象形文字只有中文还在大规模地使用和发展。
1704600034
1704600035 第二个里程碑是纸张的发明与普及。早期的文字保留在天然获取物上,例如石头、兽皮、兽骨和木头等,这存在获取不易、书写不易、保存不易、流传不易的问题。接着人类把文字保留在人工制品上,例如铜铁制品、丝麻制品、竹木制品等,这又存在产量低、成本高的问题。埃及的莎草纸(可以归为麻制品一类)虽然历史悠久,但由于原料只在尼罗河两岸生长,所以不能广为流传。只有基于纸浆或木浆造纸的技术发明后,文字才有了大规模普及与流传的基础。
1704600036
1704600037 第三个里程碑是印刷术的发明与发展。在文字出现后的两三千年里,文字的传播基本上是靠手抄。在欧洲和中东地区,宗教界是文字传播的主要力量。在中国,直到宋代,手抄仍然是文字传播的主渠道。渐渐地,石板印刷、雕版印刷被发明出来,但其仍然属于小众传播的技术。直到活字印刷,特别是印刷机的发明出现以后,书籍才成为大众可望而可及的东西,不再是极少数贵族的独占品。海德堡印刷机的问世,使得海量印刷成为可能,促进了以报纸为代表的大众传播的出现。以文字与纸张相结合、以书籍报刊为主要形式的知识与资讯传播是人类社会得以发展前进的主要手段之一。
1704600038
1704600039 文字的缺点是显而易见的。首先,文字只有一种表达方式,无法将人们的声音、动作、表情等完整地表现出来。其次,文字有太多的存在形式,今天世界上仍然被使用的文字有数百种之多,任何一个事物都有数百种文字表达方式,这使得文字的传播成本高昂,传播效率不高。第三,文字的学习掌握需要漫长的过程,花费不菲的代价,即使经过十来年的努力,能够很好掌握文字表达技巧的人在社会上仍是少数。第四,文字的表达能力有局限性,对很多自然现象和社会现象只能描述,很难精确定义。
1704600040
1704600041 与文字差不多同时诞生的是另一个表达体系,那就是数字。数字当然是文字的一部分,但是相对独立,自成一格。世界各地古文字中都有自己的数字符号,但进展不一。例如零的发现,印度最早,其他文字则要晚得多。时至今日,全球普遍采用阿拉伯数字体系,但伊朗仍坚持使用古代波斯语中的数字符号,使得我们这些外人在那里旅游时看不懂钞票的面值。与一般文字相比,数字的好处是精确定义,毫无歧义。架构在数字之上的数学则是人类思想中最缜密、最有逻辑、最有使用价值的一部分,整个科学体系完全依赖数学的发展,而不能使用数学的思想则不属于科学。
1704600042
1704600043 夹在文字与数字之间的是一种特别的东西。开始它是被文字表达,但却有精确、客观、无歧义的特征,多用来表达世上客观存在的东西或已经发生的事实。在古拉丁文中,这个东西被称为 Datum,其复数形式为 Data,后来在英文中普遍使用为 Data,意思是“to give”和“givens”,指的是内涵确定、定义明确、毫无歧义的东西。在中文中 Data 被翻译成“数据”,的确是个不错的翻译,有“数字化的根据”的意思。
1704600044
1704600045 例如,“日”这个中文词,两个最普遍使用的意思是指天上的太阳和时间上的一天。如果能精确说明“日”是太阳系的中心,“天”是地球自转一周的时间,那么“日”就从普通的文字变成了数据。圆周率是文字,3.1416 则是数据,尽管内涵是一样的。要想精确定义一个事物,或者说一个事物被定义的精确度,随着人类对世界的认识发展,越来越依赖数字化定义。哪个领域被研究认识的东西被数量化定义之后,它就变成了科学的对象,也就可以更多、更深、更快地被人类所利用。
1704600046
1704600047 数字与数据不是一回事。数字是普适性的概念,是对一切事物的数量性质的表达。数据则是具体性的概念,是对一个事物的数量性质的表达。“8848 米”是一个数字,没有任何具体内容,只是一个长度的数量表达。“珠穆朗玛峰海拔 8848 米”是一个数据,特指世界最高峰的高度。“珠穆朗玛峰是世界最高峰”是一个文字表达,具体但不准确。所以,文字是人类对世界认识的一种抽象表述,数据是比文字更高一层的抽象表述,数字则是最高层次的抽象表述。
1704600048
1704600049 对一个事物可以有多种数据表述形式,取决于人们的目的和认识程度。例如,中国人口为 13.6 亿是人口数量的数据,中国人口中 54% 为男性、46% 为女性是性别比例数据,中国人口平均受教育程度为 9 年是教育数据等。对一个事物的数据表述越多,对这个事物的定义越精准,人们对这个事物的认识就越深入,可利用程度就越高。
1704600050
1704600051 数据是个高难度的东西。看到一个东西用文字可以模模糊糊地去描述,用头脑可以似是而非地去思索,但是要用一组数字去准确定义这个东西则是非常困难的事。可以说,人类历史在一定意义上就是对外部世界、对内心世界、对人与人的关系从无知到有知,从模模糊糊地知到比较确切地知,然后逐渐开始加以利用的历史。所以,数据在很长的时间里,甚至直到第二次世界大战前,只在非常狭窄的领域,例如数学、统计学、物理、化学、经济学等领域里得到比较充分的利用。在其他领域,例如政治学、社会学、历史学等领域,则很难得到足够的数据去利用,更不用说人际互动、文化现象、心理活动这些更复杂的现象了。直到不久前,甚至即使时至今日,数据这个概念对专业人士以外的绝大多数人来说,仍然是个冷僻、生疏、似乎远隔万里的东西。
1704600052
1704600053
1704600054
1704600055
1704600056 大数据经济:大数据时代,互联网加法如何做? [:1704599849]
1704600057 大数据经济:大数据时代,互联网加法如何做? 数据的进化——从数据到大数据
1704600058
1704600059 数据的出现和人类对数据的利用,可以追溯到三千多年前的古代。在尼罗河两岸的古迹中,我曾看到古埃及法老们在河边石柱上留下的每年测量尼罗河水位的刻度,他们以此来预测来年可能的税收数量。在希腊的博物馆中,我曾见到当时用来观察天体运行的仪器,还有具备八十多个部件的机械式计算机,它们可以精确地确定时间、方位和方向,用于船舶的导航。古代中国早在汉代就开始人口普查和田亩统计,用于税收政策的制定。但整个看起来,在农业社会中,人们对数据重要性的认识是不够的,创造数据的能力是低下的,对数据的利用是简单肤浅的,专制统治者们经常置数据于不顾,随心所欲地发布政令,导致社会动荡、混乱甚至崩溃。
1704600060
1704600061 工业时代的到来为数据的发展和人类对数据的利用和依赖提供了坚实的条件。科学告诉人们如何寻找数据、分析数据和利用数据。数据开始分门别类地得到巨大的发展。物理数据、化学数据、生物数据、地理数据、天文数据、经济数据、社会数据、文化数据、军事数据等开始成为一门门科学的基础,成为经济、社会、文化发展的依托,成为人类思想的根据。
1704600062
1704600063 货币和证券也许可以被视为工业时代最特殊、发展最快、影响也最大的一类数据。在农业时代,货币作为价值交换物,主要形式为贵金属,自身就具有相当价值,数据的属性并不明显。纸币的出现与大规模使用,充分显示了价值符号的作用,表现出数据交换就等于价值交换的特征。有价证券的出现与大规模使用,进一步凸显了数据的作用,乃至于工业时代被冠上了资本主义时代的名称。人们把以货币和证券为代表的资本视为社会发展的动力,同时也视为社会矛盾与斗争的根源。
1704600064
1704600065 当人们开始有意识有目的地收集数据和利用数据的时候,困扰开始了。美国在 19 世纪后期每隔十年一次的人口普查,已经不满足于简单地统计人口数量,还想知道人们的居住条件、收入水平、婚姻与家庭状况、职业与行业变化等,以此来决定国家的政治经济政策。于是,调查表越来越长,问题越来越多,分析越来越细。人口普查结束后,需要七到八年的时间才能完成数据分析,这已经快到下一次人口普查的时间了。处理数据的能力远低于获取数据的能力,不仅损害了数据分析结果的时效性,也提高了数据处理的成本。更何况由于数以万计的人参与了数据处理过程,手工误差也无法有效控制。于是,人们开始想到了用机器辅助处理数据。
1704600066
1704600067 最早的计算机是机械的,笨重易损,只能做简单的四则运算。所以机械式计算机未能广泛普及,也未产生显著的社会影响。“二战”后,科学家想到用 0 和 1 两个数字组成的字符串就可以表达一切文字、数据和符号,而电子管的开和关两个状态又正好可以表示 0 和 1。于是,电子计算机问世,一个全新的时代开始了。半个多世纪过去,计算机领域的发展一直遵循摩尔定律,计算速度每一年半左右翻一倍,计算机器件的相对成本每一年半左右降一半。可以说,今天的世界没有哪一件事、哪一个人没有直接或间接地同计算机打交道。没有了计算机,整个世界将会陷入混乱。
1704600068
1704600069 早期的计算机还是只处理特定科学、社会和经济领域里精心准备的数据,能够使用计算机的人也都是经过专门培养、长期训练出的专门人才。计算机处理数据很快,但向计算机里输入数据却是个力气活,很烦琐,很耗体力,很费钱。我在 20 世纪 80 年代初去美国读书时,看到系里的计算机室就像个计算机博物馆,光数据生成设备就有打卡机、读卡机、纸带穿孔机、纸带读孔机以及各种型号的磁盘等。各种型号的计算机终端和个人计算机多达十来种。仅仅掌握各种数据生成方式和各种计算机操作系统就花了我整整一学期的时间。
1704600070
1704600071 个人计算机(PC)、软盘、Mac 和 Windows 操作系统等一系列计算机创新的出现极大地推动了计算机的普及,人们在日常工作和生活中使用的文字与数字在计算机上自动转换成数据。随着计算机软件业的发展,图形、照片、语音、影像等都成为可以处理的数据。美国在 20 世纪 90 年代初,其他发达国家在 90 年代中期,中国在 21 世纪初都基本完成了计算机的普及,有效地推动了社会的现代化和信息化进步。
1704600072
1704600073 这时,数据已经差不多变成了计算机领域的专有名词,只有能够输入计算机的才算数据,只有计算机能够处理的才算数据,其他只被看作准数据或非数据。如何获取、存储、计算、使用数据变成了专门的高深学问。掌握了这些学问的人也成了社会需求大、收入高、贡献大的一批人物。
1704600074
1704600075 随着计算机的普及,如何在计算机之间迅速传递数据就成为新的挑战,特别是在空间距离远、时间要求快的一些领域,例如国防、金融、科研、通讯等。最开始,专家们运用不同的方法和标准在计算机之间建立了一些专用线路和专用网络,用来传输专门的数据。这种方法成本高、维护难、用途窄,人们又试图利用公共通讯网络例如电话网传递数据。终于在 20 世纪 70 年代开始,经过十多年的努力,建立了后来被人称为互联网的通用型数据传输网络。一个崭新的时代开始了。
1704600076
1704600077 计算机与互联网的结合,不仅解决了数据计算和数据传输问题,更重要的是人们解放了自己的双手、双腿和头脑,可以集中思考一些更具挑战性和前瞻性的问题。例如,利用计算机和互联网,有没有可能把过去无法数据化的东西变成新的数据源?如何利用这些新获得的数据产生新知识、新产品、新服务?怎样利用新数据解决困扰人类社会的重大问题,例如战争、贫困、疾病和贫富差距?
1704600078
1704600079 在过去二三十年中,人们利用各种新出现的科学技术进步成果,创造出了各种获取全新数据的工具,例如手机、手表、眼镜、穿戴用品、运输工具、制造设备、医疗设备等,都可以用来获得过去无法获得的人类生活、生产、交往的数据,获得自然界运动变化的数据,获得物质自身与物质生产的数据。这些数据数量之多、种类之繁杂、增长速度之快,终于在 2010 年前后引起了足够多的人的注意,并开始思考这个现象背后的意义。一时半会儿想不明白,人们干脆给这种现象起了个形象的名称——大数据。
[ 上一页 ]  [ :1.70460003e+09 ]  [ 下一页 ]