打字猴:1.700504903e+09
1700504903 数据科学家养成手册 [:1700503508]
1700504904 数据科学家养成手册 第4章 数据科学的使命
1700504905
1700504906 这一章我们将讨论数据科学的使命。数据科学是一个巨大而抽象的概念,要想清晰地认识这样一个概念,就需要对其进行拆解。从哪里开始认识数据科学呢?就从它所依赖的最基本的载体——数据——开始吧。
1700504907
1700504908
1700504909
1700504910
1700504911 数据科学家养成手册 [:1700503509]
1700504912 数据科学家养成手册 4.1 走近数据科学
1700504913
1700504914 数据科学伴随信息技术的逐步发展渐渐羽翼丰满。数据从萌芽到成为一门完整的科学,经历了漫长的过程,形成了今天较为发达的数据科学。然而,我们也不能说数据科学已经非常完备、没有进步的余地了。下面先来回顾一下数据科学的发展历程。
1700504915
1700504916 数据科学家养成手册 [:1700503510]
1700504917 4.1.1 介质
1700504918
1700504919 在低成本、高可靠的存储介质形成之前,人类存储数据的方式在我们今天看来是非常落后且效能低下的。以汉字为例,我国最早的文字记载(也就是信息记载)是公元前14世纪到公元前11世纪左右的殷商甲骨文(如图4-1和图4-2所示)。
1700504920
1700504921
1700504922
1700504923
1700504924 图4-1 殷商甲骨文
1700504925
1700504926
1700504927
1700504928
1700504929 图4-2 甲骨文和宋体字对照
1700504930
1700504931 截至2012年,在已经出土的10余万片有字甲骨中,大约有4500个不同的图形文字,其中已经识别出来的约有2500个。这些文字对研究当时人类的主要活动有非常重要的参考价值。
1700504932
1700504933 2013年7月,在浙江省平湖市庄桥坟遗址出土了良渚原始文字,这些文字是迄今为止我国发现的最早的原始文字(如图4-3所示)。这一发现表明,距今大约5000年前,也就是公元前3000年左右,良渚先民就开始使用文字了。这些刻画符号将中国文字史的起点向前推了1000多年。
1700504934
1700504935
1700504936
1700504937
1700504938 图4-3 良渚文字
1700504939
1700504940 目前发现的这些文字数量非常有限,释义难度也比较大,但仍然可以看出,这些文字应该不是肆意的涂鸦,而是真正具有指代意义的象形文字。世人都期待着有更多佐证性的文字资料能够被发掘,让良渚文字中蕴含的意义为我们所知。
1700504941
1700504942 我们的汉字,从甲骨文到金文,再到大篆、小篆、隶书、楷书,一路走到今天,同时伴随着古体字、繁体字到简体字的逐步简化。
1700504943
1700504944 我们来看看“得”、“高”、“心”、“虫”4个汉字从甲骨文到繁体隶书的演化过程(如图4-4所示)。结合现在使用的简体汉字的字形,不难看出,字体演化的方向就是从烦琐到简洁,从象形化到符号化,这意味着文字的普及、记录和誊抄的门槛及成本都大大降低,会有更多的人有机会学会汉字,进而使汉字的流通性增强,流通成本降低。文字普及需要一个漫长的过程,但是它和电力、自来水、互联网的普及一样,具有激发民族巨大生产潜能和文化潜能的深远意义。这种演化在其他民族和其他文明的发展中也出现过,并衍生出了东西方几千年交相辉映的文明史——别忘了,这才是数据科学的基础。
1700504945
1700504946
1700504947
1700504948
1700504949 图4-4 甲骨文、金文、大篆、小篆、隶书对照
1700504950
1700504951 文字形态不断变化,承载信息的介质也在不断变化。
1700504952
[ 上一页 ]  [ :1.700504903e+09 ]  [ 下一页 ]