1700504940
目前发现的这些文字数量非常有限,释义难度也比较大,但仍然可以看出,这些文字应该不是肆意的涂鸦,而是真正具有指代意义的象形文字。世人都期待着有更多佐证性的文字资料能够被发掘,让良渚文字中蕴含的意义为我们所知。
1700504941
1700504942
我们的汉字,从甲骨文到金文,再到大篆、小篆、隶书、楷书,一路走到今天,同时伴随着古体字、繁体字到简体字的逐步简化。
1700504943
1700504944
我们来看看“得”、“高”、“心”、“虫”4个汉字从甲骨文到繁体隶书的演化过程(如图4-4所示)。结合现在使用的简体汉字的字形,不难看出,字体演化的方向就是从烦琐到简洁,从象形化到符号化,这意味着文字的普及、记录和誊抄的门槛及成本都大大降低,会有更多的人有机会学会汉字,进而使汉字的流通性增强,流通成本降低。文字普及需要一个漫长的过程,但是它和电力、自来水、互联网的普及一样,具有激发民族巨大生产潜能和文化潜能的深远意义。这种演化在其他民族和其他文明的发展中也出现过,并衍生出了东西方几千年交相辉映的文明史——别忘了,这才是数据科学的基础。
1700504945
1700504946
1700504947
1700504948
1700504949
图4-4 甲骨文、金文、大篆、小篆、隶书对照
1700504950
1700504951
文字形态不断变化,承载信息的介质也在不断变化。
1700504952
1700504953
中国古代的夏朝是一个“传说”中的朝代,很多历史学家,尤其是国外的历史学家,在谈到夏朝时都多有质疑。因为夏朝是一个只在后代历史中提及的朝代,目前还没有带夏朝铭文的文物出土(例如碑文、王侯墓志)——哪怕是一件标有夏朝王侯将相铭文的礼器。目前,考古学家只是在一些考古遗址(例如“陶寺遗址”(1))中发现了零星的文物。虽然经碳-14测年法(2)测定,其年代约为公元前2500年~公元前1900年,与历史记载中夏朝的时间(约公元前21世纪~约公元前16世纪)有部分吻合,而且遗址中的城址、王墓、观象台、宫殿、仓储区及官方管理的手工业区等遗迹都在一定程度上支持了此地可能是帝尧之都(3)的猜测,但就是由于没有文字方面的佐证,使这种猜测迟迟无法盖棺定论。加之信息存储介质保存技术方面的问题,夏朝没有存世的文字资料,也给解读夏朝的文字和历史带来了极大的困难。
1700504954
1700504955
据推测,夏朝留存的文字资料介质可能多为木质、竹质、丝麻质等,在当时的技术条件下,这些有机物很难保存到四五千年后的今天。如果真的是这样,那确实非常可惜。数据信息有时确实向我们展示了它残忍的一面,无论我们抱有多么大的希望,无论从侧面推断夏朝存在的可能性如何之高,只要在数据信息层面没有直接的佐证,也无法认定这件事。
1700504956
1700504957
再往后,存储介质的发展逐步取得了高可靠性和低成本两方面的优化成果。虽然过程确实非常漫长,但是从竹简、丝帛、纸,到磁盘(磁介质)、固态盘(半导体介质),信息和数据存储的介质仍然向成本越来越低、质量越来越轻、体积越来越小、速度越来越快、可靠性越来越高的方向发展(如图4-5所示)。我们有理由相信,这种趋势还将持续,而且将给数据科学的发展带来越来越多的正面影响。
1700504958
1700504959
1700504960
1700504961
1700504962
图4-5 竹简、纸、磁介质硬盘和半导体介质硬盘
1700504963
1700504965
4.1.2 从信息到数据
1700504966
1700504967
著名信息学家克劳德·艾尔伍德·香农(Claude Elwood Shannon,1916年4月~2001年2月,如图4-6所示)曾经在1948年于《贝尔系统技术期刊》(Bell System Technical Journal)上发表论文《通信的数学理论》(A Mathematical Theory of Communication),其中有这样的描述:
1700504968
1700504969
1700504970
1700504971
1700504972
图4-6 克劳德·艾尔伍德·香农
1700504973
1700504974
If the number of messages in the set is finite then this number or any monotonic function of this number can be regarded as a measure of the information produced when one message is chosen from the set, all choices being equally likely. As was pointed out by Hartley the most natural choice is the logarithmic function. Although this definition must be generalized considerably when we consider the influence of the statistics of the message and when we have a continuous range of messages, we will in all cases use an essentially logarithmic measure.
1700504975
1700504976
大意就是“信息是用来消除随机不确定性的东西”。香农在这篇论文中不仅给出了信息的含义,还给出了信息量计算的公式,也就是信息学相关专业最为常用的公式之一——信息熵公式。
1700504977
1700504978
1700504979
1700504980
1700504981
其中,P(xi)代表消息xi产生的概率。
1700504982
1700504983
数据作为介质承载信息的形式,实际上是一种将信息抽象后的符号表示。所以,究其本质,不论是磁带上的语音数据,唱片上的音乐数据,磁盘上的文件数据,还是纸张上的文字数据,都具有如下特性。
1700504984
1700504985
(1)作用:承载信息,消除不确定性。
1700504986
1700504987
(2)形式:抽象过的符号记录。
1700504988
1700504989
(3)定义:符号的含义经过约定,不会或至少不易产生二义性。
[
上一页 ]
[ :1.70050494e+09 ]
[
下一页 ]