打字猴:1.700504951e+09
1700504951 文字形态不断变化,承载信息的介质也在不断变化。
1700504952
1700504953 中国古代的夏朝是一个“传说”中的朝代,很多历史学家,尤其是国外的历史学家,在谈到夏朝时都多有质疑。因为夏朝是一个只在后代历史中提及的朝代,目前还没有带夏朝铭文的文物出土(例如碑文、王侯墓志)——哪怕是一件标有夏朝王侯将相铭文的礼器。目前,考古学家只是在一些考古遗址(例如“陶寺遗址”(1))中发现了零星的文物。虽然经碳-14测年法(2)测定,其年代约为公元前2500年~公元前1900年,与历史记载中夏朝的时间(约公元前21世纪~约公元前16世纪)有部分吻合,而且遗址中的城址、王墓、观象台、宫殿、仓储区及官方管理的手工业区等遗迹都在一定程度上支持了此地可能是帝尧之都(3)的猜测,但就是由于没有文字方面的佐证,使这种猜测迟迟无法盖棺定论。加之信息存储介质保存技术方面的问题,夏朝没有存世的文字资料,也给解读夏朝的文字和历史带来了极大的困难。
1700504954
1700504955 据推测,夏朝留存的文字资料介质可能多为木质、竹质、丝麻质等,在当时的技术条件下,这些有机物很难保存到四五千年后的今天。如果真的是这样,那确实非常可惜。数据信息有时确实向我们展示了它残忍的一面,无论我们抱有多么大的希望,无论从侧面推断夏朝存在的可能性如何之高,只要在数据信息层面没有直接的佐证,也无法认定这件事。
1700504956
1700504957 再往后,存储介质的发展逐步取得了高可靠性和低成本两方面的优化成果。虽然过程确实非常漫长,但是从竹简、丝帛、纸,到磁盘(磁介质)、固态盘(半导体介质),信息和数据存储的介质仍然向成本越来越低、质量越来越轻、体积越来越小、速度越来越快、可靠性越来越高的方向发展(如图4-5所示)。我们有理由相信,这种趋势还将持续,而且将给数据科学的发展带来越来越多的正面影响。
1700504958
1700504959
1700504960
1700504961
1700504962 图4-5 竹简、纸、磁介质硬盘和半导体介质硬盘
1700504963
1700504964 数据科学家养成手册 [:1700503511]
1700504965 4.1.2 从信息到数据
1700504966
1700504967 著名信息学家克劳德·艾尔伍德·香农(Claude Elwood Shannon,1916年4月~2001年2月,如图4-6所示)曾经在1948年于《贝尔系统技术期刊》(Bell System Technical Journal)上发表论文《通信的数学理论》(A Mathematical Theory of Communication),其中有这样的描述:
1700504968
1700504969
1700504970
1700504971
1700504972 图4-6 克劳德·艾尔伍德·香农
1700504973
1700504974 If the number of messages in the set is finite then this number or any monotonic function of this number can be regarded as a measure of the information produced when one message is chosen from the set, all choices being equally likely. As was pointed out by Hartley the most natural choice is the logarithmic function. Although this definition must be generalized considerably when we consider the influence of the statistics of the message and when we have a continuous range of messages, we will in all cases use an essentially logarithmic measure.
1700504975
1700504976 大意就是“信息是用来消除随机不确定性的东西”。香农在这篇论文中不仅给出了信息的含义,还给出了信息量计算的公式,也就是信息学相关专业最为常用的公式之一——信息熵公式。
1700504977
1700504978
1700504979
1700504980
1700504981 其中,P(xi)代表消息xi产生的概率。
1700504982
1700504983 数据作为介质承载信息的形式,实际上是一种将信息抽象后的符号表示。所以,究其本质,不论是磁带上的语音数据,唱片上的音乐数据,磁盘上的文件数据,还是纸张上的文字数据,都具有如下特性。
1700504984
1700504985 (1)作用:承载信息,消除不确定性。
1700504986
1700504987 (2)形式:抽象过的符号记录。
1700504988
1700504989 (3)定义:符号的含义经过约定,不会或至少不易产生二义性。
1700504990
1700504991 信息的流传需要通过存储介质实现持久化。现在我们一提到存储,通常都会想到计算机硬盘,包括传统的机械硬盘及技术越来越成熟的固态硬盘(SSD硬盘)等。
1700504992
1700504993 从世界上第一台多用途电子计算机ENIAC (Electronic Numerical Integrator And Calculator,电子数字积分计算机,译为“埃尼阿克”,如图4-7所示)问世那天起,人类就进入了一个全新的科技领域——计算机领域。
1700504994
1700504995
1700504996
1700504997
1700504998 图4-7 多用途电子计算机的鼻祖——ENIAC
1700504999
1700505000 计算机界的“老祖宗”ENIAC,长30.48米,宽6米,高2.4米,占地面积约170平方米,有30个操作台,重达30英吨(4),耗电量150千瓦时,造价48万美元(1946年)。ENIAC包含17468根真空管,7200根晶体二极管,1500个中转,70000个电阻器,10000个电容器,1500个继电器,6000多个开关,每秒可进行5000次加法或400次乘法运算。其计算效率是继电器计算机的1000倍,手工计算的20万倍。
[ 上一页 ]  [ :1.700504951e+09 ]  [ 下一页 ]