打字猴:1.700504964e+09
1700504964 数据科学家养成手册 [:1700503511]
1700504965 4.1.2 从信息到数据
1700504966
1700504967 著名信息学家克劳德·艾尔伍德·香农(Claude Elwood Shannon,1916年4月~2001年2月,如图4-6所示)曾经在1948年于《贝尔系统技术期刊》(Bell System Technical Journal)上发表论文《通信的数学理论》(A Mathematical Theory of Communication),其中有这样的描述:
1700504968
1700504969
1700504970
1700504971
1700504972 图4-6 克劳德·艾尔伍德·香农
1700504973
1700504974 If the number of messages in the set is finite then this number or any monotonic function of this number can be regarded as a measure of the information produced when one message is chosen from the set, all choices being equally likely. As was pointed out by Hartley the most natural choice is the logarithmic function. Although this definition must be generalized considerably when we consider the influence of the statistics of the message and when we have a continuous range of messages, we will in all cases use an essentially logarithmic measure.
1700504975
1700504976 大意就是“信息是用来消除随机不确定性的东西”。香农在这篇论文中不仅给出了信息的含义,还给出了信息量计算的公式,也就是信息学相关专业最为常用的公式之一——信息熵公式。
1700504977
1700504978
1700504979
1700504980
1700504981 其中,P(xi)代表消息xi产生的概率。
1700504982
1700504983 数据作为介质承载信息的形式,实际上是一种将信息抽象后的符号表示。所以,究其本质,不论是磁带上的语音数据,唱片上的音乐数据,磁盘上的文件数据,还是纸张上的文字数据,都具有如下特性。
1700504984
1700504985 (1)作用:承载信息,消除不确定性。
1700504986
1700504987 (2)形式:抽象过的符号记录。
1700504988
1700504989 (3)定义:符号的含义经过约定,不会或至少不易产生二义性。
1700504990
1700504991 信息的流传需要通过存储介质实现持久化。现在我们一提到存储,通常都会想到计算机硬盘,包括传统的机械硬盘及技术越来越成熟的固态硬盘(SSD硬盘)等。
1700504992
1700504993 从世界上第一台多用途电子计算机ENIAC (Electronic Numerical Integrator And Calculator,电子数字积分计算机,译为“埃尼阿克”,如图4-7所示)问世那天起,人类就进入了一个全新的科技领域——计算机领域。
1700504994
1700504995
1700504996
1700504997
1700504998 图4-7 多用途电子计算机的鼻祖——ENIAC
1700504999
1700505000 计算机界的“老祖宗”ENIAC,长30.48米,宽6米,高2.4米,占地面积约170平方米,有30个操作台,重达30英吨(4),耗电量150千瓦时,造价48万美元(1946年)。ENIAC包含17468根真空管,7200根晶体二极管,1500个中转,70000个电阻器,10000个电容器,1500个继电器,6000多个开关,每秒可进行5000次加法或400次乘法运算。其计算效率是继电器计算机的1000倍,手工计算的20万倍。
1700505001
1700505002 第二代计算机出现的时候,生产技术基础发生了改变,人们开始采用晶体管制造电子计算机。国外第二代电子计算机的生存期大约是1957年~1964年。从第三代计算机开始就是集成电路电子计算机,元器件的尺寸越来越小,集成的规模越来越大。据美国著名计算机零件和CPU制造商英特尔(Intel)公布的数字,Ivy Bridge 6核i7 CPU集成的晶体管数量高达18.6亿个,工艺规格已经到达14nm(晶体管和晶体管之间导线的宽度,简称“线宽”)——要知道,一个铁原子的直径也不过0.25nm。
1700505003
1700505004 众所周知,目前的电子计算机使用的计算与存储介质都是二进制的。这不是偶然的结果,而是由电子计算机的实现原理造成的。在ENIAC的设计过程中,冯·诺依曼(John von Neumann,1903年12月~1957年2月,如图4-8所示)根据半导体电子元件的二稳态特性,将计算机的计算逻辑设计为二进制方式(即只有“0”和“1”两种状态),在电子管上体现出来的特性就是“截止”和“导通”(如图4-9所示)。而人类喜欢使用十进制也主要是因为人有10根手指,在日常生活中用十进制进行计算最为便利。
1700505005
1700505006
1700505007
1700505008
1700505009 图4-8 冯·诺依曼
1700505010
1700505011
1700505012
1700505013
[ 上一页 ]  [ :1.700504964e+09 ]  [ 下一页 ]