打字猴:1.700931782e+09
1700931782
1700931783 这里还有另外一个例子。类人猿不停地敲击键盘,尽管砰砰直响,但几乎总是打出杂乱无章的符号。它能够打出一个语法正确的句子的情况是罕见的,例如类人猿偶然打出了“我想用分号来仲裁我的斜边”这样的句子。少之又少的情况是,它打出了像“克努特国王的下颌上有个疣”这样有意义的句子。[61]更进一步地说,如果你把一个有意义的句子的字母混乱后重新组合,就像拼图游戏中的牌一样,结果几乎是混乱的。原因是什么呢?组合20或30个字母得到没有意义的句子的方式要比有意义的句子的方式多得多。英语字母表中有26个字母,但存在更为简洁的书写体系,它只利用两个符号,点和短划。严格地说,有3个符号,是点、短划和空格,但我们总可以用点和短划的某种特殊序列来代替空格,以使空格不再出现。无论如何,我们可以忽略空格,下面是描述克努特和他的疣的莫尔斯电码,[62]总共有65个符号。
1700931784
1700931785
1700931786
1700931787
1700931788 由65个点或短划能组成多少不同的莫尔斯电码信息呢?你只要将2自身相乘65次,得到265,大约是千亿亿个不同的莫尔斯电码。
1700931789
1700931790 当信息用两个符号来编码时,这两个符号可以是点和短划、1和0,或者是其他一对,这些符号称为比特。因此,“克努特国王的下颌上有个疣”在莫尔斯电码下是一个65比特的信息。如果你想阅读本书的剩余部分,记住比特这个专业术语的定义是一个好主意,它的意思和你说的“我要拿一点儿咖啡到办公室”不同。比特是单个、不可分的信息单位,就像莫尔斯电码中的点和短划。
1700931791
1700931792 为什么我们要如此费力,将信息缩减到用点和短划,或者是0和1来描述呢?为什么不用序列0 1 2 3 4 5 6 7 8 9或者直接使用字母表中的字母呢?理由很简单,这样将使得信息更容易阅读,而且只需要更小的空间。
1700931793
1700931794 问题的关键是字母表中的字母(或者是10个通常的数字)是人类构建的,我们早已学习认识它们,并存储在我们的记忆中。但每个字母或数字本身,已经有大量的信息了,例如,字母A和B,或者是数字5和8之间,存在着错综复杂的差异。电报员和计算机科学家只依赖最简单的数学规则,他们更倾向于,事实上几乎被迫使用点和短划,或1和0的二进制码。事实上,为了给生存在遥远的恒星系上的非人类文明发送信息,卡尔·萨根(Carl Sagan)设计了一种采用二进制码的系统。[63]
1700931795
1700931796 我们回到克努特国王。这个65比特的信息有多少是有条理的句子呢?我真的不知道,可能有几十亿吧。但是无论有多少,它只有265当中难以想象的小的一部分。因此几乎确定的是,如果你取“克努特国王下颌上有个疣”中的65比特或是27个字母,搅乱它们的结果得到的将是乱语。不考虑空格,下面是我用斯克莱勃牌所得到的结果:[64]
1700931797
1700931798 H T K I D G E N C U O N N H T S R N I S A W A C H A I
1700931799
1700931800 假定你每次只把字母少许混乱一下。句子会逐渐丢失它的连贯性。“克努特国王有个疣下颌上”依然是可识别的。“克努特国王个有疣颌下上”同样也是。然而字母会逐渐变成一堆混乱的、没有意义的字母。有如此多的无意义的组合,以至于通向乱语的趋势是不可避免的。
1700931801
1700931802 现在我可以给出熵的定义了。熵是排列数目的测度,遵从某种特定的、可识别的判据。如果判据是存在65比特,那么排列的数目是265个。
1700931803
1700931804 不过在265比特的情况下,熵不是排列数,它恰好是65,也就是你将2相乘得到排列数的次数。数字2必须相乘起来得到给定数的数学术语称为它的对数。[65]于是,65是265的对数。因此,熵是排列数的对数。
1700931805
1700931806 在265种可能性当中,实际上只有一小部分有意义的句子。我们猜想有10亿个,为了得到10亿这个数,你必须将大约30个因子2相乘在一起。换句话说,10亿大约是230,或者等价地说,30是10亿的对数。因此得出结论,有意义的句子的熵大约只是30,远小于65。无意义的符号的混乱排列,比表述连贯句子的熵大得多。当你弄乱字母时,熵增加,这实在没有什么奇怪的。
1700931807
1700931808 假设宝马公司极度地提高了质量控制,从生产线上生产的汽车彼此完全相同。换句话说,假设有且只有一种原子排列才被认为是真正的宝马,那么它的熵是多少呢?答案是零。当宝马从生产线出来时,任何细节都已经确定。不论何时你确定了一种排列,就完全没有了熵。
1700931809
1700931810 热力学第二定律规定熵增加,它仅是以一种方式说明:随着时间的增长,我们趋向于失去细节。想象我们将一小滴墨汁放到一壶热水中。一开始,我们精确地知道墨汁的位置在哪里。墨汁的可能组态数目不是太大。但当我们看到墨汁扩散到水中时,关于单个墨汁分子的位置,我们开始知道得越来越少。我们所看到的是一个均匀的、浅灰色的一壶水,相应的排列数目已经变得非常大。我们可以耐心地等待,然而我们不会看到墨汁分子重新集聚到一起形成一滴墨汁。熵增加了,这就是热力学第二定律,事物趋向于令人乏味的均匀性。
1700931811
1700931812 这里还有另外一个例子,一个装满热水的浴缸。我们对缸中的水,了解了多少呢?假定它停在浴缸中的时间足够长,没有可观测的运动。我们可以测量缸中水的量(50加仑),也可以测量它的温度(40℃)。但是缸中充满了水分子,对于给定的条件,也就是50加仑(1加仑约4.55升)40℃的水,相对应的水分子的排列方式显然有很多。如果我们可以精确地测量每个原子,那么将可以知道得更多。
1700931813
1700931814 熵是不可观测的细节中所隐藏的信息的量度。因此,熵是隐藏着的信息。在大多数情形下,信息是隐藏的,因为它所涉及的东西太小而无法观测到,太多而无法跟踪。在洗澡水的情形中,细节便是浴缸中千千万万个水分子的位置和运动。
1700931815
1700931816
1700931817
1700931818
1700931819 晶格
1700931820
1700931821 如果将水温降低,直至绝对零度,那么熵发生了什么变化呢?如果我们移去每一点能量,那么水分子会自动以一种独特的组合来排列,冰冻的格子将形成一个理想的冰晶体。如果你熟悉晶体的性质,即使分子太小而无法观测,那么你也可以预测每个分子的位置。一个理想的晶体就如同理想的宝马车一样,没有丝毫的熵。
1700931822
1700931823 你可以在图书馆中填塞多少个比特呢
1700931824
1700931825 使用语言的模棱两可,以及微小的差异常常被高度重视。事实上,如果语言极为精确,可以被编程为计算机,那么语言和文学必将处于一种尴尬状态,然而科学的精确性要求高度的语言精确度。信息这个词可以指更多的东西:“我认为你的信息是错误的。”“根据你的信息,火星有2颗卫星。”“我获得了信息科学的硕士学位。”“你可以在国会图书馆找到信息。”在这些句子当中,信息以某种特定的方式被使用着。只有在最后一个句子中,信息这个词的意义,才可用作下述发问:“信息在哪里呢?”
1700931826
1700931827 我们来追寻定位这个概念。如果我告诉你,格兰特埋在格兰特墓中,[66]大家都会毫不怀疑地认同我,给了你一条信息。但信息在哪里呢?它在你的头脑中吗?在我的头脑中吗?有确定的位置是不是过于抽象呢?它是分布在整个宇宙间,供我们每一个人使用吗?
1700931828
1700931829 这里有一个非常具体的回答:信息在记录上,以碳和其他分子组成物质的文字形式存储。在这个意义上,信息是一种实在的东西,几乎如同物质一样。它是如此的具体,以至于我书中的信息和你书中的信息是不同的。在你的书中,写的是格兰特葬在格兰特纪念堂里。你可能猜测到我的书中,与你所说的是同一件事情,但你并不是确切地知道这一点。我的书中或许会写道:格兰特埋在吉萨金字塔中。[67]事实上,任何一本书都不包括信息。格兰特被埋在格兰特纪念堂中的信息在格兰特纪念堂里。
1700931830
1700931831 就物理学家所使用的词语的意义来说,信息是由物质[68]组成的,它无处不在。本书中的信息在一个长方体中,大约是10英寸乘以6英寸乘以1英寸,也就是10×6×1或者60立方英寸。[69]本书的封面中隐藏有多少比特的信息呢?在每一行中,大约有70个字符的空间,字母、标点符号、标记和空格。每页有37行,共有350页,大约是100万个字符。
[ 上一页 ]  [ :1.700931782e+09 ]  [ 下一页 ]