打字猴:1.704611861e+09
1704611861
1704611862 现在,你可能会辩解说,将每公斤布加迪威龙的价格和每公斤白银的价格相比较完全是无稽之谈,因为如果我们拿着实实在在的一公斤布加迪威龙,什么都做不了。然而,这“无稽之谈”却教会了我们理解将物理秩序(或者说信息)构成一个产品所带来的价值。
1704611863
1704611864 想象一下,你买彩票中了一辆布加迪威龙。于是你万分激动地决定开着你的新车去兜风,但是因为过于激动,你开着布加迪威龙撞到了墙上。尽管你自身毫发未伤,但由于没有车险,布加迪威龙完全变成了一堆废铁。现在再来看看,一公斤的布加迪威龙值多少钱?
1704611865
1704611866 答案很显然,作为一辆汽车,它的价值在撞上墙的一刹那就灰飞烟灭,但它的重量没有改变。那么,为什么车的价值会消散呢?原因并不是车祸破坏了汽车部件的原子结构,而是破坏了部件的排列顺序。随着各个零件分崩离析,布加迪威龙也失去了本身的模样,其中包含的信息在很大程度上都被摧毁了。因而我们说,布加迪威龙250万美元的价值在于零件的组合方式,而不是零件本身。3这些组合方式就是信息。4
1704611867
1704611868 布加迪威龙的价值与它的物理秩序——也就是它自身所携带的信息——相结合,尽管人们一直在争论信息到底是什么。5根据信息论之父克劳德·香农所说,信息是交流中想要传递特殊消息所需的最小单位。换言之,就是表达一种排列方式所需的最小内存,比如布加迪威龙中原子的排列方式。
1704611869
1704611870 为了更准确地把握香农的定义,推特的例子比布加迪威龙更容易理解。推特是一条从微广播平台发送的,包含在140个字符以内的消息,它和布加迪威龙一样都是信息的携带者,不同的是,推特是以交流为前提,不过这个区别并不会影响我们理解香农的理论。根据定义,信息是交流过程中想要传递任何一条特殊消息所需的最小单位。不过这条推特是毫无意义还是充满哲理,对于我们想要研究的课题来说都无关紧要。
1704611871
1704611872 那么一条推特里面具体包含了多少信息呢?为了解决这个问题,让我们假想两个使用推特的玩家——艾比和布莱恩。在游戏里,艾比和布莱恩将只能通过“是”或“不是”来猜答对方推特的内容。前提是他们都有一本包含所有可能出现的推特内容的书。游戏的开始,艾比先从书中随机选定一条推特,然后让布莱恩通过提问猜出她的推特内容,不过艾比只能回答“是”或“不是”。香农提出,一条推特体现的信息量等于布莱恩需要完全猜出艾比推特内容所需要的最少问题。6那么,最少需要多少个问题呢?
1704611873
1704611874 稍微做个简化,假设艾比和布莱恩只能使用32种字符:小写的26个英文字母再加上一些其他的字符,像空格“”、斜线“/”、逗号“,”、句号“。”,以及艾特符号“@”还有井号“#”;并且假设艾比和布莱恩有一张字符和数字相对应的表格(a = 1, b = 2, …, @ = 31, # = 32)。
1704611875
1704611876 对于布莱恩来说,最好的提问方式就是每次削减一半的可能字符数,如果他真的这么做,那么第一个问题应该是“第一个字符大于16么?”如果艾比回答不是,那么布莱恩将知道艾比推特的第一个字符在字母“a”与“p”之间,紧接着第二个问题应该是“第一个字符大于8么?”如果艾比回答是,布莱恩将知道艾比推特的第一个字母在字母“i”和“p”之间。很显然,下一个问题将是“第一个字符大于12么?”
1704611877
1704611878 每次提问,布莱恩都将猜测范围缩减了一半。由于有32个字符,所以想要完全得知其中一个字符,布莱恩都需要提5个问题。最后,因为一条推特有140个字符,布莱恩将需要提140×5=700个问题——或者我们可以用“比特”来表示这个最小的问题单位——去确定艾比的推特。7
1704611879
1704611880 香农理论告诉我们,我们最少需要700个比特来表达一条由32个字符写成的推特。这就是现代沟通系统的基础。通过量化我们需要获知一条消息的最少字节数,香农实际上开创了数字通信技术,不过,玻尔兹曼在半个世纪以前就得到了和香农一样的结论。香农采纳了著名的匈牙利数学家约翰·冯·诺依曼的建议,把他的计量方式称为“熵”,因为他所用的计量方式和统计物理学家研究中推导的熵公式是等价的。(据说,冯·诺依曼告诉香农,由于没人真的了解“熵”是什么,香农可以轻松驳回各方争议。)
1704611881
1704611882 不过香农所给出的对于熵和信息的理解,似乎既无法和传统的“信息”的概念相结合,也难以和玻尔兹曼对于“熵”的解释相融合。以电脑为例,我们可以轻易看出“信息”与“信息”之间的不同。无论你的电脑是台式电脑、笔记本电脑,还是智能手机,你都是使用这一设备去存储图片、文件和软件。我们将这些存储在电脑硬盘中的各类文档软件称为“信息”。然而,对于香农来说,如果我们能够任意点击硬盘中的存储数据,进而有效地销毁所有图片和文件,我们实际上增加了硬盘中的信息。听上去似乎是无稽之谈。这种增加其实是由于香农将“信息”定义为能够完整描述一个系统状态所需的比特数(以电脑为例,就是硬盘中包含了特定信息的一串比特序列)。因此,相比于表示具有规律性的图片和文件,香农提出,表示一串乱码时所需的比特数更多。虽然理论上来说这个结论是正确的,但是香农理论作为一个对于通信工程来说意义非常的研究结果,需要与通俗意义上的“信息”概念和玻尔兹曼的研究相结合。为此,我会从玻尔兹曼的研究入手,解释什么是“熵”,然后进一步尝试去完善地描述一个充满图片和文件的“信息丰富”的状态。
1704611883
1704611884 要懂得玻尔兹曼和香农之间对于“熵”的理解差异,假想一个只坐满一半的体育场。[4]注意,我们有无数种方式可以让一个体育场上座率达到一半,通过探索这些不同的方式,我们将解释什么是熵。
1704611885
1704611886 首先,假设人们可以在整个球场内自由移动。其中一种坐满半个球场的方式是让大家挨着中心场地落座,空出外围的半数座位;另一种则是坐在外围,空出中心区域的位子。当然,人们也可以随机选择自己的位子。
1704611887
1704611888 在解释“熵”之前,我还需要引入两个概念。其一,将每种坐满半个体育场的座位分布称为一种“状态”(或者更专业一些,称之为“微态”,即微观状态);其二,假设当两种状态的平均座位排号相同时,这两种状态可视为等价。
1704611889
1704611890 以体育馆为例,在统计物理学中,“熵”的定义即等价状态在所有可能的状态中所占的比率(严格意义上来说,其实是这个分数的对数,但对于我的论证并无大碍)。所以,熵值在人们全部坐在内圈或者外围时是最低的,因为人们只有一种坐法。8而当平均座位排号是最中间的座位排号时,熵值最大,因为存在无数种可能。玻尔兹曼把“熵”定义为某种条件下等价状态的个数,在这个例子中,最大熵值出现在当平均座位排号为中间排号时。
1704611891
1704611892 值得一提的是,即便人们通常将熵与混沌、无序相提并论,但实际上熵并不是用来衡量混乱程度的,而是衡量状态的多重性(等价状态的个数),只不过凑巧,无序状态往往多重性较高,因此实际中,高熵值的状态极有可能是无序的。所以,将熵值看作混乱状态的一种衡量方式并非毫无根据。然而,即使混乱程度并没有加深,熵值仍然可以增加,比如气体从一个体积为1的盒子中扩散到体积为2的盒子中(原先例子中的体育馆容量扩大到两倍)。此时,由于在更大的空间内气体的排列方式更多,熵值随着体积的增大而增大,但混乱程度却并没有随之提升。
1704611893
1704611894 比起实验性论证,香农更关心生活中通信系统的微态,比如一条推特或一座体育馆的座位,因此,香农使用“信息”来等价于熵值(因此,本书中它们基本是同义词)。想要准确描述一个平均座位排号居中的微态,需要更多比特,因为等价状态太多,所以我们需要更详细和具体的信息来精确定位到某个特定的微态上。所以,香农认为,信息和熵在功能上是等价的:想要具体描述一条特定消息(香农定义下的“信息”)的比特数,即代表了实际上能够传递出的消息数量(即熵,我们称之为状态的多重性)。但切记,信息和熵并不完全是一回事。正如1967年的诺贝尔化学奖得主曼弗雷德·艾根所说,“熵是(物理)状态的均值,而信息是一个特定的(物理)状态”。9
1704611895
1704611896 事实上,尽管我们要耗费更多比特来表达一个随机的混沌状态,但这并不意味着这些状态中蕴含更多的信息。越多的信息诚然需要更多的比特数,但这并不是事实的全部。以体育场为例,当人们随机挑选座位时,熵值最大但同时也最无序(即使等价状态中的其中一个可能是相当有序的)。事实上,在自然科学的研究领域中,或者大众的认知里,“信息”所代表的一向都不仅限于比特数,还包括对于有序程度的衡量。当遗传学家谈及DNA,或者一张乐谱,一部电影,一本书,在这些场合我们所提到的“信息”都暗指其中包含的秩序,而不单纯是表达一条基因链、书或者乐谱所需要的比特数。
1704611897
1704611898 但有序状态是罕见而特殊的。我会首先解释一下我为什么在这里用“罕见”一词;之后我将解释“信息丰富”状态的特殊性,这也关乎“信息”一词在现代口语中的含义。
1704611899
1704611900 为了解释有序状态的特殊性,我将会把玻尔兹曼关于原子的理论引入体育馆的例子中。现在体育馆中仍然只能坐一半的人,但条件是平均座位排号必须是最中间的座位排号。换成物理学,这就相当于要求系统的能量守恒。但即便如此,整个系统仍有许多状态可以使得平均座位排号居中,其中大多都相当随意,少部分则很特殊。如果将坐在体育场的人看作屏幕上的像素,则他们的座位排列可以拼成单词,比如“信息”,或是拼成图画,比如Hello Kitty的脸。但这些特殊的状态是否常见呢?
1704611901
1704611902 为了确定哪些状态是常见的,我们需要将所有可能的状态归类。方法之一就是寻找不同状态之间的关联性,如果其中一种状态可以简单地变化成为另一种状态,则它们相互关联。让我们简单地假设变形就是指所有人往上下左右相邻的位子上移动一格,使得形成的新的状态仍然满足平均座位排号居中的条件。也就是说,人们可以集体向右平移,或者坐在外围的人向内移一格,同时坐在内圈的人向外移一格。
1704611903
1704611904 原则上,简易的变形能够让我们转换到任意一种状态,但这操作起来却并不容易。如果体育馆中的人只能按照相邻法则选择位子(当然,要同时满足排号居中的条件),我们永远不可能突然间转换到一个拼凑成字母或图形的状态,因为这种状态极其少见并且难以达到。这个例子关乎信息是如何体现秩序的:在一个物理系统内,信息是熵的对立面,因为信息通常体现在罕见、规则但不容易得到的状态中。
1704611905
1704611906 比如布加迪威龙和吉他的构造就非常特殊,因此它们比那些用同样物质组成的常见结构包含了更多的信息,即便从理论上来说,如果无视有序结构中信息的关联性(否则我们对信息进行压缩,从而大大减少表达所需的比特数),表达同样组成部分构成的有序结构和无序结构,需要的比特数是相同的(对此,香农的理解十分正确)。由此,尽管香农和玻尔兹曼的理论不能相互融合,我们仍然可以得出“不仅仅是消息,绝大多数事物都由信息构成”这个结论。
1704611907
1704611908 让我们回到布加迪威龙的例子,不像推特,布加迪威龙是由极大量原子而并不仅仅是140个字符组成的,因此更为复杂一些。此外,正如我刚才所说,在这里我们并不是想要寻找所有可能的原子排列,而是寻找产生布加迪威龙的排列方式(就如同用座位拼出一个词一样)。例如,转动布加迪威龙的轮胎并不改变我们所感兴趣的一辆车的基本性质,所以任何轮胎转动方式不同的布加迪威龙都是等价的。完美的布加迪威龙很少,就像人们在体育场中的座位分布,原子的排列方式恰好形成一辆布加迪威龙的可能性很小。但另一方面,布加迪威龙的残骸,就具有很高的多重性(高熵值),同时包含更少的信息(即使表达这种混乱的状态需要更多的比特数)。不过所有状态中的绝大多数,都是“自然状态”下的布加迪威龙,如同人们随机地散坐在体育场里。在这种状态下,布加迪威龙中的铁以铁矿石,铝以铝土矿的形式呈现。布加迪威龙的损坏同时也是信息的损毁;布加迪威龙的生产,在另一方面,是信息的具象化。
1704611909
1704611910 以上的例子帮助我们理解了物质的形态是如何体现信息的,比如一辆布加迪威龙。体育场的例子还着重体现了秩序的动态起源:想要有任何形式的秩序出现,原子就必须找到正确的位置。但问题是,一个系统不能自由地在两种状态中随意切换,就如体育场的例子所表现的,一个系统的当前状态决定了这个状态进行改变的路径,并且对于一个系统来说,从无序到有序,需要的是连续性的变化。可惜,从无序到有序的路径比从有序到无序的路径少得多。对于一个任何改变都只是偶然的系统来说(如统计物理学中建立的一个系统),想要做一系列正确、连续的移动是不容易的。
[ 上一页 ]  [ :1.704611861e+09 ]  [ 下一页 ]