1700506544
1700506545
1700506546
1700506547
1700506548
图9-1 哈特莱
1700506549
1700506550
一段消息中包含的信息量究竟是多少?有多少是有用的、真正用来消除不确定性的信息?有多少不属于信息?乍听起来,这种研究似乎没什么特别了不起的价值,而仔细想想,研究清楚这件事情能够获得的收益是显而易见的。在我们周围每天都会产生数量极大的消息,不管是文字、音乐、图片、动态影像资料,还是其他任何形式的消息,如果我们希望将它们保存下来,就免不了要进行存储和传输。而存储和传输直接涉及实施难度——也就是成本的问题,甚至直接决定了方法是否可行。
1700506551
1700506552
在数字存储和数字通信出现之前,人们是通过模拟信号(Analog Signal)来进行数据存储和传输的。这种信号的记录和读取,与现在我们使用的MP3或者WAV文件格式极为不同——它们使用的是模拟信号。
1700506553
1700506554
以胶木唱片为例,其介质是树脂(如图9-2所示)。胶木唱片,又称“黑胶唱片”,是指转速78转/分,声槽宽度0.10~0.16毫米,声槽密度30~50条/厘米的留声机唱片。这种唱片是一种黑色圆盘形的胶片,用树脂(俗称“胶木”;后期改用聚氯乙烯,即PVC)压制,上面刻有凹凸的坑纹以记录声音。
1700506555
1700506556
1700506557
1700506558
1700506559
图9-2 磁带和胶木唱片
1700506560
1700506561
声音是物体振动而发出的。无论是什么东西的振动,只要它们振动的各种属性(频率、振幅、波形等)完全一样,在我们听来就是一种声音。人耳能够听到的声音频率是有限的,这个范围通常被认为是20~20000Hz。黑胶唱片是先把声音的振动属性记录在唱片上,就是在唱片上刻出一些弯弯曲曲的凹槽(“弯弯曲曲”就记录了音源的属性)。在回放声音的时候,需要把唱针放入凹槽中,当唱片按照一定的速率转动起来,唱片上的凹槽就会迫使唱针跟着振动,这样就有了声音。为了让人们能听清楚,需要通过放大电路将唱针的这种振动声还原成模拟电信号,然后将信号放大,从喇叭中播放出来(如图9-3所示)。
1700506562
1700506563
1700506564
1700506565
1700506566
图9-3 声音与模拟信号
1700506567
1700506568
这种介质的问题显而易见。第一是保存容易失真,受到磁头和唱针感应的影响,播放出来的声音会由于介质被侵袭而发生变化。第二是传输成本高,制作胶木唱片时,必须老老实实地刻录声音信息,然后通过人力进行传递。在老式的电话中,声音的传递是用同样的原理实现的,因此也就存在同样的问题——声音容易受到干扰,而且保密性极差。这些问题非常尖锐,亟待解决。
1700506569
1700506570
1700506571
1700506572
1700506574
数据科学家养成手册 9.2 信息量与信息熵
1700506575
1700506576
在研究信息本质问题的过程中,哈特莱和香农作出了卓越的贡献,而他们研究的突破性也表现在这里。他们的研究没有局限于原先的各种以模拟信号组成的信道(包括介质),而是往前走了一步。信息究竟是什么?如哈特莱所说,“信息是被消除的不确定性”,那么消息的传输实际上就是要将这种不确定性变为确定性——第一步为什么不量化信息的大小呢?
1700506577
1700506578
1928年,哈特莱提出了信息定量化的初步设想。他将在一次消息表达中所包含的不同含义数量m的对数定义为信息量。
1700506579
1700506580
I=log2m
1700506581
1700506582
I代表信息量的大小,m用于表达不同含义的数量。
1700506583
1700506584
举个例子。在一次信息传递中,需要表达“是”、“否”2个含义,只要送信和收信的双方对这个含义有共同的约定,那么不论这个消息是写在纸上,是通过电话传输,还是通过电报或其他方式传输,其信息量都是log22,即1。同理,要表达“上”、“下”、“左”、“右”4个含义,则消息的信息量为log24,即2。
1700506585
1700506586
在信息量的计算过程中,对数log的底取2。其实,在一次计算中,也可以通篇使用其他数字做底。用2做底主要是对应二进制的介质,对信道的解释表达得比较直观。
1700506587
1700506588
在二进制的介质中,在一个计数单位上只能用0和1两个数字来表示。所以,如果约定了0表示“是”,1表示“否”,那么至少需要1位二进制介质的量才能清晰完整地表达消息的定义。如果要表达“上”、“下”、“左”、“右”4个含义,1位就不够用了,必须使用至少2位来表达。例如,00代表“上”,01代表“下”,10代表“左”,11代表“右”。否则,4个不同的含义是无法采用比2更少的位数来完整描述的。以此类推,如果消息有1000种不同的含义,那么至少需要10位二进制介质来表示整个消息(2)。我们可以使用这种方式来理解哈特莱所提出的信息量的概念——确实很直观,也很有说服力。
1700506589
1700506590
香农对信息量的研究则更为深入且贴近本质。
1700506591
1700506592
既然“信息是被消除的不确定性”,如果内容确定的消息进行了传递,这些内容中还包含信息吗?根据定义,应该不包含信息。那么,这种不确定性本身是不是也能够量化呢?香农的高明之处就在这里,他引入了一种描述信息杂乱或意外程度的方式——信息熵。
1700506593
[
上一页 ]
[ :1.700506544e+09 ]
[
下一页 ]