打字猴:1.700506554e+09
1700506554 以胶木唱片为例,其介质是树脂(如图9-2所示)。胶木唱片,又称“黑胶唱片”,是指转速78转/分,声槽宽度0.10~0.16毫米,声槽密度30~50条/厘米的留声机唱片。这种唱片是一种黑色圆盘形的胶片,用树脂(俗称“胶木”;后期改用聚氯乙烯,即PVC)压制,上面刻有凹凸的坑纹以记录声音。
1700506555
1700506556
1700506557
1700506558
1700506559 图9-2 磁带和胶木唱片
1700506560
1700506561 声音是物体振动而发出的。无论是什么东西的振动,只要它们振动的各种属性(频率、振幅、波形等)完全一样,在我们听来就是一种声音。人耳能够听到的声音频率是有限的,这个范围通常被认为是20~20000Hz。黑胶唱片是先把声音的振动属性记录在唱片上,就是在唱片上刻出一些弯弯曲曲的凹槽(“弯弯曲曲”就记录了音源的属性)。在回放声音的时候,需要把唱针放入凹槽中,当唱片按照一定的速率转动起来,唱片上的凹槽就会迫使唱针跟着振动,这样就有了声音。为了让人们能听清楚,需要通过放大电路将唱针的这种振动声还原成模拟电信号,然后将信号放大,从喇叭中播放出来(如图9-3所示)。
1700506562
1700506563
1700506564
1700506565
1700506566 图9-3 声音与模拟信号
1700506567
1700506568 这种介质的问题显而易见。第一是保存容易失真,受到磁头和唱针感应的影响,播放出来的声音会由于介质被侵袭而发生变化。第二是传输成本高,制作胶木唱片时,必须老老实实地刻录声音信息,然后通过人力进行传递。在老式的电话中,声音的传递是用同样的原理实现的,因此也就存在同样的问题——声音容易受到干扰,而且保密性极差。这些问题非常尖锐,亟待解决。
1700506569
1700506570
1700506571
1700506572
1700506573 数据科学家养成手册 [:1700503562]
1700506574 数据科学家养成手册 9.2 信息量与信息熵
1700506575
1700506576 在研究信息本质问题的过程中,哈特莱和香农作出了卓越的贡献,而他们研究的突破性也表现在这里。他们的研究没有局限于原先的各种以模拟信号组成的信道(包括介质),而是往前走了一步。信息究竟是什么?如哈特莱所说,“信息是被消除的不确定性”,那么消息的传输实际上就是要将这种不确定性变为确定性——第一步为什么不量化信息的大小呢?
1700506577
1700506578 1928年,哈特莱提出了信息定量化的初步设想。他将在一次消息表达中所包含的不同含义数量m的对数定义为信息量。
1700506579
1700506580 I=log2m
1700506581
1700506582 I代表信息量的大小,m用于表达不同含义的数量。
1700506583
1700506584 举个例子。在一次信息传递中,需要表达“是”、“否”2个含义,只要送信和收信的双方对这个含义有共同的约定,那么不论这个消息是写在纸上,是通过电话传输,还是通过电报或其他方式传输,其信息量都是log22,即1。同理,要表达“上”、“下”、“左”、“右”4个含义,则消息的信息量为log24,即2。
1700506585
1700506586 在信息量的计算过程中,对数log的底取2。其实,在一次计算中,也可以通篇使用其他数字做底。用2做底主要是对应二进制的介质,对信道的解释表达得比较直观。
1700506587
1700506588 在二进制的介质中,在一个计数单位上只能用0和1两个数字来表示。所以,如果约定了0表示“是”,1表示“否”,那么至少需要1位二进制介质的量才能清晰完整地表达消息的定义。如果要表达“上”、“下”、“左”、“右”4个含义,1位就不够用了,必须使用至少2位来表达。例如,00代表“上”,01代表“下”,10代表“左”,11代表“右”。否则,4个不同的含义是无法采用比2更少的位数来完整描述的。以此类推,如果消息有1000种不同的含义,那么至少需要10位二进制介质来表示整个消息(2)。我们可以使用这种方式来理解哈特莱所提出的信息量的概念——确实很直观,也很有说服力。
1700506589
1700506590 香农对信息量的研究则更为深入且贴近本质。
1700506591
1700506592 既然“信息是被消除的不确定性”,如果内容确定的消息进行了传递,这些内容中还包含信息吗?根据定义,应该不包含信息。那么,这种不确定性本身是不是也能够量化呢?香农的高明之处就在这里,他引入了一种描述信息杂乱或意外程度的方式——信息熵。
1700506593
1700506594
1700506595
1700506596
1700506597 其中,x代表某一信源,P(xi)代表xi消息产生的概率。
1700506598
1700506599 这个公式通过换算可以知道,哈特莱提出的I=log2m实际上是消息产生概率均等情况下的信息熵的特例。对于一个信源,它产生的消息中如果有某些产生的概率极大,就说明这种消息包含的信息量少;反之,产生概率极小的消息所包含的信息量就大。这种理解带来的深远影响,在后文中会有很多地方有所体现。
1700506600
1700506601
1700506602
1700506603
[ 上一页 ]  [ :1.700506554e+09 ]  [ 下一页 ]