打字猴:1.700506573e+09
1700506573 数据科学家养成手册 [:1700503562]
1700506574 数据科学家养成手册 9.2 信息量与信息熵
1700506575
1700506576 在研究信息本质问题的过程中,哈特莱和香农作出了卓越的贡献,而他们研究的突破性也表现在这里。他们的研究没有局限于原先的各种以模拟信号组成的信道(包括介质),而是往前走了一步。信息究竟是什么?如哈特莱所说,“信息是被消除的不确定性”,那么消息的传输实际上就是要将这种不确定性变为确定性——第一步为什么不量化信息的大小呢?
1700506577
1700506578 1928年,哈特莱提出了信息定量化的初步设想。他将在一次消息表达中所包含的不同含义数量m的对数定义为信息量。
1700506579
1700506580 I=log2m
1700506581
1700506582 I代表信息量的大小,m用于表达不同含义的数量。
1700506583
1700506584 举个例子。在一次信息传递中,需要表达“是”、“否”2个含义,只要送信和收信的双方对这个含义有共同的约定,那么不论这个消息是写在纸上,是通过电话传输,还是通过电报或其他方式传输,其信息量都是log22,即1。同理,要表达“上”、“下”、“左”、“右”4个含义,则消息的信息量为log24,即2。
1700506585
1700506586 在信息量的计算过程中,对数log的底取2。其实,在一次计算中,也可以通篇使用其他数字做底。用2做底主要是对应二进制的介质,对信道的解释表达得比较直观。
1700506587
1700506588 在二进制的介质中,在一个计数单位上只能用0和1两个数字来表示。所以,如果约定了0表示“是”,1表示“否”,那么至少需要1位二进制介质的量才能清晰完整地表达消息的定义。如果要表达“上”、“下”、“左”、“右”4个含义,1位就不够用了,必须使用至少2位来表达。例如,00代表“上”,01代表“下”,10代表“左”,11代表“右”。否则,4个不同的含义是无法采用比2更少的位数来完整描述的。以此类推,如果消息有1000种不同的含义,那么至少需要10位二进制介质来表示整个消息(2)。我们可以使用这种方式来理解哈特莱所提出的信息量的概念——确实很直观,也很有说服力。
1700506589
1700506590 香农对信息量的研究则更为深入且贴近本质。
1700506591
1700506592 既然“信息是被消除的不确定性”,如果内容确定的消息进行了传递,这些内容中还包含信息吗?根据定义,应该不包含信息。那么,这种不确定性本身是不是也能够量化呢?香农的高明之处就在这里,他引入了一种描述信息杂乱或意外程度的方式——信息熵。
1700506593
1700506594
1700506595
1700506596
1700506597 其中,x代表某一信源,P(xi)代表xi消息产生的概率。
1700506598
1700506599 这个公式通过换算可以知道,哈特莱提出的I=log2m实际上是消息产生概率均等情况下的信息熵的特例。对于一个信源,它产生的消息中如果有某些产生的概率极大,就说明这种消息包含的信息量少;反之,产生概率极小的消息所包含的信息量就大。这种理解带来的深远影响,在后文中会有很多地方有所体现。
1700506600
1700506601
1700506602
1700506603
1700506604 数据科学家养成手册 [:1700503563]
1700506605 数据科学家养成手册 9.3 香农公式
1700506606
1700506607 在通信过程中,信道里的信号由于干扰问题,所以永远都存在误传的概率,这给远程通信带来了困扰。香农通过研究解决了一个非常重要的问题,那就是即使在有一定量噪声的信道环境中,通过对编码的调整,仍然可以获得没有误传的信号,并留下了传世的“香农公式”。
1700506608
1700506609
1700506610
1700506611
1700506612 其中,C是信道容量;B是码源速率的极限值,B=2H,H为信道带宽,单位是赫兹;S是信号功率,单位是瓦特;N是噪声功率,单位是瓦特。
1700506613
1700506614 这个公式定量地揭示了,在噪声功率是N,信号功率是S,带宽是2H的情况下,最大信息传输速率C的计算方法。不要小看这个公式,它为后来制造满足国际通信标准的同轴电缆、以太网线、光纤,以及解决如何基于这些介质进行编码和纠错的问题,提供了坚实的理论基础。
1700506615
1700506616 以我们常用的Wi-Fi信号802.11n为例,所用的频带是2.422~2.462GHz,共40MHz带宽。在信噪比较好的情况下,例如4.2dB(3),可以这样计算:
1700506617
1700506618
1700506619
1700506620
1700506621 这是在40MHz带宽下802.11n协议的带宽上限值。
1700506622
[ 上一页 ]  [ :1.700506573e+09 ]  [ 下一页 ]