1700506531
数据科学家养成手册 第9章 信息论
1700506532
1700506533
说到学习数据科学,信息论无论如何是绕不过去的。信息论是围绕数据存储与传输量化等一系列问题所展开的一门专门研究信息的学科,可以说是20世纪最伟大的理论发现之一,对之后的所有计算机数据压缩与传输科学的推动和发展都起着不可磨灭的作用。信息论的鼻祖就是大名鼎鼎的图克劳德·艾尔伍德·香农(Claude Elwood Shannon,1916年4月~2001年2月)。
1700506534
1700506535
信息论基础及其引论的内容非常多,不过归纳起来全部都是关于信息量的量化问题。如果非要用一句话来概括信息论研究的核心内容,那就是“在某种设定的情况下,最简洁可以用多少数据来表达或传输一个信息,同时量化它的失真程度”。这个问题被研究清楚以后,在计算机存储、压缩、通信传输甚至市场博弈中都有着很好的应用前景。
1700506536
1700506537
1700506538
1700506539
1700506541
数据科学家养成手册 9.1 模拟信号
1700506542
1700506543
“信息是被消除的不确定性。”这是1928年由美国著名电子工程专家哈特莱(1)(如图9-1所示)提出的概念。
1700506544
1700506545
1700506546
1700506547
1700506548
图9-1 哈特莱
1700506549
1700506550
一段消息中包含的信息量究竟是多少?有多少是有用的、真正用来消除不确定性的信息?有多少不属于信息?乍听起来,这种研究似乎没什么特别了不起的价值,而仔细想想,研究清楚这件事情能够获得的收益是显而易见的。在我们周围每天都会产生数量极大的消息,不管是文字、音乐、图片、动态影像资料,还是其他任何形式的消息,如果我们希望将它们保存下来,就免不了要进行存储和传输。而存储和传输直接涉及实施难度——也就是成本的问题,甚至直接决定了方法是否可行。
1700506551
1700506552
在数字存储和数字通信出现之前,人们是通过模拟信号(Analog Signal)来进行数据存储和传输的。这种信号的记录和读取,与现在我们使用的MP3或者WAV文件格式极为不同——它们使用的是模拟信号。
1700506553
1700506554
以胶木唱片为例,其介质是树脂(如图9-2所示)。胶木唱片,又称“黑胶唱片”,是指转速78转/分,声槽宽度0.10~0.16毫米,声槽密度30~50条/厘米的留声机唱片。这种唱片是一种黑色圆盘形的胶片,用树脂(俗称“胶木”;后期改用聚氯乙烯,即PVC)压制,上面刻有凹凸的坑纹以记录声音。
1700506555
1700506556
1700506557
1700506558
1700506559
图9-2 磁带和胶木唱片
1700506560
1700506561
声音是物体振动而发出的。无论是什么东西的振动,只要它们振动的各种属性(频率、振幅、波形等)完全一样,在我们听来就是一种声音。人耳能够听到的声音频率是有限的,这个范围通常被认为是20~20000Hz。黑胶唱片是先把声音的振动属性记录在唱片上,就是在唱片上刻出一些弯弯曲曲的凹槽(“弯弯曲曲”就记录了音源的属性)。在回放声音的时候,需要把唱针放入凹槽中,当唱片按照一定的速率转动起来,唱片上的凹槽就会迫使唱针跟着振动,这样就有了声音。为了让人们能听清楚,需要通过放大电路将唱针的这种振动声还原成模拟电信号,然后将信号放大,从喇叭中播放出来(如图9-3所示)。
1700506562
1700506563
1700506564
1700506565
1700506566
图9-3 声音与模拟信号
1700506567
1700506568
这种介质的问题显而易见。第一是保存容易失真,受到磁头和唱针感应的影响,播放出来的声音会由于介质被侵袭而发生变化。第二是传输成本高,制作胶木唱片时,必须老老实实地刻录声音信息,然后通过人力进行传递。在老式的电话中,声音的传递是用同样的原理实现的,因此也就存在同样的问题——声音容易受到干扰,而且保密性极差。这些问题非常尖锐,亟待解决。
1700506569
1700506570
1700506571
1700506572
1700506574
数据科学家养成手册 9.2 信息量与信息熵
1700506575
1700506576
在研究信息本质问题的过程中,哈特莱和香农作出了卓越的贡献,而他们研究的突破性也表现在这里。他们的研究没有局限于原先的各种以模拟信号组成的信道(包括介质),而是往前走了一步。信息究竟是什么?如哈特莱所说,“信息是被消除的不确定性”,那么消息的传输实际上就是要将这种不确定性变为确定性——第一步为什么不量化信息的大小呢?
1700506577
1700506578
1928年,哈特莱提出了信息定量化的初步设想。他将在一次消息表达中所包含的不同含义数量m的对数定义为信息量。
1700506579
[
上一页 ]
[ :1.70050653e+09 ]
[
下一页 ]