1700507540
1700507541
1700507542
1700507543
图11-12 网络风暴
1700507544
1700507545
如果不这么做,就只能使用第二种方法了。把所有数据(Xi)都传送到一个节点上,在这个节点上做哈希排重(单机无序输入排重效率最高的方式)。可以看到,当局部子问题严重依赖其他局部子问题的时候,分治法就不适用了。分治法只适用于那些可以简化为使用高内聚、低耦合方式解决的问题。
1700507546
1700507547
1700507548
1700507549
1700507551
数据科学家养成手册 11.5 回溯法——能省则省
1700507552
1700507553
回溯法(探索与回溯法)是一种选优搜索法,又称“试探法”,有些参考资料上也称其为“剪枝法”。回溯法的核心思路是,按选优条件向前搜索,以达到目标。当搜索到某一步时,发现原先的选择不优或达不到目标,就退回一步重新选择。这种走不通就退回再走的方法称为“回溯法”,而满足回溯条件的状态点称为“回溯点”。
1700507554
1700507555
这种思路的“上一步”实际上是穷举解空间的思路。在对空间进行穷举的过程中,发现按照当前的穷举路径前进,剩下的解都不可能是所求解,在这种情况下,就放弃当前穷举路径下的所有待选解并回退。所以,在绝大多数情况下都只尝试了穷举空间中的一小部分解,而不是全部解。
1700507556
1700507557
例如,写一个算法来模拟走出迷宫的过程。这个算法可以用递归来写,也可以用非递归的遍历方法来写。如图11-13所示是一个20×20的迷宫,在迷宫的每个方格中都有4个方向可以“走”,除了过来的方向(走过的格子),还有3个方向可以“走”。那么,在遍历的过程中,理论上的计算成本为
1700507558
1700507559
1700507560
1700507561
1700507562
图11-13 迷宫问题
1700507563
1700507564
1700507565
1700507566
1700507567
大约是3.5×10190。在这样的情况下,使用穷举法显然会消耗一段我们无法忍受的时长,而且使用分治法的思路也不明确,无法简化成“局部获解而全局获解”的问题。
1700507568
1700507569
但是,我们可以很容易地发现,迷宫中很多方格的4个方向其实并非全部有效:有的是“墙”,过不去;有的是走到某一步会发现,从这一步开始的所有解树叶节点都不用尝试了,这种情况下,会把“树”上的所有子枝全部剪掉,以节省大量的空间和时间成本,所以叫“剪枝法”也是非常形象的(如图11-14所示)。
1700507570
1700507571
1700507572
1700507573
1700507574
图11-14 三叉树深度优先遍历
1700507575
1700507576
剪枝法不仅可以应用在类似寻找迷宫出口的问题上,在地图导航等领域的应用及变种应用也很多,例如象棋和围棋的对弈软件就是使用类似的方式实现的。不过,近年来随着深度学习领域的理论发展和计算机计算能力的攀升,围棋对弈软件更多使用深度神经网络辅以强化学习的手段来开发。关于深度神经网络解决问题的核心思路,会在11.9节专门讨论。
1700507577
1700507578
1700507579
1700507580
1700507582
数据科学家养成手册 11.6 贪心法——局部最优
1700507583
1700507584
“贪心法”这个名字听起来好像不怎么高尚,不过它却是一种常用且实用的思维方式。无独有偶,这种方式也是人类本身所拥有的。
1700507585
1700507586
不管是国家还是个人,在制定自己的发展规划时要做到“从一而终”通常非常困难。就拿一个人来说,有句话叫“计划赶不上变化”——在10岁的时候规划好的理想人生,可能刚过两三年就会因为很多内在和外在的因素发生了变化而不得不重新规划。可以毫不夸张地说,规划的时间跨度越长就越不实用,因为人生中无处不在的变数会潜移默化地对一个人的规划产生影响,这一系列的变化慢慢积累,到最后可能连规划者本人都看不出当前的情况和原来的规划还有什么联系。
1700507587
1700507588
对“帮助计算机解题”来做规划,也会有解决类似问题的困惑,要不怎么说“数据科学贯穿在很多领域之中”呢?而且,对计算机来说,时间和空间成本同样是比较有限的。在一个全局的复杂问题中,如果无法通过穷举、分治、回溯这些问题快速找到一个可行的解决方案,该怎么办?——用贪心法。
1700507589
[
上一页 ]
[ :1.70050754e+09 ]
[
下一页 ]