1700509878
15.3.1 统计学模型
1700509879
1700509880
大部分传统的机器学习内容都是统计学模型,包括我们前面说的线性关系也可以放在这个范畴。有些模型关系不是典型的通过求Loss函数的极值得到的,例如朴素贝叶斯
1700509881
1700509882
1700509883
1700509884
1700509885
就是纯粹通过统计得到的模型关系。还有隐马尔可夫模型(在11.8.1节提到过),这种学习过程的结果是得到一个概率转化矩阵。
1700509886
1700509887
使用统计学模型得到的内容,大都是对事物之间概率的关系解释,对普通SQL编程掌握较好的工程人员都能很好地理解这一点。在这种模型的归纳中只需注意:是否可以通过AB对照的测试方法来验证自己的观点?如果不能验证,那么这种模型仍然是一种过拟合模型。即使不使用AB对照,也要使用类似的方法进行验证,例如另外挑选与期望结果相似的验证样本进行统计(就像在机器学习中使用的验证集)。采取这样的方法都是为了避免在个案上归纳出的特例被误泛化到其他场景中。对于维度越多、因素越复杂的场景,这种工作的必要性就越大。
1700509888
1700509890
15.3.2 线性关系
1700509891
1700509892
线性关系是所有关系中最简单的一种模型,也因此成为许多人希望一开始就尝试利用的关系假说。这个关系假说就是一个多维向量x和w矩阵的内积关系与偏置b的加和的形式。
1700509893
1700509894
f(x)=wx+b
1700509895
1700509896
这个形式在本书中多次提到,我们对它已经很熟悉了。尤其在x是一维向量的时候,公式会退化成f(x)=wx+b的形式。在训练过程中,要注意观察损失函数Loss的下降情况,确认Loss已经下降到业务允许的范围内才可以使用。在使用最小二乘法作为Loss函数时,Loss函数的值就是样本点和拟合值之差的欧氏距离的平方和。
1700509897
1700509899
15.3.3 复杂的非线性关系
1700509900
1700509901
太复杂的线性和非线性回归的叠加,产生的回归模型往往会异常复杂,而且给特征的提取带来了很大的挑战。在很多新的研究领域,会把特征提取这个环节也交给计算机来做。用什么来做?用深度学习。
1700509902
1700509903
深度学习就是各种深度神经网络的组合应用。在第11章,我们已经对BP、CNN、RNN这3种网络进行了介绍。由于网络的输入层维度可以有几十万甚至上百万维,网络的深度也可以有三四十层甚至更多,所以其中容纳的线性和非线性空间解也是极为丰富的。
1700509904
1700509905
在训练过程中,可以通过梯度下降的方式寻找一个最为合适的W矩阵
1700509906
1700509907
1700509908
1700509909
1700509910
从而在没有产生过拟合的情况下使损失函数极小化。
1700509911
1700509912
不过,这里的问题也是显而易见的。即使这个模型最后产生的召回率和精确率很高,得到的W矩阵实际上也只一个纯粹的“黑盒子”——没有任何明确物理解释的模型。老实说,这种方法在“科学性”方面可能只是比较好地满足了“精确性”,而在“体系性”上让人觉得略显不足。对深度神经网络的研究,目前还有很多问题没有解决。对于纯粹以应用为导向的环境来说,只要能够提高业务水平,使用这样一个“黑盒子”或许没有人会介意,例如使用深度神经网络来做推荐系统。而反过来,如果希望在这个模型中得到业务层面的指导知识就不行了,因为这种推导不可逆,即使发生了转化率的提高,我们也无法推定是由哪个或哪些因素造成的影响。例如,卷积层上的权重w没有统计学加权平均中的权重解释,通过可视化查看卷积层的输出,就是一块一块的光斑,这就导致无法在现实中通过改进构成业务的因素来最终实现整体业务的提高(如图15-2和图15-3所示)。所以,在这种情况下,如果想要逆向理解影响因素,就需要使用统计学中的AB对照方法。
1700509913
1700509914
1700509915
1700509916
图15-2 卷积网络分类器 图15-3 卷积层可视化
1700509917
1700509918
1700509920
数据科学家养成手册 15.4 算法的哲学
1700509921
1700509922
所有有关数据建模方面的算法,套路都已经固定了(如图15-4所示)。
1700509923
1700509924
1700509925
1700509926
[
上一页 ]
[ :1.700509877e+09 ]
[
下一页 ]