打字猴:1.70050806e+09

1700508060

1700508061 也可以写作

1700508062

1700508063

1700508064

1700508065

1700508066 在逻辑回归中，可以考虑使用平方损失函数，只不过平方损失函数和逻辑回归本身的函数分布目的不同。逻辑回归希望得到的是伯努利分布的形式，也就是希望得到一个概率。

1700508067

1700508068 通过代换

1700508069

1700508070

1700508071

1700508072

1700508073

1700508074 p是一个(0, 1)之间的实数，而且的曲线是连续可导的。

1700508075

1700508076 损失函数对单个样本的损失值是

1700508077

1700508078

1700508079

1700508080

1700508081 所以，总的损失函数为

1700508082

1700508083

1700508084

1700508085

1700508086 展开后，前后两项的－log(x)在定义域上是凸函数，所以这个问题又转换成了凸优化问题。

1700508087

1700508088 在回归这种建模理念中，同样非常重视模型描述的简洁性，所以在应用中直接使用非线性规划曲线来进行非线性回归远没有使用线性回归普及，而且非线性回归对高维空间的模型拟合难度非常大，其原因主要也是这种拟合后对以残差减小为目的的优化过程难以进行。

1700508089

1700508090 3．决策树

1700508091

1700508092 决策树（Decision Tree，如表11-7所示）也是一种相对比较常见的经典分类学习算法，面对的训练对象同样是一些输入向量Xi。Xi是一个n维向量及Xi所对应的分类标签。

1700508093

1700508094 表11-7　决策树

1700508095

1700508096

1700508097

1700508098

1700508099 对这类问题，决策树算法都希望用尽可能简洁并准确的方式描述分类过程，并平衡“简洁”和“准确”这对矛盾。

1700508100

1700508101 在这个算法中，需要对整个训练样本集分类进行熵的评估，其目的是衡量这种分类本身的杂乱程度。这里的“熵”和《信息论》中所说的“熵”是同一个概念。从公式上来看，分类的数量越多，发生的概率越均等，熵的值就越大。根据《信息论》的经典理论——信息是用于消除不确定性的东西，那么在这样一个环境中，如何通过尽可能短的“消息”来尽可能多地消除不确定性，就成了破解这类问题的主要思路，而这个所谓的“消息”就是构造出来的分类树的“树枝”（如图11-33所示）。

1700508102

1700508103

1700508104

1700508105

1700508106 图11-33　决策树的构造

1700508107

1700508108 一般来说，通过一个维度条件的约束就能确定分类是不是最好的。也就是说，如果只用“条件1”这个节点来划分，给予一个维度的约束条件，就已经能把整个分类描述“精确”，那就完全没有必要加入其他任何维度的描述了（因为那些维度不能带来消除不确定性的信息）。

1700508109

[ 上一页 ] [ :1.70050806e+09 ] [ 下一页 ]