打字猴:1.70050806e+09
1700508060
1700508061 也可以写作
1700508062
1700508063
1700508064
1700508065
1700508066 在逻辑回归中,可以考虑使用平方损失函数,只不过平方损失函数和逻辑回归本身的函数分布目的不同。逻辑回归希望得到的是伯努利分布的形式,也就是希望得到一个概率。
1700508067
1700508068 通过代换
1700508069
1700508070
1700508071
1700508072
1700508073
1700508074 p是一个(0, 1)之间的实数,而且的曲线是连续可导的。
1700508075
1700508076 损失函数对单个样本的损失值是
1700508077
1700508078
1700508079
1700508080
1700508081 所以,总的损失函数为
1700508082
1700508083
1700508084
1700508085
1700508086 展开后,前后两项的-log(x)在定义域上是凸函数,所以这个问题又转换成了凸优化问题。
1700508087
1700508088 在回归这种建模理念中,同样非常重视模型描述的简洁性,所以在应用中直接使用非线性规划曲线来进行非线性回归远没有使用线性回归普及,而且非线性回归对高维空间的模型拟合难度非常大,其原因主要也是这种拟合后对以残差减小为目的的优化过程难以进行。
1700508089
1700508090 3.决策树
1700508091
1700508092 决策树(Decision Tree,如表11-7所示)也是一种相对比较常见的经典分类学习算法,面对的训练对象同样是一些输入向量Xi。Xi是一个n维向量及Xi所对应的分类标签。
1700508093
1700508094 表11-7 决策树
1700508095
1700508096
1700508097
1700508098
1700508099 对这类问题,决策树算法都希望用尽可能简洁并准确的方式描述分类过程,并平衡“简洁”和“准确”这对矛盾。
1700508100
1700508101 在这个算法中,需要对整个训练样本集分类进行熵的评估,其目的是衡量这种分类本身的杂乱程度。这里的“熵”和《信息论》中所说的“熵”是同一个概念。从公式上来看,分类的数量越多,发生的概率越均等,熵的值就越大。根据《信息论》的经典理论——信息是用于消除不确定性的东西,那么在这样一个环境中,如何通过尽可能短的“消息”来尽可能多地消除不确定性,就成了破解这类问题的主要思路,而这个所谓的“消息”就是构造出来的分类树的“树枝”(如图11-33所示)。
1700508102
1700508103
1700508104
1700508105
1700508106 图11-33 决策树的构造
1700508107
1700508108 一般来说,通过一个维度条件的约束就能确定分类是不是最好的。也就是说,如果只用“条件1”这个节点来划分,给予一个维度的约束条件,就已经能把整个分类描述“精确”,那就完全没有必要加入其他任何维度的描述了(因为那些维度不能带来消除不确定性的信息)。
1700508109
[ 上一页 ]  [ :1.70050806e+09 ]  [ 下一页 ]