打字猴:1.70053303e+09
1700533030 百面机器学习:算法工程师带你去面试 [:1700532171]
1700533031 百面机器学习:算法工程师带你去面试 04 组合特征
1700533032
1700533033
1700533034
1700533035 场景描述
1700533036
1700533037 上一节介绍了如何利用降维方法来减少两个高维特征组合后需要学习的参数。但是在很多实际问题中,我们常常需要面对多种高维特征。如果简单地两两组合,依然容易存在参数过多、过拟合等问题,而且并不是所有的特征组合都是有意义的。因此,需要一种有效的方法来帮助我们找到应该对哪些特征进行组合。
1700533038
1700533039 知识点
1700533040
1700533041 组合特征
1700533042
1700533043 问题 怎样有效地找到组合特征?
1700533044
1700533045 难度:★★☆☆☆
1700533046
1700533047 分析与解答
1700533048
1700533049 本节介绍一种基于决策树的特征组合寻找方法[1](关于决策树的详细内容可见第3章第3节)。以点击预测问题为例,假设原始输入特征包含年龄、性别、用户类型(试用期、付费)、物品类型(护肤、食品等)4个方面的信息,并且根据原始输入和标签(点击/未点击)构造出了决策树,如图1.2所示。
1700533050
1700533051 于是,每一条从根节点到叶节点的路径都可以看成一种特征组合的方式。具体来说,就有以下4种特征组合的方式。
1700533052
1700533053 (1)“年龄<=35”且“性别=女”。
1700533054
1700533055 (2)“年龄<=35”且“物品类别=护肤”。
1700533056
1700533057 (3)“用户类型=付费”且“物品类型=食品”。
1700533058
1700533059 (4)“用户类型=付费”且“年龄<=40”。
1700533060
1700533061
1700533062
1700533063
1700533064 图1.2 基于决策树的特征组合方法
1700533065
1700533066 表1.6是两个样本信息,那么第1个样本按照上述4个特征组合就可以编码为(1, 1, 0, 0),因为同时满足(1)(2),但不满足(3)(4)。同理,第2个样本可以编码为(0, 0, 1, 1),因为它同时满足(3)(4),但不满足(1)(2)。
1700533067
1700533068 表1.6 两个不同样本对应的原始输入特征
1700533069
1700533070   是否点击 
1700533071
1700533072   年龄 
1700533073
1700533074   性别 
1700533075
1700533076   用户类型 
1700533077
1700533078   物品类型 
1700533079
[ 上一页 ]  [ :1.70053303e+09 ]  [ 下一页 ]