1700532785
1700532786
以逻辑回归为例,假设数据的特征向量为X=(x1,x2,…,xk),则有,
1700532787
1700532788
1700532789
,
1700532790
1700532791
(1.3)
1700532792
1700532793
其中表示xi和xj的组合特征,wij的维度等于|xi|·|xj|,|xi|和|xj|分别代表第i个特征和第j个特征不同取值的个数。在表1.3的广告点击预测问题中,w的维度是2×2=4(语言取值为中文或英文两种、类型的取值为电影或电视剧两种)。这种特征组合看起来是没有任何问题的,但当引入ID类型的特征时,问题就出现了。以推荐问题为例,表1.4是用户ID和物品ID对点击的影响,表1.5是用户ID和物品ID的组合特征对点击的影响。
1700532794
1700532795
表1.4 用户ID和物品ID对点击的影响
1700532796
1700532797
是否点击
1700532798
1700532799
用户ID
1700532800
1700532801
物品ID
1700532802
1700532803
0
1700532804
1700532805
1
1700532806
1700532807
1
1700532808
1700532809
1
1700532810
1700532811
2
1700532812
1700532813
1
1700532814
1700532815
…
1700532816
1700532817
…
1700532818
1700532819
…
1700532820
1700532821
1
1700532822
1700532823
m
1700532824
1700532825
1
1700532826
1700532827
1
1700532828
1700532829
1
1700532830
1700532831
2
1700532832
1700532833
0
1700532834
[
上一页 ]
[ :1.700532785e+09 ]
[
下一页 ]