1700532770
0
1700532771
1700532772
1
1700532773
1700532774
0
1700532775
1700532776
0
1700532777
1700532778
0
1700532779
1700532780
0
1700532781
1700532782
0
1700532783
1700532784
1
1700532785
1700532786
以逻辑回归为例,假设数据的特征向量为X=(x1,x2,…,xk),则有,
1700532787
1700532788
1700532789
,
1700532790
1700532791
(1.3)
1700532792
1700532793
其中表示xi和xj的组合特征,wij的维度等于|xi|·|xj|,|xi|和|xj|分别代表第i个特征和第j个特征不同取值的个数。在表1.3的广告点击预测问题中,w的维度是2×2=4(语言取值为中文或英文两种、类型的取值为电影或电视剧两种)。这种特征组合看起来是没有任何问题的,但当引入ID类型的特征时,问题就出现了。以推荐问题为例,表1.4是用户ID和物品ID对点击的影响,表1.5是用户ID和物品ID的组合特征对点击的影响。
1700532794
1700532795
表1.4 用户ID和物品ID对点击的影响
1700532796
1700532797
是否点击
1700532798
1700532799
用户ID
1700532800
1700532801
物品ID
1700532802
1700532803
0
1700532804
1700532805
1
1700532806
1700532807
1
1700532808
1700532809
1
1700532810
1700532811
2
1700532812
1700532813
1
1700532814
1700532815
…
1700532816
1700532817
…
1700532818
1700532819
…
[
上一页 ]
[ :1.70053277e+09 ]
[
下一页 ]