1700532748
1
1700532749
1700532750
0
1700532751
1700532752
0
1700532753
1700532754
0
1700532755
1700532756
1
1700532757
1700532758
0
1700532759
1700532760
1
1700532761
1700532762
0
1700532763
1700532764
0
1700532765
1700532766
1
1700532767
1700532768
0
1700532769
1700532770
0
1700532771
1700532772
1
1700532773
1700532774
0
1700532775
1700532776
0
1700532777
1700532778
0
1700532779
1700532780
0
1700532781
1700532782
0
1700532783
1700532784
1
1700532785
1700532786
以逻辑回归为例,假设数据的特征向量为X=(x1,x2,…,xk),则有,
1700532787
1700532788
1700532789
,
1700532790
1700532791
(1.3)
1700532792
1700532793
其中表示xi和xj的组合特征,wij的维度等于|xi|·|xj|,|xi|和|xj|分别代表第i个特征和第j个特征不同取值的个数。在表1.3的广告点击预测问题中,w的维度是2×2=4(语言取值为中文或英文两种、类型的取值为电影或电视剧两种)。这种特征组合看起来是没有任何问题的,但当引入ID类型的特征时,问题就出现了。以推荐问题为例,表1.4是用户ID和物品ID对点击的影响,表1.5是用户ID和物品ID的组合特征对点击的影响。
1700532794
1700532795
表1.4 用户ID和物品ID对点击的影响
1700532796
1700532797
是否点击
[
上一页 ]
[ :1.700532748e+09 ]
[
下一页 ]