打字猴:1.70049894e+09
1700498940
1700498941 图3-5 某用户最近在某电商网站的浏览商品记录(左侧的3本书)
1700498942
1700498943 隐性数据也存在一定的问题,譬如如何识别用户是为自己购买商品,还是作为礼物赠送给朋友等。
1700498944
1700498945 1.基于用户的协同过滤
1700498946
1700498947 基于用户(User-Based)的协同过滤算法首先要根据用户历史行为信息,寻找与新用户相似的其他用户;同时,根据这些相似用户对其他项的评价信息预测当前新用户可能喜欢的项。给定用户评分数据矩阵R,基于用户的协同过滤算法需要定义相似度函数s:U×U→R,以计算用户之间的相似度,然后根据评分数据和相似矩阵计算推荐结果。
1700498948
1700498949 在协同过滤中,一个重要的环节就是如何选择合适的相似度计算方法,常用的两种相似度计算方法包括皮尔逊相关系数和余弦相似度等。皮尔逊相关系数的计算公式如下所示:
1700498950
1700498951
1700498952
1700498953
1700498954
1700498955
1700498956 其中,i表示项,例如商品;Iu表示用户u评价的项集;Iv表示用户v评价的项集;ru,i表示用户u对项i的评分;rv,i表示用户v对项i的评分;表示用户u的平均评分;表示用户v的平均评分。
1700498957
1700498958 另外,余弦相似度的计算公式如下所示:
1700498959
1700498960
1700498961
1700498962
1700498963 另一个重要的环节就是计算用户u对未评分商品的预测分值。首先根据上一步中的相似度计算,寻找用户u的邻居集N∈U,其中N表示邻居集,U表示用户集。然后,结合用户评分数据集,预测用户u对项i的评分,计算公式如下所示:
1700498964
1700498965
1700498966
1700498967
1700498968 其中,s(u,u’)表示用户u和用户u’的相似度。
1700498969
1700498970 假设有如下电子商务评分数据集,预测用户C对商品4的评分,见表3-6。
1700498971
1700498972
1700498973
1700498974
1700498975 表中?表示评分未知。根据基于用户的协同过滤算法步骤,计算用户C对商品4的评分,其步骤如下所示。
1700498976
1700498977 (1)寻找用户C的邻居
1700498978
1700498979 从数据集中可以发现,只有用户A和用户D对商品4评过分,因此候选邻居只有2个,分别为用户A和用户D。用户A的平均评分为4,用户C的平均评分为3.667,用户D的平均评分为3。根据皮尔逊相关系数公式来看,用户C和用户A的相似度为:
1700498980
1700498981
1700498982
1700498983
1700498984 同理,s(C,D)=-0.515。
1700498985
1700498986 (2)预测用户C对商品4的评分
1700498987
1700498988 根据上述评分预测公式,计算用户C对商品4的评分,如下所示:
1700498989
[ 上一页 ]  [ :1.70049894e+09 ]  [ 下一页 ]