打字猴:1.7004989e+09

1700498900

1700498901 步骤2，根据频繁项集，计算关联规则。

1700498902

1700498903 这里以频繁3项集{I1,I2,I5}为例，计算关联规则。{I1,I2,I5}的非空子集为{I1,I2}、{I1,I5}、{I2,I5}、{I1}、{I2}和{I5}。

1700498904

1700498905 规则1，{I1,I2}=＞{I5},置信度为{I1,I2,I5}的支持度除以{I1,I2}的支持度，即2/4=50%，因其小于最小置信度，所以删除该规则。

1700498906

1700498907 同理，最后可以得到{I1,I5}=＞{I2}，{I2,I5}=＞{I1}和{I5}=＞{I1,I2}为3条强关联规则。

1700498908

1700498909 然而，在实际应用Apriori算法时，需要根据不同的粒度，譬如类目、商品等，结合不同的维度（浏览行为，购买行为等）进行考虑，从而构建符合业务需求的关联规则模型。在电子商务应用中，关联规则算法适用于交叉销售的场景。譬如，有人要出行（飞往北京），根据计算出的关联规则（如：机票=＞酒店）来考虑，那么，可以根据用户购买的机票，为用户推荐合适的北京酒店；再比如，在情人节，根据关联规则，将巧克力和玫瑰花进行捆绑销售等。

1700498910

1700498911 另外，关联规则还可以用来开发个性化电子商务推荐系统的Top N推荐。首先，根据用户的交易数据，计算用户在特定时序内购买过的商品；然后，根据关联规则算法，计算满足最小支持度和最小置信度的商品关联规则；再根据用户已经购买的商品和商品关联规则模型，预测用户感兴趣的商品，同时过滤掉用户已经购买过的商品，对于其他的商品，则按照置信度进行排序，从而为用户产生商品推荐。

1700498912

1700498913 [1]Rakesh Agrawal,Ramakrishnan Srikant,Fast Algorithms for Mining Association Rules in Large Databases,Proceedings of the 20th International Conference on Very Large Data Bases,p.487-499,September 12-15,1994

1700498914

1700498915 [2]Jiawei Han,Jian Pei,Yiwen Yin,Mining frequent patterns without candidate generation,Proceedings of the 2000 ACM SIGMOD international conference on Management of data,p.1-12,May 15-18,2000,Dallas,Texas,United States

1700498916

1700498917 [3]Mahout，http://mahout.apache.org/

1700498918

1700498919

1700498920

1700498921

1700498922 数据挖掘与数据化运营实战：思路、方法、技巧与应用 [:1700497517]

1700498923 数据挖掘与数据化运营实战：思路、方法、技巧与应用 3.11.3　协同过滤算法

1700498924

1700498925 协同过滤是迄今为止最成功的推荐系统技术，被应用在很多成功的推荐系统中。电子商务推荐系统可根据其他用户的评论信息，采用协同过滤技术给目标用户推荐商品。协同过滤算法主要分为基于启发式和基于模型式两种。其中，基于启发式的协同过滤算法，又可以分为基于用户的协同过滤算法和基于项目的协同过滤算法。启发式协同过滤算法主要包含3个步骤：1）收集用户偏好信息；2）寻找相似的商品或者用户；3）产生推荐。

1700498926

1700498927 “巧妇难为无米之炊”，协同过滤的输入数据集主要是用户评论数据集或者行为数据集。这些数据集主要又分为显性数据和隐性数据两种类型。其中，显性数据主要是用户打分数据，譬如用户对商品的打分，如图3-4所示。

1700498928

1700498929

1700498930

1700498931

1700498932 图3-4　某电商网站用户对某商品的评分结果

1700498933

1700498934 但是，显性数据存在一定的问题，譬如用户很少参与评论，从而造成显性打分数据较为稀疏；用户可能存在欺诈嫌疑或者仅给定了部分信息；用户一旦评分，就不会去更新用户评分分值等。

1700498935

1700498936 而隐性数据主要是指用户点击行为、购买行为和搜索行为等，这些数据隐性地揭示了用户对商品的喜好，如图3-5所示。

1700498937

1700498938

1700498939

1700498940

1700498941 图3-5　某用户最近在某电商网站的浏览商品记录（左侧的3本书）

1700498942

1700498943 隐性数据也存在一定的问题，譬如如何识别用户是为自己购买商品，还是作为礼物赠送给朋友等。

1700498944

1700498945 1.基于用户的协同过滤

1700498946

1700498947 基于用户（User-Based）的协同过滤算法首先要根据用户历史行为信息，寻找与新用户相似的其他用户；同时，根据这些相似用户对其他项的评价信息预测当前新用户可能喜欢的项。给定用户评分数据矩阵R，基于用户的协同过滤算法需要定义相似度函数s:U×U→R，以计算用户之间的相似度，然后根据评分数据和相似矩阵计算推荐结果。

1700498948

1700498949 在协同过滤中，一个重要的环节就是如何选择合适的相似度计算方法，常用的两种相似度计算方法包括皮尔逊相关系数和余弦相似度等。皮尔逊相关系数的计算公式如下所示：

[ 上一页 ] [ :1.7004989e+09 ] [ 下一页 ]