打字猴:1.70049888e+09

1700498880

1700498881

1700498882

1700498883

1700498884 3）根据频繁2项集，计算频繁3项集。首先将频繁2项集进行连接，得到{{I1,I2,I3},{I1,I2,I5},{I1,I3,I5},{I2,I3,I4},{I2,I3,I5},{I2,I4,I5}}，然后根据频繁项集定理进行剪枝，即频繁项集的非空子集必须是频繁的，{I1,I2,I3}的2项子集为{I1,I2}，{I1,I3}，{I2,I3}，都在频繁2项集中，则保留；

1700498885

1700498886 {I1,I2,I5}的2项子集为{I1,I2}，{I1,I5}，{I2,I5}，都在频繁2项集中，则保留；

1700498887

1700498888 {I1,I3,I5}的2项子集为{I1,I3}，{I1,I5}，{I3,I5}，由于{I3,I5}不是频繁2项集，移除该候选集；

1700498889

1700498890 {I2,I3,I4}的2项子集为{I2,I3}，{I2,I4}，{I3,I4}，由于{I3,I4}不是频繁2项集，移除该候选集；

1700498891

1700498892 {I2,I3,I5}的2项子集为{I2,I3}，{I2,I5}，{I3,I5}，由于{I3,I5}不是频繁2项集，移除该候选集；

1700498893

1700498894 {I2,I4,I5}的2项子集为{I2,I4}，{I2,I5}，{I4,I5}，由于{I4,I5}不是频繁2项集，移除该候选集。通过剪枝，得到候选集{{I1,I2,I3},{I1,I2,I5}}，扫描交易数据库，计算包含候选3项集的记录数，得到表3-5。

1700498895

1700498896

1700498897

1700498898

1700498899 4）根据频繁3项集，计算频繁4项集。重复上述的思路，得到{I1,I2,I3,I5}，根据频繁项集定理，它的子集{I2,I3,I5}为非频繁项集，所以移除该候选集。从而，频繁4项集为空，至此，计算频繁项集的步骤结束。

1700498900

1700498901 步骤2，根据频繁项集，计算关联规则。

1700498902

1700498903 这里以频繁3项集{I1,I2,I5}为例，计算关联规则。{I1,I2,I5}的非空子集为{I1,I2}、{I1,I5}、{I2,I5}、{I1}、{I2}和{I5}。

1700498904

1700498905 规则1，{I1,I2}=＞{I5},置信度为{I1,I2,I5}的支持度除以{I1,I2}的支持度，即2/4=50%，因其小于最小置信度，所以删除该规则。

1700498906

1700498907 同理，最后可以得到{I1,I5}=＞{I2}，{I2,I5}=＞{I1}和{I5}=＞{I1,I2}为3条强关联规则。

1700498908

1700498909 然而，在实际应用Apriori算法时，需要根据不同的粒度，譬如类目、商品等，结合不同的维度（浏览行为，购买行为等）进行考虑，从而构建符合业务需求的关联规则模型。在电子商务应用中，关联规则算法适用于交叉销售的场景。譬如，有人要出行（飞往北京），根据计算出的关联规则（如：机票=＞酒店）来考虑，那么，可以根据用户购买的机票，为用户推荐合适的北京酒店；再比如，在情人节，根据关联规则，将巧克力和玫瑰花进行捆绑销售等。

1700498910

1700498911 另外，关联规则还可以用来开发个性化电子商务推荐系统的Top N推荐。首先，根据用户的交易数据，计算用户在特定时序内购买过的商品；然后，根据关联规则算法，计算满足最小支持度和最小置信度的商品关联规则；再根据用户已经购买的商品和商品关联规则模型，预测用户感兴趣的商品，同时过滤掉用户已经购买过的商品，对于其他的商品，则按照置信度进行排序，从而为用户产生商品推荐。

1700498912

1700498913 [1]Rakesh Agrawal,Ramakrishnan Srikant,Fast Algorithms for Mining Association Rules in Large Databases,Proceedings of the 20th International Conference on Very Large Data Bases,p.487-499,September 12-15,1994

1700498914

1700498915 [2]Jiawei Han,Jian Pei,Yiwen Yin,Mining frequent patterns without candidate generation,Proceedings of the 2000 ACM SIGMOD international conference on Management of data,p.1-12,May 15-18,2000,Dallas,Texas,United States

1700498916

1700498917 [3]Mahout，http://mahout.apache.org/

1700498918

1700498919

1700498920

1700498921

1700498922 数据挖掘与数据化运营实战：思路、方法、技巧与应用 [:1700497517]

1700498923 数据挖掘与数据化运营实战：思路、方法、技巧与应用 3.11.3　协同过滤算法

1700498924

1700498925 协同过滤是迄今为止最成功的推荐系统技术，被应用在很多成功的推荐系统中。电子商务推荐系统可根据其他用户的评论信息，采用协同过滤技术给目标用户推荐商品。协同过滤算法主要分为基于启发式和基于模型式两种。其中，基于启发式的协同过滤算法，又可以分为基于用户的协同过滤算法和基于项目的协同过滤算法。启发式协同过滤算法主要包含3个步骤：1）收集用户偏好信息；2）寻找相似的商品或者用户；3）产生推荐。

1700498926

1700498927 “巧妇难为无米之炊”，协同过滤的输入数据集主要是用户评论数据集或者行为数据集。这些数据集主要又分为显性数据和隐性数据两种类型。其中，显性数据主要是用户打分数据，譬如用户对商品的打分，如图3-4所示。

1700498928

1700498929

[ 上一页 ] [ :1.70049888e+09 ] [ 下一页 ]