打字猴:1.70049888e+09
1700498880
1700498881
1700498882
1700498883
1700498884 3)根据频繁2项集,计算频繁3项集。首先将频繁2项集进行连接,得到{{I1,I2,I3},{I1,I2,I5},{I1,I3,I5},{I2,I3,I4},{I2,I3,I5},{I2,I4,I5}},然后根据频繁项集定理进行剪枝,即频繁项集的非空子集必须是频繁的,{I1,I2,I3}的2项子集为{I1,I2},{I1,I3},{I2,I3},都在频繁2项集中,则保留;
1700498885
1700498886 {I1,I2,I5}的2项子集为{I1,I2},{I1,I5},{I2,I5},都在频繁2项集中,则保留;
1700498887
1700498888 {I1,I3,I5}的2项子集为{I1,I3},{I1,I5},{I3,I5},由于{I3,I5}不是频繁2项集,移除该候选集;
1700498889
1700498890 {I2,I3,I4}的2项子集为{I2,I3},{I2,I4},{I3,I4},由于{I3,I4}不是频繁2项集,移除该候选集;
1700498891
1700498892 {I2,I3,I5}的2项子集为{I2,I3},{I2,I5},{I3,I5},由于{I3,I5}不是频繁2项集,移除该候选集;
1700498893
1700498894 {I2,I4,I5}的2项子集为{I2,I4},{I2,I5},{I4,I5},由于{I4,I5}不是频繁2项集,移除该候选集。通过剪枝,得到候选集{{I1,I2,I3},{I1,I2,I5}},扫描交易数据库,计算包含候选3项集的记录数,得到表3-5。
1700498895
1700498896
1700498897
1700498898
1700498899 4)根据频繁3项集,计算频繁4项集。重复上述的思路,得到{I1,I2,I3,I5},根据频繁项集定理,它的子集{I2,I3,I5}为非频繁项集,所以移除该候选集。从而,频繁4项集为空,至此,计算频繁项集的步骤结束。
1700498900
1700498901 步骤2,根据频繁项集,计算关联规则。
1700498902
1700498903 这里以频繁3项集{I1,I2,I5}为例,计算关联规则。{I1,I2,I5}的非空子集为{I1,I2}、{I1,I5}、{I2,I5}、{I1}、{I2}和{I5}。
1700498904
1700498905 规则1,{I1,I2}=>{I5},置信度为{I1,I2,I5}的支持度除以{I1,I2}的支持度,即2/4=50%,因其小于最小置信度,所以删除该规则。
1700498906
1700498907 同理,最后可以得到{I1,I5}=>{I2},{I2,I5}=>{I1}和{I5}=>{I1,I2}为3条强关联规则。
1700498908
1700498909 然而,在实际应用Apriori算法时,需要根据不同的粒度,譬如类目、商品等,结合不同的维度(浏览行为,购买行为等)进行考虑,从而构建符合业务需求的关联规则模型。在电子商务应用中,关联规则算法适用于交叉销售的场景。譬如,有人要出行(飞往北京),根据计算出的关联规则(如:机票=>酒店)来考虑,那么,可以根据用户购买的机票,为用户推荐合适的北京酒店;再比如,在情人节,根据关联规则,将巧克力和玫瑰花进行捆绑销售等。
1700498910
1700498911 另外,关联规则还可以用来开发个性化电子商务推荐系统的Top N推荐。首先,根据用户的交易数据,计算用户在特定时序内购买过的商品;然后,根据关联规则算法,计算满足最小支持度和最小置信度的商品关联规则;再根据用户已经购买的商品和商品关联规则模型,预测用户感兴趣的商品,同时过滤掉用户已经购买过的商品,对于其他的商品,则按照置信度进行排序,从而为用户产生商品推荐。
1700498912
1700498913 [1]Rakesh Agrawal,Ramakrishnan Srikant,Fast Algorithms for Mining Association Rules in Large Databases,Proceedings of the 20th International Conference on Very Large Data Bases,p.487-499,September 12-15,1994
1700498914
1700498915 [2]Jiawei Han,Jian Pei,Yiwen Yin,Mining frequent patterns without candidate generation,Proceedings of the 2000 ACM SIGMOD international conference on Management of data,p.1-12,May 15-18,2000,Dallas,Texas,United States
1700498916
1700498917 [3]Mahout,http://mahout.apache.org/
1700498918
1700498919
1700498920
1700498921
1700498922 数据挖掘与数据化运营实战:思路、方法、技巧与应用 [:1700497517]
1700498923 数据挖掘与数据化运营实战:思路、方法、技巧与应用 3.11.3 协同过滤算法
1700498924
1700498925 协同过滤是迄今为止最成功的推荐系统技术,被应用在很多成功的推荐系统中。电子商务推荐系统可根据其他用户的评论信息,采用协同过滤技术给目标用户推荐商品。协同过滤算法主要分为基于启发式和基于模型式两种。其中,基于启发式的协同过滤算法,又可以分为基于用户的协同过滤算法和基于项目的协同过滤算法。启发式协同过滤算法主要包含3个步骤:1)收集用户偏好信息;2)寻找相似的商品或者用户;3)产生推荐。
1700498926
1700498927 “巧妇难为无米之炊”,协同过滤的输入数据集主要是用户评论数据集或者行为数据集。这些数据集主要又分为显性数据和隐性数据两种类型。其中,显性数据主要是用户打分数据,譬如用户对商品的打分,如图3-4所示。
1700498928
1700498929
[ 上一页 ]  [ :1.70049888e+09 ]  [ 下一页 ]