1700498806
数据挖掘与数据化运营实战:思路、方法、技巧与应用 3.11 商品推荐模型
1700498807
1700498808
鉴于商品推荐模型在互联网和电子商务领域已经成为一个独立的分析应用领域,并且正在飞速发展并且得到了广泛应用。因此除本节以外,其他章节将不再对商品推荐模型做任何分析和探讨,至于本节,相对于其他的分析类型来说,会花费更多的笔墨和篇幅。希望能给读者提供足够的原理和案例[1]。
1700498809
1700498811
3.11.1 商品推荐介绍
1700498812
1700498813
电子商务推荐系统主要通过统计和数据挖掘技术,并根据用户在电子商务网站的行为,主动为用户提供推荐服务,从而来提高网站体验的。根据不同的商业需求,电子商务推荐系统需要满足不同的推荐粒度,主要以商品推荐为主,但是还有一些其他粒度推荐。譬如Query推荐、商品类目推荐、商品标签推荐、店铺推荐等。目前,常用的商品推荐模型主要分为规则模型、协同过滤和基于内容的推荐模型。不同的推荐模型有不同的推荐算法,譬如对于规则模型,常用的算法有Apriori等;而协同过滤中则涉及K最近邻居算法、因子模型等。没有放之四海而皆准的算法,在不同的电子商务产品中,在不同的电子商务业务场景中,需要的算法也是不一样的。实际上,由于每种算法各有优缺点,因此往往需要混合多种算法,取长补短,从而提高算法的精准性。
1700498814
1700498815
[1]本节内容由淘宝网的商品推荐高级算法工程师陈凡负责编写,陈凡的微博地址为hppt://weibo.com/bicloud。
1700498816
1700498817
1700498818
1700498819
1700498821
数据挖掘与数据化运营实战:思路、方法、技巧与应用 3.11.2 关联规则
1700498822
1700498823
1.Apriori算法
1700498824
1700498825
电子商务中常用的一种数据挖掘方法就是从用户交易数据集中寻找商品之间的关联规则。关联规则中常用的一种算法是Apriori算法。该算法主要包含两个步骤:首先找出数据集中所有的频繁项集,这些项集出现的频繁性要大于或等于最小支持度;然后根据频繁项集产生强关联规则,这些规则必须满足最小支持度和最小置信度。
1700498826
1700498827
上面提到了最小支持度和最小置信度,事实上,在关联规则中用于度量规则质量的两个主要指标即为支持度和置信度。那么,什么是支持度和置信度呢?接下来进行讲解。
1700498828
1700498829
给定关联规则X=>Y,即根据X推出Y。形式化定义为:
1700498830
1700498831
1700498832
1700498833
1700498834
假设D表示交易数据集;K为项集,即包含k个项的集合;Lk表示满足最小支持度的k项集;Ck表示候选k项集。Apriori算法的参考文献[1]描述如下。
1700498835
1700498836
在该算法中,候选集的计算过程如下所示。
1700498837
1700498838
1700498839
1700498840
1700498841
首先进行连接运算如下:
1700498842
1700498843
1700498844
1700498845
1700498846
然后根据频繁项集定理(即频繁项集的子集必定是频繁项集)进行剪枝,过滤掉非频繁项集,过程如下所示:
1700498847
1700498848
1700498849
1700498850
1700498851
从上述算法中可以看出,该算法存在一些困难点,譬如需要频繁扫描交易数据集,这样如果面临海量数据集,就难以满足实际应用需求;对于大型数据集,计算候选集算法的效率较低,这也是一个难以克服的问题。目前已经有一些优化的方法用于处理这些问题,譬如FP-growth算法[2]。在实际应用中,随着数据的不断增长,可能还需要通过分布式计算来提高算法性能,譬如机器学习算法包Mahout[3]中实现了的并行版本FP-growth算法。
1700498852
1700498853
2.Apriori算法实例
1700498854
[
上一页 ]
[ :1.700498805e+09 ]
[
下一页 ]