打字猴:1.700500697e+09
1700500697 数据挖掘与数据化运营实战:思路、方法、技巧与应用 [:1700497602]
1700500698 数据挖掘与数据化运营实战:思路、方法、技巧与应用 9.4.3 个性化推荐的应用
1700500699
1700500700 个性化推荐是电子商务时代产生的一个新的专业方向,在很多互联网公司里,个性化推荐已经作为一个单独的部门独立于数据分析部门之外了。个性化推荐目前已经产生了诸多的相关算法,其中以协同过滤算法最为普及。聚类分析的思想和原理也可以用到个性化推荐的应用场景里,我们来看以下的业务场景。
1700500701
1700500702 在电子商务平台上,买家与卖家如何高效、精准匹配是个性化推荐的核心任务。当买家进入平台浏览第一个页面时,个性化推荐就需要计算其可能感兴趣的卖家或者特定商品页面,或者特定店面的页面,并第一时间把与之相关的页面发送到买家面前。一般情况下,通过对买家的历史浏览行为进行统计分析,可以确定其感兴趣的特定商品大类,但在此基础上如何进一步精确锁定商品大类下面的具体小类呢?聚类技术提供了一个独特的思路和方法。通过历史数据对该商品大类的买家进行聚类分析,找出不同小类目的买家细分群体(聚类结果),然后用这个聚类模型去判别这个新的买家最可能属于哪个细分群体,再去匹配跟该细分群体最相近的卖家或者卖家的商品小类目,这就是聚类思想在个性化推荐中的应用思路。当然在具体的项目操作中,数据的清理是非常复杂的,前期的阀值确定和规则梳理也非常关键。在个性化推荐的大场景里,聚类技术只是其中的一个思路或环节,不过,聚类技术能突破传统的应用场景,尝试应用于类似个性化推荐之类的崭新的业务需求方面,正体现了包括聚类技术在内的数据分析挖掘技术与时俱进的活力和生命力。
1700500703
1700500704
1700500705
1700500706
1700500707 数据挖掘与数据化运营实战:思路、方法、技巧与应用 [:1700497603]
1700500708 数据挖掘与数据化运营实战:思路、方法、技巧与应用 9.5 聚类分析在实际应用中的优势和缺点
1700500709
1700500710 聚类分析的优势在实践应用中是很明显的,无论是从其原理上来理解,还是从其应用的普遍程度上来看。尤其是针对大数据集的时候,K-Means算法几乎是目前最主流的算法和应用了。具体来讲,其应用优势体现在以下几个方面:
1700500711
1700500712 ❑目前聚类技术已经比较成熟,算法也比较可靠,而且长期的商业实践应用已经证明它是一个不错的数据群体细分的工具和方法。
1700500713
1700500714 ❑聚类技术不仅本身是一种模型技术,可以直接响应业务需求,提出细分的具体方案来指导实践;同时,聚类技术还经常作为数据分析前期的数据摸底和数据清洗的有效思想和工具。这种多样性的特点使得聚类技术的应用场景更加丰富,其价值也因此更加明显。
1700500715
1700500716 ❑如果聚类技术应用得好,其聚类的结果比较容易用商业和业务的逻辑来理解和解释。可理解、可解释在数据化运营实践中非常重要,它决定了业务应用方是否可以理解模型的结论,在此基础上才谈得上业务方是否真心支持、全力配合、共同推进数据分析(模型)的有效地落地应用。
1700500717
1700500718 ❑K-Means算法具有简洁、高效的特点。K-Means算法的时间复杂度是O(tkn),其中,t是循环次数,也就是算法收敛时已经迭代的次数;k是聚类的个数,也就是聚类的类别数量;n是数据点的个数,也就是样本数量。由于t和k都要远远小于n,所以K-Means算法的时间复杂度与数据集的大小是线性相关的。
1700500719
1700500720 ❑K-Means算法是一个不依赖顺序的算法。给定一个初始类分布,无论样本算法的顺序如何,聚类过程结束后的数据分区结果都会是一样的。
1700500721
1700500722 K-Means算法有这么多的好处,那它的劣势又有哪些呢?
1700500723
1700500724 尽管在众多的聚类算法中,尤其是针对大数据集的应用场景里,K-Means算法几乎是唯一主流的算法,但是其本身也有一些缺点和不足,主要表现在以下几个方面:
1700500725
1700500726 ❑数据分析师需要事先指定聚类的数目k。在实践中,要测试多个不同的k值才能根据效果比较来选择最合适的k值,这个过程有可能会比较耗时。
1700500727
1700500728 ❑算法对数据噪声和异常值比较敏感。异常值是数据中那些与其他数据点相隔很远的数据点,其可能是数据采集时的失误,也可能是本质不同的数据。由于K-Means算法是采用均值作为每个聚类的聚类中心的,所以异常值会严重干扰正常的聚类中心的计算,造成聚类失真。
1700500729
1700500730
1700500731
1700500732
1700500733 数据挖掘与数据化运营实战:思路、方法、技巧与应用 [:1700497604]
1700500734 数据挖掘与数据化运营实战:思路、方法、技巧与应用 9.6 聚类分析结果的评价体系和评价指标
1700500735
1700500736 正如第7章里谈到的,每一个算法都有自身的优势和局限性,因此没有哪个算法是永远优于其他算法的。在聚类分析的实际应用中,针对聚类结果的评估也有很多的维度和指标。但是,从数据化运营的实践经验来看,任何模型的评估,包括聚类分析的评估既要考虑统计学意义上的指标、维度,同时更要关注其实践效果上的价值及业务背景下的价值。尤其是对于聚类项目来说,它跟分类(预测)项目的一个显著不同之处在于,后者的评判有训练集、验证集、测试集的客观参照,而对于聚类结果的评判来说,一个对象分配到A类与分配到B类,中间并没有太明确、太客观的参照依据。鉴于此,聚类结果的评判常常更加复杂和困难。下面就来介绍一下常用的聚类评估方法及其指标体系。
1700500737
1700500738 数据挖掘与数据化运营实战:思路、方法、技巧与应用 [:1700497605]
1700500739 9.6.1 业务专家的评估
1700500740
1700500741 聚类分析的结果评估首先要跟相应的落地应用场景相结合。尽管目前关于聚类的评价指标和评价体系已经比较成熟,但是总体来说,业务专家的评估才是最重要的评价层面。这一方面是由数据化运营的最终目的即落地应用效果所决定的,另一方面也是由聚类技术本身(与分类、预测技术相比,一个对象到底应该分到A簇,还是B簇,中间没有明显的效果区别)的特点决定的。
1700500742
1700500743 业务专家虽然可能不太了解聚类原理,但是他们对于具体对象的大概所属群体特征还是有非常深刻的商业直觉和业务敏锐性的。如果对于聚类的结果,多数业务专家都不满意、不认可、看不懂,那么这个聚类的结果很可能是有问题的,是值得怀疑的。虽然对于每个业务专家来说,他们的评判非常主观,但是采用全体专家平均分的技术手段,是可以比较有效降低主观因素对于聚类效果评价的影响的。
1700500744
1700500745 业务专家对聚类结果进行评判时不仅仅只是对结果的合理性、理解性进行评判,更重要的是常常会结合具体应用的业务场景来进行评判。很多时候,尽管聚类的结果看上去很合理,很容易理解,很符合业务逻辑,但是如果没有落地应用价值,或者说没有落地应用的前景,那这个聚类的结果仍然是不合格的,是无法满足业务需求的。举例来说,如果业务分析需求的目的是找出产品付费用户的网络行为特征,并根据该特征有效发现、复制潜在的付费用户,而聚类的结果只是从付费用户中发现了不同群体的产品使用特征和续费特征,尽管这些发现都是正确的、符合业务逻辑的,都是满足聚类评价技术指标的,但是这种发现对于当初的分析目的而言是没有价值的,是不合格的,因为该结果并没有实现当初的分析目的——发现付费用户群体的典型的网络行为特征,从而可以让业务方、运营方有方向、有目标地去锁定潜在的付费用户群体。
1700500746
[ 上一页 ]  [ :1.700500697e+09 ]  [ 下一页 ]