1704273006
1704273007
当大数据解决方案尝试从尽可能多的数据中意外地发现事物之间的联系或者分类时,智能数据集成分类是有目的地先行一步。起初,只是处理一些日常可得的数据信息,例如交易数据。基于所有关键数据点,数据科学家可以将所有交易数据进行统计学分类,以行为作为分类依据,将数据分为不同的群组。接下来,可以总结出一些具有说明性质的数据特征,例如人口统计学特征、客户价值和需求等。明确的数据特征使提出适合的“独特的销售主张”(简称USP,详见智能数据流程第四阶段)成为可能。基于交易数据的基础客户细分再反过来促进我们与客户的日常沟通。
1704273008
1704273009
客户细分黑盒子
1704273010
1704273011
客户细分的目的是,基于现有数据的特征,将客户识别为尽可能同质的,或是尽可能彼此异质的群组(簇)。在将相似的要素进行分组或在发现数据中潜藏的模式方面,存在着不同的操作方法,这些方法源自机器学习领域“无监督学习”范畴。最重要的几个分类操作方法如下:
1704273012
1704273013
1.分层聚类分析
1704273014
1704273015
这种操作方法是基于前期已经识别出来的数据特征(例如通过识别市场上同质化群组的社会人口统计学特征、使用行为和观念)测算出被观察者(个人或公司)之间的差异,并据此建立矩阵。这个矩阵也分为许多行,同数据库中被观察者的分类占比保持一致。被观察者之间的差异涵盖了所有已识别的数据特征,并且可以通过不同的方法计算出来。在分层聚合的过程中,一对儿被观察者在一个循环流程中被反复概括比对,就连最小的差异也会被发现。这个流程会一直不停地循环重复,直到所有的被观察者都被纳入某一个簇中。这个积聚的过程可以通过多种不同的算法实现。比较常见的算法包括单联聚类法(即SL聚类,又称邻近算法)和凝聚层次聚类(沃德法)。根据算法之间不同的聚合逻辑,会产生不同的聚合结果。采用单联聚类法可以识别出一些较小的边缘群体,若采用凝聚层次聚类法,那么簇的规模一般会比较均衡。
1704273016
1704273017
分层分析方法的优点是,不需要事先就知道簇数,而是借助于统计学参数预估出理想的簇数,从统计学的角度出发,理想簇数的确定需要考虑到组内同质和组间异质之间的平衡问题。分层分析方法的缺点是,计算量非常大,且只适用于小规模的数据量。很多时候,分层分析方法被用于分析通过社会调查形式获得的数据。分层分析流程也适用于从大数据中进行随机抽样,目的是获得稳定的分类并且确定簇的数量。后续,数据科学家会采取分区操作,将聚合结果扩展到整个数据库。
1704273018
1704273019
2.划分聚类分析
1704273020
1704273021
在分层聚类分析过程中,不需要事先就确定簇的数量,这对模式探索型的聚合分析流程来说是一大优点。然而,在划分聚类分析中,必须要预先就确定好簇的数量。总体来看,划分聚类分析的各种方法间存在共性,都是根据预先确定好的簇的数量选择出相应数量的对象,将每个对象的初始值作为单一簇的平均值或者中心点,然后反复调整聚类划分,直到误差函数最小化为止。其中,最著名且应用最广泛的误差函数是K均值(K-Means)算法:先根据既定的簇数随机选择出相应数量的对象,将这些对象的初始值作为每个簇的平均值,对剩余的每个对象,根据其与初始均值之间的差异程度,将其归入相应的簇。然后再重新计算每个簇的误差函数平均值。这个过程不断重复,直到每个簇中各对象的差异不显著(或者说误差最小化)。
1704273022
1704273023
划分聚类分析中还有一种算法是K中位数(K-Medians)或者模糊C均值(Fuzzy C-Means)。K均值的最大好处是,它尤其适合大规模的数据分析,因为它在算法方面不像分层聚类分析那么复杂。但是K均值算法的问题在于对异常值的敏感度过大,偶尔会导致十分小的聚类被划分出来。另外,该算法是基于随机选取的初始值,因此在反复调整过程中,划分结果不是很稳定。此外,结果缺乏可再现性也是缺点之一。分层聚类分析可以补偿划分聚类分析的缺陷,因此可以将分层聚类分析中产生出的聚合分类结果作为K均值分析方法的簇数起点值。
1704273024
1704273025
3.密度聚类分析
1704273026
1704273027
密度聚类分析背后的逻辑是,将被观察者视为一个空间内的点,尽管这些观察者之间存在很多差异化特征。首先我们要识别出这个空间内的高密度区和低密度区,并以此为基础建立起簇。这种分析方法的核心流程就是所谓的“具有噪声的基于密度的聚类方法”(Density-Based Spatial Clustering of Applications with Noise,简称DBSCAN)。根据这个空间内点之间的距离,我们会识别出密度最高的区域,并将这个高密区内的点作为核心点。还有一些点处于中等密度区域,我们将这些点称为边界点,被归至周边的簇。还有一些点,分布非常稀疏,我们将这些点称为噪声点。DBSCAN分析方法的优点之一,是不需要提前就确定簇的数量,这与分层聚类分析法有异曲同工之妙。与K均值分析法相比,DBSCAN方法具有一个关键优势,即可以识别非线性聚类,并可以有效对抗异常值。但是当空间簇的密度不均匀、间距差相差很大时,DBSCAN聚类质量较差。DBSCAN是相对比较新的聚类分析方法(1996年才被提出),目前已经发展成为机器学习领域最重要的算法之一。
1704273028
1704273029
4.模糊聚类分析
1704273030
1704273031
目前既存的系统化聚类分析流程都是将一个因素明确地归入某一个簇中,这是所谓的“硬流程”。模糊聚类分析属于“软流程”,即某一个因素可以被归入一个以上的簇,换句话说,就是在识别聚类从属性的不同等级。模糊聚类分析中最有名的算法是模糊C均值(FCM)。首先假定每一个被观察对象都能够或者倾向于被归入一个簇,那么处于簇中心位置的被观察者归入这个簇的可能性高一些,处于簇边缘的被观察者纳入这个簇的可能性相对低一些,或者说簇边缘的被观察者也有可能被纳入其他簇。
1704273032
1704273033
从技术层面上看,模糊聚类分析的逻辑与K均值算法类似。模糊聚类分析这一设想的目的是,实现一个被观察对象被归入不止一个簇中,这在某些特定的应用案例中更具现实价值。如果市场和客户细分部门希望获得明确的聚类结果(例如要去评估某一聚类集合的市场潜力),在对客户针对不同商品种类的消费行为和购买决策进行统计分析时,多维的聚类可能更有意义。例如,为了精准定位并营销旅行社潜在客户,我们可以利用模糊聚类分析方法,通过分析交易数据信息,从而去识别客户的旅行类型。此时,有些客户或被归入多个特征组,例如海滩度假组、城市游组等,这可以帮助我们为客户提供多样化的选择。
1704273034
1704273035
1704273036
1704273037
1704273038
多维度的统计学细分流程如果想起作用,那么首要的就是对使用者而言,分类结果不能太宽泛。举一个分类结果宽泛的例子:有一个关于消费者的聚类分组,组中九成的消费者收入较高;85%的消费者是稳定客户,并且会关注商品的质量、安全性和售后服务;组中的消费者平均家庭人口在2~3人之间,每月平均支出980欧元用于家用,这其中有430欧元都是在同一家商店消费的。企业如果希望通过聚类分析来获得决策支撑,那么分类结果所要描述的特征应该尽可能少,并且清晰可辨,这样对企业来说容易理解、易于操作。
1704273039
1704273040
所谓的“好问题”(Power Questions)可以帮助我们,将客户归于某一细分类别中。例如可以这样提问:
1704273041
1704273042
☆客户会购买名牌商品吗?
1704273043
1704273044
☆客户每个月是至少给我们支付400欧元购买生活用品吗?
1704273045
1704273046
☆客户基本上80%的结算都要通过转账完成吗?
1704273047
1704273048
☆客户买婴儿用品吗?
1704273049
1704273050
“好问题”的答案是明确的,通过这些答案可以建立一个决策树。通过决策树调整统计学聚类分析结果,我们会发现,聚类分析不一定能够百分之百贯彻下去。在理想情况下,90%以上的客户会被明确地归入某一类。70%~80%的聚类程度是可接受的水平。如果聚类水平低于70%,就不足以获得清晰可辨的分类结果。原则上,我们此时就可以判断我们初步设想有问题。在这一点上,大家的观点也不统一,不过及早地意识到这一点,并提出新的设想,重新运行一次智能数据分析流程,也没什么坏处。不准确的细分无疑会导致瞄准错误客户或者采取错误的市场营销措施,从而给公司造成损失,重新运行总比遭受这些损失要好。
1704273051
1704273052
同时,即便是达到90%聚类水平的最好的细分情况,如果客户服务人员不能理解或者不能够正确使用,那也是惘然。这听起来是理所当然的事情,但是在实践中却经常被忽略。
1704273053
1704273054
对此,我们在一个世界领先的IT生产商的大项目中感触最深。企业总部的战略营销部门逻辑清晰地为大部分B2B聚类分组都起了名字,比如“印刷发烧友”或者“累垮的工人”。然后成立了产品设计部门,并制定了产品战略。遗憾的是,处于销售环节的员工无法理解什么是印刷发烧友,哪些人又是累垮的工人。
1704273055
[
上一页 ]
[ :1.704273006e+09 ]
[
下一页 ]