打字猴:1.704272979e+09

1704272979 ☆集成分类将可得信息整合起来，让我们更好地了解客户；

1704272980

1704272981 ☆集成分类为公司各部门提供了统一的客户描述，在很大范围内减少了因各部门之间客户理解不同而对客户营销带来的“摩擦损失”。

1704272982

1704272983 理论上的东西就介绍到这里。数据分析领先者会越来越多地将理论应用于实践。对此，他们需要具有战略性的远见，并对理论转化为实践的过程有足够的耐心。但我们相信，这种投入是值得的。

1704272984

1704272985 大量研究证明，从长期来看，以客户为中心是最重要的竞争优势。市场越是朝着以客户为中心的方向发展，就越需要清楚准确地掌握客户情况。在一开始越是看重客户细分，客户细分的逻辑越精确，那么后期在策划和执行市场营销措施方面的投入就越少。

1704272986

1704272987 大量研究证明，从长期来看，以客户为中心是最重要的竞争优势。市场越是朝着以客户为中心的方向发展，就越需要清楚准确地掌握客户情况。

1704272988

1704272989 还有一点对智能数据项目来说也很重要。如果在未来的1~3年内，没有机会将研究理论转化为实践，那么建立在所有部门的可得数据基础上的集成细分逻辑也不会有什么用。智能化的客户细分是迭代发展的，意味着包括子项目和测试在内的持续投入，这些子项目和测试在公司中获得了积极的关注，并为智能项目的开展扫清了可能存在的障碍。

1704272990

1704272991 我们将这种做法称为智能数据分类。

1704272992

1704272993 需要注意以下几方面：

1704272994

1704272995 ☆智能数据分类的起点，是智能数据流程的第一和第二阶段所总结出来的初步想法以及问题清单。它们能够提示我们，哪些关键领域需要进行细分，甚至包括相关的细分维度。

1704272996

1704272997 ☆必须让之后直接或间接从事客户需求满足的部门工作人员参与客户细分。如果让营销战略部门自己去考虑需要涉及的部门，而没有把实际与客户接触的部门考虑在内，那客户细分工作也不会产生效果。

1704272998

1704272999 ☆智能化、集成化的客户细分需要具有一定的超前性，要通过识别与未来客户细分相关的关键性问题或标志性特征，尝试预测与其他行业领域的融合问题。

1704273000

1704273001 ☆信息的数量经常不如期望中的那么多，信息质量也不尽如人意。我们可以先从规模小一些的信息池开始，着手做一些简单的关联测试。有时候，包含购物记录和客户关键特征的几百个电子邮件地址就足够了。如果这些测试显示项目大有希望，那么接下来我们便可以去考虑逐步提高可用的源数据的占比。

1704273002

1704273003 ☆当智能数据分类与（大）数据革命的时代精神相悖时：在智能数据分类时，要有勇气对某些有帮助的参数“说再见”。当我们确定，可支配收入因素对购买决策的影响程度是地域环境从属性因素的50倍以上时，未来我们就需要将环境数据排除在考虑范围之外。此时也要考虑80/20法则。

1704273004

1704273005 ☆一个时常被低估的数据来源是“丢单分析”。这对价值高、数量少的产品和服务作用明显。经验证明，客户非常乐于回答某些问题，比如你为什么没有购买某辆车。当一个客户在一次试驾过后，就再也没有出现在汽车店里时，我们必须要联系他并且询问他问题出现在哪里。此时，从相对小的“丢单分析”信息池中，我们可以归纳出有价值的认识，并采取相应的市场营销手段。

1704273006

1704273007 当大数据解决方案尝试从尽可能多的数据中意外地发现事物之间的联系或者分类时，智能数据集成分类是有目的地先行一步。起初，只是处理一些日常可得的数据信息，例如交易数据。基于所有关键数据点，数据科学家可以将所有交易数据进行统计学分类，以行为作为分类依据，将数据分为不同的群组。接下来，可以总结出一些具有说明性质的数据特征，例如人口统计学特征、客户价值和需求等。明确的数据特征使提出适合的“独特的销售主张”（简称USP，详见智能数据流程第四阶段）成为可能。基于交易数据的基础客户细分再反过来促进我们与客户的日常沟通。

1704273008

1704273009 客户细分黑盒子

1704273010

1704273011 客户细分的目的是，基于现有数据的特征，将客户识别为尽可能同质的，或是尽可能彼此异质的群组（簇）。在将相似的要素进行分组或在发现数据中潜藏的模式方面，存在着不同的操作方法，这些方法源自机器学习领域“无监督学习”范畴。最重要的几个分类操作方法如下：

1704273012

1704273013 1.分层聚类分析

1704273014

1704273015 这种操作方法是基于前期已经识别出来的数据特征（例如通过识别市场上同质化群组的社会人口统计学特征、使用行为和观念）测算出被观察者（个人或公司）之间的差异，并据此建立矩阵。这个矩阵也分为许多行，同数据库中被观察者的分类占比保持一致。被观察者之间的差异涵盖了所有已识别的数据特征，并且可以通过不同的方法计算出来。在分层聚合的过程中，一对儿被观察者在一个循环流程中被反复概括比对，就连最小的差异也会被发现。这个流程会一直不停地循环重复，直到所有的被观察者都被纳入某一个簇中。这个积聚的过程可以通过多种不同的算法实现。比较常见的算法包括单联聚类法（即SL聚类，又称邻近算法）和凝聚层次聚类（沃德法）。根据算法之间不同的聚合逻辑，会产生不同的聚合结果。采用单联聚类法可以识别出一些较小的边缘群体，若采用凝聚层次聚类法，那么簇的规模一般会比较均衡。

1704273016

1704273017 分层分析方法的优点是，不需要事先就知道簇数，而是借助于统计学参数预估出理想的簇数，从统计学的角度出发，理想簇数的确定需要考虑到组内同质和组间异质之间的平衡问题。分层分析方法的缺点是，计算量非常大，且只适用于小规模的数据量。很多时候，分层分析方法被用于分析通过社会调查形式获得的数据。分层分析流程也适用于从大数据中进行随机抽样，目的是获得稳定的分类并且确定簇的数量。后续，数据科学家会采取分区操作，将聚合结果扩展到整个数据库。

1704273018

1704273019 2.划分聚类分析

1704273020

1704273021 在分层聚类分析过程中，不需要事先就确定簇的数量，这对模式探索型的聚合分析流程来说是一大优点。然而，在划分聚类分析中，必须要预先就确定好簇的数量。总体来看，划分聚类分析的各种方法间存在共性，都是根据预先确定好的簇的数量选择出相应数量的对象，将每个对象的初始值作为单一簇的平均值或者中心点，然后反复调整聚类划分，直到误差函数最小化为止。其中，最著名且应用最广泛的误差函数是K均值（K-Means）算法：先根据既定的簇数随机选择出相应数量的对象，将这些对象的初始值作为每个簇的平均值，对剩余的每个对象，根据其与初始均值之间的差异程度，将其归入相应的簇。然后再重新计算每个簇的误差函数平均值。这个过程不断重复，直到每个簇中各对象的差异不显著（或者说误差最小化）。

1704273022

1704273023 划分聚类分析中还有一种算法是K中位数（K-Medians）或者模糊C均值（Fuzzy C-Means）。K均值的最大好处是，它尤其适合大规模的数据分析，因为它在算法方面不像分层聚类分析那么复杂。但是K均值算法的问题在于对异常值的敏感度过大，偶尔会导致十分小的聚类被划分出来。另外，该算法是基于随机选取的初始值，因此在反复调整过程中，划分结果不是很稳定。此外，结果缺乏可再现性也是缺点之一。分层聚类分析可以补偿划分聚类分析的缺陷，因此可以将分层聚类分析中产生出的聚合分类结果作为K均值分析方法的簇数起点值。

1704273024

1704273025 3.密度聚类分析

1704273026

1704273027 密度聚类分析背后的逻辑是，将被观察者视为一个空间内的点，尽管这些观察者之间存在很多差异化特征。首先我们要识别出这个空间内的高密度区和低密度区，并以此为基础建立起簇。这种分析方法的核心流程就是所谓的“具有噪声的基于密度的聚类方法”（Density-Based Spatial Clustering of Applications with Noise，简称DBSCAN）。根据这个空间内点之间的距离，我们会识别出密度最高的区域，并将这个高密区内的点作为核心点。还有一些点处于中等密度区域，我们将这些点称为边界点，被归至周边的簇。还有一些点，分布非常稀疏，我们将这些点称为噪声点。DBSCAN分析方法的优点之一，是不需要提前就确定簇的数量，这与分层聚类分析法有异曲同工之妙。与K均值分析法相比，DBSCAN方法具有一个关键优势，即可以识别非线性聚类，并可以有效对抗异常值。但是当空间簇的密度不均匀、间距差相差很大时，DBSCAN聚类质量较差。DBSCAN是相对比较新的聚类分析方法（1996年才被提出），目前已经发展成为机器学习领域最重要的算法之一。

1704273028

[ 上一页 ] [ :1.704272979e+09 ] [ 下一页 ]