打字猴:1.702629068e+09

1702629068

1702629069 如果你能够将公司的顾客群体限定在“有钱的专职主妇”和“高端的职场女性”这两个分类之中，那么就可以有针对性地生产商品和进行广告宣传。只要对顾客数据进行聚集性分析，就能够实现上述那样完美的分类。

1702629070

1702629071 但是，聚集性分析“只能够进行分析”，至于分类后的结果各自属于什么类别，还需要对其进行人工识别和判断。聚集性分析是某种市场调查员们最常用的方法，在这些人中甚至还有大家耳熟能详的名人。

1702629072

1702629073 不过，要是想从家具的数据中找出“椅子”，与其单纯地依靠类似性进行分类，不如直接告诉对方“这是椅子”。这样的话，可以得到更加准确的数字。这种直接告诉对方“这是椅子”的方法，就是“有教师的分类”。

1702629074

1702629075 为什么数据采集专家认为回归模型是“老古董”？

1702629076

1702629077 如果在统计学中想要进行“有教师的分类”，就要对“椅子为1”、“其他为0”这个二值的结果变量进行逻辑回归分析，但是有些高级的数据挖掘专家却认为这种方法过于陈旧，属于“老古董”。

1702629078

1702629079 他们之所以这么说，是因为回归模型只能进行“解释变量独立对结果变量产生影响（没有相乘效果）”和“解释变量与结果变量的关系性呈直线”的分析。

1702629080

1702629081 将椅子的重量作为解释变量，对椅子作为结果变量进行分析的时候，1千克的椅子和2千克的椅子之差与10千克的椅子和11千克的椅子之差是“重量每增加1千克，属于椅子的概率同比下降”的直线关系。相反，如果1千克增加到2千克的情况和10千克增加到11千克的情况对结果变量的影响不同的话，那么就会出现“曲线关系”。

1702629082

1702629083 当然在逻辑回归之中，追加相互作用可以对曲线的关系进行假设分析。但是，在数据挖掘专家们看来，统计学家们“必须要经过不断的错误尝试才行”。

1702629084

1702629085 如果使用神经元网络和支持向量机的方法，就可以对包括曲线关系和交互作用在内的情况，都进行最具识别力的分类。

1702629086

1702629087 比如图6–4，神经元网络会在输入数据中产生出“中间层”的值。中间层的数量和中间层包含的变量的数量可以任意设定，不过一般都是通过输入数据中的有用项目，按照实际情况自动计算出中间层的数量。其中的椭圆和箭头表示的是神经细胞与神经元之间的联系。

1702629088

1702629089

1702629090

1702629091

1702629092 图6–4 神经元网络分析

1702629093

1702629094 而逻辑回归（没有交互作用）则是单纯地通过输入的数据来对结果进行直接预测（图6–5），所以数据挖掘专家们才会认为回归分析是过于陈旧的“老古董”。

1702629095

1702629096

1702629097

1702629098

1702629099 图6–5 逻辑回归分析

1702629100

1702629101 如果使用支持向量机的话，甚至可以用曲线的方法进行分类。

1702629102

1702629103 图6–6是假设只能通过“高度”与“重量”这两个数据对椅子和桌子进行区分的情况，椅子由于靠背的有无而被分为两种“高度”。因此，桌子比没有靠背的椅子高，却比有靠背的椅子低。

1702629104

1702629105 在这种情况下使用逻辑回归进行分类的话，根据虚线所示的两边进行究竟是椅子还是桌子的判断，结果发现两边各出现一个分类错误的例子。这时可以使用支持向量机的方法进行如图6–7那样的更加准确的曲线分类。

1702629106

1702629107

1702629108

1702629109

1702629110 图6–6 逻辑回归的分类

1702629111

1702629112 不管是神经元网络还是支持向量机，只要是针对曲线或者有多个变量存在的复杂关联性数据时，都比回归模型更加准确和高效。

1702629113

1702629114 在“预测”中发挥重大作用的数据挖掘

1702629115

1702629116 不过，能够享受上述优点的只有以分类和预测为目的的情况。

1702629117

[ 上一页 ] [ :1.702629068e+09 ] [ 下一页 ]