打字猴:1.70262904e+09
1702629040 比购物车分析更加方便的卡方检验
1702629041
1702629042 通过上述那样简单的计算就可以找出具有关联性的商品,这是购物车分析的优点。但是,学过统计学的人很快就会发现“本来就有更加简单的方法”。谷歌的创始人之一谢尔盖·布林在学生时代特意针对此事发表过一篇论文,提出“与购物车分析相比,统计学的相关分析更加方便”。
1702629043
1702629044 在对这样的统计表进行分析时,统计学最常用的是卡方检验计算的卡方值。在广义线性模型中,我已经对卡方检验进行过说明,所以大家应该对这个概念并不陌生。卡方检验之中已经包含了费希尔所说过的“估计值的误差”,所以不必考虑支持度之类的指标,卡方值越大就能够证明改善度越大。另外,在商品是否有销售的二值变量间,选择卡方值大的组合与选择相关系数绝对值大的组合,其意义也是相同的。
1702629045
1702629046 在进行购物车分析时,必须在考虑改善度与支持度的前提下进行各种各样的计算和检验,而使用卡方值的话则不会被误差所欺骗,能够自动找出关联性较强的商品组合。因此,在亚马逊的商品推荐中,就常常进行这样的相关分析。
1702629047
1702629048 诞生于人工智能领域的高级数据挖掘法
1702629049
1702629050 当然,除了购物车分析那样的简单计算方法之外,数据挖掘领域也有具有高级运算逻辑的方法,比如神经元网络、支持向量机,以及聚集性分析,想必大家都或多或少地听过这些名字吧。
1702629051
1702629052 这些方法绝大多数都被应用于人工智能领域。人工智能是计算机科学中一直备受瞩目的领域,从事计算机相关工作的技术人员或许从学生时代开始就经常接触到上述那些方法了。
1702629053
1702629054 在人工智能领域中,根据思考方法的不同分为几大类,而数据挖掘最常用的方法则是从归属于人类认知功能的分类之中诞生出来的。
1702629055
1702629056 比如,我们人类面对拥有一定高度的家具时,能够非常清楚地分辨出哪些形状的是“椅子”,而计算机就无法分辨什么样的家具属于“椅子”。这样的认知就属于“椅子”和“椅子之外其他家具”的分类。
1702629057
1702629058
1702629059
1702629060
1702629061 图6–3 形状各异的椅子
1702629062
1702629063 对人工智能来说,“分类”大致上有两种方法:一种是“有教师的分类”,另一种是“无教师的分类”。
1702629064
1702629065 如果将家具的高度、重量以及有几个接地点等数据输入进去,那么接下来需要做的就是“将相似性较高的分为同一组”。如果利用椅子之间数据的相似性要高于椅子与衣柜之间数据相似性的特点对许许多多的家具进行分类的话,其中一定会出现“椅子或者数据上类似椅子的家具”这一分类。这种方法属于无教师的分类,其中最具代表性的就是聚集性分析。
1702629066
1702629067 实际应用中,聚集性分析最常出现的领域是市场调查中的市场分类。所谓市场分类,是指将市场或者顾客分为相似性较高的几组。没有进行市场分类的市场调查就像是没有准星的大炮,只能盲目地生产商品,毫无针对性地进行宣传和销售。但是,顾客的价值观与接触的媒体各不相同,毫无章法地胡乱“开炮”只会浪费广告费与销售经费。
1702629068
1702629069 如果你能够将公司的顾客群体限定在“有钱的专职主妇”和“高端的职场女性”这两个分类之中,那么就可以有针对性地生产商品和进行广告宣传。只要对顾客数据进行聚集性分析,就能够实现上述那样完美的分类。
1702629070
1702629071 但是,聚集性分析“只能够进行分析”,至于分类后的结果各自属于什么类别,还需要对其进行人工识别和判断。聚集性分析是某种市场调查员们最常用的方法,在这些人中甚至还有大家耳熟能详的名人。
1702629072
1702629073 不过,要是想从家具的数据中找出“椅子”,与其单纯地依靠类似性进行分类,不如直接告诉对方“这是椅子”。这样的话,可以得到更加准确的数字。这种直接告诉对方“这是椅子”的方法,就是“有教师的分类”。
1702629074
1702629075 为什么数据采集专家认为回归模型是“老古董”?
1702629076
1702629077 如果在统计学中想要进行“有教师的分类”,就要对“椅子为1”、“其他为0”这个二值的结果变量进行逻辑回归分析,但是有些高级的数据挖掘专家却认为这种方法过于陈旧,属于“老古董”。
1702629078
1702629079 他们之所以这么说,是因为回归模型只能进行“解释变量独立对结果变量产生影响(没有相乘效果)”和“解释变量与结果变量的关系性呈直线”的分析。
1702629080
1702629081 将椅子的重量作为解释变量,对椅子作为结果变量进行分析的时候,1千克的椅子和2千克的椅子之差与10千克的椅子和11千克的椅子之差是“重量每增加1千克,属于椅子的概率同比下降”的直线关系。相反,如果1千克增加到2千克的情况和10千克增加到11千克的情况对结果变量的影响不同的话,那么就会出现“曲线关系”。
1702629082
1702629083 当然在逻辑回归之中,追加相互作用可以对曲线的关系进行假设分析。但是,在数据挖掘专家们看来,统计学家们“必须要经过不断的错误尝试才行”。
1702629084
1702629085 如果使用神经元网络和支持向量机的方法,就可以对包括曲线关系和交互作用在内的情况,都进行最具识别力的分类。
1702629086
1702629087 比如图6–4,神经元网络会在输入数据中产生出“中间层”的值。中间层的数量和中间层包含的变量的数量可以任意设定,不过一般都是通过输入数据中的有用项目,按照实际情况自动计算出中间层的数量。其中的椭圆和箭头表示的是神经细胞与神经元之间的联系。
1702629088
1702629089
[ 上一页 ]  [ :1.70262904e+09 ]  [ 下一页 ]