打字猴:1.7004334e+09
1700433400 驾驭大数据 [:1700430626]
1700433401 7.5 正确地分析问题
1700433402
1700433403 为了得到一个优质分析,需要提出正确的问题,收集正确的数据,设计能够解答这个问题的正确的分析方案。也许优质分析和劣质分析最重要的差别就是能否预先正确地分析问题,其次的差别是在开始阶段是否建立了正确的问题分析框架,而这些都发生在分析流程开始之前。
1700433404
1700433405 建立正确的问题分析框架,意味着已经提出了重要的问题,并定义好了关键的假设。例如,获得更多收入或利润是一项新倡议的目标吗?不同的答案会给随后的分析过程与执行方案带来巨大的影响。我们可以拿到分析所需的所有数据吗?或者有必要收集更多的数据吗?在设计分析方案时,考虑过备选方案吗?如果没有对这些问题的深刻理解,所有的分析工作都将是无用的。这会导致一种典型的场景,即输入无用数据,从而导致输出无用结果。
1700433406
1700433407 以一个为某企业构建客户分类模型的咨询团队为例,该企业有B2B和B2C两大业务板块,咨询师们知道该企业有B2B业务,但其业务规模相对较小,且在该项目的任何会议中都从来没有提及过B2B的业务。
1700433408
1700433409 咨询师们开始分析企业的客户数据并产生了困惑,因为某些客户的行为非常极端。当咨询师看到无法解释的奇怪模式时,咨询师会告诉企业发现了一些不寻常的事情。企业立即回应,“这是我们的企业级客户,即B2B业务。”该企业认为本次分析只需覆盖个人客户,但它们提供的客户数据则包含了全部企业客户与个人客户。
1700433410
1700433411 分析框架非常重要
1700433412
1700433413 建立问题分析框架和设计分析方法比后续进行的一切工作都更加重要。如果没有很好地分析问题,设计了一个糟糕的分析框架,那么这项分析工作将是不精确的且没有任何价值。我们需要适当地强调分析框架的建立和设计的过程,以确保分析框架是正确的,否则将不可能得到一个优质分析。
1700433414
1700433415 这件事情说明了,在分析流程中引入对业务的理解是非常重要的。最初咨询师没有建立针对企业客户的适当分析框架,而这些客户会干扰分析模型。最后,咨询师决定构建两个客户模型:一个用于企业客户,一个用于个人客户。把两类客户分隔开是有必要的,因为他们有完全不同的行为模式。为了正确地分析这个问题,有必要每次只专注于一类客户,或者为每类客户建立不同的分析模型。
1700433416
1700433417 优质分析来自于正确的问题分析框架,这包括正确地评估数据,制订详细的分析计划,并考虑各种技术和可能出现的各种问题。可以说,构建问题分析框架是做出优质分析的关键步骤,如果这一步没有做好,随后的工作也将很难做好。
1700433418
1700433419 驾驭大数据 [:1700430627]
1700433420 7.6 统计显著性与业务重要程度
1700433421
1700433422 分析专家通常很关注统计显著性,这并不是坏事。关键是,统计显著性只是优质分析的一部分。统计显著性的测试需要一组假设,并评估在假设正确的前提下产生某种结果的可能性有多大。
1700433423
1700433424 例如,如果人们假设一枚硬币是均匀的,那么它正面着地或反面着地的可能性各是50%,而一枚硬币连续10次反面朝上的几率非常小。如果看到10次硬币反面朝上,这只有两种可能:第一种可能是撞大运了,这种情况在1024次尝试中只会发生一次;第二种可能是硬币可能不均匀。通过10次反面朝上的统计显著性计算,你可以有99.9%的自信认为该硬币是不均匀的。这是因为一枚均匀硬币产生这一现象的可能性只有0.1%。这种计算就是统计显著性所关注的。
1700433425
1700433426 有必要区分统计显著性和业务重要程度,这两者是不同的,让我们来看看为什么。
1700433427
1700433428 驾驭大数据 [:1700430628]
1700433429 7.6.1 统计显著性
1700433430
1700433431 统计显著性经常被用于求平均值和百分比,它常用来对统计模型的参数进行估计。统计显著性测试是非常有价值的,它会确保数据没有欺骗你。你可以从数学角度来查看区别是否足够大,以及区别是否有价值,有时候看起来是重要的差异其实并不重要,而看起来不重要的差异却会有重大的意义。一个统计测试将确保结论的正确性。
1700433432
1700433433 关于测试有一整套的方法论。商业世界中常见的术语是测试和研究。测试和研究只是大学统计课程中的基本实验设计概念。在测试和研究环境中设计实验的目的是评估一个或多个选项的效果,并确定哪一种选项的可能性最大。
1700433434
1700433435 业务人员需要确保遵循正确的方法进行决策,而不是简单地使用那些“明显的”答案。有一个完全违反直觉的例子,也是我最喜欢的例子,是关于某大学的球员评估问题。请看一下表7-2,有两个一起玩了5个赛季的棒球球员,从表7-2中可以看到,在5个赛季的每次比赛中,乔的平均击球率都高于汤姆。假如我们有一个非常简单的问题:“在这五个赛季中,谁的平均击球率更高?”请读者花一点时间思考,并确定你的答案。
1700433436
1700433437 表7-2 赛季中棒球的平均击球率
1700433438
1700433439
1700433440
1700433441
1700433442 答案是……这也许会让你感到惊讶:我们不知道谁拥有最好的总体平均击球率!因为在表7.2中没有足够的信息推测出所有5个赛季中谁的平均击球率更高。
1700433443
1700433444 这怎么可能?如果我们知道在每个赛季中,乔和汤姆有相同数量的击球数,那么答案就像看起来的那样简单,乔将是赢家。但是假如他们的击球数不同呢?在乔和汤姆都有各自最好的平均击球率的赛季,假如乔受伤了几个月,只有很少的击球数,结果又如何呢?类似地,如果汤姆受伤,在本赛季中有最低的击球率,因此乔有更多的击球数,结果又如何呢?即使汤姆每个赛季的击球率都较低,整体上他也可以有比乔更高的击球率!这可能不常见,但这完全有可能出现。
1700433445
1700433446 永远不要走捷径
1700433447
1700433448 当你只知道故事的一部分,你得到的结论可能是完全错误的。所以永远不要采取简单的分析就认定结果是确实可信的,还坚持没必要进行任何形式的统计显著性测试。因此,要始终确保你拥有所需的全部数据,在得出结论之前,还要对这些数据做各种测试。
1700433449
[ 上一页 ]  [ :1.7004334e+09 ]  [ 下一页 ]