1700433437
表7-2 赛季中棒球的平均击球率
1700433438
1700433439
1700433440
1700433441
1700433442
答案是……这也许会让你感到惊讶:我们不知道谁拥有最好的总体平均击球率!因为在表7.2中没有足够的信息推测出所有5个赛季中谁的平均击球率更高。
1700433443
1700433444
这怎么可能?如果我们知道在每个赛季中,乔和汤姆有相同数量的击球数,那么答案就像看起来的那样简单,乔将是赢家。但是假如他们的击球数不同呢?在乔和汤姆都有各自最好的平均击球率的赛季,假如乔受伤了几个月,只有很少的击球数,结果又如何呢?类似地,如果汤姆受伤,在本赛季中有最低的击球率,因此乔有更多的击球数,结果又如何呢?即使汤姆每个赛季的击球率都较低,整体上他也可以有比乔更高的击球率!这可能不常见,但这完全有可能出现。
1700433445
1700433446
永远不要走捷径
1700433447
1700433448
当你只知道故事的一部分,你得到的结论可能是完全错误的。所以永远不要采取简单的分析就认定结果是确实可信的,还坚持没必要进行任何形式的统计显著性测试。因此,要始终确保你拥有所需的全部数据,在得出结论之前,还要对这些数据做各种测试。
1700433449
1700433450
不知道击球数,就不可能确定总体上谁做得更好。看一下表7-3的示例,汤姆是如何在5年的整体评估中成为赢家的。在这项总体评估中,基于t检验,汤姆和乔在击球平均数方面的区别没有足够的统计显著性。所以,我们发现实际上是汤姆赢了乔,而表面上看起来是乔击败了汤姆。请注意,这个结论并不是那么简单的,虽然汤姆赢了,但是他的领先优势并不显著。这些分析都与统计学相关,因此分析所得结论的差别也更加细微。
1700433451
1700433452
表7-3 平均击球率的总体比较
1700433453
1700433454
1700433455
1700433456
1700433457
*汤姆获胜,但领先的幅度并不显著。从统计学的角度看,汤姆和乔的成绩是相关联的。
1700433458
1700433459
大多数人会看表格7-2的数据,却不愿费心去深入思考这个问题,他们只能得到表面上显而易见的答案:乔有一个更好的整体平均击球率。请不要这么做,一定要确保你做了测试和验证。
1700433460
1700433461
最后一点和统计显著性相关的是,当人们通过统计试验,确定自己的结论有95%或99%的准确性时,大多数人会感到非常惬意,时刻谨记的是,你是正确的概率是95%,但仍然有5%的概率你会出错。这意味着,你每重复执行20次,都会出现1次错误。
1700433462
1700433463
要确保结论的准确性水平与相应决策的风险程度挂钩。例如,假设企业会因为这个错误的决定而彻底破产,那么95%的准确性水平可能是不够的,也许99.9%或更高的准确性才是你的目标。
1700433464
1700433465
假如大量重复,至少出现1次错误的概率就会变大。你必须准备好分析这些错误并从中进行学习。或者,你需要把统计显著性设置的非常非常高来保持非常非常低的风险。对新药的临床试验来说,准确性门槛就非常高,因为一个糟糕药品的影响非常巨大,甚至包括死亡。而一个公司决定在剩下时间里应该把图像A还是图像B放在某个网页的顶部,这个统计显著性的门槛就非常低了。
1700433466
1700433468
7.6.2 业务重要程度
1700433469
1700433470
我们讲过了统计显著性的含义,以及获取完整数据并进行正确测试的必要性,因为没有人可以100%地肯定决定是正确的。这不是分析工作的结束,最后一步是评估统计显著性发现的业务重要程度。
1700433471
1700433472
让我们假设统计建立在分析的基础上。这里还有一项同等重要甚至更加重要的工作,即提出正确的问题。这项统计分析的结果很好,但是这对于业务来说重要吗?业务人员是如何利用对统计分析结果并采取相应措施的呢?我们发现了一个影响因素,但是它造成了足够大的、有意义的影响吗?
1700433473
1700433474
请务必将分析结果放到业务环境下进行最终的验证分析。可能你有99%的信心,将某次促销方案的客户响应率至少提升10%,这很棒!但是如果这个促销方案的成本是原来方案的2倍怎么办?在这种情况下,取得额外10%的响应率不能够弥补额外的成本支出。在这个场景下,回报率的高低并不重要,至少从业务的角度来说是如此。
1700433475
1700433476
从一个更宏观的角度来看待统计显著性。哪些成本与前面提到的业务建议相关?在一段时间内这个建议可以带来多少收入?这个方案是否与公司的长远战略保持一致?是否有足够的人员和时间来实施这项方案?统计显著性是非常重要的,但只有与业务关注点结合起来,它才会变得有价值。
1700433477
1700433478
一个出色的分析能带来价值,而不是干扰
1700433479
1700433480
理解统计显著性和业务重要程度的差异与关联是非常重要的,尤其是在这个数据泛滥的时代。分析专家们会从海量数据中发现有趣信息。当数字反常时,他们会说:“哇,真奇妙!”但不要忘记去确定它的业务重要程度。分析工作的一个组成部分就是确认分析的发现是否成立,以及是否具有业务相关性与可行性。否则,这项分析没有任何价值。
1700433481
1700433483
7.7 样本VS全体
1700433484
1700433485
通常来说,抽取样本进行分析是惯例,关键在于能否获得足够多的样本数据来分析手头这个问题。当有大量数据时,获取足够的样本并不难。今天的系统都具有足够的可扩展性,直接针对全体数据进行分析也是可行的,抽取10%的样本顾客进行分析便不再是必需的,因为我们可以直接分析全体客户。在某些领域,比如临床试验,目前大多还是小样本数据,这一直是个问题,而这些领域是一些特例。然而,大多数情况下,抽样仍然是分析计划的重要组成部分,因此必须确保抽样的正确性。
1700433486
[
上一页 ]
[ :1.700433437e+09 ]
[
下一页 ]