打字猴:1.70043345e+09
1700433450 不知道击球数,就不可能确定总体上谁做得更好。看一下表7-3的示例,汤姆是如何在5年的整体评估中成为赢家的。在这项总体评估中,基于t检验,汤姆和乔在击球平均数方面的区别没有足够的统计显著性。所以,我们发现实际上是汤姆赢了乔,而表面上看起来是乔击败了汤姆。请注意,这个结论并不是那么简单的,虽然汤姆赢了,但是他的领先优势并不显著。这些分析都与统计学相关,因此分析所得结论的差别也更加细微。
1700433451
1700433452 表7-3 平均击球率的总体比较
1700433453
1700433454
1700433455
1700433456
1700433457 *汤姆获胜,但领先的幅度并不显著。从统计学的角度看,汤姆和乔的成绩是相关联的。
1700433458
1700433459 大多数人会看表格7-2的数据,却不愿费心去深入思考这个问题,他们只能得到表面上显而易见的答案:乔有一个更好的整体平均击球率。请不要这么做,一定要确保你做了测试和验证。
1700433460
1700433461 最后一点和统计显著性相关的是,当人们通过统计试验,确定自己的结论有95%或99%的准确性时,大多数人会感到非常惬意,时刻谨记的是,你是正确的概率是95%,但仍然有5%的概率你会出错。这意味着,你每重复执行20次,都会出现1次错误。
1700433462
1700433463 要确保结论的准确性水平与相应决策的风险程度挂钩。例如,假设企业会因为这个错误的决定而彻底破产,那么95%的准确性水平可能是不够的,也许99.9%或更高的准确性才是你的目标。
1700433464
1700433465 假如大量重复,至少出现1次错误的概率就会变大。你必须准备好分析这些错误并从中进行学习。或者,你需要把统计显著性设置的非常非常高来保持非常非常低的风险。对新药的临床试验来说,准确性门槛就非常高,因为一个糟糕药品的影响非常巨大,甚至包括死亡。而一个公司决定在剩下时间里应该把图像A还是图像B放在某个网页的顶部,这个统计显著性的门槛就非常低了。
1700433466
1700433467 驾驭大数据 [:1700430629]
1700433468 7.6.2 业务重要程度
1700433469
1700433470 我们讲过了统计显著性的含义,以及获取完整数据并进行正确测试的必要性,因为没有人可以100%地肯定决定是正确的。这不是分析工作的结束,最后一步是评估统计显著性发现的业务重要程度。
1700433471
1700433472 让我们假设统计建立在分析的基础上。这里还有一项同等重要甚至更加重要的工作,即提出正确的问题。这项统计分析的结果很好,但是这对于业务来说重要吗?业务人员是如何利用对统计分析结果并采取相应措施的呢?我们发现了一个影响因素,但是它造成了足够大的、有意义的影响吗?
1700433473
1700433474 请务必将分析结果放到业务环境下进行最终的验证分析。可能你有99%的信心,将某次促销方案的客户响应率至少提升10%,这很棒!但是如果这个促销方案的成本是原来方案的2倍怎么办?在这种情况下,取得额外10%的响应率不能够弥补额外的成本支出。在这个场景下,回报率的高低并不重要,至少从业务的角度来说是如此。
1700433475
1700433476 从一个更宏观的角度来看待统计显著性。哪些成本与前面提到的业务建议相关?在一段时间内这个建议可以带来多少收入?这个方案是否与公司的长远战略保持一致?是否有足够的人员和时间来实施这项方案?统计显著性是非常重要的,但只有与业务关注点结合起来,它才会变得有价值。
1700433477
1700433478 一个出色的分析能带来价值,而不是干扰
1700433479
1700433480 理解统计显著性和业务重要程度的差异与关联是非常重要的,尤其是在这个数据泛滥的时代。分析专家们会从海量数据中发现有趣信息。当数字反常时,他们会说:“哇,真奇妙!”但不要忘记去确定它的业务重要程度。分析工作的一个组成部分就是确认分析的发现是否成立,以及是否具有业务相关性与可行性。否则,这项分析没有任何价值。
1700433481
1700433482 驾驭大数据 [:1700430630]
1700433483 7.7 样本VS全体
1700433484
1700433485 通常来说,抽取样本进行分析是惯例,关键在于能否获得足够多的样本数据来分析手头这个问题。当有大量数据时,获取足够的样本并不难。今天的系统都具有足够的可扩展性,直接针对全体数据进行分析也是可行的,抽取10%的样本顾客进行分析便不再是必需的,因为我们可以直接分析全体客户。在某些领域,比如临床试验,目前大多还是小样本数据,这一直是个问题,而这些领域是一些特例。然而,大多数情况下,抽样仍然是分析计划的重要组成部分,因此必须确保抽样的正确性。
1700433486
1700433487 下次在读报的时候,留意一下报纸里那些不变的调查,你会发现所有调查结果的底部都会声明一定的误差幅度,通常情况下是加减百分之三到五的范围。你也会看到调查所用随机样本的规模,通常情况下是800人~1200人。无论是什么问题和主题,这些误差幅度和样本规模通常都保持不变。要确保一定的误差幅度只需要大约1000个样本。
1700433488
1700433489 样本规模越大,误差幅度越小,越能肯定样本的观察结果接近于真实答案。大数据会带来大的样本规模,以至于简单的数据汇总就能够达到很高的统计显著性,剩下的一些误差幅度,已经不会对业务造成什么影响。
1700433490
1700433491 可能成百上千的网站都在探索研究多少人点击了A或B链接。也许,某网站发现点击A的人占2.5235%,点击B的人占2.5237%。初看起来好像差异很小,但是如果样本足够大,这0.0002%的区别也具有统计显著性。然而,这个差异还是太小了,虽然具有统计显著性,也没有太多价值。这不符合我们之前讨论过的业务重要程度与相关性准则。就像统计学里的这句谚语,“只有能带来差异的差异,才是真正的差异。”
1700433492
1700433493 在过去,分析人员一直强调要获取足够的样本,过小的样本会引起分析师对误差幅度的担忧。当一个样本很小时,误差会变得很大。在这种情况下,很多分析都将没有意义。到了今天,人们有必要确定没有使用过大的样本。虽然样本过大看起来是一个奇怪的概念,但这已经成为一种需要考虑的可能性了。
1700433494
1700433495 如果某个业务问题只要求分析20万名随机客户的样本以获得精确的市场需求预测,在这种情况下,只是因为可以做到就对全部2000万名客户进行分析,无疑是对时间和资源的浪费。在这种情况下使用抽样数据进行分析,完全可以发现具有统计显著性、业务重要程度较高且相关的分析结论。在某些情况下,如果必须是1%的差异,业务人员才会采取行动,那么就要确保样本数据足够大,大到1%的差异也具有统计显著性。使用大样本就能保证1%的差异也具有统计显著性,但同时也会带来大量额外的、无意义的数据处理工作。因此,要确保样本足够大又不要过大。驾驭大数据将需要从大量数据中提取精华部分进行分析。
1700433496
1700433497 有时候需要分析全部的数据。依据一些标准找到所有数据中的前N个,就是一个这样的常见例子。例如,某项分析需要找到前100个消费最多的顾客。随机取样无法得到想要的数据,它只能随机得到一部分顾客的信息。在这种情况下,拿到全部顾客的数据是必要的。在进行分析之前,就要决定是否需要抽样,样本应该有多大的规模。只要有可能,就应该尽量使用抽样数据。
1700433498
1700433499 另一个常见的误解是,一个单一样本可以用来分析不同的问题。市场部门可能只需要10%的顾客来进行分析,因此市场部门只需要从客户群中抽取10%的样本,这个样本数据对于其他部门则未必有效。下面我们来分析原因。
[ 上一页 ]  [ :1.70043345e+09 ]  [ 下一页 ]