打字猴:1.701012649e+09

1701012649 例如，某个银行系统通常运行顺畅，但是若每完成10 000次交易就把账户数据全部清除，我们对此肯定无法接受。如果你的账户正好是那个不幸被清空的账户，即便这套系统完美地完成了99.99%的交易，也无法平息你的怒火。因此，即使99%的案例都得到了妥善处理，性能统计的结果仍然取决于那些处理不当的案例会造成什么样的后果。如果是快餐店没有按时送来汉堡这种无关痛痒的事，这样的统计结果不会导致大问题。但如果是医院出具的常规体检报告中的死亡可能性，就肯定会让人十分担忧。

1701012650

1701012651 实践证明，在涉及大量数据或者大量调查对象时，基于概率的统计可以发挥极其重要的作用。无论这些调查对象代表的是“美国人民”还是“汽缸中的气体分子”，只要可以忽略统计方法对个体造成的影响，我们就可以借助数学工具对这些调查对象代表的群体行为做出准确程度较高的预测。

1701012652

1701012653 苏格兰物理学家詹姆斯·克拉克·麦克斯韦是在科学研究中最早大量使用数学工具的物理学家之一（我们将在下一章深入讨论），也是最早运用统计方法研究气体属性的物理学家之一。他选择了一些有强烈气味的物体作为研究对象。这些物体的气味（难闻或者好闻并不重要）传播到人的鼻子里，为什么需要那么长的时间呢？在19世纪，人们普遍认为气体分子的传播速度非常快，每秒可以运动几百米（或几百码）的距离，但是气味通常需要几秒钟的时间才能充斥整个房间。

1701012654

1701012655 德国物理学家鲁道夫·克劳修斯认为，这是因为分子发生碰撞的缘故。虽然分子的运动速度的确非常快，但是它们彼此之间不停地碰撞，以致改变了运动方向。所以，一堆新的分子（“气味分子”）需要很长时间才能完全扩散到空气中。

1701012656

1701012657 克劳修斯认为所有气体分子的运动速度都一样。但是，麦克斯韦认为这个说法没有道理，他更倾向于气体分子的运动速度各异，有的较快，有的较慢，速度分布曲线的峰值在某个区间范围内。麦克斯韦认为，如果确实如此，那么只有借助统计法，才能全面了解气体分子的特性。这就是所谓的“麦克斯韦分布”。尽管气体分子的运动速度随温度的变化而变化，但是麦克斯韦分布却找到了一个可行的计算方法。从此以后，人们掌握了预测气体变化特点的能力。

1701012658

1701012659 这种通过统计掌握多个变化个体的普遍情况的能力，不仅可以用来研究分子的特点，还可以用来研究人的行为。掌握了这种技能之后，我们才有可能了解大型人群内部正在发生的变化，并完成各种各样的预测，例如服装销量、药品需求等。但我们必须清楚，它也有局限性。即使是分子的统计特性，也有可能造成误导性的结果。我们以热力学第二定律为例。该定律称，热由高温物体向低温物体传递，封闭系统中的无序状态会保持不变或者增加。人们往往认为这是一条颠扑不破的真理，但事实上，它也是建立在统计学的基础之上的。

1701012660

1701012661 比如，根据这条定律，如果我们将两个盒子之间的隔板去掉，经过一段时间之后，两个盒子中温度不同的气体将混合到一起，变成均匀气体，其温度介于之前的两个温度之间。这是根据热力学第二定律得到的结果（两组有序程度较高的分子通过温度的选择，变成了无序的混合体）。但是，从理论上看，这些气体有可能是在重新建立短暂的完全随机的温度阶梯。一个盒子中的高温分子有可能碰巧比另一个盒子多，由于分子的数量非常多，这种偶然性不大可能产生非常大的影响，但是这种情况的确有可能发生。统计数据表现的是总体可能性，而不是必然性。

1701012662

1701012663 在使用统计方法研究人的活动时，我们有可能把典型规律套用到独特群体（例如上文所说的那些高温气体分子）上，还有可能认为关于一群人的统计规律适用于某一个体。我们无须考虑气体中单个分子的特性，因为所有分子基本上都是相同的，但人与气体分子不同。统计学历史上有一个非常有名的案例。1999年，一个英国母亲萨莉·克拉克被判定杀死了她的两个幼子，并因此在监狱中服刑近4年时间，直到这项判决被推翻之后才重获自由。克拉克含冤入狱的原因是，法庭在运用统计学工具时犯了严重的错误，不但相关人员的计算能力不过关，他们还将统计得出的整体普遍情况与个体的特定情况混为一谈。

1701012664

1701012665 这次审判是在克拉克的第二个幼子死亡之后进行的。造成克拉克的两个儿子在不足3个月时就夭折的罪魁祸首是婴儿猝死综合征（SIDS）。著名儿科专家、教授罗伊·梅多爵士应检方邀请，作为专家证人参与了此案的审判。不幸的是，梅多在概率与统计学方面的知识并不全面。研究表明，在没有其他影响因素的情况下，一个家庭中发生婴儿猝死的概率是1/8 543。梅多告诉陪审团，克拉克的两个儿子都死于婴儿猝死综合征的概率是这个数的平方，约为1/73 000 000。梅多声称，这种情况堪称百年不遇。

1701012666

1701012667 这个证据在克拉克案的判决中发挥了重要作用，但是其中存在着巨大的错误。卡尔达诺早就发现，两个无关事件的组合概率的正确计算方法是乘法。因此，我们知道，用一枚色子掷出6点的概率是1/6，连续掷出两个6点的概率是1/6×1/6 = 1/36。两次投掷是彼此不相关的两个事件，即第一次投掷不会对第二次投掷的结果产生任何影响。

1701012668

1701012669 但是，这次审判却忽略了一个问题：这个数学工具并不适用于婴儿猝死的情况。有充分的证据表明，这两起婴儿死亡事件并非彼此无关。如果一个家庭中发生过婴儿猝死，那么这类事件再次发生的可能性要远远高于普通家庭发生婴儿猝死的可能性。真相澄清后不久，有人公开发表研究结果，称一个英国家庭发生两个婴儿猝死事件的可能性并不是百年不遇，而是每18个月就有可能发生一次。

1701012670

1701012671 除了概率计算的错误，这起案件还存在其他问题，他们误认为“某件事偶然发生的概率很低”的意思等同于“发生某件事的原因并非偶然”。这是一个巨大的逻辑错误，没有任何道理可言。以“欧洲百万”乐透游戏为例，虽然中大奖的概率仅为1/116 531 799（这个可能性低到令人发指的地步），但是在大多数情况下，每周都会有幸运儿产生。由于参与的人非常多，所以不可能发生的事件也会时不时发生。我们并不能因为某件事发生的可能性非常低，就认为它不会发生。

1701012672

1701012673 即便涉及的人群不大，低概率事件也可能会发生。除忽视了这个简单的事实以外，他们还犯了一个严重的错误。婴儿猝死的概率是1/73 000 000（这个概率其实并不准确），但是他们居然因此认为，如果73 000 000个婴儿中的其他72 999 999个婴儿死亡，就一定是死于谋杀。检方应该认真权衡的两个概率是婴儿猝死的概率与一个英国家庭中母亲连续杀死两个孩子的概率，后者肯定不是72 999 999/73 000 000。统计学可以在科研（和法律事务）中发挥巨大作用，但前提条件是要正确使用。

1701012674

1701012675 显然，适用于热力学第二定律的统计学工具不能用来研究人的行为，尽管这个想法颇具诱惑力。人们倾向于“集体审议”或者聚众闹事这类行为，尽管其中有心理学原因，但这也说明一群人聚在一起，其行为的复杂程度不是一堆气体分子可以比拟的。在美国科幻小说家艾萨克·阿西莫夫以心理历史学的概念为基础创作而成的“基地”系列小说中，人们可以用一种异常强大的统计学工具研究某个文明，预测它未来的发展情况，甚至可以具体到某个事件。但是，现实中却永远不可能找到这样的统计工具。

1701012676

1701012677 阿西莫夫的创作灵感来自爱德华·吉本的经典历史学著作《罗马帝国衰亡史》。这部著作似乎告诉读者，人们可以从具体事物中找到线索，从而预见一个帝国走向衰亡的结局。阿西莫夫把这个（本来就不可靠的）概念拓展成一个研究行为特性的纯粹的数学工具。但是，为人们在现实中利用统计数据来预测复杂事物（例如文明）的未来情况时，就会像那些试图进行长期天气预报的人一样，面临同样的困难：系统过于复杂，涉及的变量过多，以致难以做出有意义的预测。在数学上，这被视为一种高度混乱的情况。这意味着开始时发生的小变化（在研究对象是一群人时，这些小变化通常是由个人的行为引起的）会对结果造成巨大的影响。

1701012678

1701012679 概率和统计学已经成为许多科学家手中威力巨大的武器。但是，事实证明，如果这些科学家的数学造诣不深，滥用统计工具就会造成一系列问题。毫无疑问，数学很有用，在科学研究中可以发挥重要作用。但是，如果过于重视统计学的“证据”作用，不仅对科学研究没有任何益处，还会导致我们在得到看似正确的数据之后做出错误的判断，还自以为揭开了天地万物的奥秘。

1701012680

1701012681 有的问题根本不是数学的错，而是数学工具应用不当造成的。我在《超感官》一书中讨论的超自然研究就经常犯这样的错误。假设我们正在测试心灵感应能力。我们预先安排了一场选拔测试，得分高的人才能留下来，成为实验对象。只要我们在正式测试时不考虑他们选拔测试的分数，这种做法就无可厚非，但是，选拔测试的得分通常会被计入正式测试的成绩。这些人之所以能入选，是因为他们的选拔测试得分很高，因此他们肯定会使测试结果偏向肯定性的一面。

1701012682

1701012683 这种“摘樱桃”式的有选择性地使用数据的行为，是统计中的一个常见错误。如果只选择那些对假设有利的数据，忽略或者不重视其他数据，最后得到的结果就会毫无用处，但这种情况却经常发生。有时候，这是一种明目张胆的有意行为；有时候，例如选拔测试，则是无意行为，测试者甚至不知道他们的行为已经导致结果发生了偏差。还有一种可能的情况是想方设法舍弃一些数据。如果实验出了问题，那么在审核这些数据之前将它们舍弃就不会有任何不妥。但是，数据一经审核就不应被舍弃，否则就会有选择性使用数据之嫌。有时候，我们甚至会下意识地找一个理由，去舍弃那些不利于预期结果的数据。

1701012684

1701012685 早期心灵心理学实验者J. B. 莱因也犯过一个无意识的“摘樱桃”的错误。莱因在历时多年的实验中，利用一套“齐纳”牌，针对多名个体进行了多次心灵感应测试。这套牌共计25张，每张印有一个符号，共有5种符号。莱因要求实验对象通过心灵感应，将牌上的符号告诉另一个人。实验中，一位名叫A. J. 林茨迈耶的实验对象连续15次猜中答案。于是，莱因欢欣鼓舞地宣布：“连续15次准确猜出牌上符号的概率是（1/5）15，约为300亿分之一。”

1701012686

1701012687 在这个实验中，“摘樱桃”的错误很难被人发现，错误的原因在于莱因在多轮实验中选择了一轮。如果他真的只做了一轮实验并且实验对象连续猜对了15张牌，他说的概率从技术上讲就是正确的，但是只做一轮实验还不足以保证结果的有效性。也就是说，除了这轮成绩优秀的实验以外，他还做了多轮实验。连续猜对15张牌的那轮测试并不是随机抽取的，而是因为它产生了这种优秀的结果才被选中了，这种行为本身就是在“摘樱桃”。

1701012688

1701012689 除了“摘樱桃”，应用不恰当统计方法的错误也比比皆是，这是因为统计方法有很多种，但并不是所有方法都适用于所有情况。最常见的问题也许是样本过小和样本选取不当。很多“软科学”实验的参与者比较少，往往很难得出明确的结论。样本选取不当的问题之所以经常发生，原因是人们在选择参与者时往往会选择有利于某种观点的人。曾经有人在调查最受欢迎汽车的活动中，选择的样本都是当时拥有某个特定车型汽车的人，这是一个非常典型的样本选取不当的例子，这个样本肯定不能代表所有人。

1701012690

1701012691 实验设计也有可能影响结果的公正性。在心理学的某些领域，实验者往往希望实验结果与他们的预期之间只有非常细微的偏差。假设在完全随机的条件下，我们预期某个实验得到A、B两种结果的机会各占一半。于是，我们准备进行多轮实验，以便得到更准确的数据。比如，进行25轮实验。选择做奇数轮实验，两种结果就不可能恰好各占50%的比例。

1701012692

1701012693 从很多实验可以看出，实验者收集的数据很可能是机缘巧合的结果。经常有报告宣称某种超心理能力肯定存在，因为碰巧出现这些结果的概率非常低。但是，实验者在发布这些信息的时候有些操之过急。原因之一在于，心理学家预防巧合发生的力度远小于物理学家。如果出现随机条件下发生概率为5%的结果，心理学实验人员通常就会认为这不是一种随机结果，尽管这种小概率结果经常出现。更糟糕的是，仅仅证明实验结果可能不是随机结果，往往不能证明某个假设是真实的，也就是说，不能证明这些是超心理能力作用的结果。

1701012694

1701012695 虽然研究人员使用统计工具的过程无可挑剔，但是由于数据解读的问题，他们仍然很难解释实验结果的含义。欧洲核子研究中心大型强子对撞机寻找希格斯玻色子的项目显然就遇到了这个难题。希格斯玻色子是粒子物理学标准模型预言的一种粒子，这种粒子可以使其他粒子具有质量。发现希格斯玻色子与在野外发现一只稀有的老虎是不同的。看到老虎，你可以捕捉、拍照或者取血样并验DNA（脱氧核糖核酸），以确定你看到的确实是一只老虎。但是在寻找希格斯玻色子时，这些方法全部失去了作用。别的不说，实验并没有真的让我们看到希格斯玻色子，而是其他粒子留下来的间接痕迹，实验者认为这些痕迹是希格斯玻色子衰变造成的。由于不是直接证明，实验人员只能通过发生概率来解释，问题也随之而来了。

1701012696

1701012697 科学家经常用“西格玛”（σ）这个符号表示标准差这个统计量度。如果把某个事件随机产生某些结果的频率绘制成图，往往就会得到一种叫作正态分布的钟形曲线。比如，手机的重量大多位于某个范围之内，均匀地分布在平均重量的周围。

1701012698

[ 上一页 ] [ :1.701012649e+09 ] [ 下一页 ]