打字猴:1.70050609e+09

1700506090 通常情况下，把总体全部作为样本进行调查研究的成本是极为高昂的。在对大量的人口对象进行统计的时候就有这个问题。对几十亿条数据进行多维度的统计分析，这样的计算，即使是用计算机来进行，也有无法忽略的成本。此外，检测本身可能存在破坏性。例如，在工业品出厂检测中，很多情况下，被测对象在被拆解后无法再流向市场，这就形成了一种生产过程中的损失。所以，有相当多的统计调查都是通过抽样来进行的，因为这种方式更为经济，而且可行性更高。

1700506091

1700506092 为了让抽取的样本对总体有足够好的代表性，在生产中，最常使用的方法就是概率抽样（Probability Sampling），也叫作随机抽样。例如，使用正N面体的匀质骰子进行抽样，使产生每个标号数字的概率相同（如图8-3所示），这种方式广泛地应用于生产检验环节、博彩业及其他领域。除此之外，还有分层抽样（Stratified Sampling）和非概率抽样（Non-Probability Sampling）等多种抽样方法。

1700506093

1700506094

1700506095

1700506096

1700506097 图8-3　20面骰子和6面骰子

1700506098

1700506099 抽样的目的是用少量的数据样本来代表总体，也就是说，希望通过比例性的扩大反推抽样集合中样本的特性在总体中的量与分布。所以，抽样通常被认为是随机性越高就越理想，最好能够避免对某种特征样本的集中抽取——除非实验设计的研究对象就是这些特征样本。

1700506100

1700506101 在日常生活中，如果要实现这种尽可能随机的抽样，可以使用匀质骰子或者计算机语言中的随机函数。抽取的对象通常是类似员工ID的尾号、手机号码的尾号，以及其他一些在生成过程中没有经过过多人为干预的散列特性很好的序列。

1700506102

1700506103

1700506104

1700506105

1700506106 数据科学家养成手册 [:1700503547]

1700506107 数据科学家养成手册 8.5　对照实验

1700506108

1700506109 有了数据来源，有了抽样方法，还需要一些方式来帮助我们识别认知对象的差异和差异来源，这就用到了对照实验。对照实验是一种统计研究的方法，在互联网领域和其他涉及大量服务对象的行业中，会倾向于使用一种叫作“AB测试”的对比方式，其实就是统计学中的对照实验。

1700506110

1700506111 对照实验的思想方法很简单。将观测对象分为A和B两个组，A组称为“实验组”，B组称为“对照组”。在实验过程中有意识地改变某个变量（例如变量x）的情况，然后观察另一个变量（例如变量y）变化的情况。对实验组实施一个动作，而对对照组不实施这个动作。一段时间后，对比实验组和对照组中的个体对象是否体现出差异，就是刚刚说到的变量y的差异是否存在。一般来说，两个组在整个实验过程中的环境变化要保持一致，以尽可能消除其他因素带来的影响。

1700506112

1700506113 例如，在药品的临床测试中，要测试一种新药是否真的有效，或者其效果是否比其他药品的效果好，通常会采用“随机对照试验”（Randomized Controlled Trial，RCT）。RCT将病患分为两组：如果要验证药品是否有效，就一组给药，另一组不给药；如果要对比两种药物的效果，那就一组给待测药，另一组给一种同类对比药，在疗程结束后对比治愈率。为了避免人为的情绪化因素及个别样例的特殊反应对测试结果的影响，又进化出一种叫作“大样本随机双盲试验”的方法，算是对RCT进一步科学化的诠释。

1700506114

1700506115 大样本随机双盲试验的特点如下。

1700506116

1700506117 第一，大样本。样本量加大会稀释个别样例的特殊反应对统计结果的影响，这种做法就是统计学中所说的“避免过拟合”。

1700506118

1700506119 第二，双盲。病人和医生对药品和分发对象事先不知情，也就是说，病人和医生都不知道某位病人服下的是待测药还是对比药，所有的人都在这个被他人安排好的测试中一步一步进行试验，直到最后才去对比测试的结果。这就避免了在人与人接触的过程中由于主观情绪造成的一些难以把握的因素。例如，医生如果主观上对某种药的效果不看好，或者认为某种药的效果不错，在交流过程中就会或多或少地对病人进行情绪上的暗示，这种暗示对病人配合治疗程度的影响会干扰测试结果——说不清究竟是药品有效，还是其中有更多“安慰剂”(9)的成分。双盲测试同样是为了保证刚刚所说的“实验过程中的环境变化要保持一致，以尽可能消除其他因素带来的影响”。

1700506120

1700506121 早在17世纪初，英国海军就试图运用实验的方法找到坏血病的成因。当时，长期在海上航行的水手们面临着坏血病的威胁，如果得了这种病，皮肤上会出现青灰色的斑点，牙龈会大量出血。1747年，詹姆斯·林德(10)（如图8-4所示）做了一很著名的实验，让12位患有严重坏血病的海员在航行中食用完全相同的食物，唯一不同的是，他们会分别服用当时传说可以治疗坏血病的“药物”。其中，2位海员每天吃2个橘子和1个柠檬，2位海员每天喝苹果汁，其他海员分别每天服用稀硫酸、酸醋、海水或其他当时认为可以治疗坏血病的药物。6天之后，只有吃橘子和柠檬的2位海员病情好转，其他人病情如前。1748年，詹姆斯·林德以优异的成绩获得爱丁堡大学医学博士学位后，回到海军任军医。

1700506122

1700506123

1700506124

1700506125

1700506126 图8-4　印有詹姆斯·林德头像的纪念邮票

1700506127

1700506128 在这项实验中，吃橘子和柠檬的2位海员构成了实验组，喝苹果汁和服用其他“偏方”的海员构成了对照组。需要对照组的原因是，如果没有对照组，就无法判定刚才我们所说的变量x是否对变量y产生影响。一个好的实验设计都由1个实验组及1个或多个对照组组成。这种方法广谱且有效，是一种很好的认知方式。

1700506129

1700506130 如果我们要回到1747年去帮助英国海军设计这个实验，同样也要注意，3个对照组的对象应该尽量随机，例如在实验过程中应该考虑他们对饮食的偏好。在实验组和对照组中，都应该放入喜欢与不喜欢吃橘子和柠檬的两类人，而且数量应该相同。在这种环境下，起码可以避免饮食喜好问题对疗效的影响。

1700506131

1700506132 一个好的实验，对照组和实验组的产生不仅应该是随机的，而且应该是匹配的。所谓匹配是指对实验单位的背景材料进行分析比较，也就是像我们刚刚假设的那样，将情况类似的每对对象分别随机地分配到实验组和对照组。例如，在前面提到的大样本随机双盲试验中，会尽量让接受实验的病人按照年龄、性别、病情等变量进行匹配，然后将他们分别分配到实验组和对照组中。这样，不同组中的病人就有大致相同的背景。

1700506133

1700506134 但是，我们必须要注意一个问题，那就是：实验的理想程度越高，实施的成本也就越高。这是一个实验可信程度与成本的平衡性问题。在一个实验中，对照组样本的“背景”究竟是一个什么样的范畴，这个问题需要我们认真考虑。在刚刚说的詹姆斯·林德所做的橘子和柠檬对坏血病影响的实验中我们已经发现了端倪，这个所谓的“背景”就是关于对实验结果有影响的参数的选择问题。例如，是否应该让2组水手尽量保持体重、身高、家族病史等的分布相近。因为，不选择这个参数作为背景进行随机分布的前提就是：我们认定这个参数对实验结果的影响可以忽略不计，否则实验结果其实是不可信的。

1700506135

1700506136 我们来说一个极端甚至有些荒诞的例子。在一个实验中，设计有A组和B组分别作为实验组和对照组，A组10人全部为40岁以上男性，B组10人全部为40岁以下女性，然后观察2组对象是否生长胡须。在实验记录中记下：“A组10人，40岁以上；B组10人40岁以下。经过观察，A组全部长胡须，B组全部没有长胡须。”这会不会得出“40岁是人长胡须与否的分水岭”这样的结论？

1700506137

1700506138 无论出于什么原因，实验结果的记录者漏记了2个样本组的性别。虽然记录的内容是“准确无误”的，可是最终结果却荒谬到家了。要注意：漏记参数和在无意中没有把参数选入“背景”导致的结果很可能一样可怕。问题是：应该把什么样的因素考虑进去呢？

1700506139

[ 上一页 ] [ :1.70050609e+09 ] [ 下一页 ]