打字猴:1.70050613e+09

1700506130 如果我们要回到1747年去帮助英国海军设计这个实验，同样也要注意，3个对照组的对象应该尽量随机，例如在实验过程中应该考虑他们对饮食的偏好。在实验组和对照组中，都应该放入喜欢与不喜欢吃橘子和柠檬的两类人，而且数量应该相同。在这种环境下，起码可以避免饮食喜好问题对疗效的影响。

1700506131

1700506132 一个好的实验，对照组和实验组的产生不仅应该是随机的，而且应该是匹配的。所谓匹配是指对实验单位的背景材料进行分析比较，也就是像我们刚刚假设的那样，将情况类似的每对对象分别随机地分配到实验组和对照组。例如，在前面提到的大样本随机双盲试验中，会尽量让接受实验的病人按照年龄、性别、病情等变量进行匹配，然后将他们分别分配到实验组和对照组中。这样，不同组中的病人就有大致相同的背景。

1700506133

1700506134 但是，我们必须要注意一个问题，那就是：实验的理想程度越高，实施的成本也就越高。这是一个实验可信程度与成本的平衡性问题。在一个实验中，对照组样本的“背景”究竟是一个什么样的范畴，这个问题需要我们认真考虑。在刚刚说的詹姆斯·林德所做的橘子和柠檬对坏血病影响的实验中我们已经发现了端倪，这个所谓的“背景”就是关于对实验结果有影响的参数的选择问题。例如，是否应该让2组水手尽量保持体重、身高、家族病史等的分布相近。因为，不选择这个参数作为背景进行随机分布的前提就是：我们认定这个参数对实验结果的影响可以忽略不计，否则实验结果其实是不可信的。

1700506135

1700506136 我们来说一个极端甚至有些荒诞的例子。在一个实验中，设计有A组和B组分别作为实验组和对照组，A组10人全部为40岁以上男性，B组10人全部为40岁以下女性，然后观察2组对象是否生长胡须。在实验记录中记下：“A组10人，40岁以上；B组10人40岁以下。经过观察，A组全部长胡须，B组全部没有长胡须。”这会不会得出“40岁是人长胡须与否的分水岭”这样的结论？

1700506137

1700506138 无论出于什么原因，实验结果的记录者漏记了2个样本组的性别。虽然记录的内容是“准确无误”的，可是最终结果却荒谬到家了。要注意：漏记参数和在无意中没有把参数选入“背景”导致的结果很可能一样可怕。问题是：应该把什么样的因素考虑进去呢？

1700506139

1700506140 这个边界的划定在我看来是一个“性价比”的问题。学术上虽然没有确切的定义，不过在实际操作中，我们显然会优先考虑放入那些可能对统计结果产生影响的因素及确定成本较为廉价的因素，这个原则应该是没有问题的。

1700506141

1700506142 当然，这种事情同样可以通过其他方式避免。在以统计学为理论基础的机器学习的知识体系中，有一个环节叫作“Validation”（验证），也就是把实验结论中的限制条件附加在另外一些观察对象上，看看是否能得到与实验相同的结论，从而检查其应验性。如果能够得到同样的结论，就说明这种实验结论的可靠性是值得信任的。这个环节非常重要，也是确保这种归纳认知过程科学性的一种关键手段。对照实验是一种非常广谱的实验方式，对那些维度过于复杂的认知对象来说，对照实验是通过压缩差异维度的数量来提升认知能力的有效手段。

1700506143

1700506144

1700506145

1700506146

1700506147 数据科学家养成手册 [:1700503548]

1700506148 数据科学家养成手册 8.6　误差

1700506149

1700506150 误差作为一个客观存在的现象，从我们意识到这个世界的存在时就已经开始了。在我们用某种量具进行数值测量的时候，误差已然存在，哪怕是再精确的量具都无法消灭误差，只能尽可能让误差接近零。这就是理想和现实的差异。

1700506151

1700506152 误差有两种，分别是抽样误差和非抽样误差。

1700506153

1700506154 数据科学家养成手册 [:1700503549]

1700506155 8.6.1　抽样误差

1700506156

1700506157 抽样误差（Sampling Error）是指由抽样的随机性引起的样本结果与总体真值之间的误差。由于抽样本身是一种用少量样本“代表”总体的行为，所以无法避免“以偏概全”的情况发生。也就是说，基于抽样的分析对基于总体的分析来说是一种样本缩减的次优解，牺牲的是抽样误差，得到的是统计计算效率。我们只要从这种角度来看待这两种方案的取舍与代偿性就好。

1700506158

1700506159 不仅是在同一次的抽样与总体之间会产生统计差异，不同的抽样批次之间也会有差异。

1700506160

1700506161 假设在10000个零件中有1000个残次品，我们随机抽取100个进行合格率检验。第1轮抽取的100个零件中有10个残次品，残次率为10％；第2轮抽取的100个零件中有11个残次品，残次率为11％。然后，进行第3轮、第4轮……大部分的样本结果会落在一个区间内。

1700506162

1700506163 在这里，我用Python编写了一个脚本，对实验过程进行模拟。

1700506164

1700506165 import randompopulation=[0 for i in range(10000)]for i in range(1000): population[i]=1for iterator in range(10000): sample=[0 for i in range(100)] for i in range(100): sample[i]=population[random.randrange(10000)] count=0 for i in range(100): count+=sample[i] print ‘%.2f’ %(float(count)/100)

1700506166

1700506167 以上代码模拟了10000次从有1000个残次品的10000个零件中每轮抽取100个零件的过程，最后输出的值可以拿来做分析。下面示意性地给出输出内容的前10行。

1700506168

1700506169 0.100.110.170.080.090.150.070.100.080.09

1700506170

1700506171 将每次抽样的结果进行归纳（如表8-1所示）。其中，“0.01”是指抽取到残次品的比率，代表“100个产品中有1个残次品”，这样的抽取结果出现了5次；有17次抽取到2个残次品；有49次抽取到3个残次品……以此类推。

1700506172

1700506173 表8-1　数量与分布

1700506174

1700506175

1700506176

1700506177

1700506178 我们把这个结果画成一幅图（如图8-5所示），横坐标是比率（0～0.22），纵坐标是轮数，很明显能看出这是一个正态分布的情况。有95％的轮数都取在中心0.1、左右各0.06的范围内。在0.1-0.06到0.1+0.06的范围内，和全部残次品真实值0.1（10000个零件中有1000个残次品）来比，0.06就是抽样误差。

1700506179

[ 上一页 ] [ :1.70050613e+09 ] [ 下一页 ]