打字猴:1.700506104e+09
1700506104
1700506105
1700506106 数据科学家养成手册 [:1700503547]
1700506107 数据科学家养成手册 8.5 对照实验
1700506108
1700506109 有了数据来源,有了抽样方法,还需要一些方式来帮助我们识别认知对象的差异和差异来源,这就用到了对照实验。对照实验是一种统计研究的方法,在互联网领域和其他涉及大量服务对象的行业中,会倾向于使用一种叫作“AB测试”的对比方式,其实就是统计学中的对照实验。
1700506110
1700506111 对照实验的思想方法很简单。将观测对象分为A和B两个组,A组称为“实验组”,B组称为“对照组”。在实验过程中有意识地改变某个变量(例如变量x)的情况,然后观察另一个变量(例如变量y)变化的情况。对实验组实施一个动作,而对对照组不实施这个动作。一段时间后,对比实验组和对照组中的个体对象是否体现出差异,就是刚刚说到的变量y的差异是否存在。一般来说,两个组在整个实验过程中的环境变化要保持一致,以尽可能消除其他因素带来的影响。
1700506112
1700506113 例如,在药品的临床测试中,要测试一种新药是否真的有效,或者其效果是否比其他药品的效果好,通常会采用“随机对照试验”(Randomized Controlled Trial,RCT)。RCT将病患分为两组:如果要验证药品是否有效,就一组给药,另一组不给药;如果要对比两种药物的效果,那就一组给待测药,另一组给一种同类对比药,在疗程结束后对比治愈率。为了避免人为的情绪化因素及个别样例的特殊反应对测试结果的影响,又进化出一种叫作“大样本随机双盲试验”的方法,算是对RCT进一步科学化的诠释。
1700506114
1700506115 大样本随机双盲试验的特点如下。
1700506116
1700506117 第一,大样本。样本量加大会稀释个别样例的特殊反应对统计结果的影响,这种做法就是统计学中所说的“避免过拟合”。
1700506118
1700506119 第二,双盲。病人和医生对药品和分发对象事先不知情,也就是说,病人和医生都不知道某位病人服下的是待测药还是对比药,所有的人都在这个被他人安排好的测试中一步一步进行试验,直到最后才去对比测试的结果。这就避免了在人与人接触的过程中由于主观情绪造成的一些难以把握的因素。例如,医生如果主观上对某种药的效果不看好,或者认为某种药的效果不错,在交流过程中就会或多或少地对病人进行情绪上的暗示,这种暗示对病人配合治疗程度的影响会干扰测试结果——说不清究竟是药品有效,还是其中有更多“安慰剂”(9)的成分。双盲测试同样是为了保证刚刚所说的“实验过程中的环境变化要保持一致,以尽可能消除其他因素带来的影响”。
1700506120
1700506121 早在17世纪初,英国海军就试图运用实验的方法找到坏血病的成因。当时,长期在海上航行的水手们面临着坏血病的威胁,如果得了这种病,皮肤上会出现青灰色的斑点,牙龈会大量出血。1747年,詹姆斯·林德(10)(如图8-4所示)做了一很著名的实验,让12位患有严重坏血病的海员在航行中食用完全相同的食物,唯一不同的是,他们会分别服用当时传说可以治疗坏血病的“药物”。其中,2位海员每天吃2个橘子和1个柠檬,2位海员每天喝苹果汁,其他海员分别每天服用稀硫酸、酸醋、海水或其他当时认为可以治疗坏血病的药物。6天之后,只有吃橘子和柠檬的2位海员病情好转,其他人病情如前。1748年,詹姆斯·林德以优异的成绩获得爱丁堡大学医学博士学位后,回到海军任军医。
1700506122
1700506123
1700506124
1700506125
1700506126 图8-4 印有詹姆斯·林德头像的纪念邮票
1700506127
1700506128 在这项实验中,吃橘子和柠檬的2位海员构成了实验组,喝苹果汁和服用其他“偏方”的海员构成了对照组。需要对照组的原因是,如果没有对照组,就无法判定刚才我们所说的变量x是否对变量y产生影响。一个好的实验设计都由1个实验组及1个或多个对照组组成。这种方法广谱且有效,是一种很好的认知方式。
1700506129
1700506130 如果我们要回到1747年去帮助英国海军设计这个实验,同样也要注意,3个对照组的对象应该尽量随机,例如在实验过程中应该考虑他们对饮食的偏好。在实验组和对照组中,都应该放入喜欢与不喜欢吃橘子和柠檬的两类人,而且数量应该相同。在这种环境下,起码可以避免饮食喜好问题对疗效的影响。
1700506131
1700506132 一个好的实验,对照组和实验组的产生不仅应该是随机的,而且应该是匹配的。所谓匹配是指对实验单位的背景材料进行分析比较,也就是像我们刚刚假设的那样,将情况类似的每对对象分别随机地分配到实验组和对照组。例如,在前面提到的大样本随机双盲试验中,会尽量让接受实验的病人按照年龄、性别、病情等变量进行匹配,然后将他们分别分配到实验组和对照组中。这样,不同组中的病人就有大致相同的背景。
1700506133
1700506134 但是,我们必须要注意一个问题,那就是:实验的理想程度越高,实施的成本也就越高。这是一个实验可信程度与成本的平衡性问题。在一个实验中,对照组样本的“背景”究竟是一个什么样的范畴,这个问题需要我们认真考虑。在刚刚说的詹姆斯·林德所做的橘子和柠檬对坏血病影响的实验中我们已经发现了端倪,这个所谓的“背景”就是关于对实验结果有影响的参数的选择问题。例如,是否应该让2组水手尽量保持体重、身高、家族病史等的分布相近。因为,不选择这个参数作为背景进行随机分布的前提就是:我们认定这个参数对实验结果的影响可以忽略不计,否则实验结果其实是不可信的。
1700506135
1700506136 我们来说一个极端甚至有些荒诞的例子。在一个实验中,设计有A组和B组分别作为实验组和对照组,A组10人全部为40岁以上男性,B组10人全部为40岁以下女性,然后观察2组对象是否生长胡须。在实验记录中记下:“A组10人,40岁以上;B组10人40岁以下。经过观察,A组全部长胡须,B组全部没有长胡须。”这会不会得出“40岁是人长胡须与否的分水岭”这样的结论?
1700506137
1700506138 无论出于什么原因,实验结果的记录者漏记了2个样本组的性别。虽然记录的内容是“准确无误”的,可是最终结果却荒谬到家了。要注意:漏记参数和在无意中没有把参数选入“背景”导致的结果很可能一样可怕。问题是:应该把什么样的因素考虑进去呢?
1700506139
1700506140 这个边界的划定在我看来是一个“性价比”的问题。学术上虽然没有确切的定义,不过在实际操作中,我们显然会优先考虑放入那些可能对统计结果产生影响的因素及确定成本较为廉价的因素,这个原则应该是没有问题的。
1700506141
1700506142 当然,这种事情同样可以通过其他方式避免。在以统计学为理论基础的机器学习的知识体系中,有一个环节叫作“Validation”(验证),也就是把实验结论中的限制条件附加在另外一些观察对象上,看看是否能得到与实验相同的结论,从而检查其应验性。如果能够得到同样的结论,就说明这种实验结论的可靠性是值得信任的。这个环节非常重要,也是确保这种归纳认知过程科学性的一种关键手段。对照实验是一种非常广谱的实验方式,对那些维度过于复杂的认知对象来说,对照实验是通过压缩差异维度的数量来提升认知能力的有效手段。
1700506143
1700506144
1700506145
1700506146
1700506147 数据科学家养成手册 [:1700503548]
1700506148 数据科学家养成手册 8.6 误差
1700506149
1700506150 误差作为一个客观存在的现象,从我们意识到这个世界的存在时就已经开始了。在我们用某种量具进行数值测量的时候,误差已然存在,哪怕是再精确的量具都无法消灭误差,只能尽可能让误差接近零。这就是理想和现实的差异。
1700506151
1700506152 误差有两种,分别是抽样误差和非抽样误差。
1700506153
[ 上一页 ]  [ :1.700506104e+09 ]  [ 下一页 ]