1700506082
数据不论是间接来源还是直接来源,一定要建立在足够可信的基础上。如果对数据的信任程度不够,不建议盲目地开展分析,因为分析结果通常会变得不可靠。这里指的不是误差,误差是客观存在的,也无法避免。这里说的是数据来源、统计口径、记录方式等的可信度问题。数据来源就是我们所说的“认知”的第一步,是作为分析者观测的开始一环。不知道你是否能意识到,这一环中的数据解释说明和数据可靠性判断是统计能够正常进行的基本保障。在解读数据之前,要确保其可靠性能够满足我们对解读精度的需求。
1700506083
1700506084
1700506085
1700506086
1700506088
数据科学家养成手册 8.4 抽样
1700506089
1700506090
通常情况下,把总体全部作为样本进行调查研究的成本是极为高昂的。在对大量的人口对象进行统计的时候就有这个问题。对几十亿条数据进行多维度的统计分析,这样的计算,即使是用计算机来进行,也有无法忽略的成本。此外,检测本身可能存在破坏性。例如,在工业品出厂检测中,很多情况下,被测对象在被拆解后无法再流向市场,这就形成了一种生产过程中的损失。所以,有相当多的统计调查都是通过抽样来进行的,因为这种方式更为经济,而且可行性更高。
1700506091
1700506092
为了让抽取的样本对总体有足够好的代表性,在生产中,最常使用的方法就是概率抽样(Probability Sampling),也叫作随机抽样。例如,使用正N面体的匀质骰子进行抽样,使产生每个标号数字的概率相同(如图8-3所示),这种方式广泛地应用于生产检验环节、博彩业及其他领域。除此之外,还有分层抽样(Stratified Sampling)和非概率抽样(Non-Probability Sampling)等多种抽样方法。
1700506093
1700506094
1700506095
1700506096
1700506097
图8-3 20面骰子和6面骰子
1700506098
1700506099
抽样的目的是用少量的数据样本来代表总体,也就是说,希望通过比例性的扩大反推抽样集合中样本的特性在总体中的量与分布。所以,抽样通常被认为是随机性越高就越理想,最好能够避免对某种特征样本的集中抽取——除非实验设计的研究对象就是这些特征样本。
1700506100
1700506101
在日常生活中,如果要实现这种尽可能随机的抽样,可以使用匀质骰子或者计算机语言中的随机函数。抽取的对象通常是类似员工ID的尾号、手机号码的尾号,以及其他一些在生成过程中没有经过过多人为干预的散列特性很好的序列。
1700506102
1700506103
1700506104
1700506105
1700506107
数据科学家养成手册 8.5 对照实验
1700506108
1700506109
有了数据来源,有了抽样方法,还需要一些方式来帮助我们识别认知对象的差异和差异来源,这就用到了对照实验。对照实验是一种统计研究的方法,在互联网领域和其他涉及大量服务对象的行业中,会倾向于使用一种叫作“AB测试”的对比方式,其实就是统计学中的对照实验。
1700506110
1700506111
对照实验的思想方法很简单。将观测对象分为A和B两个组,A组称为“实验组”,B组称为“对照组”。在实验过程中有意识地改变某个变量(例如变量x)的情况,然后观察另一个变量(例如变量y)变化的情况。对实验组实施一个动作,而对对照组不实施这个动作。一段时间后,对比实验组和对照组中的个体对象是否体现出差异,就是刚刚说到的变量y的差异是否存在。一般来说,两个组在整个实验过程中的环境变化要保持一致,以尽可能消除其他因素带来的影响。
1700506112
1700506113
例如,在药品的临床测试中,要测试一种新药是否真的有效,或者其效果是否比其他药品的效果好,通常会采用“随机对照试验”(Randomized Controlled Trial,RCT)。RCT将病患分为两组:如果要验证药品是否有效,就一组给药,另一组不给药;如果要对比两种药物的效果,那就一组给待测药,另一组给一种同类对比药,在疗程结束后对比治愈率。为了避免人为的情绪化因素及个别样例的特殊反应对测试结果的影响,又进化出一种叫作“大样本随机双盲试验”的方法,算是对RCT进一步科学化的诠释。
1700506114
1700506115
大样本随机双盲试验的特点如下。
1700506116
1700506117
第一,大样本。样本量加大会稀释个别样例的特殊反应对统计结果的影响,这种做法就是统计学中所说的“避免过拟合”。
1700506118
1700506119
第二,双盲。病人和医生对药品和分发对象事先不知情,也就是说,病人和医生都不知道某位病人服下的是待测药还是对比药,所有的人都在这个被他人安排好的测试中一步一步进行试验,直到最后才去对比测试的结果。这就避免了在人与人接触的过程中由于主观情绪造成的一些难以把握的因素。例如,医生如果主观上对某种药的效果不看好,或者认为某种药的效果不错,在交流过程中就会或多或少地对病人进行情绪上的暗示,这种暗示对病人配合治疗程度的影响会干扰测试结果——说不清究竟是药品有效,还是其中有更多“安慰剂”(9)的成分。双盲测试同样是为了保证刚刚所说的“实验过程中的环境变化要保持一致,以尽可能消除其他因素带来的影响”。
1700506120
1700506121
早在17世纪初,英国海军就试图运用实验的方法找到坏血病的成因。当时,长期在海上航行的水手们面临着坏血病的威胁,如果得了这种病,皮肤上会出现青灰色的斑点,牙龈会大量出血。1747年,詹姆斯·林德(10)(如图8-4所示)做了一很著名的实验,让12位患有严重坏血病的海员在航行中食用完全相同的食物,唯一不同的是,他们会分别服用当时传说可以治疗坏血病的“药物”。其中,2位海员每天吃2个橘子和1个柠檬,2位海员每天喝苹果汁,其他海员分别每天服用稀硫酸、酸醋、海水或其他当时认为可以治疗坏血病的药物。6天之后,只有吃橘子和柠檬的2位海员病情好转,其他人病情如前。1748年,詹姆斯·林德以优异的成绩获得爱丁堡大学医学博士学位后,回到海军任军医。
1700506122
1700506123
1700506124
1700506125
1700506126
图8-4 印有詹姆斯·林德头像的纪念邮票
1700506127
1700506128
在这项实验中,吃橘子和柠檬的2位海员构成了实验组,喝苹果汁和服用其他“偏方”的海员构成了对照组。需要对照组的原因是,如果没有对照组,就无法判定刚才我们所说的变量x是否对变量y产生影响。一个好的实验设计都由1个实验组及1个或多个对照组组成。这种方法广谱且有效,是一种很好的认知方式。
1700506129
1700506130
如果我们要回到1747年去帮助英国海军设计这个实验,同样也要注意,3个对照组的对象应该尽量随机,例如在实验过程中应该考虑他们对饮食的偏好。在实验组和对照组中,都应该放入喜欢与不喜欢吃橘子和柠檬的两类人,而且数量应该相同。在这种环境下,起码可以避免饮食喜好问题对疗效的影响。
1700506131
[
上一页 ]
[ :1.700506082e+09 ]
[
下一页 ]