1700506068
数据科学家养成手册 8.3 数据来源
1700506069
1700506070
要想进行统计,首先要确定统计对象,也就是前面我们提到的总体。在这之后,就是从总体中把数据收集上来。
1700506071
1700506072
常用的数据来源有两种。第一种是间接来源,也就是由他人通过调查或实验的方式收集的数据,使用者只是找到它们并加以使用。第二种是直接来源,即通过自己的调查或实验,直接获得第一手数据。
1700506073
1700506074
间接来源的数据一般来说会有很多第三方渠道提供,例如政府统计部门、专业调查机构、专业期刊文献、学术会议资料库提供的数据等,也包括一些单位自己收集并整理的营业记录、消费记录等。只要不是统计分析的实施者亲自获取的数据,都应该算作间接来源的数据。
1700506075
1700506076
间接来源的数据一般来说获取成本比较低,不过局限性也比较大,主要存在的问题有统计口径不一致、时效性不强等,所以在使用前需要对这些数据进行评估,例如数据提供方的信誉度、数据的收集手段、数据的收集时间等,从而最终判定这样一份数据是否可以作为统计分析的对象。
1700506077
1700506078
直接来源的数据,其获取成本通常比较高。在很多情况下,当间接来源的数据无法解决我们要研究的问题时,也只能考虑使用直接来源的数据,就是通过调查方法获得数据,或者通过实验方法获得数据。前者获得的数据叫作调查数据,后者获得的数据叫作实验数据。不论是调查数据还是实验数据,要想获得它们,都需要设计一套严谨的实施过程,从调查、数据产生、数据收集到数据分析,都需要有严格且科学的解释作为保障。
1700506079
1700506080
调查通常以一定范围内的社会人群为总体,实验通常针对具有自然性的现象。基本可以这样认为:需要人对类似答卷作出主观性回答的形式(即使是选择题)都可以称为调查;实验则是对观测现象进行相对客观的记录(例如,读取温度计的读数,以及对实验中符合某种状态的对象进行数量记录等)。在互联网和物联网产品中,通过终端收集的数据通常可以算作实验数据。
1700506081
1700506082
数据不论是间接来源还是直接来源,一定要建立在足够可信的基础上。如果对数据的信任程度不够,不建议盲目地开展分析,因为分析结果通常会变得不可靠。这里指的不是误差,误差是客观存在的,也无法避免。这里说的是数据来源、统计口径、记录方式等的可信度问题。数据来源就是我们所说的“认知”的第一步,是作为分析者观测的开始一环。不知道你是否能意识到,这一环中的数据解释说明和数据可靠性判断是统计能够正常进行的基本保障。在解读数据之前,要确保其可靠性能够满足我们对解读精度的需求。
1700506083
1700506084
1700506085
1700506086
1700506088
数据科学家养成手册 8.4 抽样
1700506089
1700506090
通常情况下,把总体全部作为样本进行调查研究的成本是极为高昂的。在对大量的人口对象进行统计的时候就有这个问题。对几十亿条数据进行多维度的统计分析,这样的计算,即使是用计算机来进行,也有无法忽略的成本。此外,检测本身可能存在破坏性。例如,在工业品出厂检测中,很多情况下,被测对象在被拆解后无法再流向市场,这就形成了一种生产过程中的损失。所以,有相当多的统计调查都是通过抽样来进行的,因为这种方式更为经济,而且可行性更高。
1700506091
1700506092
为了让抽取的样本对总体有足够好的代表性,在生产中,最常使用的方法就是概率抽样(Probability Sampling),也叫作随机抽样。例如,使用正N面体的匀质骰子进行抽样,使产生每个标号数字的概率相同(如图8-3所示),这种方式广泛地应用于生产检验环节、博彩业及其他领域。除此之外,还有分层抽样(Stratified Sampling)和非概率抽样(Non-Probability Sampling)等多种抽样方法。
1700506093
1700506094
1700506095
1700506096
1700506097
图8-3 20面骰子和6面骰子
1700506098
1700506099
抽样的目的是用少量的数据样本来代表总体,也就是说,希望通过比例性的扩大反推抽样集合中样本的特性在总体中的量与分布。所以,抽样通常被认为是随机性越高就越理想,最好能够避免对某种特征样本的集中抽取——除非实验设计的研究对象就是这些特征样本。
1700506100
1700506101
在日常生活中,如果要实现这种尽可能随机的抽样,可以使用匀质骰子或者计算机语言中的随机函数。抽取的对象通常是类似员工ID的尾号、手机号码的尾号,以及其他一些在生成过程中没有经过过多人为干预的散列特性很好的序列。
1700506102
1700506103
1700506104
1700506105
1700506107
数据科学家养成手册 8.5 对照实验
1700506108
1700506109
有了数据来源,有了抽样方法,还需要一些方式来帮助我们识别认知对象的差异和差异来源,这就用到了对照实验。对照实验是一种统计研究的方法,在互联网领域和其他涉及大量服务对象的行业中,会倾向于使用一种叫作“AB测试”的对比方式,其实就是统计学中的对照实验。
1700506110
1700506111
对照实验的思想方法很简单。将观测对象分为A和B两个组,A组称为“实验组”,B组称为“对照组”。在实验过程中有意识地改变某个变量(例如变量x)的情况,然后观察另一个变量(例如变量y)变化的情况。对实验组实施一个动作,而对对照组不实施这个动作。一段时间后,对比实验组和对照组中的个体对象是否体现出差异,就是刚刚说到的变量y的差异是否存在。一般来说,两个组在整个实验过程中的环境变化要保持一致,以尽可能消除其他因素带来的影响。
1700506112
1700506113
例如,在药品的临床测试中,要测试一种新药是否真的有效,或者其效果是否比其他药品的效果好,通常会采用“随机对照试验”(Randomized Controlled Trial,RCT)。RCT将病患分为两组:如果要验证药品是否有效,就一组给药,另一组不给药;如果要对比两种药物的效果,那就一组给待测药,另一组给一种同类对比药,在疗程结束后对比治愈率。为了避免人为的情绪化因素及个别样例的特殊反应对测试结果的影响,又进化出一种叫作“大样本随机双盲试验”的方法,算是对RCT进一步科学化的诠释。
1700506114
1700506115
大样本随机双盲试验的特点如下。
1700506116
[
上一页 ]
[ :1.700506067e+09 ]
[
下一页 ]