打字猴:1.70264789e+09
1702647890
1702647891 我们先考虑简单随机样本。随机抽样需要一份总体中所包含的所有个体的列表,并且用随机方法从总体中抽取部分个体。在电脑还未诞生的时代,随机抽样的典型方法是参考随机数表。表9-1给出了随机数表的一部分。
1702647892
1702647893 表9-1 随机数表的一部分
1702647894
1702647895
1702647896
1702647897
1702647898 假设我们想使用如表9-1所示的随机数表从一个40人的班级中抽取10人的随机样本,我们可以按1~40的顺序罗列出班级中的40人,并设计一种在表9-1中查询的规则。比如我们可以逐行查找,并对找到的每一个五位数,先选取其头两位数,再选取其后两位数。(这种规则当然是随意的,但这并没有任何影响。因为数字是按随机顺序排列的,因而规则之间没有差别,只要我们在操作过程中保持规则一致就可以。)按照这个规则,我们遇到的第一个数字是10。因而我们抽取班级列表中的第10个人。接下来的数字是80,但由于它超出了1~40的范围,所以我们略过它。随后我们相继遇到15、11、1、36和2,并再次遇到11。严格地讲,我们应该选取第11个人两次。但从实际出发,这种做法显然并不合适。因而在实际操作中,我们几乎总是采用无重复(without replacement)抽样。这当然会造成一定的统计学后果,但相对于我们在调查研究中一般处理的人口规模而言却无关紧要。采用无重复抽样,当我们第二次遇到第11个个案时,只要略过它即可。
1702647899
1702647900 我们选取接下来落入1~40这个区间且之前未曾出现过的数字来完成我们的样本,它们是:22、25、30和24。这样我们获得包含10个人的样本,包括40人列表中的第1、2、10、11、15、22、24、25、30和36位。由于我们的抽样规则保证了40人中的每个人都具有同样被选中的机会,因而该样本是随机的。
1702647901
1702647902 现在这类抽样常在电脑的辅助下完成,我们构建总体中所有成员的序列表,并从表中进行随机抽样,抽样原理完全一致。显然,一个包含总体中所有个体的列表是必需的。但获取这样一份列表却并非总是易事,而且经常是不现实的,比如我们无法获得美国人口的完整列表。
1702647903
1702647904 在有些情况下,总体列表虽然可以获得,但却不是电脑可读的格式。此时我们会用系统抽样代替随机抽样。先随机选择一个起点,然后在表中每间隔k个样本进行抽样,其中k是总体规模与样本规模之比。在当前的例子中,我们可以简单地选择一个随机起点,比如用随机数表选取第一个人,然后在班级列表中每隔4名学生选取一人,并在必要时由列表末端再循环到开始,最终从40人的班级中得到一个10人的样本。
1702647905
1702647906 在现实中,系统抽样具有与随机抽样非常相似的性质(Sudman,1976:56-57),我们一般将其作为随机样本处理。在某些方面它们甚至优于随机样本,因为不管样本的何种特征与其排列的顺序相关,系统抽样都可以对样本进行有效的分层(比如当人口按字母顺序排列时,种族就与样本的排列顺序相关;见本章稍后“用分层抵消整群效应”一节中的讨论)。我对简单随机抽样的所有讨论同样适用于系统抽样。
1702647907
1702647908 多阶段概率样本
1702647909
1702647910 简单随机抽样只在有限的条件下适用,即在可获得总体的完整列表,并且从某个中心可以通过电话、信函或网络与所有受访者联络的时候。在对美国人口进行全国性样本的面对面家访时——访谈是调查者在受访者家里进行的——这两项条件都无法得到满足。第一,像之前我们提到的,美国人口没有全国性的登记,所以根本不可能从总体中抽取简单随机样本。第二,即使可能抽取这样一个样本,走访那些分散在全国的受访者的高昂成本也令人望而却步。因此关于抽样和实地调查的双重考虑都促使我们设计针对全国家户调查的多阶段概率样本。
1702647911
1702647912 电话调查 因为较之面对面访谈成本更为低廉,电话调查(telephone surveys)正被日益广泛地使用。在美国,目前重要的学术调查中心进行的全国性概率抽样调查中每份问卷的一小时面访需花费大约300美元,相比之下,同样时间长度的电话访谈只需150美元。除了成本之外,电话调查的主要优点是可以接近那些很难亲自入户访谈的家户,比如在有保安守卫的社区或设门禁的建筑,以及人们不愿接受访谈的犯罪高发地带(而且调查员也不愿去此类社区工作)。但另一方面,通过电话与受访者密切互动并询问复杂的问题是很困难的,因而电话访谈必须比面访简短,以缓解受访者的疲劳情绪。此外,在一个很少有人擅长大声朗读的时代,我们很难找到胜任的电话调查员。
1702647913
1702647914 电话调查的最终困难在于受访者越来越强的敌对态度。电话销售扰乱了合法的电话调查研究领域,尤其是自一些电话销售代理声称正在进行某项调查以作为引导人们进入谈话的工具以来。
1702647915
1702647916 在抽样方面,电话访谈一般比入户访谈容易,因为从原则上讲我们可以随机拨号以进行随机抽样。但我们仍需要采取一定的措施筛选出商业电话,并调整多电话用户带来的误差。移动电话、传真机和来电过滤设备的激增也带来了一些新的麻烦。尽管如此,因为几乎所有的美国家庭都拥有电话,所以抽样误差这一问题并不严重。当然,在许多其他国家,这或许是一个主要的问题。
1702647917
1702647918 这类样本是分阶段被创建的(因而被命名为多阶段概率样本)。在第一阶段按规模大小成比例抽样(probability proportional to size,PPS)方法随机抽取初级抽样单位(primary sampling units,PSUs)(市、县等)——用这种方法保证每个城市被选取的机会与其人口规模成比例。假设我们想抽取2000人的全国性样本,其中包含100个初级抽样单位,并且在每个初级单位中访问20人。显然,我们不能简单地罗列出全国的所有城市并从中随机进行选择,因为这样一来小城市居民入选样本的概率将远远高于大城市居民。例如,若我们随机选取洛杉矶或圣塔莫妮卡(Santa Monica)或贝弗利山(Beverly Hills)(后两者是位于洛杉矶的小城市),然后在每个被选城市中随机选取20人(假设我们有所有居民的列表),则生活在圣塔莫妮卡或贝弗利山的人被选进样本的机会要比生活在洛杉矶的人高许多。
1702647919
1702647920 因此换一种方法,我们先按照人口规模对城市进行分层(strata),然后按与城市规模成比例的几率在层内随机选取城市。例如,我们可以将最大的城市分作第一层,大型城市为第二层,中等城市为第三层,依此类推。假设第一层城市的人口规模平均为200万人,第二层为100万人,第三层为50万人,并依次递减。则我们可以随机选取第一层内的每个城市,而在第二层内的每两个城市中选择一个,在第三层内的每四个城市中选择一个。如果我们随后在每个被选中的城市中访问相同数量的人,则就全国来说每个人被选中的机会(近似)相等:
1702647921
1702647922 20/200万=1/10万
1702647923
1702647924 20/(100万/0.5)=1/10万
1702647925
1702647926 20/(50万/0.25)=1/10万
1702647927
1702647928 ……
1702647929
1702647930 信函调查 我们一般不采用信函调查(mail surveys),因为其应答率较低,而且其样本常常偏向于受过良好教育的群体。但经过周密设计的信函调查却可能是高效的,特别是通过加强追访(通过挂号信、电报、电话等)来强调调查的重要性时。Jonathan Kelley和Mariah Evans在澳大利亚所做的信函调查,通过大量的追访工作取得了令人惊奇的高回收率——大约65%。而且其结果显示,调查中的无应答者与应答者没有显著差别(Evans and Kelley,2004,Chapter 20)。这类调查要求有一个包含所有地址的抽样框。这在美国是不可能的,但在有登记系统的国家(如澳大利亚)却是可能的,因为在那里公民投票需要登记。虽然没有取得公民身份的人被排除在外,但从其他方面来说该抽样框已经非常好了。
1702647931
1702647932 信函调查的另一个缺点是,不能询问复杂的问题,或者是那些与前面的回答有逻辑关系的问题;受访者遵照复杂的条件和逻辑去回答那些过滤性问题常会面临困难。但另一方面,信函调查适合那些包含一长串选项的问题,因为相比于被告知有哪些选项,在信函调查中人们可以自己阅读,并向前查阅选项,从而更容易了解较多的选项。信函调查的最后一点缺陷是它常常是集体完成的——由几个家庭成员相互讨论来作答。对有些问题,集体作答不但无害,相反会更有效,例如在询问生命历程时;但是当需要独立作答时,这便成为非常严重的缺点。
1702647933
1702647934 该方法的问题是层内部可能有极大的异质性。例如,假设所有人口为百万及以上的城市都被分作第一层,那么,如果我们在层内简单地随机抽取城市,洛杉矶居民入选样本的机会将只是圣迭戈居民的三分之一,因为洛杉矶的人口大约是圣迭戈人口的三倍。
1702647935
1702647936 网络调查 近年来,以网络为基础的调查正日益得到广泛应用。在某些方面,网络调查(Web surveys)与信函调查很类似:它们都不需要访问员,都要求受访者在没有旁人劝说的情况下决定参与并完成调查,而有技巧的访问员可以帮助受访者克服紧张、厌倦、恼怒等有碍访谈的情绪。但另一方面,对熟悉电脑操作的人来说,它们比书面问卷更容易完成,至少在较好的设计下是如此。相比于其他方式,它们在处理复杂的过滤性问题时效果更优,即能够根据对前面问题的回答来判断某问题应该被保留还是应该被略过。而在面访及电话调查中,过滤性问题也会被使用,但较易受到访问员所犯错误的影响。在使用书面问卷的调查中,由于受访者很容易出错,使用过滤性问题也比较困难。
1702647937
1702647938 在样本偏差方面,网络调查面临着与20世纪上半叶美国进行电话调查一样的局限:由电脑获得和电脑使用能力导致的社会经济地位偏差。此外,对于某个人群的总体,我们无法获知其对应的网络地址抽样框。再者,由于网络垃圾的大量出现,以及由此导致的通过过滤器拦截网络垃圾的一致行动,我们很可能无法保证应答网络地址的随机性。因此网络调查可能只在某些特定情境下适用,例如有一个详尽的抽样框(比如某个机构中的成员列表),并能够将网络问卷发送给指定的个人,并辅之以恰当的请求和应答激励措施,以及通过坚持不懈的追踪努力将无应答转变成应答。
1702647939
[ 上一页 ]  [ :1.70264789e+09 ]  [ 下一页 ]