1702647918
这类样本是分阶段被创建的(因而被命名为多阶段概率样本)。在第一阶段按规模大小成比例抽样(probability proportional to size,PPS)方法随机抽取初级抽样单位(primary sampling units,PSUs)(市、县等)——用这种方法保证每个城市被选取的机会与其人口规模成比例。假设我们想抽取2000人的全国性样本,其中包含100个初级抽样单位,并且在每个初级单位中访问20人。显然,我们不能简单地罗列出全国的所有城市并从中随机进行选择,因为这样一来小城市居民入选样本的概率将远远高于大城市居民。例如,若我们随机选取洛杉矶或圣塔莫妮卡(Santa Monica)或贝弗利山(Beverly Hills)(后两者是位于洛杉矶的小城市),然后在每个被选城市中随机选取20人(假设我们有所有居民的列表),则生活在圣塔莫妮卡或贝弗利山的人被选进样本的机会要比生活在洛杉矶的人高许多。
1702647919
1702647920
因此换一种方法,我们先按照人口规模对城市进行分层(strata),然后按与城市规模成比例的几率在层内随机选取城市。例如,我们可以将最大的城市分作第一层,大型城市为第二层,中等城市为第三层,依此类推。假设第一层城市的人口规模平均为200万人,第二层为100万人,第三层为50万人,并依次递减。则我们可以随机选取第一层内的每个城市,而在第二层内的每两个城市中选择一个,在第三层内的每四个城市中选择一个。如果我们随后在每个被选中的城市中访问相同数量的人,则就全国来说每个人被选中的机会(近似)相等:
1702647921
1702647922
20/200万=1/10万
1702647923
1702647924
20/(100万/0.5)=1/10万
1702647925
1702647926
20/(50万/0.25)=1/10万
1702647927
1702647928
……
1702647929
1702647930
信函调查 我们一般不采用信函调查(mail surveys),因为其应答率较低,而且其样本常常偏向于受过良好教育的群体。但经过周密设计的信函调查却可能是高效的,特别是通过加强追访(通过挂号信、电报、电话等)来强调调查的重要性时。Jonathan Kelley和Mariah Evans在澳大利亚所做的信函调查,通过大量的追访工作取得了令人惊奇的高回收率——大约65%。而且其结果显示,调查中的无应答者与应答者没有显著差别(Evans and Kelley,2004,Chapter 20)。这类调查要求有一个包含所有地址的抽样框。这在美国是不可能的,但在有登记系统的国家(如澳大利亚)却是可能的,因为在那里公民投票需要登记。虽然没有取得公民身份的人被排除在外,但从其他方面来说该抽样框已经非常好了。
1702647931
1702647932
信函调查的另一个缺点是,不能询问复杂的问题,或者是那些与前面的回答有逻辑关系的问题;受访者遵照复杂的条件和逻辑去回答那些过滤性问题常会面临困难。但另一方面,信函调查适合那些包含一长串选项的问题,因为相比于被告知有哪些选项,在信函调查中人们可以自己阅读,并向前查阅选项,从而更容易了解较多的选项。信函调查的最后一点缺陷是它常常是集体完成的——由几个家庭成员相互讨论来作答。对有些问题,集体作答不但无害,相反会更有效,例如在询问生命历程时;但是当需要独立作答时,这便成为非常严重的缺点。
1702647933
1702647934
该方法的问题是层内部可能有极大的异质性。例如,假设所有人口为百万及以上的城市都被分作第一层,那么,如果我们在层内简单地随机抽取城市,洛杉矶居民入选样本的机会将只是圣迭戈居民的三分之一,因为洛杉矶的人口大约是圣迭戈人口的三倍。
1702647935
1702647936
网络调查 近年来,以网络为基础的调查正日益得到广泛应用。在某些方面,网络调查(Web surveys)与信函调查很类似:它们都不需要访问员,都要求受访者在没有旁人劝说的情况下决定参与并完成调查,而有技巧的访问员可以帮助受访者克服紧张、厌倦、恼怒等有碍访谈的情绪。但另一方面,对熟悉电脑操作的人来说,它们比书面问卷更容易完成,至少在较好的设计下是如此。相比于其他方式,它们在处理复杂的过滤性问题时效果更优,即能够根据对前面问题的回答来判断某问题应该被保留还是应该被略过。而在面访及电话调查中,过滤性问题也会被使用,但较易受到访问员所犯错误的影响。在使用书面问卷的调查中,由于受访者很容易出错,使用过滤性问题也比较困难。
1702647937
1702647938
在样本偏差方面,网络调查面临着与20世纪上半叶美国进行电话调查一样的局限:由电脑获得和电脑使用能力导致的社会经济地位偏差。此外,对于某个人群的总体,我们无法获知其对应的网络地址抽样框。再者,由于网络垃圾的大量出现,以及由此导致的通过过滤器拦截网络垃圾的一致行动,我们很可能无法保证应答网络地址的随机性。因此网络调查可能只在某些特定情境下适用,例如有一个详尽的抽样框(比如某个机构中的成员列表),并能够将网络问卷发送给指定的个人,并辅之以恰当的请求和应答激励措施,以及通过坚持不懈的追踪努力将无应答转变成应答。
1702647939
1702647940
为了避免此问题,我们常常使用另一种替代方法,即在每层内也对各单位进行PPS抽样。为实现这一点,将所有单位按规模排序,并对总人口进行累加计算。接着选取随机数,并抽取那些包含随机数字的单位。例如,假设我们想在加州的十个最大的城市中按PPS方法抽取5个城市作为初级抽样单位(PSU),并在每个初级抽样单位(PSU)中访问100人。〔由于城市规模间存在较大差异,因而有意义的做法既可采用可重复抽样(with replacement),也可将洛杉矶或圣迭戈分成几部分,并将每部分作为独立城市处理。我采用的是前一种方法。〕表9-2显示了各城市人口(此处为1990年人口普查数据)、城市按规模排序时的累计人口规模以及十个城市的常住居民占总人口的比例。
1702647941
1702647942
表9-2 1990年加州十个最大城市的人口规模、累计人口规模和每个城市的居民占总人口的比例
1702647943
1702647944
1702647945
1702647946
1702647947
现在我们需要选取一些随机数。在统计教材的最后找一份常用随机数表,对每行任意选取第三到第九个数字,我得到下面的结果:
1702647948
1702647949
9732533 超出范围(忽略)
1702647950
1702647951
4204805 选择圣迭戈(因为4204805落在3485399~4595947之间)
1702647952
1702647953
2268953 选择洛杉矶
1702647954
1702647955
1902529 再次选择洛杉矶
1702647956
1702647957
799970 再次选择洛杉矶
1702647958
1702647959
6574717 选择奥克兰
1702647960
1702647961
注意,洛杉矶在5次抽样中被抽中了3次。(当然,因为洛杉矶人口占加州十个最大城市总人口的43%,所以如果重复抽样许多遍,洛杉矶被抽中的可能性大约为五分之二。)因此我们将洛杉矶三等分,并将其每部分与圣迭戈和奥克兰一起作为初级抽样单位。以这种方式继续在初级抽样单位中抽取较小的单位,我们保证居住在十个城市中的每个居民被选进样本的机会近似相等,因为一个城市被选入样本的机会与其城市规模完全成比例。
1702647962
1702647963
注意,我的措辞是“近似相等”。这是因为多阶段的抽样过程会引入一种“团块结构”。例如,这里每个初级抽样单位都应代表20%的总体,但每个城市的人口却不一定是20%总人口的倍数。虽然团块结构总是存在的,但每个阶段抽样单位的数量越多,则该问题就变得越小。
1702647964
1702647965
调查机构一般会重复使用同样的初级抽样单位。例如,全国民意研究中心(National Opinion Research Center,NORC)随着每次新的人口普查数据(用以确定人口规模)的发布,每十年改变一次初级抽样单位。由于在每个初级抽样单位中保持着稳定的调查员队伍,NORC这样做就可以避免在每次调查时重新雇用和培训新调查员的成本。抽样设计中事先固定且保持不变的部分被称为抽样框(sampling frame)。
1702647966
1702647967
PHILIP M.HAUSER(1909~1994) 是一位人口学家,他在芝加哥大学度过了其整个学术生涯。1929年他获得学士学位,1933年获得硕士学位,1938年获得博士学位,所有这些都是社会学的学位。1939~1947年他服务于美国人口普查局,先是担任人口普查局的首席助理统计学家,并最终担任副主任(1949~1950年担任执行主任),他对社会科学做出组织及学术方面的重要贡献。在人口普查局,他在创建1940年人口普查中首次使用的20%样本长表,以及在降低样本低估(尤其是低估黑人样本)的方法方面起到了主要作用。
[
上一页 ]
[ :1.702647918e+09 ]
[
下一页 ]