1702647956
1702647957
799970 再次选择洛杉矶
1702647958
1702647959
6574717 选择奥克兰
1702647960
1702647961
注意,洛杉矶在5次抽样中被抽中了3次。(当然,因为洛杉矶人口占加州十个最大城市总人口的43%,所以如果重复抽样许多遍,洛杉矶被抽中的可能性大约为五分之二。)因此我们将洛杉矶三等分,并将其每部分与圣迭戈和奥克兰一起作为初级抽样单位。以这种方式继续在初级抽样单位中抽取较小的单位,我们保证居住在十个城市中的每个居民被选进样本的机会近似相等,因为一个城市被选入样本的机会与其城市规模完全成比例。
1702647962
1702647963
注意,我的措辞是“近似相等”。这是因为多阶段的抽样过程会引入一种“团块结构”。例如,这里每个初级抽样单位都应代表20%的总体,但每个城市的人口却不一定是20%总人口的倍数。虽然团块结构总是存在的,但每个阶段抽样单位的数量越多,则该问题就变得越小。
1702647964
1702647965
调查机构一般会重复使用同样的初级抽样单位。例如,全国民意研究中心(National Opinion Research Center,NORC)随着每次新的人口普查数据(用以确定人口规模)的发布,每十年改变一次初级抽样单位。由于在每个初级抽样单位中保持着稳定的调查员队伍,NORC这样做就可以避免在每次调查时重新雇用和培训新调查员的成本。抽样设计中事先固定且保持不变的部分被称为抽样框(sampling frame)。
1702647966
1702647967
PHILIP M.HAUSER(1909~1994) 是一位人口学家,他在芝加哥大学度过了其整个学术生涯。1929年他获得学士学位,1933年获得硕士学位,1938年获得博士学位,所有这些都是社会学的学位。1939~1947年他服务于美国人口普查局,先是担任人口普查局的首席助理统计学家,并最终担任副主任(1949~1950年担任执行主任),他对社会科学做出组织及学术方面的重要贡献。在人口普查局,他在创建1940年人口普查中首次使用的20%样本长表,以及在降低样本低估(尤其是低估黑人样本)的方法方面起到了主要作用。
1702647968
1702647969
在芝加哥,他发表的论著涉及许多议题,其中最为著名的是对不同种族及不同阶层死亡率的研究(Kitagawa and Hauser,1973)。他建立了芝加哥大学人口研究中心,并担任主任30年,培养了100多位博士,其中许多来自发展中国家。他可能是唯一一位曾担任过社会科学领域三个主要专业学会——美国社会学学会(American Sociological Association,ASA)、美国统计学学会(American Statistical Association,ASA)和美国人口学会(Population Association of America,PAA)——主席的人。
1702647970
1702647971
当对规模较大的、地理上呈多样性的总体进行抽样时,我们一般会逐级缩小抽样单位并重复选择过程。例如,在1996年中国的全国性抽样调查(Treiman,1998)中,我们将国家分为城市和农村。然后在城市和农村内部,我们分别用PPS方法抽取县(或与之级别相当的城市区域)。接着在每个被选中的县用PPS方法抽取镇〔或城市中的邮政区域(“街道”)〕。最后再在被选中的镇用PPS方法抽取村(或城市社区)。
1702647972
1702647973
在选定小的地理单位后——如中国农村的村庄,或城市的街道、社区,可以使用四种标准的方法去选择受访者:
1702647974
1702647975
(1)从人口登记中随机抽取;
1702647976
1702647977
(2)从地址列表中随机抽取(家庭户样本),并继续从家庭户中抽取个体;
1702647978
1702647979
(3)随机移动方法(选取家庭户的另一种方法);
1702647980
1702647981
(4)配额抽取。
1702647982
1702647983
人口户籍样本 在保存人口户籍的国家(如东欧各国和中国)中,按照研究的标准(通常简单地选取某年龄阶段的人)直接从户籍资料中随机抽取个体是非常常见的方法。这是一种非常好的方法,因为它可以保证有效的质量监控——它使访问员自填问卷的作弊行为变得困难。一种简单的控制措施是询问受访者的准确出生日期。该信息在户籍资料中很清楚,但访问员却并不知道,因而访问员无法随便伪造该问题的答案。
1702647984
1702647985
但使用户籍抽样潜在地存在三点(相关的)不足。首先,如果户籍资料没有实时更新,则样本中将损失经常流动的人口。其次,人们的户籍所在地(例如家乡所在的村庄)与外出工作地往往不尽相同。由于对这类人的追踪成本颇高,所以他们往往在两个地方都不会被访问到。这在中国是一个严重的问题,因为北京有25%的流动人口,而其他城市的情况也大致如此,这些流动人口在城市工作但户籍却在农村。为了获得更好的官方统计记录(同时也为了——实际上这是更主要的原因——实行更严格的社会控制),中国政府自1994年起便要求在某地居住三个月以上的人口进行“暂住人口”登记;然而尽管如此,许多人却并没有登记。再次,户籍资料总是局限于登记人口而非实际人口,因而大量的外来人口——如德国的客籍工人——被排除在外,从而导致有偏误的样本。例如在德国,由于非技术工作几乎全部由客籍工人承担,因而按户籍抽样的德国样本中男性非技术工人总是明显过少。
1702647986
1702647987
家庭户随机样本及在家庭户中进一步抽样 在美国和其他缺乏户籍资料的国家,抽样的难点在于为每个被抽中的小地理单元创建一份人口列表。这一过程通常包含三个阶段:列出所有家庭户,并从中抽样,以及作为访问过程的一部分,在每户内随机选取一人(或多人)进行访问。
1702647988
1702647989
田野调查人员会走遍其负责的区域,对每个住处进行定位并且记录在案,以列出区域内的所有家庭户。对郊区的独户住宅来说这相对容易——尽管我们仍需注意把其中与子女同住的岳父母、公婆等类似的家庭成员包括进来;而在涉及一些有非正式住宅的区域,如有人居住在车库、店铺时,这就变得很困难。〔当代的中国城市就是这样一种状况。若要了解在这种环境下进行抽样调查所面临的巨大挑战,可参见Treiman、Mason等人(2006)的研究。〕同时,如何进入有门卫的社区或安装门禁的楼宇也是一项挑战,在列表阶段和访问阶段都是如此。
1702647990
1702647991
一旦编制好住户列表,我们就可以随机抽取部分住宅,并派出访问员进行访谈。接下来的问题是如何在家庭户中随机选取一人或多人进行访问。这一过程由访问员完成。他们先列出家庭户中符合调查条件的所有居民,并根据Kish表(以抽样统计学家Leslie Kish的名字命名)或其他类似方法〔见Gaziano(2005)对家庭户内的受访者进行抽样的方法的讨论〕随机抽取一人(或多人,根据研究设计决定)。例如,假设访问员被告知去访问一位年龄介于18~69岁之间的人,则他应列出家庭户内所有符合年龄条件的成员,并参照随机数表或其他工具选取一人,如选取其生日与访问日期最接近的人。
1702647992
1702647993
家庭户样本的优势在于能够代表实际人口,即那些居住在某地的人口。但同时它们有三点重要的不足。家庭户样本的第一点不足是,访问中的作弊行为较易发生,比如访问员可以选择那些碰巧有空的人,而不愿在被选定的人没空时,选择下次折返并完成访问。访问员应努力多次(一般三次)以完成访问,实在不行才放弃。我在90年代初在南非做调查时曾发现调查作弊行为,当时我注意到97%的黑人都是在第一次接触时接受访问的——这是一个完全令人难以置信的比例(相对于白人、亚裔和其他有色人种80%的比例)。在数据收集过程中同时建立有关访问过程的信息对发现此类问题至关重要——例如,让访问员记录每次拜访的日期和时间,以及拜访的结果,同时对每个家庭成员都至少收集年龄和性别信息,并将其存入分析数据,从而允许分析者将受访者的分布与所有家庭户成员的分布进行比较。在我所做的南非调查中,通过使用此类信息我发现男性样本不足,因而通过调查机构收集了男性的补充样本。
1702647994
1702647995
家庭户样本的第二点不足在于它们不是真正的人口概率样本,因为相对于小家庭户,生活在大家庭的人口被抽中的概率要小。如2000年,美国有34%的家庭只有一个成年人,而54%的家庭有两个成年人,其他家庭则有三个或更多成年人(GSS数据)。显然,生活在只有一个成年人家庭中的成年人被抽中的机会是有两个成年人家庭中的成年人的两倍。
1702647996
1702647997
我们通常根据家庭户中符合调查条件的人数对数据进行加权,从而将家庭户样本转换成个人样本,并在保持初始样本规模的条件下使样本正常化。这在Stata中是很容易做到的。例如,假设我们的目标总体是所有成年人,因而希望根据各家庭户中的成年人口数量对样本进行修正,那么我们清点每个家庭户中的成年人口。在Stata中,我们只需简单地标识出[pweight=adults](或者根据命令的不同,使用[aweight=adults])。现在假设每户的平均成年人口数是2.0个,则有4个成年人的家庭户的权重为2,而只有一个成年人的家庭户的权重为0.5。同时权重的平均值为1,总和为N,即样本规模。
1702647998
1702647999
碰巧,根据不同的家庭户规模对GSS数据进行加权并不会对大多数变量产生影响,因此对我们在前面章节中用GSS数据所做的分析总体来说并未远远背离其真实结果。但进行这类修正却仍然是十分重要的。在某些情况下,根据家庭户规模所做的修正确实会影响到结果——例如在对家庭收入进行分析时。使用美国2002年的GSS数据,根据家庭户规模进行加权使得我们对家庭收入的估计值增加了约10%(参见下载文件“ch90.do”的第一部分):
1702648000
1702648001
未加权均值=50102美元
1702648002
1702648003
家庭户规模加权后的均值=54880美元
1702648004
1702648005
家庭户样本的第三点不足是我们日益难以保证较高的应答率。当东欧处于社会主义时期时,完成90%以上的访谈是比较普遍的情况;但自社会主义解体后,应答率迅速下降。同样的情况也发生在中国,尽管其应答率曾经超过95%,但却呈稳步下降的趋势。在中国的城市,由于人们越来越多地居住在带门禁的高层建筑中,这种下降情形尤为严重。GSS的应答率一般约为75%,而美国其他调查的应答率则更低,因此我们得到的很可能仅仅是目标总体的一个非随机次级样本。例如在GSS数据中,由于男女应答率的不同,男性样本常常不足(Smith,1979),从而对总体人口所做的任何估计,只要其存在男女差别——例如关于主观态度的题目就是如此——都将是有偏的。
[
上一页 ]
[ :1.702647956e+09 ]
[
下一页 ]