1702647968
1702647969
在芝加哥,他发表的论著涉及许多议题,其中最为著名的是对不同种族及不同阶层死亡率的研究(Kitagawa and Hauser,1973)。他建立了芝加哥大学人口研究中心,并担任主任30年,培养了100多位博士,其中许多来自发展中国家。他可能是唯一一位曾担任过社会科学领域三个主要专业学会——美国社会学学会(American Sociological Association,ASA)、美国统计学学会(American Statistical Association,ASA)和美国人口学会(Population Association of America,PAA)——主席的人。
1702647970
1702647971
当对规模较大的、地理上呈多样性的总体进行抽样时,我们一般会逐级缩小抽样单位并重复选择过程。例如,在1996年中国的全国性抽样调查(Treiman,1998)中,我们将国家分为城市和农村。然后在城市和农村内部,我们分别用PPS方法抽取县(或与之级别相当的城市区域)。接着在每个被选中的县用PPS方法抽取镇〔或城市中的邮政区域(“街道”)〕。最后再在被选中的镇用PPS方法抽取村(或城市社区)。
1702647972
1702647973
在选定小的地理单位后——如中国农村的村庄,或城市的街道、社区,可以使用四种标准的方法去选择受访者:
1702647974
1702647975
(1)从人口登记中随机抽取;
1702647976
1702647977
(2)从地址列表中随机抽取(家庭户样本),并继续从家庭户中抽取个体;
1702647978
1702647979
(3)随机移动方法(选取家庭户的另一种方法);
1702647980
1702647981
(4)配额抽取。
1702647982
1702647983
人口户籍样本 在保存人口户籍的国家(如东欧各国和中国)中,按照研究的标准(通常简单地选取某年龄阶段的人)直接从户籍资料中随机抽取个体是非常常见的方法。这是一种非常好的方法,因为它可以保证有效的质量监控——它使访问员自填问卷的作弊行为变得困难。一种简单的控制措施是询问受访者的准确出生日期。该信息在户籍资料中很清楚,但访问员却并不知道,因而访问员无法随便伪造该问题的答案。
1702647984
1702647985
但使用户籍抽样潜在地存在三点(相关的)不足。首先,如果户籍资料没有实时更新,则样本中将损失经常流动的人口。其次,人们的户籍所在地(例如家乡所在的村庄)与外出工作地往往不尽相同。由于对这类人的追踪成本颇高,所以他们往往在两个地方都不会被访问到。这在中国是一个严重的问题,因为北京有25%的流动人口,而其他城市的情况也大致如此,这些流动人口在城市工作但户籍却在农村。为了获得更好的官方统计记录(同时也为了——实际上这是更主要的原因——实行更严格的社会控制),中国政府自1994年起便要求在某地居住三个月以上的人口进行“暂住人口”登记;然而尽管如此,许多人却并没有登记。再次,户籍资料总是局限于登记人口而非实际人口,因而大量的外来人口——如德国的客籍工人——被排除在外,从而导致有偏误的样本。例如在德国,由于非技术工作几乎全部由客籍工人承担,因而按户籍抽样的德国样本中男性非技术工人总是明显过少。
1702647986
1702647987
家庭户随机样本及在家庭户中进一步抽样 在美国和其他缺乏户籍资料的国家,抽样的难点在于为每个被抽中的小地理单元创建一份人口列表。这一过程通常包含三个阶段:列出所有家庭户,并从中抽样,以及作为访问过程的一部分,在每户内随机选取一人(或多人)进行访问。
1702647988
1702647989
田野调查人员会走遍其负责的区域,对每个住处进行定位并且记录在案,以列出区域内的所有家庭户。对郊区的独户住宅来说这相对容易——尽管我们仍需注意把其中与子女同住的岳父母、公婆等类似的家庭成员包括进来;而在涉及一些有非正式住宅的区域,如有人居住在车库、店铺时,这就变得很困难。〔当代的中国城市就是这样一种状况。若要了解在这种环境下进行抽样调查所面临的巨大挑战,可参见Treiman、Mason等人(2006)的研究。〕同时,如何进入有门卫的社区或安装门禁的楼宇也是一项挑战,在列表阶段和访问阶段都是如此。
1702647990
1702647991
一旦编制好住户列表,我们就可以随机抽取部分住宅,并派出访问员进行访谈。接下来的问题是如何在家庭户中随机选取一人或多人进行访问。这一过程由访问员完成。他们先列出家庭户中符合调查条件的所有居民,并根据Kish表(以抽样统计学家Leslie Kish的名字命名)或其他类似方法〔见Gaziano(2005)对家庭户内的受访者进行抽样的方法的讨论〕随机抽取一人(或多人,根据研究设计决定)。例如,假设访问员被告知去访问一位年龄介于18~69岁之间的人,则他应列出家庭户内所有符合年龄条件的成员,并参照随机数表或其他工具选取一人,如选取其生日与访问日期最接近的人。
1702647992
1702647993
家庭户样本的优势在于能够代表实际人口,即那些居住在某地的人口。但同时它们有三点重要的不足。家庭户样本的第一点不足是,访问中的作弊行为较易发生,比如访问员可以选择那些碰巧有空的人,而不愿在被选定的人没空时,选择下次折返并完成访问。访问员应努力多次(一般三次)以完成访问,实在不行才放弃。我在90年代初在南非做调查时曾发现调查作弊行为,当时我注意到97%的黑人都是在第一次接触时接受访问的——这是一个完全令人难以置信的比例(相对于白人、亚裔和其他有色人种80%的比例)。在数据收集过程中同时建立有关访问过程的信息对发现此类问题至关重要——例如,让访问员记录每次拜访的日期和时间,以及拜访的结果,同时对每个家庭成员都至少收集年龄和性别信息,并将其存入分析数据,从而允许分析者将受访者的分布与所有家庭户成员的分布进行比较。在我所做的南非调查中,通过使用此类信息我发现男性样本不足,因而通过调查机构收集了男性的补充样本。
1702647994
1702647995
家庭户样本的第二点不足在于它们不是真正的人口概率样本,因为相对于小家庭户,生活在大家庭的人口被抽中的概率要小。如2000年,美国有34%的家庭只有一个成年人,而54%的家庭有两个成年人,其他家庭则有三个或更多成年人(GSS数据)。显然,生活在只有一个成年人家庭中的成年人被抽中的机会是有两个成年人家庭中的成年人的两倍。
1702647996
1702647997
我们通常根据家庭户中符合调查条件的人数对数据进行加权,从而将家庭户样本转换成个人样本,并在保持初始样本规模的条件下使样本正常化。这在Stata中是很容易做到的。例如,假设我们的目标总体是所有成年人,因而希望根据各家庭户中的成年人口数量对样本进行修正,那么我们清点每个家庭户中的成年人口。在Stata中,我们只需简单地标识出[pweight=adults](或者根据命令的不同,使用[aweight=adults])。现在假设每户的平均成年人口数是2.0个,则有4个成年人的家庭户的权重为2,而只有一个成年人的家庭户的权重为0.5。同时权重的平均值为1,总和为N,即样本规模。
1702647998
1702647999
碰巧,根据不同的家庭户规模对GSS数据进行加权并不会对大多数变量产生影响,因此对我们在前面章节中用GSS数据所做的分析总体来说并未远远背离其真实结果。但进行这类修正却仍然是十分重要的。在某些情况下,根据家庭户规模所做的修正确实会影响到结果——例如在对家庭收入进行分析时。使用美国2002年的GSS数据,根据家庭户规模进行加权使得我们对家庭收入的估计值增加了约10%(参见下载文件“ch90.do”的第一部分):
1702648000
1702648001
未加权均值=50102美元
1702648002
1702648003
家庭户规模加权后的均值=54880美元
1702648004
1702648005
家庭户样本的第三点不足是我们日益难以保证较高的应答率。当东欧处于社会主义时期时,完成90%以上的访谈是比较普遍的情况;但自社会主义解体后,应答率迅速下降。同样的情况也发生在中国,尽管其应答率曾经超过95%,但却呈稳步下降的趋势。在中国的城市,由于人们越来越多地居住在带门禁的高层建筑中,这种下降情形尤为严重。GSS的应答率一般约为75%,而美国其他调查的应答率则更低,因此我们得到的很可能仅仅是目标总体的一个非随机次级样本。例如在GSS数据中,由于男女应答率的不同,男性样本常常不足(Smith,1979),从而对总体人口所做的任何估计,只要其存在男女差别——例如关于主观态度的题目就是如此——都将是有偏的。
1702648006
1702648007
高级抽样方法 有一种更高级的方法来替代先对家庭户进行列表而后抽样,然后再在被抽中的家庭户中对人口进行列表而后抽样的办法。那就是对每个小型区域进行小规模的普查,拜访每个家庭户,并记录每位居民的年龄、性别及其他特征,然后直接从符合调查条件的个人列表中进行抽样。虽然该方法会显著地增加调查成本,但它远比针对地址列表的抽样准确,因为各家庭户规模差异极大,而且尤其是在那些高密度社区,经常存在一些较隐蔽的家庭户——因而如果没有访问当地居民并询问是否存在此类家庭户,它们就会在样本中被遗漏。
1702648008
1702648009
我们经常使用两种方法来提高应答率:一是抽取比访谈目标更大的样本,从而抵消无应答人数;二是在某个访谈无法完成的时候,由访问员使用一个新样本,通常是用同一区域内的新样本进行替代。这两种方法都可以增加完成的样本量,但却不能克服因潜在应答率的不同而导致的偏差。
1702648010
1702648011
随机移动样本 随机移动样本(random walk samples)是家庭户样本的一种变体。在每个小型区域内,我们要求访问员从某一指定地点开始,(通常是在某个十字路口)向特定方向行进,并选取其遇到的每一个第n个地址(我们甚至可以使用随机数作为不同间隔),并在每个路口都拐入特定的方向。这相当于快速创建了地址列表。但我们并不推崇这种方法,因为它除了具有家庭户样本所固有的那些不足之外,即使在访问员非常诚实的情况下,也将很难发现那些隐蔽的居所。同时,与常见的家庭户抽样相比,在使用这种方法时作假尤其容易,因为列表、抽取和访谈家庭户都是由同一人完成:通常除了那些被实际访问到的人之外,我们很少有关于潜在样本的具体信息。此方法仍被使用的原因在于相比于户籍资料抽样和传统家庭户抽样,其成本较低。在最早两期(1972年和1974年)的GSS调查中就结合使用了随机移动方法和一个配额样本。
1702648012
1702648013
配额样本 在配额样本(quota samples)中,访问员被要求获得一定数量具有某些指定特征人群的相关信息——如40岁以下的女性、40岁及以上的女性、职业女性等。配额方法多与多阶段概率抽样结合在一起使用:我们先用多阶段概率抽样方法选取小区,然后在每个小区内,由访问员进行访问以完成配额。
1702648014
1702648015
配额样本通常并不是一个好办法,因为:首先,它们不满足允许有效统计推断的条件——它们不是任意总体的概率样本。其次,它们产生的只是其想要代表的总体的有偏样本,更多地包含了那些在调查进行时容易接触到的人。再次,严格控制的配额抽样只在使用概率抽样非常困难的情况下才有用,以保证更高的总体覆盖率。
1702648016
1702648017
分层概率样本
[
上一页 ]
[ :1.702647968e+09 ]
[
下一页 ]