1702647940
为了避免此问题,我们常常使用另一种替代方法,即在每层内也对各单位进行PPS抽样。为实现这一点,将所有单位按规模排序,并对总人口进行累加计算。接着选取随机数,并抽取那些包含随机数字的单位。例如,假设我们想在加州的十个最大的城市中按PPS方法抽取5个城市作为初级抽样单位(PSU),并在每个初级抽样单位(PSU)中访问100人。〔由于城市规模间存在较大差异,因而有意义的做法既可采用可重复抽样(with replacement),也可将洛杉矶或圣迭戈分成几部分,并将每部分作为独立城市处理。我采用的是前一种方法。〕表9-2显示了各城市人口(此处为1990年人口普查数据)、城市按规模排序时的累计人口规模以及十个城市的常住居民占总人口的比例。
1702647941
1702647942
表9-2 1990年加州十个最大城市的人口规模、累计人口规模和每个城市的居民占总人口的比例
1702647943
1702647944
1702647945
1702647946
1702647947
现在我们需要选取一些随机数。在统计教材的最后找一份常用随机数表,对每行任意选取第三到第九个数字,我得到下面的结果:
1702647948
1702647949
9732533 超出范围(忽略)
1702647950
1702647951
4204805 选择圣迭戈(因为4204805落在3485399~4595947之间)
1702647952
1702647953
2268953 选择洛杉矶
1702647954
1702647955
1902529 再次选择洛杉矶
1702647956
1702647957
799970 再次选择洛杉矶
1702647958
1702647959
6574717 选择奥克兰
1702647960
1702647961
注意,洛杉矶在5次抽样中被抽中了3次。(当然,因为洛杉矶人口占加州十个最大城市总人口的43%,所以如果重复抽样许多遍,洛杉矶被抽中的可能性大约为五分之二。)因此我们将洛杉矶三等分,并将其每部分与圣迭戈和奥克兰一起作为初级抽样单位。以这种方式继续在初级抽样单位中抽取较小的单位,我们保证居住在十个城市中的每个居民被选进样本的机会近似相等,因为一个城市被选入样本的机会与其城市规模完全成比例。
1702647962
1702647963
注意,我的措辞是“近似相等”。这是因为多阶段的抽样过程会引入一种“团块结构”。例如,这里每个初级抽样单位都应代表20%的总体,但每个城市的人口却不一定是20%总人口的倍数。虽然团块结构总是存在的,但每个阶段抽样单位的数量越多,则该问题就变得越小。
1702647964
1702647965
调查机构一般会重复使用同样的初级抽样单位。例如,全国民意研究中心(National Opinion Research Center,NORC)随着每次新的人口普查数据(用以确定人口规模)的发布,每十年改变一次初级抽样单位。由于在每个初级抽样单位中保持着稳定的调查员队伍,NORC这样做就可以避免在每次调查时重新雇用和培训新调查员的成本。抽样设计中事先固定且保持不变的部分被称为抽样框(sampling frame)。
1702647966
1702647967
PHILIP M.HAUSER(1909~1994) 是一位人口学家,他在芝加哥大学度过了其整个学术生涯。1929年他获得学士学位,1933年获得硕士学位,1938年获得博士学位,所有这些都是社会学的学位。1939~1947年他服务于美国人口普查局,先是担任人口普查局的首席助理统计学家,并最终担任副主任(1949~1950年担任执行主任),他对社会科学做出组织及学术方面的重要贡献。在人口普查局,他在创建1940年人口普查中首次使用的20%样本长表,以及在降低样本低估(尤其是低估黑人样本)的方法方面起到了主要作用。
1702647968
1702647969
在芝加哥,他发表的论著涉及许多议题,其中最为著名的是对不同种族及不同阶层死亡率的研究(Kitagawa and Hauser,1973)。他建立了芝加哥大学人口研究中心,并担任主任30年,培养了100多位博士,其中许多来自发展中国家。他可能是唯一一位曾担任过社会科学领域三个主要专业学会——美国社会学学会(American Sociological Association,ASA)、美国统计学学会(American Statistical Association,ASA)和美国人口学会(Population Association of America,PAA)——主席的人。
1702647970
1702647971
当对规模较大的、地理上呈多样性的总体进行抽样时,我们一般会逐级缩小抽样单位并重复选择过程。例如,在1996年中国的全国性抽样调查(Treiman,1998)中,我们将国家分为城市和农村。然后在城市和农村内部,我们分别用PPS方法抽取县(或与之级别相当的城市区域)。接着在每个被选中的县用PPS方法抽取镇〔或城市中的邮政区域(“街道”)〕。最后再在被选中的镇用PPS方法抽取村(或城市社区)。
1702647972
1702647973
在选定小的地理单位后——如中国农村的村庄,或城市的街道、社区,可以使用四种标准的方法去选择受访者:
1702647974
1702647975
(1)从人口登记中随机抽取;
1702647976
1702647977
(2)从地址列表中随机抽取(家庭户样本),并继续从家庭户中抽取个体;
1702647978
1702647979
(3)随机移动方法(选取家庭户的另一种方法);
1702647980
1702647981
(4)配额抽取。
1702647982
1702647983
人口户籍样本 在保存人口户籍的国家(如东欧各国和中国)中,按照研究的标准(通常简单地选取某年龄阶段的人)直接从户籍资料中随机抽取个体是非常常见的方法。这是一种非常好的方法,因为它可以保证有效的质量监控——它使访问员自填问卷的作弊行为变得困难。一种简单的控制措施是询问受访者的准确出生日期。该信息在户籍资料中很清楚,但访问员却并不知道,因而访问员无法随便伪造该问题的答案。
1702647984
1702647985
但使用户籍抽样潜在地存在三点(相关的)不足。首先,如果户籍资料没有实时更新,则样本中将损失经常流动的人口。其次,人们的户籍所在地(例如家乡所在的村庄)与外出工作地往往不尽相同。由于对这类人的追踪成本颇高,所以他们往往在两个地方都不会被访问到。这在中国是一个严重的问题,因为北京有25%的流动人口,而其他城市的情况也大致如此,这些流动人口在城市工作但户籍却在农村。为了获得更好的官方统计记录(同时也为了——实际上这是更主要的原因——实行更严格的社会控制),中国政府自1994年起便要求在某地居住三个月以上的人口进行“暂住人口”登记;然而尽管如此,许多人却并没有登记。再次,户籍资料总是局限于登记人口而非实际人口,因而大量的外来人口——如德国的客籍工人——被排除在外,从而导致有偏误的样本。例如在德国,由于非技术工作几乎全部由客籍工人承担,因而按户籍抽样的德国样本中男性非技术工人总是明显过少。
1702647986
1702647987
家庭户随机样本及在家庭户中进一步抽样 在美国和其他缺乏户籍资料的国家,抽样的难点在于为每个被抽中的小地理单元创建一份人口列表。这一过程通常包含三个阶段:列出所有家庭户,并从中抽样,以及作为访问过程的一部分,在每户内随机选取一人(或多人)进行访问。
1702647988
1702647989
田野调查人员会走遍其负责的区域,对每个住处进行定位并且记录在案,以列出区域内的所有家庭户。对郊区的独户住宅来说这相对容易——尽管我们仍需注意把其中与子女同住的岳父母、公婆等类似的家庭成员包括进来;而在涉及一些有非正式住宅的区域,如有人居住在车库、店铺时,这就变得很困难。〔当代的中国城市就是这样一种状况。若要了解在这种环境下进行抽样调查所面临的巨大挑战,可参见Treiman、Mason等人(2006)的研究。〕同时,如何进入有门卫的社区或安装门禁的楼宇也是一项挑战,在列表阶段和访问阶段都是如此。
[
上一页 ]
[ :1.70264794e+09 ]
[
下一页 ]