打字猴:1.702646636e+09

1702646636 量化数据分析：通过社会研究检验想法 [:1702644759]

1702646637 量化数据分析：通过社会研究检验想法一个具体例子：中国人识字水平的决定因素

1702646638

1702646639 在一篇拟发表的论文中，多元线性回归的结果应该怎样呈现和解释？以下我们就把这些步骤走一遍（产生以下所讨论系数的Stata-do-和-log-文件可以从课程网址下载）。在1996年中国人口抽样调查（详细信息可见附录A，也可见Treiman，1998）中，有一张短格式的词汇测试表，请受访者识别十个难易程度不同的中文词。我们在这里研究能够解释正确识别中文词数量变化的影响因素。

1702646640

1702646641 显然，影响识字能力的最重要的因素是受教育年限。因为汉字是一种表意语言，教育的一个主要目标就是增加汉语词汇知识，在中国，有文化实际上是用所掌握词汇量来衡量的。这很像在西方国家词汇量会随着受教育年限增加的预期。

1702646642

1702646643 除了受教育年限，其他一些因素也会影响识字能力。首先，即使考虑了受访者自己的受教育水平，来自有文化家庭的人仍可能有较高的识字能力。家庭教育可能增强或替代学校教育。家庭环境用两个变量测量：父亲的受教育年限和家庭“文化资本”——一个测量受访者14岁时家中对阅读重视程度的指标。

1702646644

1702646645 城镇成长环境（14岁时居住在城市或镇，而不是农村）可能增强识字能力：一是因为在中国城镇地区教育质量较好；二是像世界上其他地方一样，中国城镇地区提供更多的接触图书资料的机会。在城镇地区更容易读到报纸，且有更多选择；城镇更可能有图书馆，且提供更广泛的图书选择；等等。

1702646646

1702646647 在控制了受教育年限后，从事非体力职业的人应该比从事体力职业的人有更高的识字能力，因为文字是从事非体力职业的人的交流工具。与体力职业相比，非体力职业对阅读文件和准备备忘录的要求高得多。因此，在学校所掌握的词汇知识在从事非体力工作的人身上比从事体力工作的人身上更可能得到增强。

1702646648

1702646649 最后，与许多东亚国家一样，中国是男性主导的社会——这表现在强烈的男孩偏好，男性的受教育程度比女性高，以及婚后居住在男方。男性相对于女性的优势很有可能会扩展到工作中和工作以外的语言交流机会，因而进一步巩固男性在学校所掌握的词汇知识。例如，男性更可能获得管理职位，在众多的非体力和体力部门中，男性更可能获得对文字使用能力要求更高的高地位工作。为了检验此假设，我在模型中纳入一个区分男性和女性的变量。

1702646650

1702646651 表6-1显示了所有分析变量的均值、标准差和相关系数。中国成年人在调查问卷的10个中文词中平均能够正确识别3.6个。成年人的平均受教育年限为6.5年（相比较而言，他们的父母亲平均约为3年）；18%的人从事非体力工作；18%的人在城镇地区长大；56%的样本是男性（注意，这是一个劳动力样本），一般受访者拥有的“文化资本”量相当于拥有“文化资本”最多的人的四分之一。（之所以说这是一个劳动力样本，是因为我删除了职业信息缺失的样本。我也删除了那些在其他变量上有缺失的样本，但成批删除的主要是缺失职业信息的样本。我们在第8章会看到，当一些变量存在相当数量的缺失信息时如何保留样本。）分析结果一点也不让人感到意外，正确识别中文词的数量与受教育年限的相关度远远高于其他变量。

1702646652

1702646653 始终给出描述统计量我们应该始终给出一张表，显示分析中用到的变量的描述统计量。这些统计量给读者提供了非常有用的信息，也允许读者使用其他模型对数据另行估计。现在的趋势是许多研究者一开始就给出复杂模型，这是不合适的，因为它往往使读者不了解所分析数据的基本特点。例如，在中国，每个人平均的受教育年限不到7年，80%以上的人从事体力工作，80%以上的人在农村长大；相比另一个社会如美国，每个人平均的受教育年限约为13年，大多数人在城镇长大，大部分人从事非体力工作：你会因此对某一个社会识字水平的决定因素产生非常不同的印象。

1702646654

1702646655 表6-1 影响1996年中国在职成年人（20～69岁）词汇知识变量的均值、标准差和相关系数（N=4802）

1702646656

1702646657

1702646658

1702646659

1702646660 续表

1702646661

1702646662

1702646663

1702646664

1702646665 表6-2证明了受教育年限的重要性，因为两个模型中受教育年限的标准化系数比任何其他变量的标准化系数都大得多。在控制了所有其他变量后，受教育年限每增加一年，正确识别中文词的数量预期增加约0.4个。举例来说，这意味着一位大学毕业生（接受16年教育）预期比在其他方面相似的职业学校或技术学校的毕业生（接受7年教育）大约多识别2个词。

1702646666

1702646667 表6-2 1996年中国在职成年人（20～69岁）在识别10个词的测试中正确识别词的数量的决定因素（括号中是标准误）a

1702646668

1702646669

1702646670

1702646671

1702646672 表6-2的技术要点

1702646673

1702646674 注意，表6-2中的两个模型都是基于完全相同的样本，样本数显示在表6-1中。研究者常犯的一个错误是在显示相继的模型时基于不同的样本，即各模型只包含有完整信息变量的样本。这种做法不好，因为我们不能确定相继模型中系数的差异是由增加变量引起的还是由样本变化引起的。此外，如果模型不是基于相同的样本，对因增加变量而使判定系数增加（将在下一节讨论）的正式检验也不可行。Stata有一个-mark-命令能很容易地保证所有模型都基于相同的样本进行比较。

1702646675

1702646676 模型1用除“文化资本”之外的所有变量来预测识别中文词的数量。在此模型中所有变量在0.001水平上显著。在控制其他变量后，从事非体力工作的人比体力工人得分高1/4点，在城镇长大的人比在农村长大的人得分高1/4点，男性比女性得分高1/3点。显然，所有这些影响都是真实的，但除了受教育年限变量，其他变量对识别中文词的影响不是很大。有意思的是，在控制其他变量后，父亲的受教育年限使词汇知识显著地增加，尽管影响很小（那些父亲所受教育最好的人与父亲所受教育最差的人之间的期望差异只有半个词，确切值为0.54=0.030×18）。总体上看，模型1中的变量解释了词汇知识三分之二以上的方差，这是非常强的关系。同样，估计量的标准误是1.25，它告诉我们有95%的实际中文词得分落在距回归面2.45分（±1.96×1.25）的范围内。知道误差大小是有指导性意义的。即使有按照社会科学的标准来看很大的R2，样本也会分散在近一半的因变量值域范围内。这提示我们必须非常谨慎地解释回归估计量。

1702646677

1702646678 截距项0.579可以被解释为那些在每个自变量上取值为0的人的期望中文词得分，即在农村长大、从事体力工作、本人及其父亲都没有受过教育的妇女。这不是很有意义的数值。尽管在中国有些人符合这些条件，但在许多国家，在所有变量上取值为0的人势必超出观测数据的范围。要获得有意义的截距项，将连续型自变量重新表示为与它们均值的偏差通常很有用。如果完成了这一步，截距项就可以被解释为那些在每个连续型变量上都取均值的人的因变量期望值（当然，每个二分变量的取值为0）。在当前的例子中，这种重新表示的结果告诉我们，从事体力工作、本人及其父亲的受教育年限取均值的农村妇女（每个二分变量的取值为0）的期望中文词得分为3.30分。注意，这种重新表示的自变量对回归系数、标准误、R2或估计量的标准误没有影响，受影响的只是截距项。

1702646679

1702646680 模型2将“文化资本”纳入模型。相关的系数表示，在控制了所有其他变量后，在有最高“文化资本”家庭（即有最好的阅读习惯的家庭）里长大的人比在没有阅读习惯家庭长大的人的中文词得分几乎高出一分。虽然判定系数显著地增加了（我们在下一节介绍如何评估R2增加量的显著性），但从实用观点看其增加并不重要。重要的是引入“文化资本”使得父亲受教育年限的影响降低至不显著。这提供了清晰的解释，说明为什么在控制受访者自己的受教育年限后，词汇知识因父亲受教育年限的增加而提高，即父亲受教育好的家庭比其他家庭有更好的阅读习惯。在考虑了家庭的“文化资本”后，父亲的受教育年限对词汇知识没有额外影响。“文化资本”变量也减弱了“在城镇长大”变量的影响程度，这说明城镇成长环境的优越性部分在于城镇家庭比情况类似的农村家庭有更好的阅读习惯。引入文化资本对其他系数的影响不大。

1702646681

1702646682 图示结果

1702646683

1702646684 为了方便解释，有时图示模型中某一给定自变量与因变量之间的净关系是很有帮助的。这很容易做到。作图技巧是对感兴趣的变量之外的所有其他变量通过替换均值或其他合适的数值以使它们为常数以达到简化估计方程的目的。这就使其他自变量保持固定值不变，得到在自变量的每个水平上因变量的期望值。这可以扩展到分别图示某一分类变量的各个类别——例如，假设我们对模型2中中文词得分和受教育年限的关系在男性和女性之间有何不同感兴趣。对连续型变量而言，均值是方程中数值替换的一种好的选择。对二分变量而言，我们可以用均值或其他合适值替换，例如在城镇长大的非体力劳动者。当然，对二分变量而言，均值就是该变量为“正值”的比例。因此，如果替换二分变量的均值，那么我们不是针对具体的人来评估方程——毕竟一个人不能是18%在城镇长大或56%是男性，在某种意义上，我们是在评估人口的典型状况。

1702646685

[ 上一页 ] [ :1.702646636e+09 ] [ 下一页 ]