1702650160
JAMES TOBIN(1918~2002),诺贝尔经济学奖得主(1981年),在社会科学界(而不是经济学界)作为“Tobit模型”(该模型是一种估计删失因变量模型的方法)的创始人而知名。但是,他荣获诺贝尔奖所做的主要工作是对金融市场及其与消费和投资决策、就业、生产和价格之间关系的分析。他对家庭和公司如何在实际生活中决定他们资产构成的分析做出了重大贡献,发展了著名的“资产组合选择理论”。其研究结果是对经济中金融市场和流量的描述与分析。
1702650161
1702650162
Tobin在伊利诺伊州尚佩恩(Champaign,Illinois)的一个开明家庭中长大。他的父亲是一名记者,是伊利诺伊大学运动项目的推广负责人;他的母亲是一名社会工作者。他参加了那所大学开设的高中实验课程,正如他在诺贝尔颁奖典礼的演讲中所说,他是1932年总统选举民意测验投票中那里唯一一个把票投给罗斯福的人。他本科和研究生期间都在哈佛大学学习经济学,并于1947年获得博士学位,其间他曾中断过研究生学习,先是在华盛顿找到了一份工作,然后在海军服役,任驱逐舰军官。他曾获得为期三年的“哈佛年轻学者奖励”(一个极富声望的奖学金),其间他用部分时间学习战争期间错过的计量经济学的新进展,之后在耶鲁度过其学术生涯。
1702650163
1702650164
Tobit模型
1702650165
1702650166
显然,问题在于当观测值存在删失情况时我们该怎么办。例如,当我们认为观测值0(或其他某些常数)所对应的真实潜在值其实存在变异时,观测值在0这一点上就是删失的。一种解决方法是简单地对整个数据集运行OLS回归。但是,这会产生不一致的估计值(Long,1997:188-190)。另一种解决方法是舍弃删失样本后,对无删失样本进行OLS估计。例如,在至少工作一定小时数的人中考察他们工作时数的决定因素。但是,此方法意味着对分布做了删截(truncate),这也会产生不一致的估计值(Long,1997:188-190)。Tobin的解决方法是将观测分成两组:无删失观测和有删失观测。对于在某τ值处存在删失的因变量Y的观测值,我们有下面的表达式:
1702650167
1702650168
1702650169
1702650170
1702650171
也就是说,如果Y的“真实”值Y*大于删失值,Y的观测值就等于其真实值Y*;如果真实值Y*等于或小于删失值,Y的观测值就等于某一常数(该常数通常就是删失值,但也不一定如此)。对于(表达式中的)第一组观测,用与常规最小二乘估计同样的方法得到估计值。对于第二组观测,可以先按自变量的取值来估计观测发生删失的概率,然后用此概率来估计似然值。最后基于自变量的取值将这些估计值结合起来以得到所有观测的期望值:
1702650172
1702650173
E(Yi|Xi)=[Pr(uncensored|Xi)×E(Yi|Yi>τ,Xi)]+[Pr(censored|Xi)×τY] (14.13)
1702650174
1702650175
这里,
1702650176
1702650177
1702650178
1702650179
1702650180
关于其数学推导过程,一个易于理解的说明见Long(1997,第7章)。
1702650181
1702650182
Tobit模型已经得到了一系列的扩展和一般化:
1702650183
1702650184
(1)允许右删失,及左右同时删失(即在某一分布的低值和高值处同时删失);
1702650185
1702650186
(2)允许不同的观测在不同的取值处存在删失(例如,将几年的GSS数据合并在一起后的收入变量);
1702650187
1702650188
(3)允许潜在的连续型变量被编码为一组类别选项这种情况(在许多调查中收入就是以这种方式被编码的);
1702650189
1702650190
(4)正确估计观测被删截时(变量)的效应;
1702650191
1702650192
(5)处理样本选择性问题。
1702650193
1702650194
在下一节中,我提供一个具体的例子来说明某些扩展(有关估计的详细内容,见下载文件“ch14_3.do”和“ch14_3.log”)。
1702650195
1702650196
具体例子:性生活频率
1702650197
1702650198
2000年GSS调查中有这样一个问题:“在过去的12个月中您的性生活频率如何?”表14-6中是详细的应答分类(以及后面即将用到的对应编码)。
1702650199
1702650200
显然,这些数据在低值和高值处同时存在删失。那些在过去一年根本没有性生活的人包括那些从来没有性生活的人和那些恰巧只是在过去一年里没有性生活的人,以及其他介于这两种情况之间的人。在测量的另一端,将一周4次或一周5次都编码为“一周3次以上”,这可能低估了新婚夫妇和一些性欲旺盛者的性生活次数。最后,某些类别包含了一定的变动范围,用中间值来表示或许并不是最优的。
1702650201
1702650202
表14-6 2000年美国成年人在过去一年内性生活频率的编码
1702650203
1702650204
1702650205
1702650206
1702650207
为了说明删失(数据)的影响,让我们设想一个简单模型,用年龄、性别和婚姻状态(目前有婚姻关系相对于没有婚姻关系)来预测性生活次数。事实上,在这个例子及在大多数含有年龄变量的分析中,纳入一个年龄的平方项会更好。但是,我在这里并没有这样做,因为仅仅包含线性项会使讲解较为简单。
1702650208
1702650209
表14-7给出了四种估计结果:
[
上一页 ]
[ :1.70265016e+09 ]
[
下一页 ]