【波士顿大学】全球工商管理硕士(MBA)丨工具变量:自然实验和虚拟实验

  Boston University 创办于1839年,是历史悠久的世界顶尖研究型大学,同时也是全美第三大学,在全球享有一流的学术声誉。在2020年世界大学排名中,其被US News评为全球第50位的顶尖综合大学,在马萨诸塞州仅次于哈佛大学和麻省理工学院。

  波士顿大学:全球排名:2021泰晤士高等教育世界大学排名(全球排名第54位),2021U.S. News世界大学排名(全球排名第57位),2022QS世界大学排名(全球排名第112位),2021软科世界大学学术排名(全球排名第90位),《美国新闻与世界报道》一级国家级大学,学术声誉全美排第58名,《纽约时报大学指南》四颗星学术评分。

  波士顿大学:拥有一流的师资与设备,也拥有健全的科系。全校共有16个学院,包括艺术学院、大众传播学院、教育学院、牙医学院、工学院、法学院、文学院、商学院、医学院、公共卫生学院等等,波士顿大学最好的学科是工程、大众传播、商学院、管理学和心理学。

  波士顿大学:凯斯特罗姆商学院(Questrom School of Business),原名波士顿大学管理学院(Boston University School of Management),于1913年创建,全球综合排名第49,《金融时报》“MBA毕业生职业发展排名”多次获得全球第一。管理学硕士学位排名全球前50位。波士顿大学凯斯特罗姆商学院强调管理的科学层面、技术层面和艺术层面。借助波士顿的地利:世界级的技术创新中心和创业环境,推出了广受好评人才辈出的全球MBA,培养兼具信息技术和商业管理才能的未来CEO和企业家,前沿的课程设计吸引了有技术背景或没有技术背景的学生,创新而又基础的教学理念引来其它商学院的纷纷效仿

  汇集全球顶尖高校师资力量(哈佛大学,斯坦福大学,牛津大学,剑桥大学,北京大学,清华大学,复旦大学,上海交通大学),为全球MBA工商管理硕士丨DBA工商管理博士项目提供专业的学术保障和智力支持

  项目对象:企业家(特别是具有全球视野,有志于开拓全球市场的企业家)、企业决策者、企业高层管理人员、咨询行业专家、高校教师等

  本部分将对一些经典和较具说服力的工具变量分析案例进行分类总结。梳理这些工具变量,比一般性的文献综述更重要,这是因为,合格的工具变量非常难以寻找。因此,前人对某一类工具变量的使用,在很大程度上对我们今后寻找工具变量能够带来重要启发甚至灵感:严密的逻辑和辽远的想象力,是寻找到好的工具变量的必要条件 。

  经济学和社会学中一个非常热门的研究课题是同侪效应( peereffect) 。其假说是,个人的经济社会结果,往往会受到所在集体的某个特征要素的影响。比如,一个人的成绩、收入、社会地位等等,会受到他所在的学校、班级、邻里的特征的影响。但要验证这一假说,我们就必须解决个人异质性导致的内生性问题。这是因为,很多无法观测到的个人、家庭因素,会同时和个人结果与我们关心的集体要素相关( 特别是,个体往往根据自己的某项特质和偏好来选择学校、选择班级、选择邻居) 。为解决这一内生性问题,经济学家和社会学家常常把州、县或大都会地区层面的集聚数据( aggregation data) 作为学校、班级和邻里等层面解释变量的工具变量( 文献回溯参见Card & Krueger,1996) 。例如,埃文斯等( Evans et al. ,1992) 试图验证学校中的贫困生比例对学生怀孕或辍学行为是否有显著影响。他们运用大都会地区的失业率、家庭收入中位数和贫困率作为学校中贫困学生比例的工具变量。其理由是: 以都会为单位的失业率和贫困率必然和辖区内学校的贫困生比例有关,但又不直接影响学生的怀孕或辍学等行为。邦托利阿等( Bentolila et al., 2010) 使用联邦就业率作为工具变量来分析“使用社会关系”对个人收入是否具有作用。联邦就业率与收入没有直接关系。但就业率高,则在联邦内使用关系求职的必要性就低。不过,使用集聚层数据作为工具变量,往往会引入噪音,甚至增加遗漏偏误——因为我们无法保证高级区划层面上的特征值是完全外生的( Grogger,1996; Hanushek et al.,1996; Moffitt, 1995; Rivkin, 2001) 。因此,这类工具变量的应用案例,在近年来的研究中有减少的趋势。

  河流、地震、降雨、自然灾害等自然现象在一定地域范围内具有高度的随机、外生特性,因此可以被假设为与个人和群体的异质性无关,同时,它们又能够影响一些社会过程。例如,霍克斯比( Hoxby,2000)在一篇经典研究中,采用区域内河流数量作为该区域学校数量的工具变量,以此来验证学区内的学校竞争是否可以提高教学质量。区域内学校数量之所以是内生的,是因为它可能是该区域长期历史积累下的某种特征的结果。而使用河流数作为工具变量则具有很强的说服力:河流数量越多,就会因交通问题导致更多学校的设立; 但河流数是天然形成的,本身和教学质量无直接关系。再如,卡尔特和克莱泽( Culter& Glaeser,1997) 把贯穿大都市的河流数量作为邻里区隔( segregation)的工具变量,以分析区隔程度对居住者的影响。该工具变量的合法性与上例工具变量异曲同工: 河流越多,导致的邻里区隔程度必然越大,而河流数量和作为社会结果的居住者的收入无关。

  除了河流,其他诸如地震、灾害、降雨量甚至化学污染等自然现象,都曾被具有社会科学想象力的研究者所使用。例如,在班级效应( classeffect) 研究中,西波隆和罗索利亚( Cipollone & Rosolia, 2007) 以地震导致的男性免征兵政策作为高中班级性别构成的工具变量,以分析意大利学生中班级性别构成对女生成绩的影响。地震作为一种天象,显然是随机和外生的。在国际移民研究中,孟希( Munshi,2003) 则使用墨西哥移民来源地区的降水量作为移民数量的工具变量,证明了乡的移民越多,他们在美国打工的收入会越高。移民来源社区的降雨量作为工具变量的理由是: 墨西哥某社区的降水量和美国的劳动力市场显然没有任何关联; 但降水量和社区的农业收入有关,并通过影响农业预期收入而影响到移民美国的决策。在社会资本和网络效应研究中,陈云松( 2012) 以中国农民工来源村庄的自然灾害强度作为本村外出打工者数量的工具变量,证明了同村打工网的规模直接影响农民工在城市的收入。使用自然灾害作为工具变量的合法性在于: 灾害越重,外出打工的村民就越多; 而在控制了地区间应对灾害的能力和来源省份之后,发生在村庄领域内的自然灾害可以被认为是外生的。

  人类的生老病死既是社会现象,也是生理上的自然现象。出生日期、季度、性别、死亡率等,虽仅仅是有机体的自然历程,但既具有随机性,又往往和特定的经济社会过程相关。因此,无论在宏观还是微观社会科学层面,它们都曾被巧妙地作为工具变量运用在因果推断之中。比如,在制度经济学研究中,我们关心的是制度对一国的人均收入有无影响。但制度往往是内生的,或者说是选择性的( 例如,好的制度也许总在人均收入高的国家或地区产生) 。只有找到制度的工具变量,才能让人信服地证明制度的力量。阿西莫格鲁等在一项经典研究( Acemogluet al.,2001) 中,把殖民地时代一个国家的自然死亡率作为该国当今制度的工具变量。其理由非常巧妙: 如果该地区当年的死亡率高,那么欧洲殖民者就相对不愿定居下来,从而在当地建立起更具掠夺性的“坏”制度。由于制度的“路径依赖”,殖民时代的制度显然和现在的制度关系密切。因此,历史上的死亡率作为工具变量,应该和当今制度紧密相关,而一百年前的死亡率作为一种自然生理现象,又和目前的人均收入没有直接关系。

  在微观层面的研究中,个人的出生时段曾多次被作为工具变量使用。在教育回报研究中,安古瑞斯特和克鲁格( Angrist & Krueger,1991) 把被访者出生的季度作为教育的工具变量。其理由是: 上半年出生的孩子退学的可能性大于下半年出生的孩子( 美国《义务教育法》规定不满16 周岁不得退学) ,因此后者平均受教育时间更长。除了个体的“生日”,人类的生育结果也往往作为一种随机现象而被当作工具变量使用。例如,安古瑞斯特和伊凡斯( Angrist & Evans, 1998) 试图分析家庭中的孩子数是否影响母亲的就业。由于生育孩子数量是可以被选择的,因此解释变量显然是内生的。为解决这一问题,他们巧妙地挖掘了人类生育行为中偏好有儿有女的特征,将子女“老大”和“老二”的性别组合情况作为工具变量。理由是: 头两胎如果是双子或双女,那么生育第三胎的可能性大大增加,进而增加子女数。而子女性别是完全随机的。莫林和莫斯基翁( Maurin & Moschion, 2009) 考察了法国邻里中其他母亲的就业如何影响单个母亲的就业。为了消解内生性问题,他们用邻里平均的头两个子女的性别组合作为邻里母亲就业的工具变量。理由是,邻里平均的头两个子女的性别组合,会影响到邻里内母亲的平均就业情况,而邻里的下一代性别结构是随机的,和单个母亲的就业决定没有直接关系。前文提及的邦托利阿等人( Bentolila et al. ,2010) 的研究,在使用联邦就业率作为“使用社会关系”的工具变量的同时,还使用年长的兄姊数目作为工具变量。他们的理由是,兄弟姐妹数是随机的自然现象,因为家庭育儿数字在法国是随机的。但兄弟姐妹越多,则社会关系越多,托人帮助求职的可能性也就越大。

  社会空间的载体,包括具象性的城市、乡村,和非具象性的市场空间等,和人类的行为与社会结果息息相关,但往往又在特定分析层面上具有独立性、随机性。这类经典的工具变量分析案例,出现在教育回报研究中。卡德( Card,1995) 使用被访者的家到最近的大学的距离作为教育的工具变量,以此来分析教育是否能增加个人的收入和地位。我们知道,教育作为解释变量之所以是内生的,是因为人们会选择上或不上大学。而从家到大学的距离,会影响到是否上大学这个理性选择。但这一距离,作为城市空间的要素,显然又与个体的社会经济结果没有直接关系。当然,地理空间上的距离对于上学意愿的影响可能是微弱的,或者只影响到一部分人。这也就引出工具变量研究中的两个重要概念——弱工具变量和局部干预效应问题。这些在本文的下节将做说明。

  在制度分析的研究中,豪尔和琼斯( Hall & Jones, 1999) 则非常具有想象力地用各国到赤道的距离作为工具变量。理由是,到赤道的距离大致反映了各国受西方制度影响的深浅程度,而这一距离显然是外生的。此外,除了城市距离这样具体的社会空间要素,市场作为社会经济活动的空间,其要素也往往和社会学家关心的现象紧密相关,却又不直接干扰个体的某些具体社会特征。钱楠筠( Qian, 2008) 巧妙地用茶叶的价格作为中国家庭中男性收入和女性收入之比的工具变量,证明了家庭收入的性别结构最终影响了中国家庭男女出生性别比例( 传统上我们相信家庭的总收入影响男女出生比例) 。用茶叶价格作为工具变量,是因为茶叶产业链的特性决定了从业人员以女性为主,茶叶价格提高就意味着女性在家庭中的经济地位提高,从而导致家庭女性胎儿被流产的几率降低。而茶叶的价格显然和家庭男女出生性别比例没有其他任何的因果逻辑联系。

  实验是一种外来的人为干预。它一方面对我们关心的解释变量带来冲击,同时又会置身模型之外。能够给我们提供工具变量的实验,既有政策干预、改革创新这样的社会实验,又有假想的虚拟实验。不少研究采用外生性政策干预所带来的自然实验来挖掘适当的工具变量。这方面,工具变量的重要权威安古瑞斯特有着极为经典的越南老兵系列研究。在越南战争期间,美国青年服兵役采取基于生日的抽签形式来决定。获得抽签号之后,小于一定“阈值”就去参加体检服兵役,大于阈值的则可免于兵役。抽签号的产生如同彩票一样是完全随机的,但又直接影响到是否服兵役这一重要的社会过程。利用各人获得的抽签号作为工作变量,安古瑞斯特等人从80 年代末到今天的20 多年间,做出了一系列经典研究,分析服兵役是否会对当年的参战者、今天退伍老兵产生在收入、后续教育及健康等方面的影响( 参见Angrist,1990,1993; Angrist et al.,1996; Angrist et al., 2010) 。① 因为服兵役必然会减少教育年限,安古瑞斯特甚至尝试把抽签号作为教育的工具变量以分析教育回报( Angrist & Krueger, 1992) 。

  在同侪效应研究中也可以使用自然实验方法。例如,布泽和卡乔拉( Boozer & Cacciola,2001) 试图证明班级平均成绩对个体学业成绩具有同侪效应。他们把班级中曾经参与过“小班实验”的人数比例作为班级平均成绩的工具变量。其理由是: 小班实验是随机设计的,学校之前从各个班级随机抽人去组成小班,因此外生性可以保证。而小班教学提高了这部分学生的成绩,故此对班级整体也必然有影响。类似方法还可参见博沃尔斯和菲南( Bobonis & Finan, 2008) 对墨西哥教育的研究。他们把村庄中参与Progresa 项目( 国家给生活困难的母亲以补助) 的比例作为村庄儿童平均就学的工具变量,以此来分析乡村同龄人的入学率是否影响个体的入学决定。实际上,这一系列的工具变量思路来自于早前安古瑞斯特和拉维关于以色列班级规模效应的经典研究( Angrist & Lavy,1999) : 小班是否有利于学生提高成绩。他们采用的工具变量是所谓迈蒙尼德( Maimonides) 规则下的本地招生人数。根据迈蒙尼德规则,凡是班级人数超过40 的就会被分裂为两个小班。因此,招生人数和班级规模之间就存在一个紧密的非线性关系。更宏观社会空间层次的“自然实验”则是历史过程或大规模的社会运动。方颖、赵扬( 2011) 为估算各地区产权保护制度对经济增长的贡献,采用的工具变量是1919 年中国不同城市基督教初级教会小学注册人数在当地人口中的比例。因为这一比例代表了该地区历史上受西方影响的程度: 入读教会小学的人口比例越大,该地区受西方影响越大,也就越有可能在今天建立起较好的产权保护制度。而教会小学建立的初衷在于布道,这一变量和当年以及现在各地区的经济水平并不直接相关。在社会网分析中,章元、陆铭( 2009) 在分析农民工的家庭网、亲友网和收入之间的关系时,用农民工祖辈的社会背景及是否来自革命老区作为工具变量。其理由是,祖辈社会背景和是否来自老区会影响到农民工的社会网络规模,但这些历史因素和今天农民工在异地的收入没有其他直接联系。

  虚拟实验则是一种非常有趣的工具变量方法,其原理有点接近于匹配方法。巴耶尔和罗斯( Bayer & Ross,2009) 在研究就业是否存在邻里同侪效应时,为解决被访者个体异质性和自选择问题,他们用与被访者具有相同个人特征( 也即方程1 中的X 中的一组控制变量) 的其他被访者的平均邻里特征来作为被访者邻里特征的工具变量。其理由是,相似个体选择相似的邻里,那么基于类似者的平均邻里特征( 也即工具变量) 应该与被访者的邻里特征相关。而同时他们利用了控制变量是外生的这一标准假设: 既然个体的可观测特征与未被观察因子无关( 也即方程中的X 事先假定是外生的) ,那么基于X 的一组外生变量而生成的工具变量也就必然与个人异质性无关。孔特雷拉斯等( Contreraset al., 2007) 采取类似的方法,发现邻里的非农就业对玻利维亚妇女获得非农工作具有正面影响。

  把模型外的变量Z 引入模型时,既为模型的识别增加了有效信息,但同时也带来了噪音。其中一个最为重要的问题是: 我们并不知道工具变量和解释变量之间相关的具体形式和特征。特别是,工具变量和解释变量之间的相关性,在样本中是均匀还是不均匀分布的呢? 如果工具变量对样本人群的影响分布并不均匀,那么工具变量估计量应该更多地反映了部分样本上的因果效应。这就引出了工具变量分析中一个非常重要的解释框架———所谓的“局部平均干预效应”问题( local average treatment effect,简称为LATE。参见Imbens & Angrist, 1994; Angrist et al., 1996) 。这一问题之所以重要,是因为社会也好、区域也好、城市也好、人群也好,群体往往具有内在的差异性。这种差异性导致样本对于外生冲击的反应步调并不一致。这样,工具变量估计量在很多情况下只是基于诸多局部样本估计量的加权平均值。理解了这一权重特性,我们就能更好地对工具变量的分析结果进行合理的社会学解释,而不仅仅是提供一堆表格和纯技术性的统计量。

  本文以前面提及的陈云松( 2012) 为例来做个说明。该研究试图证明农民工收入和同村打工网规模之间存在因果效应,数据来自CHIPS 2002 共22 个省的农户调查。作者把赫克曼二阶段模型( 此处简称为Heckit 模型) 和工具变量模型相结合,利用IV-Heckit 模型进行

  识别,以最大限度地消除回归分析中的内生性偏误。其中,农民工来源村庄的自然灾害强度被作为工具变量来识别收入模型。本文把从OLS模型,Heckit 模型和IV-Heckit 模型分别得出的网络效应估计量概括在表1 中。

  表1 中,第三列的估计值来自Heckit 模型,也即考虑了可能的样本选择问题———外出打工本身就是一个选择性的过程。第四列的IVHeckit模型是基于赫克曼二阶段法的工具变量模型,能够同时解决样本选择问题和一般的内生性问题。不难发现, IV-Heckit 模型给出了一个比Heckit 模型更大的网络效应估计值: 后者是0.263,而前者达0.628。如何解释IV-Heckit 估计值大于Heckit 估计值呢?一个现成的解释是,遗漏变量和网络大小正相关,但与个人收入负相关。但这样的解释是“空对空”的揣测,没有社会学意义。而如果考虑到自然灾害促使农民做出外出打工决定的“压力”不是均质的,那么就可以在LATE的框架下给出比较合理和直观的解释。因此,该文做了进一步的诠释:由于能力、地缘、历史习俗等因素,不同村庄的农民,在做出外出打工决定时,对自然灾害的敏感度可能是不一样的。例如,能力弱的村民或者平均能力较弱的村庄,对自然灾害造成的损失更加担忧,也就更容易被自然灾害“拉动”而外出打工。这样,“弱能力村庄”外出打工网的规模,就更容易受自然灾害影响。当我们用自然灾害作为工具变量来估算同村打工网的工资效应时,IV-Heckit 模型的估计值所体现的就不是基于样本的总体平均效应,而是一个加权平均值。其中,来自“弱能力村庄”的农民工会具有更大的权重。这一加权平均值,就是前面所谓的LATE。而理论和实证研究都表明,能力弱的农民工,对基于村庄的同乡网依赖更多,从村庄网获得的边际效益也更大。也就是说,同村打工网的网络效应,在来自“弱能力村庄”的农民工群体中更强。既然IV-Heckit 模型更多地反映了“弱能力村庄”中的网络效应,它给出的估计值自然就要比Heckit 模型大。返回搜狐,查看更多