查看原文
其他

从双重差分法到事件研究法

袁颖 产业经济评论 2023-08-28
点击上方“蓝字”关注我们

本文是“产业经济评论”第1011篇推送论文

从双重差分法到事件研究法

文章信息:从双重差分法到事件研究法黄炜,张子尧,刘安然;《产业经济评论》;2022年第2期

一、引言

随着计量经济学“可信性革命”席卷了经济学的各个领域,基于潜在因果模型的因果效应识别策略,如匹配法、工具变量法、双重差分法和断点回归设计等,逐渐成为了经济学等社会科学领域实证研究的通行研究范式。上述几种方法的使用要求和适应场景各不相同,双重差分法由于其直观清晰、易于理解,并且实际操作难度较低、上手简单等特点而广为应用。图1展示了中文期刊经济管理类学术论文各类方法的使用数量变化,可以看到自2015年后使用双重差分法的国内经济管理类研究数量急剧上升,在2019年超越了工具变量法成为了目前使用最为广泛的计量方法,并且其上升趋势仍有进一步加强的倾向。由此或可推测,在未来的一段时期内,双重差分法仍然将是经济管理类实证研究的主流方法之一。

然而,伴随着双重差分法的广泛使用,一些对于双重差分法的不精确理解甚至是错误认识也逐渐开始出现。常见的一些问题包括:双重差分法的基本识别假设是什么?双重差分法需要政策是完全随机分配的吗?平行趋势假设是什么?通常所说的平行趋势检验真的是在检验平行趋势假设吗?控制变量应该如何选取?什么样的变量必须控制,什么样的变量必须不能控制,什么样的变量可以控制也可以不控制?当政策干预时点不一致时双重差分法应该如何实现?这种实现方法有什么问题,应该如何改进?等等。

本文的结构如下:第二部分描述双重差分法的计量实现,对研究中常用的几种双重差分法进行归纳总结,而后着重强调了双重差分法的识别假设及其直观含义。第三部分分析双重差分法使用中的控制变量选取、平行趋势检验的实现和理解,以及组间线性时间趋势是否控制三个常见易混淆的问题。第四部分讨论了近年来广泛应用的交错双重差分法的实现和潜在问题,以及如何尝试使用动态双重差分法和事件研究法来克服交错双重差分法的不足。第五部分讨论了双重差分法评估政策效应时常见的几个问题,包括需要重视真实的制度背景、政策干预是否需要完全随机、溢出效应以及一般均衡视角下的成本收益分析。论文最后是总结性评论。

二、双重差分法的实现

基本实现:

(一)标准DiD

双重差分是一种尝试采用控制组实际未经处理的结果变化作为处理组倘若未经处理的结果变化的反事实来分析因果效应的方法,通常包括冲击事件、处理组、控制组和时期这四个要素,其经典构造可以表示为如下形式:

其中,Yit为结果变量,Di为政策分组虚拟变量,Tt 为政策时间虚拟变量,Di*Tt 为两者交互项,α、λ和β为各项前的系数,εit为随机误差项。对上式取条件期望后,可得到表 1 所示的估计效应,其中β表示文章所关注的因果效应。双重差分法通常涉及两组人群与两个时期。其中一组人群在第一个时期未接受处理,在第二个时期则受到处理或干预;另一组人群则在两个时期都未接受处理。将个体i 在时期t接受处理定义为定义Dit=1,未接受处理定义为Dit=0。一般将在处理组接受处理前的时期记为T=0,处理后的时期记为T=1。其中,对处理组个体有为Di1=1,对控制组个体有Di0=0,对所有个体i有Di0=0。

双重差分的核心是通过构造交互项来识别政策冲击的对受影响个体(处理组)的平均处理效应,即基于一个反事实框架来评估政策冲击发生与不发生这两种情况下处理结果Yit的变化。真实的因果效应需要通过比较处理组接受处理与不接受处理的状态得出,然而在现实生活中,当冲击发生后,我们仅能观察到处理组受到冲击后的情况,无法真正知晓其未受冲击的情况。而在双重差分方法中,控制组提供了一个可供研究的反事实,即可将未受到处理的控制组在观察时期内的“变化”近似于处理组倘若未受到冲击将发生的变化。从处理组前后时期的变化中减去控制组前后时期的变化,即可得到因果效应β。上述分析的数学表达式如下式所示,第一个中括号内为处理组前后时期的差分效应,第二个中括号内为控制组前后时期的差分效应,两个一次差分再相减后,得到双重差分处理效应:

在实际应用中,双重差分方法经常与面板数据联系起来使用,此时多采用双向固定效应模型,因此双重差分法有时会表述为如下形式:

其中,μi 、γt 分别为个体固定效应和时间固定效应,通过在回归时加入个体虚拟变量和时间虚拟变量便可控制个体固定效应和时间固定 效应,而此时如果再放入处理组虚拟变量会带来严格多重共线性。μi、γt是对个体层面和每 期时间的控制,比原本模型中的政策分组虚拟变量Di(控制至组别层面)和政策时间虚拟变量Tt(控制处理期前后的效应)更为精细,包含了更多的信息。

(二)双重差分法的其他形式拓展

1.交错双重差分法(staggered DiD)。标准双重差分法模型和双向固定效应双重差分法模型涉及的政策实施试点或冲击发生时点为同一时期。然而,现实生活中诸多政策实施未必发生在某一时点,而是先有试点再逐步推广,在渐进的过程内推而行之,如增值税转型、土地确权、新农保实施、高铁修建等。

2.广义双重差分法(generalized DiD)。当所有研究对象均或多或少同时受到了政策干预,即仅有处理组而无控制组时,仍然能够考虑应用双重差分法。对此可以根据研究对象受到的具体冲击情况来构建处理强度指标来进行分析,此时个体维度并不是从0到1的改变,而是连续的变化。因此,可以将个体维度的政策分组虚拟变量替换为用以表示不同个体受政策影响程度的连续型变量,该种方法被称为广义双重差分法。

3.队列双重差分法(cohort DiD)。队列双重差分法也被称为截面双重差分法,即使用横截面数据来评估某一历史事件对个体的长期影响。队列双重差分法同样是比较两个维度上的差异大小:一个维度为地区间差异,标识该地区是否受干预政策影响或干预强度;另一个维度为出生队列间差异,标识个体是否受到了干预政策的影响。队列双重差分法本质上是使用未受政策干预的出生队列作为受到政策干预的出生队列的反事实结果。

4.模糊双重差分法(fuzzy DiD)。在标准双重差分法等方法的应用情境中,处理组和控制组之间通常泾渭分明,因此可以通过分组差分得到较为“干净”的处理效应。但是,有时冲击并未带来急剧变化,所谓的“处理组”中虽然受冲击率高于其他组别,但并没有完全被干预或受政策冲击,而所谓的“控制组”中也并非完全没有受到冲击,即处理组和控制组之间没有明确的分野,不存在“干净”的处理组与控制组。

5.三重差分法(triple differences)。顾名思义,三重差分法引入了第三个维度“组别”,通过比较不同组别间的处理组和控制组在干预政策前后结果变量变化的差异来识别因果效应。三重差分法的应用场景通常有两个:一是在平行趋势假设不满足时引入第三个维度的差分来帮助消除处理组和控制组间的时间趋势差异;二是在平行趋势满足时,用于识别干预政策在不同群体间的异质性处理效应。

6.其他双重差分法。纵观上述各种类型的双重差分法,其基本思路是寻找观测样本在两个维度上的差异,其中一个维度用于控制不可观测的时间趋势,另一个维度用于测度政策效应的变化。如果从更加一般化的角度理解双重差分法背后的直觉和思想,可以发现事实上几乎任何两个维度的差异之差异都可以从双重差分的角度去理解。也就是说,几乎所有的交互项模型都可以理解为一种双重差分法。

(三)双重差分法的识别假设

双重差分法的应用需要满足一定的假设条件,倘若违背了这些前提假设,估计结果可能会严重偏离真实的因果效应。本部分对双重差分法的识别假设内容及可能违背假设的情景、后果进行讨论。

1.平行趋势假设。双重差分法最基本的假设是平行趋势假设(parallel trend assumption),又称共同趋势假设(common trend assumption),是指倘若处理组个体未接受干预或冲击,则其结果变动趋势与控制组个体结果变动趋势相同。该假设数学表达如下:


其中,Y0表示未受干预或冲击的结果变量。在该假设下,双重差分法的估计结果正是处理组接受处理后的平均处理效应(ATT at the post-treatment period):

由上述分析可知,双重差分法要求在没有干预或处理的情况下,处理组和控制组的平均结果随时间变化的趋势相同。双重差分法背后隐含着“准自然实验”的思想,并不严格要求处理组与控制组之间满足随机分组条件。实际上,双重差分法所要求的“随机分组”,是指结果变量的变动趋势独立于政策冲击,即关于ΔY0满足随机分组条件。需要强调的是,这一识别假设和我们通常所说的随机分组是不同的,一般意义上的随机分组要求处理状态和潜在结果不相关,即,显然,该识别假设和双重差分法要求的潜在结果差分意义上的随机分组有区别。假使处理组与控制组满足随机分组原则,那么便近似于随机对照试验,处理组与控制组的结果对比便是处理效应,无需再使用双重差分法。

2.单位处理变量值稳定假设(SUTVA)。单位处理变量值稳定假设是指不同个体是否受到政策冲击是相互独立的,某一个体受政策冲击的情况不影响任何其他个体的结果。直观理解,不满足SUTVA意味着控制组个体也受到了干预政策的影响,因而不再是事实上未受干预影响的“真实”控制组,也就无法使用控制组时间趋势来构建处理组时间趋势的反事实。在理想情况下,处理组和控制组被严格区分开来,彼此互不干涉;然而,在现实生活中,相当多的政策冲击具有一定的外部性。此外,个体的行为也往往具有一定的策略性和选择性,如处理组地区得到了较好的政策帮扶,那么原本控制组地区的个体可能会自发从控制组地区迁移至处理组地区,意味着宏观上非政策目标地区也受到了干预政策的影响,这就是通常所说的一般均衡效应或溢出效应。一般均衡效应或溢出效应会使得SUTVA不再成立,进而导致双重差分法无法正确识别因果效应。


注意问题:

(一)控制变量

在回归方程中加入控制变量起到两个作用。第一,保证条件独立假设成立。条件独立假设成立意味着给定控制变量时处理变量Di与误差项εit不相关,从而保证了OLS估计量b是我们所关心的因果效应β的一致估计。这是观测性研究的因果推断中控制变量所发挥的最核心作用。第二,减小误差,提高估计精度。如果处理变量Di与误差项εit已经不相关,无论是否加入控制变量,b都是因果效应β的一致估计。此时加入合理的控制变量可以降低误差从而提高估计精度。

(二)平行趋势与事前趋势检验

平行趋势又称共同趋势,指处理组个体的Yit在没有接受处理的状态下拥有和控制组个体Yit相同的时间变动趋势,它是双重差分法能够正确识别因果效应的前提条件。由于处理组个体在处理时点后的反事实结果(处理组没有接受处理的Yit)无法观察到,平行趋势假设本质上是无法直接检验的。因此,研究者们通常退而求其次,通过检验可观察的处理组和控制组事前趋势是否相同来间接地检验平行趋势假设。如果处理组和控制组的事前趋势平行,那么研究者就有一定的信心认为事后趋势也是平行的。

对于一般的双重差分法(处理时点相同),一般通过如下方程对事前平行趋势进行检验:

式(3)中的Di是分组变量,Ts,t是第s期的时间虚拟变量,βs,pre和βs,post可以直观的理解为在处理发生前和处理发生后的第s期处理组和控制组被解释变量Yit的差异相对于基期(这里是处理发生前一期)处理组和控制组被解释变量Yit的差异。事前平行趋势满足意味着在处理时点TD之前的各个时期组间差异没有发生明显变化,因此可以通过检验βs,pre是否显著异于0以及在作图中没有发现明显趋势来间接地检验事前平行趋势是否成立。图3是一个模拟的例子,可以看到在处理发生前各个时期的βs,pre均不显著,而且在处理发生之前也并未看到明趋势,联合检验结果也无法拒绝处理前系数都为0的原假设,因此可以认为事前平行趋势得到了满足。

式(3)不仅能够检验事前平行趋势,还能够观察到处理效应的动态变化。注意βs,post代表了处理时点TD之后的各个时期组间差异相对于基期的差异,如果处理效应确实存在,我们应该期望得到βs,post显著不为0。图3中从处理后第1期(11期)开始估计系数βs,post显著不为0,并且基本等于真实因果效应1。因此式(3)实际上发挥着检验事前平行趋势与处理动态效应的双重作用。需要强调的是,事前平行趋势通过检验并不意味着平行趋势假设一定成立。正如前文强调地,平行趋势假设本身不可检验,而事前平行趋势只是整个平行趋势假设的一部分,即使事前平行趋势通过检验也只是表明处理组和控制组在干预发生前保持相同时间趋势,并不能确保事后趋势也一定平行,所以“事前平行趋势检验通过,平行趋势假设成立”说法并不准确。

(三)组别时间趋势的进一步分析

使用双重差分法评估政策效应的可靠性依赖于平行趋势假设,因此在实证研究中最为担心的一点就是干预分配的过程可能使得平行趋势假设不成立。

三、交错双重差分法的实现

(一)交错双重差分法

在标准的双重差分法中处理组在同一个时间点受到干预,然而现实中有相当多的政策并非是一次性全面实施,而是先在某些地区试点后再分批逐步推广,处理时点并不一致。一个典型的例子是增值税转型改革:2004年7月首先在东北地区开始试点,2007年7月扩大至中部6省,2008年7月推广至内蒙古以及汶川地震受灾地区,2009年1月1日起覆盖全国。标准的双重差分法并不适用于这样的政策。一个常用的方法是交错双重差分法(staggered DiD),“交错”一词表明该方法适用于干预时点有前后差异的政策。交错双重差分法的回归方程设定为如下形式:

式(4)中的Dit表示个体i在t期的处理状态,接受处理时取1,未接受处理取0。图5是一个典型的干预时点交错发生时的Dit取值示例。可以发现,标准双重差分法是交错双重差分法的一个特例:当处理组受到干预影响的时点全部相同时,Dit可以分解为,当干预时点不同时则无法做上述分解。

交错双重差分法在政策评估领域得到了广泛的应用,然而最近一些理论计量学者发现交错双重差分法可能存在一些比较严重的问题。最主要的问题在于,当政策效应随着时间改变时,交错双重差分法估计的结果并不是一个定义良好的平均处理效应,而是多个标准双重差分法估计的平均处理效应的加权平均,并且权重可能是负的。这意味着即使干预本身对所有时点的处理组都是正效应,但交错双重差

分法的估计系数仍然可能为负。也就是说,在异质性处理效应的前提下交错双重差分法的单一系数估计结果不再可信。而交错双重差分法的动态效应检验——本文称之为动态双重差分法——则是一种可能应对该种情形的分析工具。

(二)从动态双重差分法到事件研究法

动态双重差分法可以被视作交错双重差分法的动态效应检验。与标准双重差分法检验动态效应的基本思路一致,也是通过检验处理组和控制组在干预前和干预后的组间均值差异变化来识别政策的动态效应。与标准双重差分法不同的是,在干预时点交错发生的情境下无法定义一个绝对的时间参照点作为处理前和处理后的分界线。因此,动态双重差分法不再以绝对时间为参照系,而是以干预发生时点作为相对时间参照系(图6)。动态双重差分法的计量方程设定形式为:

式(5)中的是示性函数,TD是政策发生当期,是事件窗口(event window)的开始期和结束期。对比式(4)和式(5),可以看到动态双重差分法和标准双重差分法动态效应的计量模型设定结构是非常相似的,其差别在于时间坐标系的选择:标准双重差分法以绝对时间为参照系(),动态双重差分法以距离干预发生时点的相对时间为参照系()。因此,虽然计量模型结构有一些区别,但两者的核心思想是基本一致的:比较干预发生前和发生后的处理组和控制组组间差异变化趋势。

三、其他问题

(一)制度背景和政策实施真实情况

双重差分法应用最多的场景是评估政策效应,对于制度背景的清晰梳理和政策真实实施情况的正确观察应该是政策评估类实证研究的基石。一项政策可能发布了却没有很好的实施,也可能受政策影响的个体采取了“上有政策,下有对策”的策略式行动影响了政策实施真实效果,如果研究者没有很好的厘清这些制度背景和政策实施的真实情况,就不可能准确地评估政策效应,甚至可能得到误导性的研究结论

(二)干预政策需要严格外生或随机分配吗?

在第二部分双重差分法的识别假设部分,我们强调了双重差分法本身并没有解决内生性问题,而是“假设”干预政策是外生,内生性问题的解决仍然依赖于干预政策本身的外生性。然而,这里的外生性是什么意义上的外生性?换言之,双重差分法下需要干预政策和谁之间是外生的?一种看法认为干预政策必须是完全随机(自然实验)或者近似随机分配(准自然实验),即干预政策和模型未考虑的所有因素(扰动项)之间不相关,只有在这种情况下才适用双重差分法(陈林和伍海军,2015)。但是,现实中的任何一项政策几乎都有特定的政策目标和政策对象,完全随机分配的政策几乎并不存在,那么这类政策是否完全不适用双重差分法呢?本文认为并非如此。第二部分对识别假设的讨论清楚地表明,双重差分法所需要的外生性是干预政策和扰动项在差分意义上的外生性,这与水平意义上的外生性显然并非是等价的。

(三)溢出效应

双重差分法的另一个核心识别假设是SUTVA,即干预不存在一般均衡效应或溢出效应。然而,现实中的各项政策几乎或多或少的都会存在一定的一般均衡效应,例如前文提到的上游省份加强水质环境规制会影响下游省份水质的例子。特别是在长期中,当处理组个体的决策发生变化时,控制组个体一定会随之调整自身的行为决策。因此,干预政策是否存在溢出效应是任何一个使用双重差分法的实证研究必须考虑的潜在威胁。

(四)一般均衡视角下的成本收益分析

双重差分法广泛应用于各类公共政策的评估,如果估计得到了政策效应符合预期,是否就意味着政策达到了初始目标或是政策本身就是有效的呢?不是。一般而言,双重差分法只能评估干预政策对研究者感兴趣的结果变量的影响,但研究者并不清楚政策本身的机会成本有多大,也不清楚政策的净收益到底是多少。评估政策效应整体上是否符合预期或是政策是否有效率,并不能仅根据估计结果就判断政策是否有效,而是需要从更广泛的一般均衡角度,从整体上对政策进行成本收益分析。

四、主要结论

本文结合近年来国内外关于双重差分法的理论和实证研究文献,系统梳理了双重差分法的基本计量设定、识别假设和双重差分法的各个类型变体,着重分析了双重差分法实际应用中面临的控制变量选择、平行趋势检验和组间时间趋势差异等容易混淆或理解不准确的问题。特别是近年来交错双重差分法逐渐得到广泛使用,但最新的一些理论计量研究成果表明交错双重差分法在异质性处理效应下存在着一系列不合意之处,可能导致错误的因果效应估计结果,因此本文建议研究者可以考虑使用动态双重差分法或事件研究法来替代交错双重差分法作为基准识别策略和实证结果展示方法。本文详细介绍了动态双重差分法和事件研究法的计量实现以及两者的区别和联系,通过数值模拟方法揭示了二者本质上的等价性。本文还强调了实践中使用动态双重差分法和事件研究法时对窗宽选择的重要性。最后,本文从政策评估实证研究的角度提出了研究者在使用双重差分法进行实证研究时需要注意的几个重要问题,包括重视制度背景和政策真实效应的梳理和确认、对于政策干预随机性的准确理解、重视对溢出效应的处理和讨论,以及从一般均衡视角对政策效应的收益和成本进行全面评估等。

近年来使用双重差分法进行的实证研究呈现爆发式增长,近乎“泛滥”,但若深究其中,许多研究并没有正确地理解双重差分法基本识别假设和需要注意的问题,产生了各式各样的偏差与错误。并且,许多学术期刊的匿名审稿人也出现了这些错误和问题,使得一些匿名审稿人提出没有意义甚至是错误的修改建议,而论文作者多数时只能“将错就错”去迎合匿名审稿人,甚至将原本正确的做法“被迫”修改为错误的做法,可谓是“见笑于大方之家”。长期来看这种错误会极大阻碍我国经济学研究与国际一流研究接轨的前进脚步,产生的伤害不可谓不严重。本文试图对上述错误和问题在一定程度上进行归纳、总结、厘清和解决,如果能对未来的研究者提供一些参考,为我国经济学研究进步提供些微助力,本文的目的就完全达到了。

当然,本文的观点均是由作者们从自身的理解和实践经验中提取总结而来,作为一家之言,必定有谬误或不足之处,仅为抛砖引玉。期待后续学界同行的进一步研究,促成我国经济学界的共同进步。



摘 要


近年来双重差分法在政策评估领域得到了广泛应用。然而由于对双重差分法的识别假设等基本问题理解不够准确或存在误解,部分研究出现了随意添加控制变量、错误解释平行趋势检验等一系列问题。本文试图对双重差分法进行系统性的归纳梳理,以厘清在双重差分法实践应用中的一些相关基本问题。本文分析了双重差分法的识别假设及其经济含义,归纳了研究中常见的几类双重差分法的设定方式,详细分析了控制变量的选取、平行趋势检验以及组间线性时间趋势的控制等应用中的常见问题。针对近年来使用逐渐增多的交错双重差分法及其可能存在的偏误,本文建议使用动态双重差分法和事件研究法作为基准识别策略,并详细说明了二者的使用方法、相互关系和注意事项。最后本文强调了使用双重差分法进行实证研究的其他问题,包括重视真实的制度背景、对政策外生的理解、溢出效应的处理以及一般均衡视角下的成本收益分析等。

作者信息

黄炜,美国埃默里大学经济学系助理教授,曾任美国国家经济研究局(NBER)博士后研究员和新加坡国立大学校长特聘助理教授。他的主要研究领域为公共经济学、劳动经济学和健康经济学,研究成果曾发表在《管理世界》、《经济学(季刊)》、Restat, AEJ-AE, JoLE, JDE, JEP等国内外顶级学术期刊上。
张子尧,中国人民大学财政金融学院财政系博士生。他的主要研究领域为公共经济学和产业经济学,研究成果曾发表在《经济研究》、《世界经济》、《中国工业经济》等中文顶级学术期刊上。
刘安然,中国人民大学农业与农村发展学院硕士生。她的主要研究领域为发展经济学和劳动经济学,研究成果曾发表在《中国软科学》《China Economic Review》等学术期刊上。

《产业经济评论》杂志社声明:

在《产业经济评论》编辑部发表文章不收取任何费用。在编辑部期刊发表的文章都是作者自由投稿,编辑部择优发表。文章发表后,我们将赠送文章作者两本当月期刊,并参加年底《产业经济评论》优秀论文奖的评选。

近期有读者反映在网络上发现有虚假的,侵犯《产业经济评论》编辑部权益的假网站,经编辑部核实,已经向国家互联网管理部门举报

从即日起,来稿一律要求通过中国知网投稿系统在线投稿(https://xdch.cbpt.cnki.net),不再欢迎邮箱投稿。来稿时,请务必注明通信地址、邮箱、联系方式等。

本刊欢迎经济学领域的高质量学术论文,尤其欢迎选题重大新颖,识别精细,影响深远,且紧扣理论前沿和社会实践的学术论文。

《产业经济评论》编辑部再次声明,凡盗用我刊图片、刊号、主办单位等重要信息并欺骗作者谋求利益者,将追究盗用者的违法行为。 


 《产业经济评论》编辑部

                                              2022218

产业经济评论


微信号:Journal_ROIE长按识别二维码关注我们


产业经济评论


微信号:Journal_ROIE长按识别二维码关注我们

     《产业经济评论》于2013年1月创刊,原名《现代产业经济》,由工业和信息化部主管,电子工业出版社主办的国内外公开发行的国家级产业经济学术研究刊物,国内刊号:CN10-1223/F,ISSN:2095-7572,双月刊出版。更名后的《产业经济评论》倡导与国际接轨的研究方法,发表国内外产业经济、产业组织、信息经济、产业安全等研究的最新成果。


工信部《产业经济评论》特设年度产业经济研究最佳论文奖


为了鼓励经济学理论创新和实践应用研究,《产业经济评论》自2016年起特设立年度最佳论文奖,每年度从《产业经济评论》发表的文章中评选出最佳论文一篇。奖金1万元人民币。

本奖项得到工信部华信研究院财政支持和香樟经济学论坛的学术支持。获奖论文由本刊两位主编、七位副主编在提名论文中以多数投票的形式决定。《产业经济评论》希望与青年经济学家一起成长,为解决我国产业经济发展中的重大理论和实践问题提供一个高水平发表的平台。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存