Synth Daily

稳中求稳:稳健性检验的可靠性

在经济学研究中,使用多种方法(如合成控制法和差分法)进行稳健性检验是为了增强结论的可信度。然而,如果不同的检验方法依赖于高度相似或重叠的假设,那么这种检验的价值就会大打折扣。以新泽西州最低工资上涨的研究为例,若合成控制法选取的加权组合与差分法中的对照组(如宾夕法尼亚州)高度重合,那么这两种方法提供的新信息就非常有限。目前缺乏一个量化不同检验方法之间差异的有效工具,未来的研究方向可能在于通过向量正交性或贝叶斯方法来衡量这种差异。

稳健性检验的目的与局限

在选择一种计量经济学方法时,你实际上是在选择一组为了将结果解释为因果关系而必须接受的假设。稳健性检验的初衷是通过多种不同的方法验证同一结论,从而增强我们对结果的信心。

然而,这里存在一个关键问题:

  • 如果两个稳健性检验测试的是完全相同的假设,那么它们作为独立验证的价值就会大大降低。
  • 真正的稳健性检验应该是有目的地测试各自独立的假设,而不是简单地堆砌方法,看哪个能得到显著结果。

一个具体的例子:新泽西州最低工资研究

为了更清晰地说明这一点,我们参考 Card 和 Krueger (1994) 关于新泽西州最低工资上涨影响的研究。要评估其效果,研究需要满足两个核心假设:

  1. 无溢出效应: 新泽西州的政策效果不会影响到作为对照组的其他州。
  2. 共同趋势: 在政策实施前,新泽西州与对照组的发展趋势是一致的。

使用差分法 (Differences-in-Differences)合成控制法 (Synthetic Control) 可以分别检验这些假设:

  • 差分法: 将新泽西州与邻近的宾夕法尼亚州进行比较。这种方法在“共同趋势”假设上较为可信,但在“无溢出效应”上较弱,因为两个相邻州的经济活动可能相互影响。
  • 合成控制法: 将新泽西州与一组其他州的加权平均值进行比较。这种方法在“无溢出效应”上更强,但无法保证其匹配的干预前趋势是由相同的根本原因驱动的。

如果两种方法都得出显著的结果,这便是有力的证据,因为它们各自克服了对方的弱点。

核心困境:当检验不再是检验

真正的问题在于,当两种方法在实践中变得高度相似时,会发生什么?

假设在合成控制法中,你得到的加权组合是 50% 的宾夕法尼亚州和 50% 的密歇根州。在这种情况下,合成控制法提供的信息与差分法(对比宾夕法尼亚州)的关联性就变得非常高。它为结论增加的信心,远不如两种测试完全不相关时那么多。

更极端的情况是:

  • 如果你的合成控制法最终给宾夕法尼亚州分配了 100% 的权重,那么你根本就没有进行一次真正的稳健性检验,你只是用另一种方式重复了同样的比较。

如何量化检验方法的差异?

目前最大的挑战在于,我们缺乏一种量化不同检验方法之间差异程度的工具。

现有的研究,如 Andrews, Gentzkow, 和 Shapiro (2017) 的工作,主要关注在单一模型中改变某个特定假设会对结果产生多大影响,但这与衡量不同检验方法之间的差异是两个不同的问题。

理想的解决方案或许可以这样构想:

  • 将每一个假设视为一个维度。
  • 将每一次稳健性检验视为一个向量。
  • 两个检验向量之间的正交性(垂直度)越强,意味着它们提供的信息越独立,检验的价值就越大。

另一个可能的方向是采用更明确的贝叶斯方法,但具体如何操作尚不明确。未来的探索计划通过蒙特卡洛模拟来进一步研究这个问题。