这篇内容探讨了在无法进行随机实验时,经济学如何确定因果关系。它介绍了一种名为 合成控制法 (synthetic control) 的现代统计方法,该方法通过对多个真实的对照组进行加权,来构建一个更优的、不存在的“合成”对照组。尽管这种方法比传统方法更灵活,但它也存在严重问题,主要是给予了研究者过多的自由,使其可以选择数据和变量来获得想要的结果,这可能导致 过拟合 和 结果不可靠。最终的观点是,合成控制法是一项重要的创新,但它并非万能丹,必须谨慎、透明地使用,并辅以严格的稳健性检验,最好将其应用于那些结果直观且重要的大问题上。
经济学中的因果难题
在经济学中,理想的因果推断方法是 随机实验。通过随机分配,我们可以确保处理组和对照组在所有可观测和不可观测的特征上都是相似的,从而干净地分离出政策或干预的真实效果。
然而,在现实世界中,随机实验往往不可行。例如,我们无法随机决定哪个州提高最低工资。在这种情况下,研究者通常采用其他方法,比如:
- 构建结构模型: 这种方法依赖于对经济行为的诸多假设,等于将识别问题转移到了别处。
- 寻找自然实验: 例如,比较提高最低工资的新泽西州和未提高的宾夕法尼亚州。这种方法的关键假设是,如果没有政策干预,两地的发展趋势本应是平行的。
传统方法的局限性
寻找一个合适的对照组非常困难。即使是邻近地区,也可能存在根本差异或受到政策的 溢出效应 影响。
比如,新泽西州的就业率下降,可能只是因为人们跑到边境另一边的宾夕法尼亚州工作了。如果两个州同时提高最低工资,效果可能完全不同。
当受影响的地区(如加州)远离任何州界时,找到一个可信的对照组就变得更加棘手。
一种新方法:合成控制法
为了解决这些问题,Alberto Abadie 等人提出了 合成控制法。其核心思想是,与其寻找单一的“最佳”对照组,不如通过对多个潜在对照组进行加权平均,来构造一个“合成”的对照组。
- 经典案例: 为了评估恐怖主义对西班牙巴斯克地区经济的影响,研究者并没有选择任何一个特定的西班牙省份作为对照,而是发现“合成巴斯克”大约等于 85%的加泰罗尼亚 加上 15%的马德里。
- 优势: 这个“合成”的对照组在事发前与巴斯克地区的经济轨迹高度吻合,从而提供了一个更可信的反事实参照。
对合成控制法的主要担忧
尽管该方法很巧妙,但它给予了研究者巨大的自由度,可能导致结果不可靠。主要担忧包括:
- 选择“捐赠池”的自由: 研究者可以自行决定将哪些单位(国家、省份、城市)放入潜在的对照组池中。
- 匹配组合的多样性: 有时可能存在多种不同的权重组合,它们都能很好地匹配处理前的趋势,但处理后的趋势却大相径庭。
- 选择匹配变量的自由: 研究者可以决定用哪些变量(如 GDP、教育水平、出口商品等)来构建合成对照组。包含的变量越多,需要的对照单元也越多。
- 暂时性冲击的干扰: 如果对照组的某些历史数据受到了未被观察到的短期冲击,那么即使历史趋势匹配得很好,结果也可能是虚假的。匹配历史表现并不能保证未来趋势也会平行。
- 最佳匹配不等于最佳比较: 一个在数学上完美匹配历史数据的合成对照组,不一定就是现实中最合理的比较对象。
回应与现实挑战
对于这些担忧,学术界进行了一些检验和讨论。标准的合成控制法论文通常会包含一些稳健性检验,例如:
- 安慰剂检验 (Placebo Test): 将干预发生的时间点人为提前,看是否会得到虚假的结果。
- 排除检验 (Leave-one-out): 从捐赠池中逐一移除一个单位,看结果是否对某个特定单位高度敏感。
然而,模拟研究表明,研究者“摘樱桃”(cherry-picking)的空间依然很大。
一项研究发现,即使在没有真实效应的情况下,通过挑选不同的预测变量,研究者仍有 14% 的概率错误地拒绝原假设(标准应为 5%)。
更糟糕的是,不同的统计软件(如 Stata 和 R)在实现该算法时存在差异,可能导致对同一组数据得出不同的结果。此外,如果为了匹配而包含过多变量,很容易 过度拟合噪音,从而产生虚假的差异。
结论:潜力巨大,但需谨慎使用
合成控制法无疑是计量经济学的一项重要创新,但它并不能替代研究者进行严谨论证的艰苦工作。
- 自由度是一把双刃剑: 变量和对照组的选择必须具有直观的合理性,并且结果需要对这些选择不敏感。
- 判断力至关重要: 与传统方法一样,合成控制法最终仍依赖于研究者的良好判断,以避免机械的曲线拟合。
- 信任与工作量: 验证一个合成控制法的结果需要大量的额外工作和信任。
因此,这种方法不应被滥用于琐碎的问题。社会更需要的是少数几篇、针对最紧迫问题、经过极其严格检验的合成控制法研究,而不是大量关于无关紧要事件的论文。
结果应当是显而易见的,而合成控制法的作用是量化其影响程度,而不是用来“发现”一个本不存在的效应。