参夸文献:

  1. 胡诗云, 江弘毅, 解海天. 双重机器学习的理论与应用——从“黑箱”到“工具箱”的实践指南[J]. 数量经济技术经济研究, 2026.
  2. 萧政. 机器学习和计量经济学[J]. 计量经济学报, 2025, 5(5): 1231-1243.

一、为什么要使用双重机器学习方法?

在潜在结果框架中,因果效应是不同处理状态下的潜在结果之差(Rubin, 2005)。$Y=DY(1)+(1-D)Y(0)$,$Y(1)-Y(0)$为个体的异质性因果效应。识别是指通过对反事实的数据生成过程进行一定的假设(“识别假设”),找到从可观测总体分布唯一地还原出因果效应的方法。随后的估计则是给定从总体分布中获得的样本,通过统计分析得到因果效应的估计量。

基于线性回归的因果效应估计难以捕捉经济数据中的高维特征与非线性关系,且研究者往往需要额外施加对函数形式的线性假定。控制变量(协变量)的维度急剧增加,变量间潜在的非线性与交互关系也变得愈发复杂。双重机器学习允许研究者在灵活控制高维复杂协变量的同时,获得对因果效应的稳健估计和推断。双重机器学习并非一种与工具变量、双重差分等相提并论的新型因果识别策略,而是一种服务于既有识别策略的、强大的高维非线性统计工具。双重机器学习可以在存在高维、非线性以及非结构化数据时,构造表现更好的统计量,而非通过改变或弱化识别假设。它在保留机器学习的灵活性、降低估计波动的同时,通过额外的去偏手段避免了机器学习的偏误向因果系数估计量的传导。

二、双重机器学习的理论基础

双重机器学习是一种将机器学习用于因果系数估计的统计技术。机器学习泛指一套用于高维数据预测的统计方法,通过正则化等技术自动进行模型选择并防止过拟合(Gu等,2020)。在绝大多数情况下,机器学习模型的系数本身并无因果解释。为了将机器学习用于因果推断,双重机器学习将因果推断中统计模型的参数区分为两类:因果系数(Causal Parameters),如平均处理效应(Average Treatment Effect, ATE);以及冗余参数(Nuisance Parameters),如控制变量对处理和结果的影响。双重机器学习利用机器学习的强大预测能力去拟合冗余参数,再基于“内曼正交性”(Neyman Orthogonality)和“交叉拟合”(Cross-fitting)两大理论支柱,阻止其拟合过程中的偏误向因果系数传导。

(一)部分线性模型

含控制变量的线性回归假定了控制变量对结果的影响是线性的。对其的一种最直接的拓展,就是让控制变量以任意函数形式进入回归方程的同时,依然假设D与X的效应是线性可加的1。与常见的线性回归一样,识别条件为误差项的零条件均值2:$$Y = \beta D + g(X) + u, \quad E(u|X,D) = 0 \tag{1}$$估计思路是用机器学习模型近似g(⋅),再使用最小二乘法估计$\beta$。但由于g可能存在高度非线性,直接估计可能导致严重的偏误,而这会进一步传导至对于$\beta$的估计,导致其无法按一般的速率收敛至真实值。解决方案是首先去除掉D和Y中能够被X解释的部分,然后使用Y关于X的残差$\hat{Y}$对D关于X的残差$\hat{D}$回归,得到$\beta$的估计量3:$$Y - E(Y|X) = \beta (D - E(D|X)) + u \tag{2}$$记$m(X) = E(Y|X)$,$l(X) = E(D|X)$,$\tilde{Y} = Y - m(X)$,$\tilde{D} = D - l(X)$则有:$$\tilde{Y} = \beta \tilde{D} + u$$本文只关心$\beta$的数值而并不关心$m$和$l$的具体形式,这两个函数就属于冗余参数4。可以使用机器学习对这两个函数进行估计,然后计算拟合的残差$\hat{Y}$和$\hat{D}$5。由于仍然有$E(u \hat{D}) = 0$这个条件6,利用这个矩条件,用$\hat{Y}$和$\hat{D}$做线性回归,即可得到$\beta$的估计7

上述使用机器学习模型近似g(⋅),再使用最小二乘法估计$\beta$的过程放松了控制变量的线性假设,但是仍然存在不足,原因在于机器学习可能对数据过拟合,使得残差估计存在偏误。例如机器学习完美地拟合了(Y,D) 每一个数据点,那么残差将全部等于0,上述残差对残差的回归将毫无意义。因此,必须引入交叉拟合以缓解这种情况。

部分线性模型的双重机器学习算法

  1. 将样本随机分为$K$个互不相交的子样本(fold),记为$I_1, \dots, I_K$。
  2. 使用训练样本$I_{-k} = {1, \dots, n} \setminus I_k$,通过ML算法(如随机森林、LASSO)估计:$$\hat{m}k(X) = \mathbb{E}[Y|X; I{-k}], \quad \hat{l}k(X) = \mathbb{E}[D|X; I{-k}]$$
  3. 对于每个观测$i \in I_k$,计算交叉拟合残差:$$\hat{Y}i = Y_i - \hat{m}{k(i)}(X_i), \quad \hat{D}i = D_i - \hat{l}{k(i)}(X_i)$$
  4. 使用$\hat{Y}_i$对$\hat{D}_i$做线性回归,$\beta$的标准误、置信区间和统计推断与普通的线性回归相同。

Chernozhukov等(2018)证明,在一定的条件下8,该算法所得到的估计量具有一致性和渐近正态性,并且可以按照一般流程进行统计推断。

(二)交互回归模型

部分线性模型允许了$g(X)$的高度非线性,但仍然假设了$D$与$g(X)$的效应是线性可加的;无论$X$的取值如何,处理变量对于结果的边际因果效应都是$\beta$。交互回归模型基于潜在结果框架,放松了这一假设。一般而言,因果识别会关心平均处理效应,$ATE = E\bigl(Y(1) - Y(0)\bigr)$,以及处理组的平均处理效应(Average Treatment Effect for the Treated,ATT),$ATT = E\bigl(Y(1) - Y(0)\bigm|D = 1\bigr)$。但由于不能同时观测到同一个个体的$Y(1)$ 和$Y(0)$,因此在不施加任何假设的情况下,无论是ATE还是ATT一般都不能被识别。 如果条件于协变量$X$,处理变量$D$在不同个体之间的分配是“随机”的;且对于不同的$X$的取值,个体都会存在处理和控制两种状态,那么ATE就可以被识别9,具体的识别假设为假设1(交互回归模型的识别假设):

  1. 可忽略性假设(条件独立性假设):$(Y(1), Y(0)) \perp!!!\perp D \mid X$
  2. 共同支撑假设(重叠性假设):$P(D = 1 \mid X) \in (0, 1)$ 几乎处处成立

ATE可通过两种途径识别:

  1. 结果回归(Outcome Regression): $\theta = \mathbb{E}[m_1(X) - m_0(X)]$
  2. 逆概率加权(IPW): $\theta = \mathbb{E}\left[\frac{DY}{p(X)} - \frac{(1-D)Y}{1-p(X)}\right]$

如果已知冗余参数的真实函数形式,那么使用上述两种方法估计结果都是一致且渐进正态的,但在现实中这些冗余参数都要首先使用机器学习进行估计,而这就会产生偏误。故结合两者优势使用双重稳健估计量(Doubly Robust Estimator)10进行估计: $$ DR_1(Y,D,X; p, m_1) = m_1(X) + \frac{D(Y - m_1(X))}{p(X)} $$ $$ DR_0(Y,D,X; p, m_0) = m_0(X) + \frac{(1-D)(Y - m_0(X))}{1-p(X)} $$

其中$p(x) = P(D=1|X=x)$为给定协变量$X$的取值,个体接受处理的概率(倾向值);结果模型$m_1(x) := E(Y|D=1,X=x)$ 和 $m_0(x) := E(Y|D=0,X=x)$分别为不同处理状态下结果变量关于协变量的条件期望,则ATE为: $$ ATE = E(DR_1(Y,D,X; p, m_1)-DR_0(Y,D,X; p, m_0)) $$ 然而,仅仅使用双重稳健估计量是不够的,还需要交叉拟合来进一步避免偏误。在真实数据中,双重稳健估计量的不确定性来自于两方面:一是在函数拟合过程中产生的不确定性,即$\hat{m}_1$、$\hat{m}_0$、$\hat{p}$估计的不确定性;二是给定真实的$m_1, m_2, p$之后,将数据点代入双重稳健估计量,因为数据(Y,D,X) 随机抽样而带来的不确定性。对于机器学习算法而言,$\hat{m}_1$、$\hat{m}_0$、$\hat{p}$极有可能对数据产生过拟合,甚至因拟合噪音而无法收敛到真实函数。如果用全样本数据来估计函数,再将相同的数据代入估计得到的函数计算ATE,那么两部分不确定性将具有相同的来源并导致偏差。交叉拟合可以使两种不确定性独立开来,具体的做法如下:

交互回归模型的双重机器学习算法

  1. 将样本随机分为$K$个互不相交的子样本(fold),记为$I_1, \dots, I_K$。
  2. 对每个$k$,使用$I_{-k}$估计:
    • $\hat{m}_{1,k}(X)$:对处理组($D=1$)用ML估计$\mathbb{E}[Y|X,D=1]$;
    • $\hat{m}_{0,k}(X)$:对控制组($D=0$)用ML估计$\mathbb{E}[Y|X,D=0]$;
    • $\hat{p}_k(X)$:用ML估计倾向得分。
  3. 对每个$i \in I_k$,计算:$$\hat{\psi}{i} = \hat{m}{1,k(i)}(X_i) + \frac{D_i(Y_i - \hat{m}{1,k(i)}(X_i))}{\tilde{p}{k(i)}(X_i)} - \hat{m}{0,k(i)}(X_i) - \frac{(1-D_i)(Y_i - \hat{m}{0,k(i)}(X_i))}{1-\tilde{p}_{k(i)}(X_i)}$$
  4. $ATE = \frac{1}{n} \sum_{i=1}^n \hat{\psi}_i$

在满足一定条件时,双重稳健估计量具有一致性和渐近正态性,并且估计量随着样本量n的增大以$\frac{1}{\sqrt{n}}$的速率收敛到真实值(Chernozhukov 等,2018),这与常见的OLS、TWFE等参数化估计量的收敛速度相同,快于核回归(Kernel Regression)、筛分法(Sieve Method)等常见非参数方法11

(三)一般矩估计框架

考虑对$\eta$的一个扰动方向$\Delta$,扰动程度为$t \in \mathbb{R}$。如果对于任意的扰动方向$\Delta$,都有: $$\frac{\partial}{\partial t} M(\theta^0, \eta^0 + t\Delta) \big|_{t=0} = 0 $$那么冗余参数带来的一阶小扰动就不会对矩条件以及$\theta$的估计产生影响。这一条件就是内曼正交性,而$\psi(W; \theta, \eta)$称为内曼正交性分数(Neyman Orthogonal Score)。 部分线性模型中,$\theta = \beta$,$\eta = (m,l)$,内曼正交性分数为$\psi(W; \theta, \eta) = \bigl(Y - m(X) - \theta(D - l(X))\bigr)(D - l(X))$。交互回归模型中,$\theta = ATE$,$\eta = (m_1, m_0, p)$,内曼正交性分数为$\psi(W; \theta, \eta) = DR_1(Y,D,X; p,m_1) - DR_0(Y,D,X; p,m_0) - \theta$。不难验证这两个矩条件都满足内曼正交性。对于更一般的情形,内曼正交性分数需要研究者自己构造。

一般形式的双重机器学习算法

  1. 独立同分布的数据${W_i}_{i=1}^n$,满足内曼正交性的分数$\psi(W; \theta, \eta)$,其中$\theta$为目标参数而$\eta$为冗余参数。
  2. 将数据划分为$K$个互不相交的子样本。对于第$k$个子样本,使用其余$K-1$个子样本利用机器学习得到$\hat{\eta}_{[k]}$。
  3. 利用交叉拟合计算样本矩: $\hat{M}(\theta, \hat{\eta}) = \frac{1}{n}\sum_{i=1}^n \psi(W_i; \theta, \hat{\eta}_{[k(i)]})$,并利用矩条件解出目标参数$\hat{\theta}$为满足$\hat{M}(\hat{\theta}, \hat{\eta}) = 0$的解。
  4. 计算标准误:根据矩方法的标准误公式,$\hat{\theta}$的渐近方差估计量为: $\hat{V} = \hat{J}^{-1}\hat{\Omega}\hat{J}^{-1’}$ 其中 $$\hat{\Omega} = \frac{1}{n}\sum_{i=1}^n \psi(W_i; \hat{\theta}, \hat{\eta}{[k(i)]})\psi(W_i; \hat{\theta}, \hat{\eta}{[k(i)]})’ - \frac{1}{n}\sum_{i=1}^n \psi(W_i; \hat{\theta}, \hat{\eta}{[k(i)]})\frac{1}{n}\sum{i=1}^n \psi(W_i; \hat{\theta}, \hat{\eta}{[k(i)]})’$$ $$\hat{J} = \frac{1}{n}\sum{i=1}^n \frac{\partial}{\partial \theta}\psi(W_i; \hat{\theta}, \hat{\eta}_{[k(i)]})$$ 若$\hat{\theta}$为标量,则对$\frac{\hat{V}}{n}$开平方即可得到标准误。

概括下来,双重机器学习的三要素分别为:足以识别目标参数且满足内曼正交性的矩条件,交叉拟合,以及足够好的用于估计冗余参数的机器学习算法。这三者共同保证了双重机器学习估计量的一致性和渐近正态性。

三、双重机器学习与经典因果推断方法的结合

DML并非替代IV、DID或RDD等识别策略,而是增强这些策略在高维非线性设定下的估计稳健性。

(一)与工具变量(IV)的结合

基于双重机器学习的部分线性模型工具变量估计算法:

  1. 将数据划分为$K$个互不相交的子样本。对于第$k$个子样本,使用其余$K-1$个子样本,利用机器学习算法学习$E(Y|X)$,得到$\hat{m}_k$;利用机器学习算法学习$E(D|X)$,得到$\hat{l}_k$;利用机器学习算法学习$E(Z|X)$,得到$\hat{r}_k$。
  2. 对于每个样本$i \in {1,2,\dots,n}$,其所处的子样本为$k(i)$,计算 $$\check{Y}i = Y_i - \hat{m}{[k(i)]}(X_i),\ \check{D}i = D_i - \hat{l}{[k(i)]}(X_i),\ \check{Z}i = Z_i - \hat{r}{[k(i)]}(X_i).$$
  3. 用$\check{Z}_i$作为工具变量,估计$\check{Y}_i$对$\check{D}_i$的回归系数,该回归系数的标准误和推断与普通的工具变量回归相同。

基于双重机器学习的交互回归模型工具变量估计算法:

  1. 将数据划分为$K$个互不相交的子样本。对于第$k$个子样本,使用其余$K - 1$个子样本: a) 利用机器学习算法学习$E(Y|Z,X)$,得到$\hat{m}{[k]}$。 b) 利用机器学习算法学习$E(D|Z,X)$,得到$\hat{p}{[k]}$。 c) 利用机器学习算法学习$E(Z|X)$,得到$\hat{r}_{[k]}$。
  2. 对于每个样本$i \in {1,2,\dots,n}$,其所处的子样本为$k(i)$,定义得分 $$ \begin{aligned} \hat{\psi}i(\theta) &= \hat{m}{[k(i)]}(1,X_i) - \hat{m}{[k(i)]}(0,X_i) + \frac{Z_i - \hat{r}{[k(i)]}(X_i)}{\hat{p}{[k(i)]}(X_i)\bigl(1 - \hat{p}{[k(i)]}(X_i)\bigr)}\bigl(Y_i - \hat{m}{[k(i)]}(Z_i,X_i)\bigr) \ &\quad - \Bigl(\hat{p}{[k(i)]}(1,X_i) - \hat{p}{[k(i)]}(0,X_i) + \frac{Z_i - \hat{r}{[k(i)]}(X_i)}{\hat{p}{[k(i)]}(X_i)\bigl(1 - \hat{p}{[k(i)]}(X_i)\bigr)}\bigl(D_i - \hat{p}{[k(i)]}(Z_i,X_i)\bigr)\Bigr)\theta \end{aligned} $$ 由$n^{-1}\sum{i=1}^n \hat{\psi}i(\hat{\theta}) = 0$解得 $$ \hat{\theta} = \frac{\sum{i=1}^n \Bigl(\hat{m}{[k(i)]}(1,X_i) - \hat{m}{[k(i)]}(0,X_i) + \frac{Z_i - \hat{r}{[k(i)]}(X_i)}{\hat{p}{[k(i)]}(X_i)\bigl(1 - \hat{p}{[k(i)]}(X_i)\bigr)}\bigl(Y_i - \hat{m}{[k(i)]}(Z_i,X_i)\bigr)\Bigr)}{\sum_{i=1}^n \Bigl(\hat{p}{[k(i)]}(1,X_i) - \hat{p}{[k(i)]}(0,X_i) + \frac{Z_i - \hat{r}{[k(i)]}(X_i)}{\hat{p}{[k(i)]}(X_i)\bigl(1 - \hat{p}{[k(i)]}(X_i)\bigr)}\bigl(D_i - \hat{p}{[k(i)]}(Z_i,X_i)\bigr)\Bigr)} $$不难看出这一估计量是在Wald估计量的基础上,分子分母各自新加入了一项,从而实现内曼正交性。
  3. 计算标准误:$$se(\hat{\theta}) = \left[ \frac{\sum_{i=1}^n \hat{\psi}i(\hat{\theta})^2}{\left( \sum{i=1}^n \frac{\partial}{\partial \theta} \hat{\psi}i(\hat{\theta}) \right)^2} \right]^{\frac{1}{2}},$$ $$\frac{\partial}{\partial \theta} \hat{\psi}i(\hat{\theta}) = -\left( \hat{p}{[k(i)]}(1,X_i) - \hat{p}{[k(i)]}(0,X_i) + \frac{Z_i - \hat{r}{[k(i)]}(X_i)}{\hat{r}{[k(i)]}(X_i)\left( 1 - \hat{r}{[k(i)]}(X_i) \right)} \left( D_i - \hat{p}{[k(i)]}(Z_i,X_i) \right) \right)$$

(二)与双重差分(DID)的结合

对于面板数据,设$Y_{it}$为个体$i$在时期$t$的结果,$D_{it}$为处理指示变量。条件平行趋势假设为: $$ \mathbb{E}[Y_{it}(0) - Y_{it-1}(0) | D_{it}=1, X_i] = \mathbb{E}[Y_{it}(0) - Y_{it-1}(0) | D_{it}=0, X_i] $$

基于双重机器学习的2×2双重差分估计算法12

  1. 计算一阶差分$\Delta Y_i = Y_{i1} - Y_{i0}$
  2. 将$(\Delta Y_i, D_i, X_i)$视为横截面数据,应用IRM算法估计ATT(处理组平均处理效应)

对于多期DID(Staggered DID),可基于Callaway & Sant’Anna(2021)框架,对每个处理队列(cohort)分别应用DML。

基于机器学习的渐进双重差分与事件研究估计算法

  1. 对于每个处理组$g$,每个处理后时间点$t \geq g$:a) 保留处理组$g$以及截至时刻$t$仍未接受处理的样本,选取两个时点$g-1$和$t$,从而形成$2 \times 2$ DID样本。 b) 使用基于双重机器学习的2×2双重差分估计算法估计$ATT(g,t)$,得到$\widehat{ATT}(g,t)$。
  2. 根据相对处理开始的时间$k = t - g$,对于不同的$\widehat{ATT}(g,t)$根据样本频率进行加总: $$\hat{\theta}^{es}(k) = \sum_{(g,t): t-g=k} \frac{N_{gt}}{\sum_{(g’,t’): t’-g’=k} N_{g’t’}} \cdot \widehat{ATT}(g,t),$$ 其中,$\hat{\theta}^{es}(k)$为$k$期的事件研究估计量,$N_{gt}$为组别$g$在时间$t$的观测样本数。
  3. 使用自助法(Bootstrap)计算加总值的标准误。

(三)与断点回归(RDD)的结合

在RDD中,处理变量$D$由驱动变量(Running Variable)$R$相对于断点$c$决定13。DML用于灵活控制协变量$X$: $$ Y = \tau D + g(X) + h(R-c) + \epsilon $$

基于双重机器学习的断点回归估计算法

  1. 用ML估计$g(X) = \mathbb{E}[Y|X, R<c]$(或$R \geq c$)
  2. 计算残差$\tilde{Y} = Y - \hat{g}(X)$
  3. 对$\tilde{Y}$在断点附近进行局部线性回归(Local Linear Regression)或多项式回归,估计$\tau$

(四)小结:旧的识别假设,新的估计方法

将DML运用于工具变量、双重差分以及断点回归等研究者常用的实证策略,并没有改变原有的研究设计、识别假设与目标参数,而是为估计提供了新的方法。以控制变量为例,其研究设计(Research Design)的核心假设是“给定可观测协变量相同,处理的分配应该同潜在结果是独立的”。无论是线性回归、倾向值匹配还是双重机器学习,都是在实现与一个控制变量的研究设计。不能因为使用了双重机器学习,而忽视了对条件独立性假设的检验。一组未能充分捕捉混淆因素的控制变量,不会因为使用了双重机器学习而自动变成充分的控制变量。

四、双重机器学习的适用条件与数据要求

(一)何时选择DML?

适用情境

  1. 高维协变量: 当控制变量维度$p$较大(如$p > 20$或$p/n$不可忽略),且理论上认为这些变量都可能影响处理分配或结果。
  2. 非线性关系的先验预期: 当经济理论或描述性统计显示协变量与结果/处理变量间可能存在非线性关系(如U型、交互效应),且函数形式未知。
  3. 异质性处理效应: 当关注ATE或CATE(条件平均处理效应),而非简单的同质效应。

不适用情境: 4. 小样本: 当$n < 500$时,ML算法的样本外预测性能可能不佳,交叉拟合进一步减少有效样本量,此时传统参数方法可能更优。 5. 完美重叠缺失:当处理组与控制组的协变量分布几乎无重叠(propensity scores接近0或1),DML(尤其是IRM)的方差会急剧增大。

(二)数据条件与优势分析

共同支撑(Common Support)检验: 在应用IRM前,必须检查倾向得分的分布。绘制处理组与控制组的$p(X)$密度图,若两者重叠区域过小(如大量$p(X) < 0.05$或$> 0.95$),应考虑:

  • 使用PLM而非IRM(PLM对重叠性要求较低)
  • 限制分析样本至共同支撑区域(Trimming)
  • 改为识别ATO(Average Treatment Effect on the Overlap)

样本量与机器学习算法选择:

样本量范围协变量维度推荐算法理由
$n < 1000$$p < 50$LASSO/Ridge防止过拟合,计算稳定
$n \in [1000, 10000]$$p \in [50, 500]$随机森林捕捉非线性,鲁棒性强
$n > 10000$$p > 500$神经网络/梯度提升高维复杂模式识别
DML的核心优势:
  1. 稳健性:对函数形式误设具有稳健性,自动进行模型选择。
  2. 有效性:通过充分利用协变量信息,提高估计效率(减小标准误)。
  3. 异质性分析:可直接估计CATE并进行统计推断。

五、双重机器学习的应用细节与实操指南

(一)数据预处理

缺失值处理: DML要求完整数据。对于缺失的协变量$X$,可采用:

  • 多重插补(Multiple Imputation)后应用DML
  • 或使用可处理缺失值的ML算法(如XGBoost),但需注意理论保证可能失效

变量标准化: 对于基于梯度的算法(如神经网络、LASSO),建议对连续型协变量进行标准化: $$ X_j^{std} = \frac{X_j - \bar{X}_j}{s_j} $$

高维协变量的降维: 若$p \gg n$(如文本数据、基因数据),可先使用PCA降维,但需注意主成分的可解释性。

(二)模型设定与超参数选择

交叉验证(Cross-validation)14 在每一折$I_{-k}$中,使用$K’$-折交叉验证选择ML算法的超参数(如LASSO的惩罚系数$\lambda$,随机森林的树深度)。注意区分用于DML的$K$折与用于调参的$K’$折。实践中可能存在多种满足估计要求的机器学习算法,可以通过最小化交叉拟合误差来选择合适的算法15

折数$K$的选择:

  • 默认选择$K=5$或$K=10$(5折或10折交叉拟合)
  • 样本量较小时($n < 2000$),建议$K=10$或$20$以增大训练集
  • 为避免特定样本划分的影响,可重复$S$次随机划分,取估计量的中位数(Median)作为点估计,并参考Chernozhukov等(2018)的推荐调整标准误。

(三)Stata实操指南

  1. PLM示例
* 安装必要包
ssc install ddml, replace
ssc install qreg // 若需分位数回归
ssc install rforest, replace // 随机森林(需额外安装)
* 导入数据
use "your_data.dta", clear
* 初始化DML模型:5折交叉拟合,重复5次取中位数
ddml init partial, kfolds(5) reps(5)
* 添加学习器(learners):估计条件期望
* 对于结果变量Y,使用随机森林
ddml E[Y|X]: rforest Y x1-x50, num_trees(500) max_depth(10)
* 对于处理变量D,同样使用随机森林
ddml E[D|X]: rforest D x1-x50, num_trees(500) max_depth(10)
* 执行交叉拟合
ddml crossfit
* 估计因果参数并计算稳健标准误
ddml estimate, robust
* 查看详细结果(包括各折的估计值)
ddml estimate, detail
  1. IRM示例
* 初始化交互模型,设置倾向得分截尾阈值为0.01
ddml init interactive, kfolds(5) reps(10) trim(0.01)
* 估计对照组(D=0)的条件期望
ddml E[Y|X,D=0]: rforest Y x1-x50 if D==0, num_trees(500)
* 估计处理组(D=1)的条件期望
ddml E[Y|X,D=1]: rforest Y x1-x50 if D==1, num_trees(500)
* 估计倾向得分(使用Logit或Probit)
ddml E[D|X]: logit D x1-x50
* 或使用随机森林分类器(若已安装支持分类的版本)
* 执行估计
ddml crossfit
ddml estimate, ates // 同时报告ATE和ATTE
* 保存结果
estimates store dml_irm
  1. 面板数据DID操作示例
* 假设数据为长格式,id为个体标识,year为年份
* 首先计算一阶差分(政策前后)
bysort id (year): gen diff_Y = Y - Y[_n-1] if year==2020 | year==2018
bysort id (year): gen diff_D = D - D[_n-1] if year==2020 | year==2018
* 保留政策前后数据
keep if inlist(year, 2018, 2020)
* 视为横截面数据应用PLM
ddml init partial, kfolds(5)
ddml E[diff_Y|X]: rforest diff_Y x1-x50
ddml E[diff_D|X]: rforest diff_D x1-x50
ddml crossfit
ddml estimate, robust

六、稳健性检验与诊断性分析

样本外预测误差(RMSE): 计算冗余参数的样本外均方根误差: $$\text{RMSE}m = \sqrt{\frac{1}{n}\sum{k=1}^K \sum_{i \in I_k} (Y_i - \hat{m}_k(X_i))^2}$$若$\text{RMSE}_m$过高(相对于$Y$的标准差),提示ML模型欠拟合,需调整超参数或更换算法。

在进行双重机器学习估计后,可以进行一系列诊断性检验,帮助我们更好地理解当前结果的稳健性和潜在的局限,为改进机器学习的模型选择以及整体研究设计提供参考。首先是观察因果效应估计对于机器学习超参数的敏感性。以随机森林模型的超参数选择为例,下图展示了使用随机森林模型评估静态效应时,最大树深度(max tree depth)这一超参数调整对于结果方程、倾向值方程以及最终因果系数估计的影响。最大树深度是指随机森林中,每一棵决策树的最大深度;该参数越大,模型就越复杂。如图所示,随着最大树深度的增加,模型的拟合能力逐步提高,结果方程和倾向值方程的交叉拟合损失呈现下降趋势,直到最大树深度达到10。当最大树深度超过10以后,交叉拟合损失有轻微上升,表现出过拟合的特征。观察因果系数估计的变动趋势可以发现,当模型欠拟合时,因果系数估计较大;随着欠拟合的缓解、偏差减小,因果系数估计逐步减小;当模型转向过拟合、方差变大时,因果系数估计上下波动,但置信区间变大,说明估计变得不稳定。通过以上超参数敏感性分析可以得知:第一,使用随机森林模型对当前数据进行DML估计时,可选取最大树深度为10时的结果作为基准结果;第二,在当前数据上,相对欠拟合的模型更有可能得到偏大的因果效应估计,这就提示双向固定效应、广义线性模型得到的结果很可能有向上的偏差(Upward Bias),而随机森林得到的结果更可能接近于真实的因果效应。 图

七、附录:经验总结详述

(一)先识别、再估计

双重机器学习并不是解决内生性问题的“万能钥匙”。正如本文第二、三部分阐述的,双重机器学习只是一种帮助处理高维、非线性协变量,缓解模型误设的“升级版”统计工具。事实上,双重机器学习并不能解决研究设计问题,它必须与已有的识别策略相结合。在控制变量的横截面研究中,双重机器学习的核心假设是条件独立性,这与控制变量的线性回归是一致的;在与工具变量相结合时,其核心识别假设依然是相关性、外生性(或在异质性处理效应框架下,排他性、单调性、外生性、相关性);在与双重差分结合时,其核心识别假设依然是条件平行趋势;在与断点回归结合时,其核心假设依然是断点处潜在结果的连续性。因此,双重机器学习本身不构成一种研究设计,不能因为使用了双重机器学习就忽略研究设计中的缺陷。

基于“先识别、后估计”的原则,我们建议,未来使用双重机器学习的实证文章不必花大篇幅重新介绍双重机器学习算法的代数表达,而应当将注意力重新聚焦于实证策略的可靠性本身。

(二)确定是否使用双重机器学习,以及使用交互回归或部分线性模型。

确定了识别策略之后,研究者就需要考虑双重机器学习是否适用于当前的研究场景,尤其要注意样本量和函数形式灵活性之间的权衡取舍。正如在数值模拟中所展示的,机器学习模型需要较大的样本量。由于机器学习这种非参数方法杜绝了利用函数形式进行外推,处理组和对照组之间需要有大量的重叠样本。如果重叠样本数量不足,双重机器学习估计量的方差可能非常大。我们建议研究者在尝试使用双重机器学习进行估计后,查看重叠样本(即预测倾向值严格位于0到1的开区间)数量。如果重叠样本数量过少,则施加更严格的函数形式假定可能是更优的选择;相反,对于重叠样本非常丰富的情形,双重机器学习的估计结果更加可靠。

在估计因果效应时,如果确定使用双重机器学习模型,下一步就是在部分线性模型与交互回归模型之间进行选择。部分线性模型对交叠数据量要求较低,在同质性因果效应的情况下方差较小;在异质性因果效应下,部分线性模型的估计系数尽管不会收敛至平均处理效应,但也能收敛到交叠加权因果效应。相比之下,交互回归模型更加灵活,其估计量在理想状况下能收敛到平均处理效应,但也需要更多的数据支持。由于交互回归模型估计了更多的信息,我们建议首先使用交互回归模型,估计倾向值、处理组结果方程以及对照组结果方程。然后观察倾向值分布以及两个结果方程,检查是否可能存在弱交叠问题并判断其对最终系数估计的潜在影响。若确实可能存在弱交叠问题,则应进一步尝试部分线性模型估计交叠加权平均处理效应。若部分线性模型与交互回归模型结果接近,则可以将交互回归模型的结果作为主要结果汇报;若差别较大,部分线性模型所估计的交叠加权平均处理效应会更加可靠。

(三)选择合适的机器学习模型

无论是部分线性模型还是交互回归模型,各个多余参数(包括结果方程和倾向值)的学习都涉及到不同机器学习模型的选择。在使用双重机器学习进行因果推断时,研究者面临一个关键抉择:应采用何种机器学习方法来估计多余参数。这个选择并非无足轻重,因为它直接决定了我们对数据函数形式的假设强度,并深刻影响最终因果效应估计的稳健性。尽管交叉拟合机制为双重机器学习提供了理论保障,但在有限样本下,模型的选择与超参数调优仍是研究者自由度(researcher degrees of freedom)的重要来源,可能带来数据挖掘的风险。面对不同模型、不同超参数可能带来的截然不同的估计结果,研究者可能会感到无所适从。基于我们对带惩罚项的广义线性模型、随机森林和神经网络的实践,我们提出一个基于样本 量$n$和特征维度$p$的审慎选择指南: 首先,建议将带惩罚项的广义线性模型(如Lasso、Elastic Net、带惩罚项的逻辑回归)作为分析的起点。这类模型本质上是经济学家所熟悉的线性框架的延伸,其优势在于高维环境下的稳定性和计算效率。特别地,当特征维度 接近甚至超过样本量 时,其内置的正则化机制能有效防止过拟合,并提供一定的变量选择功能。然而,它强加了全局线性与可加性的假设,可能在多余参数估计中带来过高的偏差。如果真实的潜在关系(如处理分配机制或结果决定过程)是高度非线性的,带惩罚项的广义线性模型将因模型设定错误而产生有偏的预测,这种偏差可能传递并污染最终的因果参数估计。因此,它最适合作为检验“在较强函数形式约束下结果如何”的参照物。

其次,基于树模型的集成模型通常是中等样本量(例如, 为数千至数万)下最值得信赖的主力模型,能够在灵活性和稳定性之间取得了出色的平衡。以随机森林为例,它通过集成大量决策树,随机森林能够自动捕捉变量间的非线性关系和复杂的交互作用,极大地放宽了线性模型的苛刻假设,从而降低了模型设定偏误的风险。同时,其内置的自助法聚合(Bagging)和特征随机化机制是强大的方差削减工具,使其在面对中等规模数据时,其预测表现远比单棵决策树或小样本下的神经网络更为稳定。虽然其超参数(如最大深度、最小叶节点样本数)仍需通过交叉验证仔细调优,但其调参空间相对有限,降低了因过度调参而产生偶然发现的风险。对于大多数经济学观察性研究,随机森林提供了一个既能避免强加不当结构、又不易被样本噪音过度影响的理想选择。

最后,神经网络应被视为处理大规模样本的“终极武器”,在小样本下需谨慎使用,避免“大炮打蚊子”的情景错位。作为“通用函数逼近器”(Universal Approximator),神经网络拥有无与伦比的灵活性,能够拟合极其复杂的函数形态。然而,这种灵活性是一把双刃剑。在小样本下,神经网络极易过拟合,即使采用交叉验证,其巨大的超参数空间(网络层数、节点数、学习率、正则化方法等)也使得寻找一个真正稳健的最优解变得极为困难,不同设定下的结果可能大相径庭,这为研究的透明度和可复现性带来了巨大挑战,甚至可能使研究陷入“想调出什么结果都可以”的误区。对于估计倾向值接近于0(或者1)的样本,结果方程估计量的微小变动都会对最终的估计结果产生明显影响。而恰恰在这些地方,由于处理组(或对照组)样本稀缺,加上神经网络的函数形式极其灵活,其估计无法真正收敛,误差往往较大。因此,我们建议仅在拥有海量数据,且有充分理由相信潜在关系远超随机森林所能捕捉的复杂度时,才考虑将神经网络作为偏好的设定(Preferred Specification)。

综上所述,我们提倡一种“由简入繁,对比验证”的实践策略。对于小样本高维数据(n < 1000或p与n量级接近),建议优先使用带惩罚项的线性模型,同时用随机森林进行稳健性检验以识别潜在的非线性模式;对于中等样本量的研究(样本量在一千到数千),推荐以随机森林为主要方法,配合保守的超参数设置(较大的叶节点最小样本数),并以线性模型作为基准对比;仅当样本量非常充足(如样本量在一万以上)且存在明显复杂非线性关系时,才考虑以神经网络为主要估计方法,但应严格控制网络复杂度并进行充分的交叉验证。更重要的是,无论选择何种模型,都应把机器学习算法对多余参数的预测性能作为最重要的参考指标,并通过系统的敏感性分析评估模型选择对结果稳健性的影响。这一策略既能充分利用机器学习的灵活性优势,又能有效控制估计的不确定性,为政策评估提供更加可靠的实证基础。

(四)观察机器学习的预测结果并确定合适的超参数

尽管在双重机器学习中机器学习模型的目的在于预测而非解释,我们仍然强烈建议研究者深入“工具箱”的内部,仔细观察和评估机器学习模型的预测结果。总的来说,交叉拟合损失是评估机器学习模型可靠性和超参数调整的基础性指标,但并非唯一依据。但是在实际研究当中,我们总是面临一个特定的有限样本,它是来自更大总体的一次特定采样。当机器学习模型存在多种可调节超参数时,交叉拟合损失就只是反映了某一组超参数在当前特定样本上的交叉拟合表现,不一定能泛化到其背后的总体。换句话说,大量“调参”本身引入了一种更高层次的“过拟合”。 这种风险在数据稀疏的区域尤为突出,因为在这些区域,模型的预测更多地依赖其算法特性而非充足的数据支撑。

因此,在实践中,我们必须用额外的诊断来补充交叉验证损失。我们建议关注两个关键问题:首先,作为数据局限性的诊断,倾向值的分布如何?共同支撑的缺乏是威胁所有因果推断方法的根本问题。其次,作为模型行为的诊断,在倾向值接近0和1的边界区域,结果方程的拟合值是否存在不稳定的极端值?这些极端值是模型在数据稀疏区域行为不佳的明确信号,它们可能在第二阶段因果效应的估计中形成高杠杆点,不成比例地影响最终的因果效应估计。当观察到这类问题时,研究者应考虑采取更稳健的策略,例如对倾向值进行更严格的缩尾(如限制在[0.05, 0.95]区间内),或选用在边界处表现更平滑、更稳定的模型。这不仅能获得更稳健的估计,也是向读者诚实地传达:当前结论是建立在数据提供足够信息支撑的子总体之上。

(五)进行诊断性检验(Diagnostic Test),并对比多个不同的估计量

双重机器学习作为一种更强大、更灵活的协变量匹配工具,有潜力改善各种识别策略中诊断性检验的功效(例如平衡性检验、事前平行趋势检验等),帮助研究者更好地诊断因果推断中可能存在的识别威胁。例如,在本文所举的实证案例中,双重机器学习检测到了双向固定效应所未能发现的事前不平行趋势,以及简单线性回归未能捕捉的处理组和对照组在事前变量上的显著差异。这些检验都有助于研究者进一步评估识别策略与估计结果的可靠性。

除此之外,一个可靠的因果效应也应当在不同估计方法当中具有稳健性。机器学习模型虽然灵活,但如果训练得当,不同模型应该能逼近同样的多余参数,最后产生相似的结论。以本文实证案例的图3为例,五种不同方法得到的政策效应均显著为正,这就增强了结果方向的说服力。除此之外,通过样本外预测性能的对比,也可以确定随机森林模型的估计结果是相对更加准确的。


  1. 如果允许D与X的效应完全非线性且不可分,则无法再将因果效应浓缩为一个单一的系数$\beta$。线性可加性假设保证了处理效应是同质的,即使X的影响是非线性的,我们依然可以从复杂的背景噪音中剥离出一个干净的、易于解释的政策参数$\beta$。 ↩︎

  2. u对D和X均值独立说明u对D和X不相关,即条件外生性假设,这一假设消除了遗漏变量偏误的根源,$\quad E(u|X,D) = 0$意味着在控制了X之后,处理变量D与所有未观测到的、影响Y的因素(即u中包含的成分)不再相关。对等式$$Y = \beta D + g(X) + u$$两边同时给定X和D求条件期望,得到$$E(Y|X,D)=\beta D+g(X)+E(u|X,D)$$又因为$$\quad E(u|X,D) = 0$$所以$$E(Y|X,D)=\beta D+g(X)$$现在考虑两个个体,他们的协变量X的取值相同(X=x),一个接受了处理(D=1),另一个未接受处理(D=0),根据以上式子:$$E(Y|D=1,X=x)=\beta⋅1+g(x)$$$$E(Y|D=0,X=x)=\beta ⋅0+g(x)=g(x)$$将两者相减得到$$E(Y|D=1,X=x)−E(Y|D=0,X=x)=β$$这就是识别的核心:在给定X的条件下,处理组与对照组在Y上的均值差异就唯一地对应了不可观测的因果效应$\beta$。 ↩︎

  3. $\hat{Y}$剔除了X对Y的影响,$\hat{D}$剔除了X对D的影响,则$\beta$就是剔除了X影响的估计量。 ↩︎

  4. 在计量经济学理论中,函数也可以视为一种高维参数。 ↩︎

  5. 在传统的计量经济学中,如果X的维度很高(例如有几十个甚至上百个控制变量),或者X与Y的关系存在复杂的交互项和高次项,我们很难手动设定一个正确的参数模型。如果使用线性回归,它强制假设$E(Y|X)$是线性的。如果真实关系是非线性的,那么拟合值$\hat{E}(Y|X)$就是有偏的,残差$\hat{Y}$中会残留X的非线性成分,导致后续的$\beta$估计不准确。 ↩︎

  6. $E(u \hat{D}) = E\big[E(u \hat{D} | X, D)\big] = E\big[\hat{D} \cdot E(u | X, D)\big] = 0$ ↩︎

  7. 通过残差回归得到的估计量$\hat{\beta}$是$\beta$的一致估计量。证明如下:由残差关系$\hat{Y} = \beta \hat{D} + u$两边同乘以$\hat{D}$并取期望,结合$E(u \hat{D}) = 0$得到:$$E(\hat{Y} \hat{D}) = \beta E(\hat{D}^2) \quad \Rightarrow \quad \beta = \frac{E(\hat{Y} \hat{D})}{E(\hat{D}^2)}$$$\beta$恰好是$\hat{Y}$与$\hat{D}$的总体协方差与$\hat{D}$的总体方差之比(总体矩的比值),即线性回归系数(无截距)的概率极限。给定样本${ (\hat{Y}i, \hat{D}i) }{i=1}^n$,其无截距线性回归的OLS估计量为:$$\hat{\beta} = \frac{\frac{1}{n}\sum{i=1}^n \hat{Y}_i \hat{D}i}{\frac{1}{n}\sum{i=1}^n \hat{D}i^2} = \frac{\sum{i=1}^n \hat{Y}_i \hat{D}i}{\sum{i=1}^n \hat{D}i^2}$$其中$\hat{\beta}$即为样本矩,又由大数定律可知: $$\frac{1}{n}\sum{i=1}^n \hat{Y}_i \hat{D}i \xrightarrow{p} E(\hat{Y} \hat{D}), \quad \frac{1}{n}\sum{i=1}^n \hat{D}_i^2 \xrightarrow{p} E(\hat{D}^2)$$则只要样本矩依概率收敛到总体矩,$\hat{\beta}$就是$\beta$的一致估计量。 ↩︎

  8. 这些条件包括:${Y_i, D_i, X_i}_{i=1}^n$ 是独立同分布的样本;$Y$ 和 $D$ 的高阶矩(大于4)有界且 $Var(Y|X)$ 和 $Var(D|X)$ 有界;$Y - m(X)$ 和 $D - l(X)$ 相关且 $D - l(X)$ 存在波动;$\hat{m}$ 和 $\hat{l}$ 是对真实函数 $m$ 和 $l$ 足够好的近似:对于 $(\hat{\eta}, \eta) \in {(\hat{m}, m), (\hat{l}, l)}$, 随着样本量增大, 有 $$\sqrt{E\left[\int (m(x) - \hat{m}(x))^2 f_X(x)dx\right]} + \sqrt{E\left[\int (l(x) - \hat{l}(x))^2 f_X(x)dx\right]} = o\left(\frac{1}{n^{1/4}}\right)。$$ ↩︎

  9. 条件于协变量$X$的数学表达为:$(Y(1), Y(0)) \perp D \mid X$。即给定协变量$X$的取值,潜在结果$(Y(1), Y(0))$与处理状态$D$独立,就可以从观测数据中识别出平均处理效应$ATE = E[Y(1)-Y(0)]$。识别过程如下:对于任意给定的$X=x$,利用条件随机分配,我们可以用观测结果的平均值来估计该子群体内的潜在结果均值:$$E[Y(1) \mid X = x] = E[Y \mid D = 1, X = x], \quad E[Y(0) \mid X = x] = E[Y \mid D = 0, X = x]$$这是因为在给定$X = x$时,$D$与潜在结果独立,所以处理组的观测结果均值恰好等于该子群体中如果所有人都接受处理的潜在结果均值;类似地,对照组的观测结果均值等于该子群体中如果所有人都未接受处理的潜在结果均值。因此,条件平均处理效应为: $$\tau(x) = E[Y \mid D = 1, X = x] - E[Y \mid D = 0, X = x]$$再通过积分得到ATE。重叠假设保证了对于所有$x$都有处理组和对照组的样本,因此$\tau(x)$在$X$的支撑上处处有定义。ATE是$\tau(x)$关于$X$的边际分布的期望: $$ATE = E[\tau(X)] = \int \tau(x) dF_X(x).$$ 将$\tau(x)$代入得: $$ATE = \int \bigl[E(Y \mid D = 1, X = x) - E(Y \mid D = 0, X = x)\bigr] dF_X(x)$$由于$dF_X(x)$是$X$的总体分布,这个表达式完全由可观测数据$(Y, D, X)$的联合分布决定,因此ATE被识别。 ↩︎

  10. 双重稳健估计量的优良性质体现如下:令$\hat{m}_1$,$\hat{m}_0$,$\hat{p}$为关于$X$的任意函数,$m_1(X) = E(Y|D = 1,X)$,$m_0(X) = E(Y|D = 0,X)$,$p(X) = P(D = 1|X)$,皆为真实函数,在假设1下,双重稳健估计量具有如下性质: $$E(Y(1)) = E\bigl(DR_1(Y,D,X; p,m_1)\bigr) = E\bigl(DR_1(Y,D,X; \hat{p},m_1)\bigr) = E\bigl(DR_1(Y,D,X; p,\hat{m}_1)\bigr)$$$$E(Y(0)) = E\bigl(DR_0(Y,D,X; p,m_0)\bigr) = E\bigl(DR_0(Y,D,X; \hat{p},m_0)\bigr) = E\bigl(DR_0(Y,D,X; p,\hat{m}_0)\bigr)$$上述结果表示倾向值和结果模型两者只要其中一个正确,最终的因果识别就是正确的,这也是“双重稳健”名称的由来。从数学形式上看,这是因为它的构造保证了任何冗余参数的扰动对估计量都不存在一阶影响。证明:考虑$DR_1(Y,D,X; p, m_1)$的期望:$$ \begin{aligned} \mathbb{E}[DR_1(Y,D,X; p, m_1)] &= \mathbb{E}\left[m_1(X) + \frac{D(Y - m_1(X))}{p(X)}\right] \ &= \mathbb{E}\left[\mathbb{E}\left[m_1(X) + \frac{D(Y - m_1(X))}{p(X)}\bigg|X\right]\right] \ &= \mathbb{E}\left[m_1(X) + \frac{p(X)(m_1^(X) - m_1(X))}{p(X)}\right] \ &= \mathbb{E}[m_1^(X)] = \mathbb{E}[Y(1)] \end{aligned} $$其中$m_1^(X)$为真实的条件期望函数。若$m_1 = m_1^$,第二项为0;若$p = p^$(真实倾向得分),则:$$\mathbb{E}\left[\frac{D(Y - m_1(X))}{p(X)}\bigg|X\right] = \frac{\mathbb{E}[DY|X] - p(X)m_1(X)}{p(X)} = m_1^(X) - m_1(X)$$若$p$正确但$m_1$错误,上式等于$m_1^(X) - m_1(X)$,与第一项$m_1(X)$相加后$m_1(X)$抵消,仍得$m_1^(X)$。 ↩︎

  11. 这些条件即假设2(交互回归模型的估计假设),包括:第一,${Y_i, D_i, X_i}_{i=1}^n$ 是独立同分布的样本; 第二,因变量不存在大的异常值,即 $Var(Y|X, D)$ 有界; 第三,共同支撑假设成立,倾向值函数严格处于0和1之间,即存在 $\epsilon > 0$,使得 $\epsilon \leq p(X) \leq 1 - \epsilon$。 第四,倾向值函数的估计量严格处于0和1之间,即存在 $\epsilon > 0$,使得 $\epsilon \leq \hat{p}(X) \leq 1 - \epsilon$。 第五,$\hat{m}_1$、$\hat{m}_0$、$\hat{p}$ 是对真实函数 $m_1$、$m_0$、$p$ 足够好的近似,即对于 $(\hat{\eta}, \eta) \in {(\hat{m}_1, m_1), (\hat{m}_0, m_0), (\hat{p}, p)}$,随着样本量增大,有以下条件成立:$$E\left[\int (p(x) - \hat{p}(x))^2 f_X(x) \mathrm{d}x\right] E\left[\int (m_1(x) - \hat{m}_1(x))^2 f_X(x) \mathrm{d}x\right] = o\left(\frac{1}{n}\right)$$ $$E\left[\int (p(x) - \hat{p}(x))^2 f_X(x) \mathrm{d}x\right] E\left[\int (m_0(x) - \hat{m}0(x))^2 f_X(x) \mathrm{d}x\right] = o\left(\frac{1}{n}\right)$$第一、第四、第五尤其需要注意。首先,独立同分布是交叉拟合的前提。 其次,为了保证倾向值函数的估计量严格处于0和1之间,往往需要在交互回归模型的双重机器学习算法第一步之后对数据进行截尾,舍弃掉$\hat{p}{[k(i)]}(X_i)$过大或过小的样本,或通过缩尾将其限制在一定范围内。最后,需要选取好的机器学习算法来保证近似的有效性。 ↩︎

  12. 需要注意的是,双重差分不是双向固定效应回归。将时间和个体虚拟变量作为高维协变量直接放入部分线性模型,并将处理状态虚拟变量前的系数解释为双重差分估计量是不规范的。若研究者希望在 DML中估计带有固定效应的静态面板模型,应参照Clarke 和Polselli(2025)提出的方法。 ↩︎

  13. 值得注意的是,在断点回归的理论框架中,处理变量D完全由驱动变量决定,不存在通常意义上的“内生性”,因此也不必剔除协变量X对处理变量的影响。Noack等(2021)证明了只要X能帮助解释结果变量,上述做法几乎总是能够减小断点估计量的方差。 ↩︎

  14. 交叉验证的目的是评估机器学习模型的样本外预测能力。其第一步与交叉拟合相同; 第二步是计算交叉拟合值与真实数据的差异,并计算整个样本上的平均损失函数。好的机器学习模型应当有较小的交叉验证损失。 ↩︎

  15. 双重机器学习中的算法选择:输入:独立同分布的数据${W_i}_{i=1}^n$,备选的机器学习算法$j \in {1,…,J}$,多余参数$\eta$。

    1. 将数据划分为$K$个互不相交的子样本。对于第$k$个子样本和第$j$种机器学习算法,使用其余$K-1$个子样本利用机器学习得到$\hat{\eta}_{j[k]}$。
    2. 对于第$j$种机器学习算法,利用交叉拟合计算均方预测误差(Mean Square Prediction Error, MSPE): $$\frac{1}{n}\sum_{i=1}^n \left[V_i - \hat{\eta}_{j[k(i)]}(X_i)\right]^2.$$
    3. 选择最优的机器学习算法: $$\hat{J} = \arg\min_j \frac{1}{n}\sum_{i=1}^n \left[V_i - \hat{\eta}_{j[k(i)]}(X_i)\right]^2.$$
    4. 利用最优算法$\hat{J}$在双重机器学习算法中对$\eta$进行估计。 本算法假设多余参数$\eta$维度为1维,当多余参数$\eta$为多维的时候,对每个维度分别采用本算法,并挑选各自的最优算法即可。
     ↩︎