论文记录-A Survey of Deep Causal

A Survey of Deep Causal Model

Intro

  1. 因果推断应用场景
    1. 估计广告中观察数据的因果效应[3, 4, 5, 6, 7, 8, 9]
    2. 开发与因果干预效果估计高度相关的推荐系统[10, 11, 12, 13, 14, 15, 16]
    3. 学习医学中患者的最佳干预规则[17, 18, 19]
    4. 强化学习中的ITE估计[20,9, 21, 22, 23, 24, 25, 26, 27]
    5. 自然语言处理中的因果推理任务[28, 29, 30, 31, 32, 33]
    6. 新兴的计算机视觉和语言交互任务[34, 35, 36, 37, 38]
    7. 教育[39]
    8. 政策决定[40, 41, 42, 43, 44]
  2. 深度学习与因果模型的结合
    1. 深度学习模型的计算效率更高,精度更高,在各个领域都拥有良好的表现
    2. 许多深度学习模型是黑盒子,可解释性差,因为它们对输入和输出的相关性比因果关系更感兴趣[49, 50, 51]
    3. 深度学习模型已被广泛用于挖掘数据的因果关系,而不是相关关系[40, 42]
    4. 深度因果模型已经成为一种基于无偏估计的干预效果的核心方法[19, 43, 44, 52],因果推断领域的许多工作都利用深度因果模型来选择合理的干预方案[53, 54, 55, 56]
  3. 现状
    1. 长期以来,主流研究的一个特点是使用潜在结果框架作为解决观察性数据的因果推断问题的手段[63]。潜在结果框架也被称为Rubin因果模型[64]
    2. 考虑代表分布平衡的方法[40, 42, 43],协变量混淆学习方法的影响[52, 65, 66, 67],基于生成对抗网络的方法[44, 68, 69, 70],其他相关内容[56, 33, 71]等等
    3. 由于深度学习方法有利于因果推断,因果推断也促进了深度学习方法的发展。除了提高因果效应估计的准确性外,对深度网络的研究还为开发深度学习算法提供了合理的依据[72, 73, 74]
  4. 相关调研工作的主要主题:
    1. 因果推断的起始与发展[75]
    2. 反事实因果推理的机器学习可解释性[76]
    3. 图形化因果推理与机器学习的联系[77]
    4. 通过因果表征学习探索数据中的因果变量[78]
    5. 医疗保健的因果机器学习[79]
    6. 大数据情况下的因果学习和机器学习的关系[1]
    7. 潜在结果框架中观察数据的因果效应估计[2]
    8. 深度学习和变量范式视角在因果发现中的应用[80]
    9. 通过因果推理提取因果关系来优化推荐系统[81]
    10. 深度学习对解决传统因果学习问题的意义[83]
    11. 深度模型中的因果效应估计与有偏差的样本观测和当前工业应用中的挑战[本文]

Preliminaries

定义

主要来自[64, 2]

定义1:干预效果估计(因果效应估计):估计接受干预的特定样本的结果变化。干预效果估计和提升模型有相同的目标,不同的是:提升模型是对随机实验数据的,干预效果估计通常需要坚持必要的假设,适用于实验和观察数据。

定义2:干预(treatment)。干预描述了应用于样本的方案或行动。作为一个医学术语,一个药物方案就是一种干预。对于二元干预,$T=1$是实验组,$T=0$是对照组。多个干预方案可以用$T(T\in\lbrace0,1,2,…,T_N\rbrace)$来表示,其中$N+1$表示方案总数量。

定义3:观察结果。观察性结果,也被称为事实性结果,是衡量样本的结果如何应用于干预的措施。在某一干预方案的情况下,观察结果记作$Y^F$,其中$Y^F=Y(T=T_i)$。

定义4:反事实的结果。反事实的结果是与事实的结果不同的结果。在二元干预的情况下,反事实结果记作$Y^{CF}=Y(T=1-T_i)$。在多干预的情况下,$Y^{CF}(T=T_i^{‘})$表示干预$T_i^{‘}$的反事实结果。

定义5:剂量。剂量是指在某一特定干预期间连续服用的数量。一般来说,有许多医学干预涉及到连续的剂量参数,如血管压缩机。一组连续的剂量方案记作$D_T$。针对特定干预的事实剂量记作$D^F=D(T=T_i)$。反事实剂量记作$D^{CF}(T=T_i^{‘})$。

定义6:剂量-反应曲线。剂量-反应曲线表示在接受不同剂量的干预后,样品的反应效果随时间推移而变化。对剂量反应曲线进行更好的拟合可以使模型在连续剂量处理中更加稳健和富有表现力。剂量-反应曲线上的实际结果和反事实结果可以表示为集合$Y^F(D^F,T_i)$和$Y^{CF}(D^{CF},T_i^{‘})$。

定义7:协变量。协变量是不受干预选择影响的变量。一般来说,医疗环境中的协变量是指患者的人口统计学、病史、实验数据等,通常用X表示。协变量可以分为混杂变量和非混杂变量,具体分为三类[65]:工具因素$I$,只影响干预$T$;混杂因素$C$,对干预$T$和结果$Y$都有影响;调整因素$A$,只决定结果$Y$。

假设

主要来自[2,77]

假设1:稳定的样品处理值(SSTV)。一个样本对干预的反应与其他样本的分布无关。基于这一假设,样本之间不存在相互影响,每个干预方案只有一个版本。SSTV可以表示为$P(Y_i|T_i,T_i^{‘},X_i)=P(Y_i|T_i,X_i)$。

假设2:可忽略性。给定协变量$X$,干预分布$T$与潜在结果无关。基于该假设,不应该有未观察到的混杂因子。换言之,$T\bot Y(T=T_i),Y(T=T_i^{‘})|X$需要成立。

假设3:重叠。当给定观察变量时,每个样本都有非零的概率接受任一干预状态。为了估计反事实的干预效果,必须假设每个样本都能实施任何干预方案,否则重叠假设将不成立。即,$0<P(T=T_i|X=x)<1$且$0<P(T=T_i^{‘}|X=x)<1$。

Treatments and Metrics

本节对不同经典应用场景所采用的不同性能指标进行了分析和描述。除了[2]中的基本指标外,我们将评估从二元扩展到多剂量和连续剂量情况。

二元干预

  1. 平均干预影响Average Treatment Effect(ATE)[85,86]
  2. 条件平均干预影响Conditional Average Treatment Effect (CATE)[2]
  3. 个体干预效果Individual Treatment Effect (ITE)[2]
  4. 异质性估计的精确度Precision in Estimation of Heterogeneous(PEHE)[44,52]
  5. 针对实验组的平均干预影响 Average Treatment effect on the Treated group (ATT)[2, 87]
  6. 政策风险 Policy Risk($R_{pol}(\pi)$) [42]

多元干预

  1. 根均方误差Root Mean Square Error (RMSE) [88, 41]
  2. 平均PEHE[88, 89, 90]——用于估计多因素干预对新冠的影响

连续剂量干预

  1. 平均积分平方误差Mean Integral Squared Error(MISE) [55]
  2. 平均剂量政策误差Mean Dose Policy Error (DPE)[55],可以结合序列最小二乘法估计Sequential Least Squares Estimation[91]来决定最优剂量。
  3. 政策误差(PE)[55, 92]

时间序列干预

时间序列与连续剂量的不同在于,时间序列用到了与时间相关的历史数据。
个体干预影响[93]

与二元处理和多元处理类似,根据ITE的处理类型,PEHE或平均PEHE可以作为评价指标。而RMSE或MAE可用于ATE和CATE。MIMIC III[94]数据集常用于时间序列干预问题,它是一个来自ICU病人的电子健康记录数据库。

此外,许多研究人员将模拟数据集灵活地应用于不同的场景。为了提供更多的消融实验,证明模型的稳健性。相关数据集的详细描述可以在第7节找到。

深度因果模型的发展

发展时间线

时间线示意图

模型分类

模型分类示意图

  1. 学习平衡表征:这种类型的方法长期以来一直是一种流行的研究。其核心思想是利用编码器将协变量$X$映射到表示空间$\Phi$,结合处理$T$,采用网络$h$来预测输出结果$Y$,并使事实和反事实结果之间的分布距离$disc_H$最小。
  2. 混淆学习的协变量:这类方法的目的是在理论上对协变量关系进行分解。它的主要应用方案是对协变量进行无偏估计,并利用解耦、重权、编解码器重建等方法去除混杂因素。
  3. 基于GAN的反事实模拟:随着近年来GANs在数据综合方面的巨大成功,它也被广泛采用来解决因果效应估计问题。在使用GAN网络进行反事实模拟时,通常涉及两种方案,即生成反事实的输出结果或平衡表示空间分布。
  4. 时间序列因果估计:时间性因果估计已被广泛关注。使用RNN跟踪上下文协变量信息并处理时变混杂偏差是许多模型长期采用的解决方案。
  5. 多干预和连续剂量模型:多重处理和连续剂量处理的问题是近期深度因果学习的研究热点之一。一般来说,这类问题可以采用匹配、变异自动编码器、分层判别器和多头关注机制等方案进一步简化和结构化。

典型深度因果模型

模型总结表

学习平衡表征

大多数统计学习理论认为,测试数据和训练数据具有独立且相同的分布,但在现实中,测试数据和训练数据的分布往往是相关的,但不完全相同。解决这个问题需要深度学习模型,在因果效应估计领域学习因果关系而不是相关关系。观察性数据没有标准的干预分配策略,这与RCTs不同。正如我们所知,由于已知和未知协变量引起的选择偏差,事实和反事实分布往往是不同的。因此,因果效应估计需要转化为一个领域适应问题,通过从事实数据中学习来预测反事实的结果。

BNN及其衍生

  1. BNN[40]是一个用于反事实推理的算法框架,如图所示,它将因果效应估计问题转化为一个表示分布平衡问题。在将协变量映射到表征空间后,编码器利用一个两层全连接神经网络,平衡表征空间的分布距离,然后利用另一个两层全连接网络得出反事实结果。使用的回归函数如下:BNN示意图
  2. 作为测量实验组和对照组空间分布距离的创新方法,文献[42]提出了基于BNN[40]的CFRNet网络结构,采用MMD和WASS进行空间分布距离表示。在网络训练时,根据距离的明确边界计算不平衡惩罚,并分别计算实验组和对照组的损失。除了在结果预测层之间增加多个神经网络层外,DCN-PD[95]还将多任务深度神经网络与倾向分数剔除相结合[118]。
  3. 在CFRNet[42]模型的基础上,RCFR[96]和CFR-ISW[97]都采用了Propensity score对代表性空间特征区域和采样目标函数进行重新加权;Atan等人提出了一个无偏的自动编码器网络Deep-Treat[19]框架,应用前馈神经网络学习最优干预策略。虽然它减少了表征重建的损失以及空间的信息损失,但也缩小了选择偏差。

SITE及其衍生

  1. 为了保持代表实验组和对照组的数据的局部相似性和平衡,提高个体干预效果,Yao等人提出了SITE[43]方法,该方法将位置依赖的深度度量PDDM与中点距离最小化MPDM结合到表示空间中,并使用二元结果网络预测潜在结果。在这种情况下,使用了以下损失函数:
  2. 根据SITE[43],ACE[53]提出了一种平衡和自适应的相似性正则化结构来提取空间细粒度的相似性信息。
  3. 在[54]中提出了DKLITE,通过应用深度核回归和后验正则化来学习空间域重叠信息
  4. BWCFR[105]对域重叠区域的空间特征分布进行了重新加权

其他深度网络模型

  1. 通过将GAN与互信息估计器正则化结构相结合,ABCEI[104]试图平衡表征空间中实验组和对照组的协变量分布
  2. 在[109]中,CETransformer被提出应用注意力机制来关注协变量之间的关系,然后学习平衡表征分布;
  3. TransTEE[73]将平衡表征分布方法扩展到连续、结构化和剂量相关的干预,它使因果效应估计成为更加开放的问题。
  4. CURE[116]为纵向(或结构化)病人数据设计了新的序列编码,并将结构和时间合并到病人嵌入中
  5. DESCN[114]在整个样本空间中联合学习处理和反应函数,以避免处理偏差,并使用中间的伪处理效果预测网络来缓解样本的不平衡
  6. 在[72]中,SCI归纳了子空间的概念,如图4所示,将协变量同时整合到一个共同的子空间、一个干预子空间和一个控制子空间,从而得到一个共同的表示和两个具体的表示。之后,共同表征与实验组和对照组的具体表征相连,从重建和预测网络中得到两个潜在的结果。
    SCI示意图
  7. 基于SCI,NETDECONF[119]使用网络结构信息来推断观察数据中的隐藏混杂。
  8. OrganITE[120]提出了一个个性化的干预效果模型,根据稀缺性分配干预,并估计潜在的结果。

混淆学习的协变量

因果效应估计的主要问题是在给定一个协变量、一个干预方法和一个预测结果的情况下估计干预效果。通过识别和校正混杂因素,有可能从观察性数据中更准确地估计因果效应。然而,在实际案例中,存在着潜在的噪音和不确定性的混杂因素,以及一些非混杂因素。因此,挖掘潜在的混杂因素并对相关协变量进行解耦,是从观察数据中学习反事实的无偏表述的重要方法。

CEVAE

  1. CEVAE[52]模型结构最早由Louizos等人提出,在存在噪声和不确定混杂因素的情况下,用VAE捕捉隐藏的混杂因素,并进行处理和预测。在TARNet[42]因果关系图结构的基础上,对推理网络中的y和t,以及模型网络中的z和t分别进行Do-calculus[121]推导,以拟合潜在混杂变量与干预效果之间的相互作用。总的来说,因果变异自动编码器中涉及以下预测函数:
  2. 在CEVAE[52]的基础上,Sun等人提出了LaCIM[106]潜在因果模型,以避免虚假关联,提高模型的泛化能力
  3. CEGAN[68]利用GAN网络无偏地识别潜在的混杂因素

Dragonnet

  1. 由Shi等人提出,首创的Dragonnet[66]将正则化目标函数禁入非参数估计理论,将倾向得分预测网络禁入CFRNet[42],从而确保协变量中与干预相关的信息得到调整。可以看出,图5显示了倾向得分自适应神经网络的网络结构。
    Dragonnet示意图
  2. 根据Dragonnet[66],VSR[107]提出了一个去除关联处理和混杂因素的复权模型。它还使用了一个深度神经网络来聚合整个变异分布中潜变量的密度比,以计算样本权重分布
  3. 作为估计过程的一部分,DONUT[110]对总损失中的非混杂因素增加了一个正交约束;此外,还提出了一个名为FlexTENet[111]的端到端正则化和重新参数化方法,利用多任务框架学习新架构,通过它自适应地获得因果结构间的共享函数。
  4. 在DIRECT-ND[122]中,通过混合学习解决了纠缠表示,并从一个新的角度研究了多变量因果效应估计问题。此外,模型中加入了VAE和GAN网络,实现了混合表示空间的学习。

DeR-CFR

  1. 为了平衡选择偏差,Zhang等人[98]提出了RSB算法,通过PCC正则化和工具变量使用自动编码器网络,同时加入混杂变量和调节器进行预测。作为CFRNet[42]的延伸,DR-CFR[99]和DeR-CFR[65]都被提出,其主要结构如图6所示,以消除协变量的关联性。
    DeR-CFR示意图
  2. 基于DeR-CFR,CATE的预测性能已经用CF-CV[123]进行了评估,它从潜在的候选人中选择最佳模型或超参数。
  3. 在[124]中,元学习方法与深度网络、理论推理和最佳反事实信息结合在一起。

基于GAN的反事实模拟

在深度生成模型中,生成式对抗网络可以捕捉到反事实分布的不确定性。生成器产生反事实结果或控制组和实验组之间的一致性分布,而判别器则适合对干预效果的无偏估计。除了使用事实数据外,GAN网络在进行因果效应估计时也会考虑反事实结果的准确性。有鉴于此,生成式对抗模型越来越多地被用于因果效应估计。

  1. Yoon等人建议的第一个方法是由GANITE[44]网络根据事实数据生成反事实结果,并将其传递给ITE生成器。图7显示了GANITE的详细框图。
    GANITE示意图
  2. CEGAN[68]首次应用GAN网络,通过利用GAN网络的判别损失,并在编码器之后对Decoder的构造损失或权重进行加权,来平衡空间处理组和对照组之间的分布。为了解决生成器-鉴别器的最小-最大问题,使用了以下奖励函数:
  3. 作为生成式对抗框架的一部分,GAD[100]将GAN网络应用于连续干预问题,以学习样本平衡的权重矩阵,从而消除干预方案与协变量之间的关联
  4. 为了解决多重干预以及连续剂量干预问题,DRGAN[101]提出了一个由耦合事实发生器、判别器和推理块组成的模型架构
  5. 作为更好地应对连续干预问题的手段,SCIGAN[69]在DRGAN基础上增加了一个分层的判别器
  6. CTAM[33]也将生成式对抗思想应用于文本序列信息的干预效果估计。它在学习表征时过滤掉了与近似工具变量相关的信息,并在学习的表征之间进行匹配
  7. 为了消除干预与患者病史之间的关联,CRN[102]利用反事实的递归神经网络来反映时变的干预效果
  8. 在ABCEI[104]中,用GAN网络很好地平衡了对照组和实验组之间的协变量分布,并加入了互信息估计器的正则化函数以减少偏差
  9. 为了学习平衡的协变量表征,CETransformer[109]将注意力机制与WGAN相结合
  10. 在TransTEE[73]中,Transformer被用于协变量表征,其中干预效果由倾向得分网络估计,选择偏差可由GAN网络克服。特别是,该模型也可用于离散、连续、结构化或剂量相关的干预。

总的来说,利用GAN网络将单个治疗效果估计的方式扩展到多个干预措施和连续剂量干预措施并不难,而且对代表分布的平衡和潜在结果的产生有奇妙的效果。但是,由于缺乏完整的理论支持体系,利用GAN网络解决因果效应估计的问题需要在未来进行更多无懈可击的理论推导。

时间序列因果估计

在干预效果估计中,大多数模型都集中在数字变量上,处理文本信息和时间序列信息仍有难度[125]。文本信息估计的变量解耦可以减少估计偏差,因为文本信息中存在许多与因果效应估计无关的协变量。在处理时间序列信息时,RNNs通常被结合起来,根据历史信息创建反事实的递归网络。

  1. R-MSN[71]模型是由Lim等人首次提出的,目的是解决时间序列下连续治疗剂量和多治疗所产生的问题。图8说明了该模型的框架结构,它使用一个递归边缘网络来消除随时间变化的混杂因素,一个标准的RNN结构来编码和解码。
    R-MSN示意图
    为了预测因果效应,R-MSN使用了标准的LSTM结构,根据相应的时间间隔划分了多治疗和连续干预问题。

  2. 作为一个反事实的递归网络,CRN[102]在R-MSN[71]的基础上构建了每个时间步长的治疗变量表示,消除了患者在治疗分配和治疗分配之间的病史关联,平衡了时变混杂偏差

  3. 通过与当前干预分配和历史信息相结合,利用DSW[93]中的递归加权神经网络推断出隐藏的混杂因素,然后利用时变的反概率进行重新加权
  4. 除了建立一个多任务输出的RNN因子模型外,TSD[103]还在一段时间内分配多个治疗,然后用多原因的隐性混杂因素估计治疗效果,通过这种方法可以推断出不受治疗影响的潜变量。此外,它用潜变量替代了未观察到的混杂因素,并推断出没有治疗的逻辑回归结果
  5. 在SyncTwin[113]中,根据预测结果的时间结构进行治疗估计,并构建合成双胞胎样本,获得反事实预测结果
  6. Yao等人提出了一种考虑到文本序列信息的匹配治疗-对抗学习CTAM[33]方法。如图9所示,在学习表征时,它过滤掉近似的工具变量,然后在学习的表征之间进行匹配,以估计治疗效果
    R-CTAM示意图
    具体来说,CTAM[33]有三个主要部分:文本处理、表征学习和条件处理判别。在第一步中,文本处理部分将原始文本转化为向量表征 S,将S与非文本协变量X连接起来,然后构建一个统一的特征向量,将输入转化为潜在的表征Z。作为下一步,Z和Y都被输入到条件治疗判别器中,在训练过程中,在表征学习网络和条件治疗判别器之间计算最大最小算术单元。为了过滤掉与工具变量有关的信息,表征学习网络防止判别器分配相关的治疗。作为最后一步,它在表征空间Z中实现了匹配。

为了利用全局特征表征和个体特征表征之间的相互信息来预测治疗分配,IDRL[126]提出了学习Infomax和与领域无关的表征。为了最大限度地捕捉治疗组和对照组之间的共同预测信息,过滤掉了工具变量和不相关变量的影响。

SCRNet[127]试图通过划分协变量来估计不同类型变量的ITE。

CT[115]采用transformer和lstm来捕捉时变混杂因素之间复杂的长期依赖关系,并提出了一个新的反事实域混淆损失来解决混淆偏倚问题。

文本时间序列的因果效应估计往往与多处理和连续剂量处理的相关问题相结合。尽管这个方向的应用很广泛,但研究人员需要根据实际情况制定一个测量干预效果的标准,而且很难评估业内使用的各种工作标准的合理性和可靠性。

多干预和连续剂量模型

单一治疗的偶然性估计主要是解决二元治疗问题,而将其扩展到多重治疗则计算成本很高。然而,多重治疗和连续剂量治疗模型有很多应用,如癌症治疗的放疗、化疗和手术,以及多年来血管抑制剂的长期使用。因此,在这些不同的治疗环境中估计持续干预的效果,以做出奇妙的长期过程决策是有益的。

  1. Schwab等人首次用PM[41]算法将个体治疗估计扩展到多离散治疗问题。在PM中,反事实推理是通过匹配最近的邻居样本来小批量利用的,这使得它很容易实现,并与各种架构兼容,而且不需要增加计算复杂性或其他超参数来处理任意数量的病人。
  2. 为了捕捉高阶效应,TECE-VAE[88]通过使用任务嵌入对治疗之间的依赖性进行建模,将问题扩展到多治疗情况的任意子集。
  3. 在解决涉及多治疗和连续剂量治疗的问题时,GAN网络经常被结合起来。GAD[100]提出的两步生成对抗性去混杂算法可用于连续治疗问题,去除协变量和治疗变量之间的关联。具体来说,它与以下三个步骤。A)产生一个协变量之间没有关联的无偏分布;B)学习样本权重,将观察到的数据转移到无偏分布上;C)用生成对抗网络对数据进行去模糊化。
  4. 作为一种改进的GAN模型,DRGAN[101]采用了生成器、判别器和预测网络的形式,通过考虑多治疗和连续剂量治疗方案,为每个样本生成完整的剂量-反应曲线;通过在DRGAN基础上使用分层判别器,提出了SCIGAN[69],以提高模型处理连续干预问题的能力。
  5. 同时,在DRNet[55]中提出了一套开放的模型基准参数,包括MISE、DPE、PE和模型选择标准,可以在连续剂量参数下生成无限数量的治疗的剂量-反应曲线。
  6. 在利用变系数神经网络的VCNet[56]中,为连续激活函数自动计算了连续ADRF[128, 129, 130]估计器,这有利于防止处理信息的丢失。此外,现有的目标正则化方法也被扩展,以获得一个双稳健的ADRF曲线估计器。
  7. 作为DRNet[55]的一部分,连续的治疗被分成若干块,分别训练成隐藏层,然后相互嵌套,构建单个剂量-反应曲线的片断拟合;VCNet[56]通过更加关注治疗的连续性,将单个预测头优化为随治疗变化的协变量的映射函数,从而建立了加权治疗的连续预测头。DRNet 和 VCNet 模型的结构比较见图 10。
    VCNet示意图
  8. TransTEE[73]将SCIGAN[69]的分层判别器与VCNet[56]的可变系数结构相结合,并归纳出Transformer多头关注机制通用框架,将因果效应估计问题扩展到离散、连续、结构化和剂量相关的治疗。
  9. 作为对多治疗组合问题的首次研究,NCoRE[108]利用跨治疗的相互作用来推断多治疗组合的因果生成过程,其中在治疗环境中学习的反事实表征被结合起来。
  10. 为了估计多因扰动的治疗效果,Prichard等人首次提出了SCP[112]的观点。为了克服混杂偏差,分两步走,首先应用单因CATE估计器来增强观察数据,并估计潜在的结果。并估计潜在的结果;下一步,增强的数据集被调整为协变量,以获得多因素的 无偏估计。除了说明单因素和多因素问题之间的关系外。SCP显示了单因素干预和多因素干预的条件预期的等同性。这可以通过以下公式来验证
  11. 与SCP不同的是,OOSR[131]提出了一种预测模型,它采用了一种重新加权的方式 强调了以结果为导向的治疗。

最近,越来越多的研究人员对多治疗和连续剂量治疗的问题产生了兴趣,也做出了重大贡献。尽管如此,这一领域仍有许多模型需要开发。特别是,如何制定一个统一的因果效应测量标准,仍然是一个迫切需要解决的问题。

工业界应用现状

市场营销应用

  1. 激励分配:为了使投资回报最大化,在预算限制下决定如何分配针对用户的激励措施是至关重要的。
    1. PCAN[132]利用少量的无偏数据集来训练一个无偏模型,并建立一个有偏网络,通过有偏数据和无偏数据表示的分布差异来生成一个接近无偏网络的表示。离线和在线实验结果表明,所开发的方法可以缓解价格偏见的问题,并导致所产生的分配政策在现实世界的营销活动中的性能显著提高。
    2. DESCN[114]被开发出来,以综合的方式捕捉干预倾向、真实反应和伪干预效果之间的关系,该方法被应用于阿里巴巴集团旗下东南亚领先的电子商务平台Lazada的优惠券分配业务。相关结果表明,这种方法在ITE估计的准确性和提升排名性能方面都有优势。
    3. 对于多处理场景,亚马逊提出了MEMENTO[133]。它的基础是获得各种干预类型的混杂因素的匹配表示,通过最小化事实和反事实损失之和的上限来实现。
  2. 市场营销的其他任务。例如,AntGroup提出了一个用户保留模型UR-IPW[134],以说明印象-重访效应,即用户即使不与推荐系统明确互动,也可以重访APP。该模型充分利用了观察到的数据中的显性和隐性互动,并通过使用反倾向加权来估计重访率,考虑到用户的自我选择造成的选择偏差。
  3. 实际应用:在双边商业关系中,有效的营销策略也应该激励商户和客户。例如,为了鼓励移动支付活动,商家在顾客扫描二维码并使用支付宝付款后,可以与顾客分享奖励。然而,对双方进行独立的优化可能是不理想的。因此,[135]和[136]考虑到了相互影响,并使用图神经网络,通过对潜在的两边影响进行建模,共同代表商家和顾客。大量的实验结果证明了所提方法的有效性。

电子商务应用

  1. 推荐系统:传统的推荐系统基于数据观察中的学习相关性来提取用户的偏好,导致了包括选择偏差、接触偏差、位置偏差、顺从偏差等在内的偏差。为了解决这个问题,亚马逊、Netflix、Criteo、阿里巴巴、AntGroup、JD、Kuaishou等都开始利用因果效应估计来提取因果关系。
    1. 数据集和最近关于推荐去偏的工作可以参考[137]和[138]
    2. 在[81]中,华为提出了去偏移的信息瓶颈,适用于各种类型的偏移。该架构约束模型在训练阶段学习具有独立的有偏和无偏成分的有偏嵌入向量,并在测试阶段只使用无偏成分,以提供更准确的推荐。
    3. 如[139]所述,Wei等人从因果关系的角度探讨了人气偏差问题,该方法进行多任务学习以实现每个原因的贡献,在测试期间,执行反事实推理来消除项目流行度的影响。
    4. ESCM[140]利用用户行为的顺序模式来解决数据稀少的问题,并采用反事实风险最小化器作为正则器来同时解决CVR估计的固有估计偏差和CTCVR估计的潜在独立优先权这两个问题。
    5. 在[15]中,Criteo提出了一个多任务目标,将有偏见的数据矩阵和统一数据的矩阵联合进行因子化。
    6. 在[141]中,提出了一个能够实现统一数据建模的通用知识蒸馏框架,它由四个模块组成,包括基于标签的蒸馏、基于特征的蒸馏、基于样本的蒸馏和基于模型结构的蒸馏。
    7. 在[142]中,AutoDebias通过解决一小部分统一数据的双级优化问题来优化去重参数。
  2. 实际应用:在[140]中,阿里巴巴提出了CausalMTA,它通过重新加权和学习无偏见的转换预测模型,从静态和动态的角度系统地消除了混杂的偏差。它的有效性由一个真实的广告印象数据来证明,其中包括30天的手机上的店铺广告印象数据。

金融应用

计量经济学,估计政策影响方面的因果关系

  1. Hennessy等人[143]分析了在金融和经济学中常见的各类环境中替代性因果效应措施的意义和使用情况,这些环境中个体代理人拥有私人信息,结果变量由经济中其他代理人的信念所调解。他们建议使用两种不同的因果效应定义,包括部分因果效应和全部因果效应。
  2. Tiffin[144]主要关注因果林算法,并以金融危机的成本为例进行说明,该文已努力说明此类技术如何能产生可信的结果,即估计出危机的平均影响。
  3. Athey和Wager[145]引入了计量经济学中半参数效率理论的见解,提出了一个新的最优政策估计器,并分析了这个估计器的特性。政策可以根据其 “风险 “进行比较,”风险 “被定义为使用(未知)最优政策和估计政策的预期结果之间的差距。
  4. Arpino等人[146]提出了一个明确的模型,该模型被应用于评估在托斯卡纳对小型手工业公司实施的政策,以解决由于细胞之间的干扰而违反稳定的细胞处理值假设的问题。结果显示,当被处理的企业受到高水平的干扰时,政策带来的好处会减少。
  5. 实际应用:在金融科技领域,蚂蚁金服集团的MYbank采用了因果反事实推理去偏方法[147, 107, 112, 108, 148, 149],解决了贷款营销AB实验的偏颇问题。为了有效衡量干预效果,我们采用因果反事实推理的方法,在观察数据的基础上,从全部实验人群中构建一个同质性的控制组,从而进行横向比较。

医药应用

  1. 多病因干预问题
    1. 有人提出了单病因扰动[112],它首先用单病因干预下估计的潜在结果来增强观察数据集,然后对增强后的数据集进行协变量调整,得到估计值。
    2. GraphITE[150]被提出,它使用图神经网络获得图结构干预的表征,并通过使用HSIC正则化增加目标和干预表征的独立性来缓解观察偏差。
  2. 估计随时间变化的干预效果
    1. SCIGAN[69],能够同时估计几种不同连续干预的反事实结果。
    2. TE-CDE[151],它允许在任何时间点对潜在的结果进行评估。逆向训练被用来调整随时间变化的混杂因素,这在纵向环境中是至关重要的。
  3. 实际应用:van der Schaar实验室确定并瞄准了广泛的潜在临床应用,包括COVID-19、器官移植等。为了决定每个场景的 “一个最佳模型”,[152]中引入了一个首创的验证程序,用于估计使用影响函数的因果效应估计方法的性能,该程序利用类似泰勒的扩展方式,以其在已知因果效应的 “综合”、近似数据集上的影响函数来近似一个方法在特定数据集上的损失函数。

经济应用

  1. 无法得到无偏数据的问题:因果效应需要从具有不完美合规性的替代实验中学习,并且因果知识必须在结构异质的人群中进行推断。为了解决所有这些挑战,需要一个强大的因果效应估计框架,这些挑战基本上在不同程度上困扰着任何数据分析[153]。它嵌套了深度学习的预测能力,以获得高维协变量下一致的因果估计[154, 155, 156]
  2. “可信度革命”
    1. 在[157]中,Angrist和Steve Pischke创造了 “可信度革命 “这个术语。他们认为,经济学转向应用于特定因果问题的透明实证策略。
    2. 问题驱动的方法论议程主要是基于Rosenbaum和Rubin的倾向性得分定理[158]。这个定理改变了应用计量经济学,使我们的注意力集中在确定干预分配的过程而不是结果的模型上。
    3. Dehejia和Wahba[85]是第一个证明这种方法的价值的人。
    4. Belloni等人[159]利用深度学习对分数进行建模,同时对结果进行建模。这项工作可以看作是Robins的双重稳健性概念在更广泛的经验策略上的延伸。
    5. Angrist[160]引入了一个新颖的框架,即用于因果效应估计的局部平均干预效应框架,以帮助经济学中的实证策略应该是透明和可信的。
  3. Hal R. Varian[161]认为,深度学习中使用的强大技术可能有助于开发更好的反事实估计,有可能改善因果效应估计。
  4. 对于广义邻居匹配来估计个人和平均干预效果,Vikas[162]提出在计量经济学中使用深度学习技术,特别是用于因果效应估计和估计个人以及平均干预效果。

教育应用

关于教育干预措施对学生成绩影响的新研究[163]——人们越来越认识到在教育领域制定循证政策的必要性。教育政策制定者和实践者都想知道哪些政策和实践能最好地实现他们的目标。然而,提供适合指导政策的经验证据并不是一件容易的事,因为它指的是因果效应的估计,需要特殊的研究方法,而这些方法由于其技术的复杂性,并不总是容易沟通。

  1. 从贝叶斯的角度来看,David[164, 165]介绍了对大规模教育评估中因果推断问题的回顾和总结,这需要阐明因果效应估计的框架,然后采用与框架密切匹配的统计方法,并能得出感兴趣的因果估计。
  2. Zhao等人[39]提出智能导师系统中的残差反事实网络可以决定哪种提示更适合于特定的学生。

然而,干预的有效性必然是多方面的,复杂的效果在不同的学生之间是不同的,是实施方案的函数[166],而且有可能是时间和地点的函数。

  1. Sales等人[167]探讨了一种不同的干预效果异质性差异,即不同结果的有效性。具体来说,不同的后测项目测量不同的技能。
  2. Carvalho [168] 使用不同的工具包GeNIe3,利用学习管理系统的数据对学生的在线行为模式进行了因果效应估计。
  3. Chen等人[169]开发了一个因果发现框架,利用TETRAD[170]。

实验指南

数据集

  1. IHDP.婴儿健康与发展[86]数据集产生于一项针对低出生体重早产儿的随机对照试验。儿童及其母亲的各种特征作为治疗前的协变量被测量,如出生体重、头围、新生儿健康指数、产前护理、母亲的年龄、教育、药物和酒精。向治疗组的婴儿提供强化的高质量儿童护理,如专家家访[171]。结果是婴儿在认知测试中的得分。此外,需要去除治疗组的噪音子集,以建立无偏的选择模型。【医学相关】
  2. 工作。乔布斯在LaLonde(1986)[87]中研究的就业数据集是由基于国家支持的工作计划的随机数据和观察性研究的非随机数据组成的。治疗前的协变量包括1974年和1975年的年龄、教育、种族和收入等八个变量。治疗组参加了职业培训,而对照组则没有。结果是就业状况。【社科相关】
  3. 双胞胎。双胞胎数据集来自于1989-1991年美国的双胞胎出生数据[172]。对每对双胞胎进行了与怀孕、双胞胎出生和父母有关的40个协变量的评估,包括刚出生前的孕周、怀孕期间的护理质量、怀孕风险因素(贫血、酒精、吸烟等)、护理、居住等。其结果是一年的死亡率。有一个双胞胎数据集,其中有来自实验组(双胞胎中较重的)和控制组(双胞胎中较轻的)的结果。选择偏差通常是通过根据用户定义的标准分配不同的治疗来模拟的。【医学相关】
  4. 新闻。新闻数据集由《纽约时报》语料库中5000篇随机抽样的新闻文章组成。新闻数据集包含媒体消费者对新闻项目的看法的数据。样本是由字数组成的新闻项目,结果是读者的意见,处理方法是可用于查看新闻项目的各种设备,如智能手机、平板电脑、电脑和电视。【社科相关】
  5. ACIC。自2016年以来,每年的大西洋因果推断会议都会举行因果效应估计数据分析挑战赛,该挑战赛针对各种因果效应估计问题提出不同的数据集。下面我们详细介绍ACIC2016和ACIC2018这两个典型的数据集。关于ACIC的最新会议数据集的摘要可以在[173]中找到。ACIC2016由77个数据集组成,具有不同程度的非线性、稀疏性、治疗分配和结果之间的相关性,以及干预效果之间的重叠性。协变量来自IHDP[86]数据集的真实数据,其中包括58个变量和4802个样本[174]。模拟模型产生了干预、事实和反事实的结果,而选择偏差是通过去除非白人母亲的干预儿童而产生的。ACIC 2018是一个常用的因果效应估计的基准数据集[175]。它是一个关于婴儿出生和死亡的半合成数据集[176],包含63个数据集,每个数据集从不同的分布中随机抽取,然后通过模拟过程生成。【医学相关】
  6. TCGA。作为世界上最大和最全面的基因组数据库,癌症基因组图谱(TCGA)[92]包含了数十亿的基因组。TCGA[92]数据集共包括9658个个体,治疗方案为药物治疗、化疗和手术,结果为治疗后患癌的风险。【医学相关】
  7. 肿瘤生长的PK-PD模型。药代动力学-药效学模型(PK-PD)[177]可用于探索剂量-反应关系,并提出最佳治疗方案。其主要功能包括化疗和放疗效果的结合、治疗后的细胞再生、病人的死亡或恢复,以及在诊断阶段基于癌症的肿瘤大小的不同目光分布,这使得这个模型成为治疗非小细胞肺癌病人的一个很好的模型。PKPD模型使临床医生能够探索关于剂量-反应关系的假设,并提出最佳治疗方案[178, 179]。在PK-PD最经典的例子中,通过观察对治疗、化疗和放疗的预期反应,可以预测具有时间依赖性的肿瘤生长[177]。【医学相关】
  8. MIMIC III。重症监护医疗信息市场(MIMIC III)[94]是一个来自ICU病人的电子健康记录数据库。基准数据集由7413个样本组成,在过滤了缺失值后有25个协变量。就治疗方案而言,抗生素、血管抑制剂和机械呼吸机是ICU中治疗败血症患者最常见的方案。一些实验室以病人的生命体征随着时间的推移作为衡量标准,评估抗生素、血管压缩机和机械呼吸机对以下协变量的影响,包括白细胞、血压和氧饱和度。关于临床数据的全面而详细的描述可以在[180]中找到。【医学相关】
  9. NICO。在使用带有上下文的图像数据集NICO进行物体分类时,样本选择存在偏差[106]。NICO中 “动物 “数据集中的猫或狗分类被视为非i.i.d的基准分布。参数包括采样时间、是否采样、上下文、猫和狗的语义形状,以及 “草 “和 “雪 “环境。【图像处理相关】
  10. ADNI. Alzheimer’s Disease Neuroimaging Initiative(ADNI)[181] 数据集有三个潜在的表示输出Alzheimer’s Disease, Mild Cognitive Impairment 和Normal Control。协变量是年龄和TAU[182],它们决定了磁共振成像是否应作为治疗的输入。【医学相关】
  11. COVID-19。在大流行的第一个高峰期,数据集COVID-19[90, 89] 英格兰住院监测系统(CHESS)收集了3090名ICU病人的个人层面的风险因素、治疗和结果。有许多协变量,包括年龄和多种发病率等因素,以及治疗参数,如通风和抗病毒药物。结果是在重症监护室的停留时间[183]。【医学相关】
  12. CPRD。临床实践研究数据链(CPRD)包含来自英国国家医疗服务系统(NHS)全科诊所的记录,覆盖全国约6.9%的人口[184]。全国死亡率记录和医院事件统计表明,CPRD与二级护理住院有关。低密度脂蛋白是在CPRD开始后测量的,而治疗是指第一次开处方的日期。作为时间协变量,以下风险因素是在治疗开始前测量的:高密度脂蛋白胆固醇、血压、脉搏、肌酐、甘油三酯和吸烟状况。HPS登记的参与者是从125,784名符合资格标准的人中选出的。共有17371个治疗组和24557个对照组被分为三个同等大小的子集,用于训练、验证和测试。【医学相关】
  13. BlogCatalog。BlogCatalog是一个用户发布博客的在线社区。在数据集中,每个实例都是一个博主[185]。每条边代表两个博主之间的社会关系。博客描述中包含的关键词以词包的形式表示。博客读者意见作为输入,博客创建的内容在移动端或桌面端得到更多的评论作为干预,个人干预效果估计的参数来自读者在移动端(比桌面端)的评论内容。如果人们在移动设备上的阅读量比在桌面设备上的阅读量大,那么博主就属于实验组,反之亦然。【社科相关】
  14. Flickr。Flickr是一个在线社交网站,用户可以分享照片和视频[186]。该数据集由代表用户的实例和代表他们之间社会关系的边组成。感兴趣的标签由每个用户的特征来表示。一般来说,设置和假设与BlogCatalog数据集相同。【社科相关】

源码

  1. 主要用PyTorch和TensorFlow
  2. 模型之间也可以再结合

实验

是与前面数据集相对应的实验说明。

总结与未来展望

由于因果效应估计和深度学习的发展,深度因果模型作为一个研究课题变得越来越受欢迎。通过将深度网络模型应用于因果效应估计,有可能提高因果效应估计的准确性和无偏性。此外,深度网络可以通过因果效应估计中的深刻理论进行优化和改进。本调查介绍了深度因果模型的发展和各种方法的演变。首先,介绍了与因果效应估计领域相关的基本知识。然后,我们介绍了经典的处理方法和度量。此外,我们从时间发展上对深度因果模型进行了全面分析。接下来,我们将深度因果模型的方法分为五组,并进行了概述和分析。此外,我们对因果效应估计在工业中的应用做了全面的总结。最后,我们总结了相关的基准数据集、开放源代码和性能结果作为实验指南。

自2016年以来,因果效应估计首次在二元处理情况下与深度学习模型相结合,用于估计反事实的结果。到目前为止,深度因果模型已经被用于时间序列、多变量治疗和连续剂量治疗情况。这与深度学习领域的研究人员提出AE、GAN、RNN、Transformer等深度网络模型,统计领域的研究人员对IHDP、Twins、Jobs、News、TCGA等数据集的生成和模拟,以及业界研究人员在潜在结果框架理论指导下对ATE、PEHE、MISE、DPE的探索是分不开的。我们相信,在因果学习社区每个人的共同努力下,深度因果模型将蓬勃发展,造福社会和人类。

对于市场营销应用来说,除了激励性的功效评价分数,深度学习的可解释性也是必要的,以了解我们为什么预测输出,并将其作为商业创新的基础。此外,营销决策可能涉及道德和法律问题,如贷款申请。因此,使用因果效应估计作为公平性的保证是有意义的。

对于电子商务的应用,推荐系统中现有的debias方法通常只被设计用来解决一个或两个特定的偏见。现在迫切需要一个通用的debias框架来处理所有种类的偏见。此外,如何公平公正地评价一个推荐系统也是一个重要问题。现有的方法要么需要准确的倾向性分数,要么依赖无偏见的数据。因此,迫切需要深度因果模型来提供理论上的保证。

对于金融和经济应用来说,最好能整合微观和宏观层面的数据来研究稳定的因果效应。此外,不确定性量化也有利于决策过程,这可以通过深度学习的贝叶斯近似和集合学习技术来实现。

对于医学和教育应用,深度因果模型可以在多个领域采用,包括处理高维数据,用真实世界的数据丰富随机试验,评估溢出的因果效应,以及从对特定人群的研究转移到其他感兴趣的人群。

  • Copyrights © 2020-2024 Kun Li

请我喝杯咖啡吧~

支付宝
微信