diff --git a/causal.html b/causal.html index b1ebb66..549152e 100644 --- a/causal.html +++ b/causal.html @@ -157,7 +157,7 @@

大规模非线性 SCM 的主动因果发现

-

1 引言

来自单个细胞的蛋白质信号网络的结构是什么?不同的习惯如何影响疾病的出现?这样的问题涉及由非线性的有噪声的过程控制的复杂系统中的因果效应。在大多数场合下,这样的系统的被动观测是不足以发现真实的因果效应关系的,需要开销大的实验来消除相互竞争的假设间的不明确性。因此,实验的设计是很令人感兴趣的,有效的实验方案有助于降低实验的成本,同时通过(闭环的 / 策略驱动的)科学方法帮助产出知识的过程(图 1)。

图 1 用于因果推断框架的贝叶斯最优实验设计的干预-推断-设计循环。

在因果的语言中,因果关系被一个有向无环图(DAG)定性地表示,图中节点对应于研究的系统中不同的变量,边表示变量间的信息流。DAG 的抽象使得我们可以表示眼前的观测的可能解释(假设)空间。以贝叶斯概率(信念)表示这样的假设允许我们将科学方法的问题形式化为一个贝叶斯推断,其中目标是要估计后验分布 p(DAGsObservations)p(\text{DAGs}\,|\,\text{Observations})。DAG 上的后验概率可以允许我们使用信息论的获得函数,该函数指导实验朝着最具信息量的变量进行,以消除互相竞争的假设间的不明确性。这样的设计过程属于用于因果发现贝叶斯最优实验设计(BOECD)的领域。

贝叶斯最优实验设计(BOED)的框架中,要寻找能够最大化关于某些感兴趣参数的期望信息增益的实验。在因果发现中,实验是因果干预的形式,感兴趣的参数是结构因果模型(SCM)及其相关联的 DAG。

因果模型中的干预指的是我们操作的变量(或目标)和我们要将该变量设定为的值(或强度)。因此,对于学习因果模型的设计空间就是干预目标的所有子集和所选目标的干预值的可能可数无穷集合的集合。干预值封装了在许多因果推断应用中重要的语义。例如,在药物应用中,干预可以对应于不同药物的给药,干预值以每种药物的剂量水平的形式存在。尽管该值的适当选择对于确定底层的因果模型至关重要,但现有的主动因果发现的工作只关注于选择干预目标。这样的工作中,干预值通常都是某个任意的固定值(比如 0),这是次优的(见图 2a)。因此,在非线性因果模型的一般情况下,缺乏对干预值和干预目标选择的整体处理。本文提出了一个贝叶斯实验设计方法(CBED,读音为“seabed”),通过贝叶斯优化来获得最优的干预目标和干预值。

此外,一些情境要求选择一批干预。批量干预的问题计算很昂贵,因为它需要评估所有可能的干预组合。我们将 CBED 扩展到批设定下,并提出了两种不同的批策略,用于获取可解的贝叶斯最优干预目标和值。第一个策略 Greedy-CBED 贪心地构建干预集。由于互信息的子模块性,贪心启发式算法仍然是接近最优的。第二种策略 Soft-CBED 通过从有限的候选集合中随机抽样构建一组干预,从而显著提高了计算效率,恢复 DAG 结构和 SCM 的参数,速度与贪心策略一样快。这种策略非常适合资源受限的情境。

在整个工作中,我们做了如下的因果发现的标准假设:

假设 1(因果充分性)没有隐藏的混淆因子,所有感兴趣的随机变量都是可观测的。

假设 2(有限样本)可用的观测 / 干预样本数量有限。

假设 3(有加性噪声的非线性 SCM)结构因果模型具有附加高斯噪声的非线性条件期望。

假设 4(单目标)每个干预都是原子的,并应用于 SCM 的单个目标。

此外,我们假设干预以大小为 B\mathcal{B} 的批来设计并执行的,全部干预的固定预算由 Number of Batches×B\text{Number of Batches}\times\mathcal{B} 给出。我们也假设底层的图是稀疏的,因为所有现实世界设定中也是这样。实验设计在稀疏图设定中更合适,因为信息量大的干预目标和值的数量会比稠密图的少得多。对应于稀疏图的许多节点具有父集的概率非常小,因此使用随机策略进行实验不能最大程度地提供信息。最后,我们对于用少数量的批来恢复全图 G\mathbf{G} 很有兴趣。和所有的因果推断任务一样,我们上面做出的假设要被小心地对感兴趣的应用验证。

我们证明了我们的方法 Greedy-CBED 和 Soft-CBED 在线性和非线性 SCM 设定中表现得比最先进的主动因果发现基线更好。此外,我们的方法在受现实世界启发的非线性数据集 DREAM 中取得了优异的结果。

2 背景

+

1 引言

来自单个细胞的蛋白质信号网络的结构是什么?不同的习惯如何影响疾病的出现?这样的问题涉及由非线性的有噪声的过程控制的复杂系统中的因果效应。在大多数场合下,这样的系统的被动观测是不足以发现真实的因果效应关系的,需要开销大的实验来消除相互竞争的假设间的不明确性。因此,实验的设计是很令人感兴趣的,有效的实验方案有助于降低实验的成本,同时通过(闭环的 / 策略驱动的)科学方法帮助产出知识的过程(图 1)。

图 1 用于因果推断框架的贝叶斯最优实验设计的干预-推断-设计循环。

在因果的语言中,因果关系被一个有向无环图(DAG)定性地表示,图中节点对应于研究的系统中不同的变量,边表示变量间的信息流。DAG 的抽象使得我们可以表示眼前的观测的可能解释(假设)空间。以贝叶斯概率(信念)表示这样的假设允许我们将科学方法的问题形式化为一个贝叶斯推断,其中目标是要估计后验分布 p(DAGsObservations)p(\text{DAGs}\,|\,\text{Observations})。DAG 上的后验概率可以允许我们使用信息论的获得函数,该函数指导实验朝着最具信息量的变量进行,以消除互相竞争的假设间的不明确性。这样的设计过程属于用于因果发现贝叶斯最优实验设计(BOECD)的领域。

贝叶斯最优实验设计(BOED)的框架中,要寻找能够最大化关于某些感兴趣参数的期望信息增益的实验。在因果发现中,实验是因果干预的形式,感兴趣的参数是结构因果模型(SCM)及其相关联的 DAG。

因果模型中的干预指的是我们操作的变量(或目标)和我们要将该变量设定为的值(或强度)。因此,对于学习因果模型的设计空间就是干预目标的所有子集和所选目标的干预值的可能可数无穷集合的集合。干预值封装了在许多因果推断应用中重要的语义。例如,在药物应用中,干预可以对应于不同药物的给药,干预值以每种药物的剂量水平的形式存在。尽管该值的适当选择对于确定底层的因果模型至关重要,但现有的主动因果发现的工作只关注于选择干预目标。这样的工作中,干预值通常都是某个任意的固定值(比如 0),这是次优的(见图 2a)。因此,在非线性因果模型的一般情况下,缺乏对干预值和干预目标选择的整体处理。本文提出了一个贝叶斯实验设计方法(CBED,读音为“seabed”),通过贝叶斯优化来获得最优的干预目标和干预值。

此外,一些情境要求选择一批干预。批量干预的问题计算很昂贵,因为它需要评估所有可能的干预组合。我们将 CBED 扩展到批设定下,并提出了两种不同的批策略,用于获取可解的贝叶斯最优干预目标和值。第一个策略 Greedy-CBED 贪心地构建干预集。由于互信息的子模块性,贪心启发式算法仍然是接近最优的。第二种策略 Soft-CBED 通过从有限的候选集合中随机抽样构建一组干预,从而显著提高了计算效率,恢复 DAG 结构和 SCM 的参数,速度与贪心策略一样快。这种策略非常适合资源受限的情境。

在整个工作中,我们做了如下的因果发现的标准假设:

假设 1(因果充分性)没有隐藏的混淆因子,所有感兴趣的随机变量都是可观测的。

假设 2(有限样本)可用的观测 / 干预样本数量有限。

假设 3(有加性噪声的非线性 SCM)结构因果模型具有附加高斯噪声的非线性条件期望。

假设 4(单目标)每个干预都是原子的,并应用于 SCM 的单个目标。

此外,我们假设干预以大小为 B\mathcal{B} 的批来设计并执行的,全部干预的固定预算由 Number of Batches×B\text{Number of Batches}\times\mathcal{B} 给出。我们也假设底层的图是稀疏的,因为所有现实世界设定中也是这样。实验设计在稀疏图设定中更合适,因为信息量大的干预目标和值的数量会比稠密图的少得多。对应于稀疏图的许多节点具有父集的概率非常小,因此使用随机策略进行实验不能最大程度地提供信息。最后,我们对于用少数量的批来恢复全图 G\mathbf{G} 很有兴趣。和所有的因果推断任务一样,我们上面做出的假设要被小心地对感兴趣的应用验证。

我们证明了我们的方法 Greedy-CBED 和 Soft-CBED 在线性和非线性 SCM 设定中表现得比最先进的主动因果发现基线更好。此外,我们的方法在受现实世界启发的非线性数据集 DREAM 中取得了优异的结果。

2 背景

记号V={1,,d}\mathbf{V}=\{1,\dots,d\} 为任一 DAG g=(V,E)\mathbf{g}=(\mathbf{V},E) 的顶点集且 XV={X1,,Xd}X\mathbf{X_V}=\{\text{X}_1,\dots,\text{X}_d\}\subseteq\mathcal{X} 为由 V\mathbf{V} 索引的随机变量。我们有一个初始观测数据集 D={xV(i)}i=1n\mathcal{D}=\{\mathbf{x_V}^{(i)}\}_{i=1}^n,由实例 xVP(X1=x1,,Xd=xd)=p(x1,,xd)\mathbf{x_V}\sim P(\text{X}_1=\text{x}_1,\dots,\text{X}_d=\text{x}_d)=p(\text{x}_1,\dots,\text{x}_d)

因果贝叶斯网络 因果贝叶斯网络(CBN)是 (g,P)(\mathbf{g},P) 对,使得对于任意 WV\mathbf{W}\subset\mathbf{V}

P(XVdo(XW=xW))=iVWP(XiXpag(i))1(XW=xW)P(\mathbf{X_V}|\text{do}(\mathbf{X_W}=\mathbf{x}'_\mathbf{W}))=\prod_{i\in\mathbf{V}\setminus\mathbf{W}}P(X_i|X_{\text{pa}_\mathbf{g}(i)})1(\mathbf{X_W}=\mathbf{x}'_\mathbf{W})

其中 do(XW)\text{do}(X_\mathbf{W}) 表示在变量 XWX_\mathbf{W} 上的假设干预,1()1(\cdot) 是指示函数,pag(i)\text{pa}_\mathbf{g}(i) 表示 DAG g\mathbf{g} 中变量 XiX_i 的双亲。在任意变量 XjX_j 上的完美干预完全移除了对于其双亲的所有依赖,即 P(XjXpag(j))=P(Xj)P(X_j|X_{\text{pa}_\mathbf{g}(j)})=P(X_j) 从而得到一个残缺 DAG g=(V,E(pag(j),j))\mathbf{g}'=(\mathbf{V},E\setminus(\text{pa}_\mathbf{g}(j),j))

结构因果模型 从数据生成机制的视角,XV\mathbf{X_V} 上的 DAG g\mathbf{g} 与一组结构等式相匹配:

Xifi(Xpag(i),ϵi)iV(1)X_i\coloneqq f_i(X_{\text{pa}_\mathbf{g}(i)},\epsilon_i)\quad\forall i\in\mathbf{V}\tag{1}

其中 fif_i 是(可能非线性)因果机制,在干预任何变量 XjXiX_j\ne X_i 时保持不变,ϵi\epsilon_i 是分布任意的外源噪声变量,其相互独立,即 ϵi\epsilon_i 独立于 ϵj\epsilon_j ij\forall i\ne j。(1) 表示在一个因果贝叶斯网络中的条件分布,如果机制已知,可以进一步揭示干预的效果。这些等式共同形成了结构因果模型(SCM),与相关联的 DAG g\mathbf{g} 一起。尽管机制 ff 一般情况下可能是非参数化的,我们假设存在一个参数为 γΓ\gamma\in\Gamma 的这些机制的参数化近似。在线性 SCM 的情况中,γ\gamma 对应于 EE 中边的权重。在非线性的情况中,它们可以表示非线性函数的参数,其参数化了一个高斯分布的均值。

(1) 的一个常见形式对应于高斯加性噪声模型(ANM):

Xifi(Xpag(i);γi)+ϵi,ϵiN(0,σi2)(2)X_i\coloneqq f_i(X_{\text{pa}_\mathbf{g}(i)};\gamma_i)+\epsilon_i,\quad\epsilon_i\sim\mathcal{N}(0,\sigma_i^2)\tag{2}

一个 ANM 由一个 DAG g\mathbf{g} ,参数为 γ=[γ1,,γd]\gamma=[\gamma_1,\dots,\gamma_d] 与方差 σ2=[σ12,,σd2]\sigma^2=[\sigma^2_1,\dots,\sigma^2_d] 的机制 f(;γ)=[f1(;γ1),,fd(;γd)]f(\cdot;\gamma)=[f_1(\cdot;\gamma_1),\dots,f_d(\cdot;\gamma_d)] 完全指定。为了记号简洁,此后我们记 θ=(γ,σ2)\theta=(\gamma,\sigma^2) 且所有感兴趣的参数为 ϕ=(g,θ)\phi=(\mathbf{g},\theta)

贝叶斯因果发现 因果推断中的一个常见假设是因果关系是定性已知的且可以被一个 DAG 表示。虽然在某些情况下可以从领域知识中获得这种定性信息,但在大多数应用中是不可行的。因果发现的目标是要给定一个数据集 D\mathcal{D},恢复 SCM 以及相关联的 DAG。通常来说,