1 引言
来自单个细胞的蛋白质信号网络的结构是什么?不同的习惯如何影响疾病的出现?这样的问题涉及由非线性的有噪声的过程控制的复杂系统中的因果效应。在大多数场合下,这样的系统的被动观测是不足以发现真实的因果效应关系的,需要开销大的实验来消除相互竞争的假设间的不明确性。因此,实验的设计是很令人感兴趣的,有效的实验方案有助于降低实验的成本,同时通过(闭环的 / 策略驱动的)科学方法帮助产出知识的过程(图 1)。
在因果的语言中,因果关系被一个有向无环图(DAG)定性地表示,图中节点对应于研究的系统中不同的变量,边表示变量间的信息流。DAG 的抽象使得我们可以表示眼前的观测的可能解释(假设)空间。以贝叶斯概率(信念)表示这样的假设允许我们将科学方法的问题形式化为一个贝叶斯推断,其中目标是要估计后验分布 。DAG 上的后验概率可以允许我们使用信息论的获得函数,该函数指导实验朝着最具信息量的变量进行,以消除互相竞争的假设间的不明确性。这样的设计过程属于用于因果发现的贝叶斯最优实验设计(BOECD)的领域。
在贝叶斯最优实验设计(BOED)的框架中,要寻找能够最大化关于某些感兴趣参数的期望信息增益的实验。在因果发现中,实验是因果干预的形式,感兴趣的参数是结构因果模型(SCM)及其相关联的 DAG。
因果模型中的干预指的是我们操作的变量(或目标)和我们要将该变量设定为的值(或强度)。因此,对于学习因果模型的设计空间就是干预目标的所有子集和所选目标的干预值的可能可数无穷集合的集合。干预值封装了在许多因果推断应用中重要的语义。例如,在药物应用中,干预可以对应于不同药物的给药,干预值以每种药物的剂量水平的形式存在。尽管该值的适当选择对于确定底层的因果模型至关重要,但现有的主动因果发现的工作只关注于选择干预目标。这样的工作中,干预值通常都是某个任意的固定值(比如 0),这是次优的(见图 2a)。因此,在非线性因果模型的一般情况下,缺乏对干预值和干预目标选择的整体处理。本文提出了一个贝叶斯实验设计方法(CBED,读音为“seabed”),通过贝叶斯优化来获得最优的干预目标和干预值。
此外,一些情境要求选择一批干预。批量干预的问题计算很昂贵,因为它需要评估所有可能的干预组合。我们将 CBED 扩展到批设定下,并提出了两种不同的批策略,用于获取可解的贝叶斯最优干预目标和值。第一个策略 Greedy-CBED 贪心地构建干预集。由于互信息的子模块性,贪心启发式算法仍然是接近最优的。第二种策略 Soft-CBED 通过从有限的候选集合中随机抽样构建一组干预,从而显著提高了计算效率,恢复 DAG 结构和 SCM 的参数,速度与贪心策略一样快。这种策略非常适合资源受限的情境。
在整个工作中,我们做了如下的因果发现的标准假设:
假设 1(因果充分性)没有隐藏的混淆因子,所有感兴趣的随机变量都是可观测的。
假设 2(有限样本)可用的观测 / 干预样本数量有限。
假设 3(有加性噪声的非线性 SCM)结构因果模型具有附加高斯噪声的非线性条件期望。
假设 4(单目标)每个干预都是原子的,并应用于 SCM 的单个目标。
此外,我们假设干预以大小为 的批来设计并执行的,全部干预的固定预算由 给出。我们也假设底层的图是稀疏的,因为所有现实世界设定中也是这样。实验设计在稀疏图设定中更合适,因为信息量大的干预目标和值的数量会比稠密图的少得多。对应于稀疏图的许多节点具有父集的概率非常小,因此使用随机策略进行实验不能最大程度地提供信息。最后,我们对于用少数量的批来恢复全图 很有兴趣。和所有的因果推断任务一样,我们上面做出的假设要被小心地对感兴趣的应用验证。
我们证明了我们的方法 Greedy-CBED 和 Soft-CBED 在线性和非线性 SCM 设定中表现得比最先进的主动因果发现基线更好。此外,我们的方法在受现实世界启发的非线性数据集 DREAM 中取得了优异的结果。