在近日发表的一篇论文中,图灵奖得主 Yoshua Bengio 等详细介绍了其团队当前的研究重心:将机器学习与因果推理相结合的因果表示学习。研究者不仅全面回顾了因果推理的基础概念,并阐释了其与机器学习的融合以及对机器学习的深远影响。该论文已被《Proceedings of the IEEE》期刊接收。
一直以来机器学习和因果推理是两个相对独立的研究方向,各有优缺点。但在过去数年,两者开始互相借鉴,推进彼此的发展。如机器学习领域的蓬勃发展促进了因果推理领域的发展。采用决策树、集成方法、深层神经网络等强大的机器学习方法,可以更准确地估计潜在结果。在机器之心 中,图灵奖得主、因果关系模型倡导者之一 Judea Pearl 也探讨了当前机器学习理论的局限性以及来自因果推理的七个启发。于是,近年来,将两者结合起来的因果表示学习(Causal Representation Learning)吸引了越来越多的关注,成为人类迈向 Human Level AI 的潜在方向。机器之心曾在 2020 年初,精选了几篇因果表示学习领域的最新文献,细致分析了不同方法的基本架构,帮助感兴趣的读者了解因果学习与机器学习可结合的方向和可能。(参考:)今天,我们再为大家推荐一篇因果表示学习论文:Yoshua Bengio 联合Bernhard Schölkopf团队发表的《Towards Causal Representation Learning》,该论文已被《Proceedings of the IEEE》期刊接收。在 2020 年底的一场讲座中,Bengio 称这是他们当前研究项目的核心。
论文链接:https://arxiv.org/pdf/2102.11107.pdfYoshua Bengio 等人在这篇论文中回顾了因果推理的基础概念,并将其与机器学习的关键开放性问题联系起来,如迁移与泛化,进而分析因果推理可能对机器学习研究做出的贡献。反过来看也是如此:大多数因果研究的前提是因果变量。因此目前 AI 与因果领域的核心问题是因果表示学习,即基于低级观测值发现高级因果变量。最后,该论文描绘了因果对机器学习的影响,并提出了该交叉领域的核心研究方向。这篇论文的主要贡献如下:
因果建模的层级独立同分布设置下的预测统计模型是对现实的粗浅描述,因为它们只需建模关联。对于给定的输入样本 X 和目标标签 Y,我们可能会想近似 P(Y |X) 以回答如下问题:「该图像包含狗的概率是多少?」或者「在给定诊断测量指标(如血压)下,病人心脏衰竭的概率是多少?」。在合适的假设下,这些问题可以通过基于 P(X, Y) 观察足量的独立同分布(i.i.d.)数据来得到答案。分布偏移下的预测干预式问题(Interventional question)的挑战性要比预测更高,因为它们所涉及的行为超出了统计学习独立同分布设置。干预(intervention)可能影响因果变量子集的值及其关系。例如「增加一个国家中鹳鸟的数量能否促进人类生育率的增长?」、「如果烟草被更多地添加了社会污名化色彩,抽烟的人是否会减少?」回答反事实问题反事实问题需要对事情的发生原因进行推理,在事情发生后设想不同行为的后果,决定哪些行为可以达到期望的结果。回答反事实问题要比回答干预式问题更难。但是,这对于 AI 而言或许是关键挑战,因为智能体能从想象行为的后果和了解哪些行为带来特定结果中获益。数据的本质:观测、干预、(非)结构化数据格式在推断关系类型中发挥重大作用。我们可以辨别数据模态的两轴:观测数据 vs 干预数据,手动工程数据 vs 原始(非结构化)感知输入。观测与干预数据:人们常常假设但很少严格得到的一种极端数据格式是观测独立同分布数据,其每个数据点均独立采样自相同的分布。手动工程数据与原始数据:在经典 AI 中,数据常被假设成可结构化为高级和语义有意义的变量,这可能部分对应于底层图的因果变量。因果模型与推理这部分主要介绍统计建模与因果建模的区别,并用形式化语言介绍了干预与分布变化。独立同分布数据驱动的方法对于独立同分布数据,强大的泛一致性(universal consistency)可以确保学习算法收敛至最低风险。这类算法确实存在,例如最近邻分类器、支持向量机和神经网络。但是,目前的机器学习方法通常在面对不符合独立同分布假设的问题时性能较差,而这类问题对人类而言轻而易举。Reichenbach 原则:从统计学到因果关系Reichenbach [198] 清晰地描述了因果与统计相关性之间的联系:
X 与 Y 一致的情况属于特例。在没有额外假设的情况下,我们无法利用观测数据区分这些情况。此时,因果模型要比统计模型包含更多信息。如果只有两个观测值,则因果结构发现会很难,但当观测值数量增多后,事情反而容易多了。原因在于,这种情况下存在多个由因果结构传达的非平凡条件独立性。它们将 Reichenbach 原则泛化,并且可以用因果图或结构因果模型的语言进行描述,将概率图模型与干预概念融合在一起。结构因果模型(SCM)SCM 考虑与有向无环图(directed acyclic graph, DAG)的顶点相关的一组观测值(或变量)X_1, . . . , X_n。该研究假设每个观测值根据以下公式得出:
研究者从因果表示学习的角度讨论了现代机器学习面临的三个问题,分别是解耦表示学习、可迁移机制学习以及干预式世界模型和推理学习。因果推理对机器学习的影响上文所有讨论都需要一种不依赖常见 i.i.d. 假设的学习范式。研究者希望做出一种较弱的假设:应用模型的数据可能来自不同的分布,但涉及的因果机制(大多)相同。半监督学习(SSL)假设潜在因果图为 X → Y,并且同时想要学习映射 X → Y,则这种情况的因果因式分解如下: