当前位置:首页 > 前沿科技 > 正文

图灵奖获得者本吉奥在深度学习后的研究核心是什么?因果表征学习

在最近发表的一篇论文中,图灵奖获得者Yoshua Bengio详细介绍了他的团队目前的研究重点:机器学习与因果推理相结合的因果表征学习。研究人员不仅全面回顾了因果推理的基本概念,还解释了它与机器学习的融合及其对机器学习的深远影响。本文已被《Proceedings of the IEEE》期刊接收。

机器学习和因果推理是两个相对独立的研究方向,各有利弊。

但这几年,他们开始互相学习,互相促进发展。比如机器学习的蓬勃发展促进了因果推理的发展。利用决策树、集成方法和深度神经网络等强大的机器学习方法,可以更准确地估计潜在的结果。在《机器心》2018年的报道文章中,图灵奖获得者、因果关系模型的倡导者之一朱迪亚珀尔(Judea Pearl)也讨论了当前机器学习理论的局限性以及因果推理的七点启示。

因此,近年来,将两者结合起来的因果表征学习越来越受到关注,成为人类走向人类级AI的潜在方向。

2020年初,机器心选取了因果表征学习领域的几篇最新文献,详细分析了不同方法的基本框架,帮助感兴趣的读者了解因果学习与机器学习相结合的方向和可能性。(参考:反事实推理、特征分离、因果表征学习的最新研究有哪些?)

今天推荐一篇因果表征研究论文:《Towards Causal Representation Learning》,由Yoshua Bengio团队发表,已被《Proceedings of the IEEE》期刊接收。

在2020年底的一次演讲中,本吉奥说,这是他们目前研究项目的核心。

深度学习后图灵奖得主Bengio研究核心是什么?因果表示学习

论文链接:https://arxiv.org/pdf/2102.11107.pdf

本文中,Yoshua Bengio等人回顾了因果推理的基本概念,并将其与机器学习的关键开放问题(如迁移和泛化)联系起来,然后分析了因果推理对机器学习研究的可能贡献。反之亦然:大多数因果研究都是基于因果变量的。因此,AI和因果领域的核心问题是因果表征学习,即基于低层观测值寻找高层因果变量。最后,本文描述了因果关系对机器学习的影响,并提出了该交叉领域的核心研究方向。

本文的主要贡献如下:

第二章介绍了物理系统中因果建模的不同层次,第三章说明了因果模型和统计模型的区别。本文不仅讨论了建模能力,还讨论了所涉及的假设和挑战。第四章将独立因果机制原理扩展到基于数据估计因果关系的核心部分,即把稀疏机制转移假设作为独立因果机制原理的结果,并讨论了其对因果模型学习的影响。第五章回顾了现有的基于适当描述符(或特征)的因果关系学习方法,涵盖了经典方法和基于深层神经网络的现代方法,重点是有助于因果关系发现的基本原理。第六章讨论了如何基于因果表示数据学习有用的模型,以及如何从因果的角度看待机器学习。第七章分析了因果关系对实际机器学习的影响。研究人员使用因果语言来重新解释鲁棒性和泛化,以及半监督学习、自监督学习、数据增强和预训练等常见技术。研究人员还讨论了因果关系和机器学习在科学应用中的交叉,并思考了如何结合它们的优势来创造更通用的人工智能

因果建模的层次

独立同分布设置下的预测

统计模型是对现实的肤浅描述,因为它们只需要对关联进行建模。对于给定的输入样本X和目标标签Y,我们可能要近似P(Y |X)来回答以下问题:“图像中包含狗的概率是多少?”或者“给定诊断测量指标(如血压)的患者发生心力衰竭的概率是多少”?在适当的假设下,这些问题可以通过观察基于P(X,Y)的足够独立同分布(i.i.d)数据来回答。

分布式迁移下的预测

干预性问题比预测更具挑战性,因为它们涉及统计学习的独立和同分布设置之外的行为。干预可能会影响因果变量子集的值和关系。比如“增加一个国家的鹳数量能促进人类生育率的增长吗?””,“如果烟草更污名化,吸烟者会更少吗?」

回答反事实的问题

反事实问题需要推理事物的原因,想象事物发生后不同行为的后果,决定哪些行为能够达到预期的结果。回答反事实问题比回答干预问题更难。然而,这对于AI来说可能是一个关键的挑战,因为智能可以从想象行为的后果和知道哪些行为会带来特定的结果中受益。

数据的本质:观察、干预、(非)结构化

数据格式在推断关系类型中起着重要的作用。我们可以区分数据形态的两个轴:观察数据对干预数据,手动工程数据对原始(非结构化)感知输入。

观察和干预数据:人们经常假设但很少得到的一种极端数据格式是观察独立同分布数据,其中每个数据点都是从同一分布中独立采样的。

手动工程数据和原始数据:在经典AI中,数据往往被假设为高层的、语义上有意义的变量,这些变量可能部分对应于底层图的因果变量。

因果模型和推理

这一部分主要介绍统计建模和因果建模的区别,用形式化语言介绍干预和分布变化。

独立同分布数据驱动方法

对于独立同分布的数据,强泛一致性可以保证学习算法收敛到最低风险。这样的算法确实存在,比如最近邻分类器、支持向量机、神经网络等。但是,目前的机器学习方法在面对不符合独立性和同分布假设的问题时,通常性能较差,这类问题对人类来说很容易。

赖兴巴赫原理:从统计到因果关系

赖兴巴赫[198]清楚地描述了因果关系和统计相关性之间的关系:

深度学习后图灵奖得主Bengio研究核心是什么?因果表示学习

x和y一致的情况是特例。在没有附加假设的情况下,我们无法用观测数据来区分这些情况。在这一点上,因果模型比统计模型包含更多的信息。

如果只有两个观测值,就很难找到因果结构,但是当观测值的数量增加时,事情就容易多了。原因是因果结构传达了许多非平凡的条件独立性。它们推广了赖兴巴赫原理,可以用因果图或结构因果模型的语言来描述,将概率图模型与干预的概念结合起来。

结构因果模型

单片机考虑一组观测值(或变量)x1,X_n与有向无环图的顶点有关,DAG)。本研究假设每个观察值都是根据以下公式获得的:

深度学习后图灵奖得主Bengio研究核心是什么?因果表示学习

从数学上讲,观测值也是随机值。直觉上,我们可以把独立噪声理解为一个在图上传播的“信息探针”(就像社交网络上传播谣言的一个独立元素)。当然,这不仅仅是两个观察,因为任何非平凡的条件独立语句都需要至少三个变量。

统计模型、因果图模型与供应链管理的区别

下面的图1显示了统计模型和因果模型的区别。

统计模型可以用图模型来定义,即带图的概率分布。如果图的边是因果的,那么图模型就是因果模型(此时,图是“因果图”)。结构因果模型由一组因果变量和一组结构方程组成,它们基于噪声变量u _ i的分布。

独立因果机制

独立性的概念包括两个方面:一个与影响力有关,一个与信息有关。在因果研究的历史上,不变的、独立的、独立的机制以多种方式出现。例如,Haavelmo [99]的早期工作假设改变一个结构分配将保持其他不变;胡佛[111]引入了不变性准则:真正的因果顺序是在适当干预下的不变性;奥尔德里奇[4]论述了这些思想在经济学中的历史发展;Pearl [183]详细讨论了自主性,认为当其他机制服从外部影响时,因果机制可以保持不变。

在本研究中,任意真实世界分布被视为因果机制的产物。这种分布的变化通常是由至少一种因果机制的变化引起的。根据离子传导膜原理,研究人员得出以下假设:

在ICM原则中,研究人员指出,两种机制的独立性(形式化为条件分布)意味着这两种条件分布不应相互影响。后者可以理解为需要独立干预。

因果发现和机器学习

根据短信假设,许多因果结构被认为需要保持不变。因此,分布偏差(如在不同的“环境或语境”中观察一个系统)可以为确定因果结构提供很大的帮助。这些语境可以来自干预、不稳定的时间序列或多视角。同样,这些语境可以解释为不同的任务,与元学习有关。

传统的因果发现和推理假设单元是由因果图连接的随机变量。但是现实世界的观测结果往往一开始并没有结构化到这些单元中,比如图像中的物体。所以因果表示学习的出现试图从数据中学习这些变量,就像符号AI之外的机器学习不需要提前给出算法运算的符号一样。基于此,研究者试图将随机变量S_1,…,S_n与观测值联系起来,公式如下:

其中g是非线性函数。下面的图2展示了一个例子,其中高维观察是检查因果系统状态的结果,然后使用神经网络对其进行处理,从而提取出对各种任务有用的高层变量。

为了将结构因果建模与表征学习相结合,我们应该尝试将供应链管理嵌入到更大的机器学习模型中。这些模型的输入输出可能具有高维、非结构化的特点,但它们的内部工作至少部分由单片机控制(可以通过神经网络参数化)。

研究人员在下面的图3中展示了一个可视化的例子,其中适当的因果变量的变化是稀疏的(当移动手指时,手指和正方形的位置发生变化),但是在其他表示中,例如像素空间中,变化是密集的(手指和正方形的移动导致许多像素值发生变化)。

研究者从因果表征学习的角度讨论了现代机器学习面临的三个问题,即解耦表征学习、可转移机制学习、干预世界模型和推理学习。

因果推理对机器学习的影响

所有上述讨论都需要一种不依赖于普通i.i.d假设的学习范式。研究人员希望做一个弱假设:应用模型的数据可能来自不同的分布,但涉及的因果机制大多相同。

半监督学习

假设潜在因果图为X Y,你想同时学习映射X Y,这种情况的因果因子分解如下:

从SSL的角度来看,后续的发展包括进一步的理论分析和条件SSL。SSL被认为是利用了边际P(X)和非因果条件P(Y |X)之间的依赖关系,这与验证SSL合理性的共同假设是一致的。

此外,SSL领域的一些理论结果使用了因果图中众所周知的假设(即使这些假设没有提到因果关系):协同训练理论陈述了未标记数据的可学习习惯,并依赖于预测器基于给定标签是条件独立的假设。我们通常预期预测因子(仅)由给定的标签引起,即反因果设置。

与脆弱性作斗争

现在假设我们处在一个因果的设定中,其中因果生成模型可以分解成独立的成分,其中一个成分(本质上)是一个分类函数。因此,我们可以预期,如果预测器近似地具有固有的可移植性和鲁棒性的因果机制,则应该更难找到计数器样本。

最近的工作支持了这一观点:一种潜在的针对攻击的防御方法,通过对因果生成的方向进行建模,解决了反因果分类的问题,这种方法被称为视野中的合成分析。

鲁棒性强,通用性强

为了学习一个健壮的预测器,我们应该有一个环境分布的子集

,并解决

预培训、数据增强和自我监控

求解(18)个最小-最大优化问题的预测模型很难学习。在这项研究中,机器学习中的许多常见技术被解释为近似方法。第一种方法是丰富训练集的分布;第二种方法通常与前一种结合使用,即依靠数据增强来增加数据多样性;第三种方法是通过自我监督来学习P(X)。

一个有趣的研究方向是将所有这些技术结合起来,即基于来自多个仿真环境的数据的大规模训练、数据增强、自监控和鲁棒性微调。

强化学习

与机器学习的主流研究相比,强化学习更接近因果研究,因为它可以直接有效地估计do概率。但在借鉴策略的设定下,尤其是在批量(或观察)的设定下,因果问题就变得微妙起来。应用于强化学习的因果学习可以分为因果归纳和因果推理两个方面。

强化学习环境下因果归纳的挑战与经典因果学习环境下的挑战有很大不同,因为因果变量通常是给定的。然而,越来越多的证据表明这是恰当的

环境结构化表示的有效性。例如:

世界模型;泛化、健壮性、快速迁移;反事实;离线强化学习

科学应用

当机器学习应用于自然科学时,一个基本问题是:我们可以在多大程度上利用机器学习来补充我们对物理系统的理解。一个有趣的方向是用神经网络进行物理模拟,比手工设计的模拟器效率高得多。另一方面,缺乏系统的实验条件可能会在医学应用中遇到挑战。

因果关系在帮助理解医学现象方面有很大的潜力。在新冠肺炎疫情期间,因果调解分析有助于在观察教科书中辛普森悖论的例子时,找出不同因素对病死率的影响。

科学应用的另一个例子是天文学,当仪器混乱时,研究人员使用因果模型来识别系外行星

多任务学习和持续学习

多任务学习是指构建一个可以在不同环境下解决多个任务的系统。这些任务通常有一些共同的特征。通过学习任务之间的相似性,系统可以在遇到新任务时更有效地利用从先前任务中获得的知识。

在这方面,我们显然已经走了很长的路,我们也没有明确地把多任务处理看成是一个因果问题。在海量数据和计算能力的驱动下,人工智能在广泛的应用领域取得了显著的进步。这也提出了一个问题:“为什么不能直接训练一个巨大的模型来学习环境动力学(比如强化学习中的设定),并使其包含所有可能的干预?”毕竟分布式表示可以推广到无样本。如果我们基于大量干预进行训练,我们可能会得到一个在大量干预中实现良好泛化的大型神经网络。

要做到这一点,首先如果数据的多样性不够,最坏的情况就是分布偏移造成的误差可能还是很高。此外,如果我们有一个模型可以成功地处理特定环境中的所有干预,我们可能希望在具有相似动态的不同环境中使用它,尽管动态可能不完全相同。

本质上,i.i.d模式识别只是一个数学抽象,因果关系对于大多数形式的动画学习可能是必要的。但直到现在,机器学习仍然忽略了因果关系的完全整合,本研究认为机器学习会从整合因果概念中获益。研究人员认为,将当前的深度学习方法与因果关系的工具和思想相结合,可能是走向通用人工智能系统的唯一途径。

研究机构预计全球AI市场营收今年将达到3275亿美元 同比增长16.4%

市场研究机构在近日发布的报告中就预计,全球人工智能市场在今年将继续扩大,营收在今年预计将达到3275亿美元,同比增长16.4%。

0

发表评论