CMU最新《多模态机器学习的基础和最新趋势》综述-电子发烧友网

论文：Foundations and Recent Trends in Multimodal Machine Learning: Principles, Challenges, and Open Questions

地址：https://arxiv.org/pdf/2209.03430.pdf

多模态机器学习是一个充满活力的多学科研究领域，旨在通过整合多种交流模态，包括语言、声学、视觉、触觉和生理信息，设计具有理解、推理和学习等智能能力的计算机智能体。随着最近人们对视频理解、具身化自主智能体、文本到图像生成以及医疗健康和机器人等应用领域的多传感器融合的兴趣，多模态机器学习给机器学习社区带来了独特的计算和理论挑战，因为数据源的异质性和模式之间经常发现的相互联系。然而，多模态研究的广泛进展使得很难确定该领域的共同主题和开放问题。通过从历史和最近的角度综合广泛的应用领域和理论框架，本文旨在提供一个多模态机器学习的计算和理论基础的概述。我们首先定义了驱动后续创新的模态异质性和相互联系的两个关键原则，并提出了6个核心技术挑战的分类:表征、对齐、推理、生成、转移和涵盖历史和近期趋势的量化。最新的技术成果将通过这种分类法来展示，让研究人员了解新方法的异同。最后，我们提出了几个由我们的分类法确定的开放问题，以供未来研究。

开发具有智能能力的计算机智能体一直是人工智能的一个宏伟目标，如通过多模态经验和数据进行理解、推理和学习，就像我们人类使用多种感官模式感知世界的方式一样。随着近年来在具身自主代理[77,512]、自动驾驶汽车[647]、图像和视频理解[16,482,557]、文本到图像生成[486]以及机器人[335,493]和医疗健康[281,357]等应用领域的多传感器融合方面的进展，我们现在比以往任何时候都更接近能够集成许多感官形态并从中学习的智能体。多模态机器学习这一充满活力的多学科研究领域带来了独特的挑战，因为数据的异质性和通常在模态之间发现的相互联系，并在多媒体[351,435]、情感计算[353,476]、机器人[308,334]、人机交互[445,519]和医疗健康[85,425]中有广泛的应用。

然而，多模态研究的进展速度使得很难确定历史和近期工作的共同主题，以及该领域的关键开放问题。通过从历史和最近的角度综合广泛的应用领域和理论见解，本文旨在提供多模态机器学习的方法论、计算和理论基础的概述，这很好地补充了最近在视觉和语言[603]、语言和强化学习[382]、多媒体分析[40]和人机交互[269]等面向应用的研究。

图1:多模态学习的核心研究挑战:(1)表示研究如何表示和总结多模态数据，以反映单个模态元素之间的异质性和相互联系。(2)对齐旨在识别所有元素之间的联系和相互作用。(3)推理的目的是将多模态证据组合成知识，通常通过对一个任务的多个推理步骤。(4)生成包括学习生成过程，以产生反映跨模态交互、结构和一致性的原始模态。(5)迁移旨在在模态及其表示之间迁移知识。(6)量化包括实证和理论研究，以更好地理解异质性、相互联系和多模态学习过程。

为了建立多模态机器学习的基础，我们首先为数据模式和多模态研究的定义奠定基础，然后确定驱动后续技术挑战和创新的两个关键原则:(1)模态是异质的，因为在不同模态中出现的信息往往表现出不同的质量、结构和表征;(2)模态是相互联系的，因为它们经常相关、共享共性，或在用于任务推断时相互作用产生新信息。基于这些定义，我们提出了多模态机器学习中的六个核心挑战的新分类:表示、对齐、推理、生成、迁移和量化(见图1)。这些构成了传统单模态机器学习中研究不足的核心多模态技术挑战，为了推动该领域向前发展，需要解决这些挑战:

1. 表征: 我们能学习反映个体模态元素之间的异质性和相互联系的表征吗?本文将涵盖以下基本方法:(1)表示融合:整合来自2个或更多模态的信息，有效减少单独表示的数量;(2)表示协调:互换跨模态信息，目标是保持相同的表示数量，但改善多模态语境化;创建一个新的不相交的表示集，其数量通常大于输入集，反映有关内部结构的知识，如数据聚类或因子分解。

2. 对齐:我们如何识别样式元素之间的连接和交互?模态之间的对齐具有挑战性，涉及(1)识别模态元素之间的连接，(2)上下文表示学习以捕获模态连接和交互，以及(3)处理具有歧义分割的模态输入。

3. 推理被定义为从多模态证据中组合知识，通常通过多个推理步骤，为特定任务开发多模态对齐和问题结构。这种关系通常遵循某种层次结构，更抽象的概念在层次结构中被定义为较不抽象的概念的函数。推理包括(1)对推理发生的结构建模，(2)推理过程中的中间概念，(3)理解更抽象概念的推理范式，(4)在结构、概念和推理的研究中利用大规模的外部知识。

4. 生成:第四个挑战涉及学习生成过程，以生成反映每个模态的独特异质性和模态之间的相互联系的原始模态。我们将其子挑战分类为:(1)总结:总结多模态数据以减少信息内容，同时突出输入中最突出的部分;(2)翻译:从一种模态转换到另一种模态并保持信息内容，同时与跨模态交互保持一致;(3)创造:同时生成多个模态以增加信息内容，同时保持模态内部和跨模态的一致性。

5. 迁移旨在在模态及其表示之间迁移知识，通常用于帮助可能有噪声或资源有限的目标模态。以以下算法为例:(1)跨模态迁移:使模型适应涉及主要模态的下游任务;(2)共同学习:通过在两种模态之间共享表示空间，将信息从次要模态转移到主要模态;保持单个单模态模型独立，但在这些模型之间传递信息，从一种模态学到的知识(例如，预测的标签或表示)如何帮助以另一种模态训练的计算模型?

6. 量化: 第六个挑战涉及实证和理论研究，以更好地理解异质性、模态相互联系和多模态学习过程。量化旨在理解(1)多模态数据集的异质性维度以及它们如何影响建模和学习，(2)多模态数据集和训练过的模型中模态连接和交互的存在和类型，以及(3)异构数据涉及的学习和优化挑战。

最后，我们对多模态学习的未来研究方向提出了一个长远的展望。