0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

CMU最新《多模态机器学习的基础和最新趋势》综述

新机器视觉 ? 来源:专知 ? 作者:专知 ? 2022-12-07 14:43 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

57ae762e-75e6-11ed-8abf-dac502259ad0.png

论文:Foundations and Recent Trends in Multimodal Machine Learning: Principles, Challenges, and Open Questions

地址:https://arxiv.org/pdf/2209.03430.pdf

多模态机器学习是一个充满活力的多学科研究领域,旨在通过整合多种交流模态,包括语言、声学、视觉、触觉和生理信息,设计具有理解、推理和学习等智能能力的计算机智能体。随着最近人们对视频理解、具身化自主智能体、文本到图像生成以及医疗健康和机器人等应用领域的多传感器融合的兴趣,多模态机器学习给机器学习社区带来了独特的计算和理论挑战,因为数据源的异质性和模式之间经常发现的相互联系。然而,多模态研究的广泛进展使得很难确定该领域的共同主题和开放问题。通过从历史和最近的角度综合广泛的应用领域和理论框架,本文旨在提供一个多模态机器学习的计算和理论基础的概述。我们首先定义了驱动后续创新的模态异质性和相互联系的两个关键原则,并提出了6个核心技术挑战的分类:表征、对齐、推理、生成、转移和涵盖历史和近期趋势的量化。最新的技术成果将通过这种分类法来展示,让研究人员了解新方法的异同。最后,我们提出了几个由我们的分类法确定的开放问题,以供未来研究。

开发具有智能能力的计算机智能体一直是人工智能的一个宏伟目标,如通过多模态经验和数据进行理解、推理和学习,就像我们人类使用多种感官模式感知世界的方式一样。随着近年来在具身自主代理[77,512]、自动驾驶汽车[647]、图像和视频理解[16,482,557]、文本到图像生成[486]以及机器人[335,493]和医疗健康[281,357]等应用领域的多传感器融合方面的进展,我们现在比以往任何时候都更接近能够集成许多感官形态并从中学习的智能体。多模态机器学习这一充满活力的多学科研究领域带来了独特的挑战,因为数据的异质性和通常在模态之间发现的相互联系,并在多媒体[351,435]、情感计算[353,476]、机器人[308,334]、人机交互[445,519]和医疗健康[85,425]中有广泛的应用。

然而,多模态研究的进展速度使得很难确定历史和近期工作的共同主题,以及该领域的关键开放问题。通过从历史和最近的角度综合广泛的应用领域和理论见解,本文旨在提供多模态机器学习的方法论、计算和理论基础的概述,这很好地补充了最近在视觉和语言[603]、语言和强化学习[382]、多媒体分析[40]和人机交互[269]等面向应用的研究。

581f04f2-75e6-11ed-8abf-dac502259ad0.png

图1:多模态学习的核心研究挑战:(1)表示研究如何表示和总结多模态数据,以反映单个模态元素之间的异质性和相互联系。(2)对齐旨在识别所有元素之间的联系和相互作用。(3)推理的目的是将多模态证据组合成知识,通常通过对一个任务的多个推理步骤。(4)生成包括学习生成过程,以产生反映跨模态交互、结构和一致性的原始模态。(5)迁移旨在在模态及其表示之间迁移知识。(6)量化包括实证和理论研究,以更好地理解异质性、相互联系和多模态学习过程。

为了建立多模态机器学习的基础,我们首先为数据模式和多模态研究的定义奠定基础,然后确定驱动后续技术挑战和创新的两个关键原则:(1)模态是异质的,因为在不同模态中出现的信息往往表现出不同的质量、结构和表征;(2)模态是相互联系的,因为它们经常相关、共享共性,或在用于任务推断时相互作用产生新信息。基于这些定义,我们提出了多模态机器学习中的六个核心挑战的新分类:表示、对齐、推理、生成、迁移和量化(见图1)。这些构成了传统单模态机器学习中研究不足的核心多模态技术挑战,为了推动该领域向前发展,需要解决这些挑战:

1. 表征: 我们能学习反映个体模态元素之间的异质性和相互联系的表征吗?本文将涵盖以下基本方法:(1)表示融合:整合来自2个或更多模态的信息,有效减少单独表示的数量;(2)表示协调:互换跨模态信息,目标是保持相同的表示数量,但改善多模态语境化;创建一个新的不相交的表示集,其数量通常大于输入集,反映有关内部结构的知识,如数据聚类或因子分解。

2. 对齐:我们如何识别样式元素之间的连接和交互?模态之间的对齐具有挑战性,涉及(1)识别模态元素之间的连接,(2)上下文表示学习以捕获模态连接和交互,以及(3)处理具有歧义分割的模态输入。

3. 推理被定义为从多模态证据中组合知识,通常通过多个推理步骤,为特定任务开发多模态对齐和问题结构。这种关系通常遵循某种层次结构,更抽象的概念在层次结构中被定义为较不抽象的概念的函数。推理包括(1)对推理发生的结构建模,(2)推理过程中的中间概念,(3)理解更抽象概念的推理范式,(4)在结构、概念和推理的研究中利用大规模的外部知识。

4. 生成:第四个挑战涉及学习生成过程,以生成反映每个模态的独特异质性和模态之间的相互联系的原始模态。我们将其子挑战分类为:(1)总结:总结多模态数据以减少信息内容,同时突出输入中最突出的部分;(2)翻译:从一种模态转换到另一种模态并保持信息内容,同时与跨模态交互保持一致;(3)创造:同时生成多个模态以增加信息内容,同时保持模态内部和跨模态的一致性。

5. 迁移旨在在模态及其表示之间迁移知识,通常用于帮助可能有噪声或资源有限的目标模态。以以下算法为例:(1)跨模态迁移:使模型适应涉及主要模态的下游任务;(2)共同学习:通过在两种模态之间共享表示空间,将信息从次要模态转移到主要模态;保持单个单模态模型独立,但在这些模型之间传递信息,从一种模态学到的知识(例如,预测的标签或表示)如何帮助以另一种模态训练的计算模型?

6. 量化: 第六个挑战涉及实证和理论研究,以更好地理解异质性、模态相互联系和多模态学习过程。量化旨在理解(1)多模态数据集的异质性维度以及它们如何影响建模和学习,(2)多模态数据集和训练过的模型中模态连接和交互的存在和类型,以及(3)异构数据涉及的学习和优化挑战。

最后,我们对多模态学习的未来研究方向提出了一个长远的展望。

5839d4a8-75e6-11ed-8abf-dac502259ad0.jpg

58503e32-75e6-11ed-8abf-dac502259ad0.jpg

588f42bc-75e6-11ed-8abf-dac502259ad0.jpg

58b9bf7e-75e6-11ed-8abf-dac502259ad0.jpg

58d724b0-75e6-11ed-8abf-dac502259ad0.jpg

58fcea56-75e6-11ed-8abf-dac502259ad0.jpg

59260314-75e6-11ed-8abf-dac502259ad0.jpg

5945c23a-75e6-11ed-8abf-dac502259ad0.jpg

5988050a-75e6-11ed-8abf-dac502259ad0.jpg

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器人
    +关注

    关注

    213

    文章

    29939

    浏览量

    214419
  • 机器学习
    +关注

    关注

    66

    文章

    8513

    浏览量

    135104
  • 智能体
    +关注

    关注

    1

    文章

    329

    浏览量

    11172

原文标题:CMU最新《多模态机器学习的基础和最新趋势》综述

文章出处:【微信号:vision263com,微信公众号:新机器视觉】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    商汤科技模态通用智能战略思考

    时间是最好的试金石,AI领域尤其如此。当行业热议大模型走向时,商汤早已锚定“模态通用智能”——这是我们以深厚研究积累和实践反复验证的可行路径。
    的头像 发表于 08-14 09:33 ?396次阅读

    模态感知+豆包大模型!家居端侧智能升级

    的关键力量。星宸科技与豆包大模型的合作,将这一技术趋势落实到实际应用场景中,在智能家居、可穿戴设备以及连锁店等领域引发了深刻变革。 ? 智能家居升级 ? 陈立敬指出:“智能家居2.0需要大模型大脑”。在智能家居领域,模态感知与
    的头像 发表于 06-21 00:06 ?5998次阅读
    <b class='flag-5'>多</b><b class='flag-5'>模态</b>感知+豆包大模型!家居端侧智能升级

    模态+空间智能:盾华以AI+智慧路灯杆,点亮城市治理新方式

    模态+空间智能:盾华以AI+智慧路灯杆,点亮城市治理新方式
    的头像 发表于 06-12 10:17 ?225次阅读
    <b class='flag-5'>多</b><b class='flag-5'>模态</b>+空间智能:盾华以AI+智慧路灯杆,点亮城市治理新方式

    爱芯通元NPU适配Qwen2.5-VL-3B视觉模态大模型

    熟悉爱芯通元NPU的网友很清楚,从去年开始我们在端侧模态大模型适配上一直处于主动紧跟的节奏。先后适配了国内最早开源的模态大模MiniCPM V 2.0,上海人工智能实验室的书生
    的头像 发表于 04-21 10:56 ?1764次阅读
    爱芯通元NPU适配Qwen2.5-VL-3B视觉<b class='flag-5'>多</b><b class='flag-5'>模态</b>大模型

    ?模态交互技术解析

    模态交互 模态交互( Multimodal Interaction )是指通过多种感官通道(如视觉、听觉、触觉等)或多种交互方式(如语音、手势、触控、眼动等)与计算机系统进行自然、
    的头像 发表于 03-17 15:12 ?2327次阅读

    海康威视发布模态大模型文搜存储系列产品

    模态大模型为安防行业带来重大技术革新,基于观澜大模型技术体系,海康威视将大参数量、大样本量的图文模态大模型与嵌入式智能硬件深度融合,发布
    的头像 发表于 02-18 10:33 ?764次阅读

    2025年Next Token Prediction范式会统一模态

    训练方法与推理策略 性能评测体系 现存挑战与未来方向 综述的完整目录如下: 模态的 Tokenization 我们认为模态的 Token
    的头像 发表于 01-21 10:11 ?564次阅读
    2025年Next Token Prediction范式会统一<b class='flag-5'>多</b><b class='flag-5'>模态</b>吗

    体验MiniCPM-V 2.6 模态能力

    模态组网
    jf_23871869
    发布于 :2025年01月20日 13:40:48

    【「具身智能机器人系统」阅读体验】2.具身智能机器人大模型

    模态融合的创新与突破 机器人控制技术的另一个重要突破在于模态大模型的应用。相比于仅通过文字进行人机交互的传统方法,现代
    发表于 12-29 23:04

    商汤日日新模态大模型权威评测第一

    刚刚,商汤科技日日新SenseNova模态大模型,在权威综合评测权威平台OpenCompass的模态评测中取得榜单第一。
    的头像 发表于 12-20 10:39 ?1126次阅读

    一文理解模态大语言模型——下

    /understanding-multimodal-llms ? 《一文理解模态大语言模型 - 上》介绍了什么是模态大语言模型,以及构建
    的头像 发表于 12-03 15:18 ?676次阅读
    一文理解<b class='flag-5'>多</b><b class='flag-5'>模态</b>大语言模型——下

    中科创达推动下一代模态智能机器人创新

    具身智能在业界被普遍认为即将掀起人工智能领域的全新浪潮。人形机器人作为具身智能的绝佳载体,随着模态大模型的迅猛发展,人形机器人的智能化程度将显著提升,进而加速其产业化进程。2024
    的头像 发表于 11-15 11:03 ?1011次阅读

    利用OpenVINO部署Qwen2模态模型

    模态大模型的核心思想是将不同媒体数据(如文本、图像、音频和视频等)进行融合,通过学习不同模态之间的关联,实现更加智能化的信息处理。简单来说,
    的头像 发表于 10-18 09:39 ?1403次阅读

    通道开关滤波器的创新者,引领电磁兼容技术新趋势

    维爱普|通道开关滤波器的创新者,引领电磁兼容技术新趋势
    的头像 发表于 10-16 14:25 ?641次阅读

    云知声推出山海模态大模型

    在人工智能技术的浩瀚星海中,模态交互技术正成为引领未来的新航标。继OpenAI的GPT-4o掀起滔天巨浪后,云知声以创新之姿,推出了其匠心独运的山海模态大模型,正式宣告“Her时代
    的头像 发表于 08-27 15:20 ?678次阅读