0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

通用人工智能的多模态通用技术

姚小熊27 ? 来源:人工智能实验室 ? 作者:人工智能实验室 ? 2021-02-04 10:44 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

现有的大多数人工智能模型和方法仍属于窄人工智能,也被称为弱人工智能(weak artificial intelligence)。相对而言,强人工智能(strong artificial intelligence)期望机器能像人一样思考、推理,能处理各种任务,比肩人类的智能水平(human-like or human-level intelligence)。与强人工智能相比,现有通用人工智能更加强调机器的“泛 化”能力,包括场景泛化(即模型从单一场景泛化 至多个场景)、模态泛化(即一个模型适用于多种 模态的任务)、任务泛化(即一个模型可以处理多种类型的任务)等。

通用人工智能目前仍然处于发展初期,是对现有窄/弱人工智能的反思、补充和改进,也是通往强人工智能道路上的重要路线。通用人工智能所研究的是一个智能系统应该具备哪些能力,并且运用这些能力解决各式各样的复杂问题。

通用人工智能的多模态通用技术

现实生活中,人类接收的信息模态多种多样,如视觉、声音、文字、嗅觉、触觉等。人类可以综合运用多种模态的信息对事物进行理解和推理。多模态学习是通用智能需要解决的关键问题之一,其任务可以归结为两个基本类:多模态表征学习和模态转换。需要指出的是,这两个问题并非不相关,比如表征可以用来做模态转换。下面介绍几种典型的多模态学习任务。

多模态表征学习和融合

多模态表征学习指的是学习包含多个模态的样本表征,比如视频里可能包含的视觉信息、声音信息等,使得表征能够反映所包含的多个模态信息,以帮助理解识别等任务。最直接的方法是分别处理各个模态,得到每个模态的表征,再将其直接拼接起来作为最后的表征;也可以最终只产生一个表征,把不同模态的表征融合成一个表征;也可以继续把融合的表征做进一步处理,以生成更强的表征;还可以在产生表征的过程中,不停地进行模态之间的信息交互或者融合,以增强每个模态的表征。

多模态协同学习

多模态协同学习指的是利用模态之间的关联,借助其他一个或者多个模态,来帮助某一模态或者多个模态建模和学习。模态之间的关联信息非常常见,比如人在说话的时候,既有声音模态,也有视觉(唇语)模态,如人脸表情或者行为动作;比如互联网上的图片,通常有文件名等;比如在视频中,视频帧可能有相应的声音(语音或者音乐),也可能有文字脚本。人类对单一模态的理解,也是通过联合其他模态信息进行分析的。多模态协同学习的要领在于把关联转换成合适的约束,以及从各个模态获取合适的信息形成约束。例如图像和文本(比如图像及其文件名)有一一对应关系。

借助于物体的属性描述来帮助图像识别建模,在某种意义上也是多模态协同学习。例如,对狗的识别,我们都清楚地了解狗是由哪些部分组成的,具有怎样的属性特征,比如它有4条腿、尾巴、毛发等。但是在目前主流的物体识别中,这种信息没有被加进去,“狗”只是作为一个标签。而人类从图像里识别狗的时候,头脑中有很多狗的图像认知信息,同时也从别的渠道获得狗的其他知识,如组成方式等。所以,建模时需要把关于狗的额外知识信息加进去,来提升建模识别性能,也会提升模型的鲁棒性。

多模态统一表征学习

多模态统一表征学习指的是把不同模态映射到 同一个特征空间,使得不同模态在这个特征空间里可以直接比较(比如欧氏距离),比较的时候不用 区分特征来自什么模态。多模态任务可以是把一幅图片转变成一段文字或者一首诗,或者将文字转化成一幅图像;以及在文字、图片或者视频搜索中,如果图像和文本的特征都转换到同一个空间中,那我们就可以进行统一的搜索,而不再区分不同的模态。

人类具有在不同模态之间快速映射的能力,比如看到一个场景,我们的头脑会快速“搜索”到应景的一首歌、一段文字或者一首诗。多模态统一表示是模拟人类这个能力的一种实现方法。多模态统一表征问题的主要研究点在于如何定义关系保持和寻找合适的映射,以及对大规模数据和实际问题的探索。目前已经有了实际系统的探索,如“小冰写诗”。


责任编辑:YYX

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1810

    文章

    49193

    浏览量

    251173
  • 通用技术
    +关注

    关注

    0

    文章

    7

    浏览量

    7297
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    挖到宝了!人工智能综合实验箱,高校新工科的宝藏神器

    和生态体系带到使用者身边 ,让我们在技术学习和使用上不再受制于人。 三、模态实验,解锁AI全流程 它嵌入了2D视觉、深度视觉、机械手臂、语音识别、嵌入式传感器等多种类AI模块,涵盖人工智能
    发表于 08-07 14:30

    挖到宝了!比邻星人工智能综合实验箱,高校新工科的宝藏神器!

    和生态体系带到使用者身边 ,让我们在技术学习和使用上不再受制于人。 三、模态实验,解锁AI全流程 它嵌入了2D视觉、深度视觉、机械手臂、语音识别、嵌入式传感器等多种类AI模块,涵盖人工智能
    发表于 08-07 14:23

    聚焦前沿,赋能AI教学!华清远见第32届全国高校人工智能师资班(模态大模型与具身智能)圆满落幕!

    云端,共同探索AI教育前沿,充分展现了高校教育对人工智能方向的持续火热与迫切需求。本次暑期师资班聚焦“模态大模型+具身智能”这一AI前沿技术
    的头像 发表于 07-30 15:06 ?663次阅读
    聚焦前沿,赋能AI教学!华清远见第32届全国高校<b class='flag-5'>人工智能</b>师资班(<b class='flag-5'>多</b><b class='flag-5'>模态</b>大模型与具身<b class='flag-5'>智能</b>)圆满落幕!

    AgiBot World Colosseo:构建通用机器人智能的规模化数据平台

    数据的匮乏,制约了通用操纵能力的突破。上海人工智能实验室与AgiBot公司联合研发的AgiBot World Colosseo平台,通过构建大规模、模态的真实世界数据集与
    的头像 发表于 03-12 11:42 ?1182次阅读
    AgiBot World Colosseo:构建<b class='flag-5'>通用</b>机器人<b class='flag-5'>智能</b>的规模化数据平台

    智慧路灯如何应用人工智能技术

    叁仟智慧路灯通过整合人工智能(AI)技术,显著提升了城市的智能化程度,为城市管理工作带来了诸多便利。以下将详细阐述叁仟智慧路灯在应用人工智能技术方面的几个关键领域: 一、
    的头像 发表于 03-07 09:18 ?499次阅读
    智慧路灯如何应<b class='flag-5'>用人工智能技术</b>

    亥步模态医疗大模型发布:人工智能引领医疗新纪元

    当下,人工智能(AI)正以不可阻挡之势渗透到各行各业,包括医疗行业。12月14日,2024中国医学人工智能大会的召开。会上,一款名为“亥步”的模态医疗大模型的正式发布。
    的头像 发表于 12-19 17:56 ?585次阅读

    光庭信息亮相2024东湖国际人工智能高峰论坛

    近日,2024东湖国际人工智能高峰论坛在中国光谷科技会展中心盛大举办。论坛以“智联世界,共创未来”为主题,旨在加速推动人工智能创新成果规模化应用,进一步搭建模态
    的头像 发表于 11-28 10:19 ?666次阅读

    嵌入式和人工智能究竟是什么关系?

    了重要作用。在未来,随着嵌入式系统和人工智能技术的不断进步,我们可以预见更多创新应用的出现,为社会发展和生活品质的提升带来更多可能性。
    发表于 11-14 16:39

    九四智能荣耀跻身智推力2024 年度广东人工智能风云榜

    启航”,旨在探讨通用人工智能技术的最新进展,以及其在各行各业中的广泛应用和深远影响。 九四智能(94AI)作为国内领先的人工智能科技企业,凭借其在通用人工智能领域的卓越贡献,受邀出席此
    的头像 发表于 10-24 16:16 ?702次阅读
    九四<b class='flag-5'>智能</b>荣耀跻身智推力2024 年度广东<b class='flag-5'>人工智能</b>风云榜

    《AI for Science:人工智能驱动科学创新》第一章人工智能驱动的科学创新学习心得

    ,无疑为读者铺设了一条探索人工智能(AI)如何深刻影响并推动科学创新的道路。在阅读这一章后,我深刻感受到了人工智能技术在科学领域的广泛应用潜力以及其带来的革命性变化,以下是我个人的学习心得: 1.
    发表于 10-14 09:12

    云知声山海模态大模型UniGPT-mMed登顶MMMU测评榜首

    近日,模态人工智能模型基准评测集MMMU更新榜单,云知声山海模态大模型UniGPT-mMed以通用
    的头像 发表于 10-12 14:09 ?750次阅读
    云知声山海<b class='flag-5'>多</b><b class='flag-5'>模态</b>大模型UniGPT-mMed登顶MMMU测评榜首

    risc-v在人工智能图像处理应用前景分析

    和使用该技术,无需支付专利费或使用费。这大大降低了人工智能图像处理技术的研发成本,并吸引了大量的开发者、企业和研究机构参与其生态建设。 灵活性则体现在RISC-V可以根据不同的应用场景进行定制和优化,从而
    发表于 09-28 11:00

    Meta发布模态LLAMA 3.2人工智能模型

    Meta Platforms近日宣布了一项重要技术突破,成功推出了模态LLAMA 3.2人工智能模型。这一创新模型不仅能够深度解析文本信息,还实现了对图像内容的精准理解,标志着Met
    的头像 发表于 09-27 11:44 ?751次阅读

    镭神智能创始人胡小波荣获全国首批首席人工智能官(CAIO)称号

    2024年8月28日至30日,2024深圳(国际)通用人工智能大会暨深圳(国际)通用人工智能产业博览会在深圳国际会展中心(宝安)举办。会上,深圳市人工智能产业协会公布了全国首批首席人工智能
    的头像 发表于 09-27 08:08 ?961次阅读
    镭神<b class='flag-5'>智能</b>创始人胡小波荣获全国首批首席<b class='flag-5'>人工智能</b>官(CAIO)称号

    报名开启!深圳(国际)通用人工智能大会将启幕,国内外大咖齐聚话AI

    8月28日至30日,2024深圳(国际)通用人工智能大会暨深圳(国际)通用人工智能产业博览会将在深圳国际会展中心(宝安)举办。大会以“魅力AI·无限未来”为主题,致力于打造全球通用人工智能领域集产品
    发表于 08-22 15:00