0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

通用视觉GPT时刻来临?智源推出通用分割模型SegGPT

3D视觉工坊 ? 来源:机器之心 ? 2023-04-09 09:40 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

ChatGPT 引发了语言大模型狂潮,AI 另一个重大领域 —— 视觉 —— 的 GPT 时刻何时到来?

前两天,机器之心介绍了Meta 最新研究成果Segment Anything Model (SAM)。该研究引起了AI社区广泛讨论。

而据我们所知,几乎同一时间,智源研究院视觉团队也推出通用分割模型 SegGPT(Segment Everything In Context)—— 利用视觉提示(prompt)完成任意分割任务的通用视觉模型。

a611a0e8-d63a-11ed-bfe3-dac502259ad0.png

论文地址:https://arxiv.org/abs/2304.03284

代码地址:https://github.com/baaivision/Painter

Demo:https://huggingface.co/spaces/BAAI/SegGPT

SegGPT 与 Meta AI 图像分割基础模型 SAM 同时发布,两者的差异在于 :

SegGPT “一通百通”:给出一个或几个示例图像和意图掩码,模型就能 get 用户意图,“有样学样” 地完成类似分割任务。用户在画面上标注识别一类物体,即可批量化识别分割同类物体,无论是在当前画面还是其他画面或视频环境中。

SAM “一触即通”:通过一个点或边界框,在待预测图片上给出交互提示,识别分割画面上的指定物体。

无论是 “一触即通” 还是 “一通百通”,都意味着视觉模型已经 “理解” 了图像结构。SAM 精细标注能力与 SegGPT 的通用分割标注能力相结合,能把任意图像从像素阵列解析为视觉结构单元,像生物视觉那样理解任意场景,通用视觉 GPT 曙光乍现。

SegGPT 是智源通用视觉模型 Painter(CVPR 2023)的衍生模型,针对分割一切物体的目标做出优化。SegGPT 训练完成后无需微调,只需提供示例即可自动推理并完成对应分割任务,包括图像和视频中的实例、类别、零部件、轮廓、文本、人脸等等。

该模型具有以下优势能力:

1. 通用能力:SegGPT 具有上下文推理能力,模型能够根据提供的分割示例(prompt),对预测进行自适应的调整,实现对 “everything” 的分割,包括实例、类别、零部件、轮廓、文本、人脸、医学图像、遥感图像等。

2. 灵活推理能力:支持任意数量的 prompt;支持针对特定场景的 tuned prompt;可以用不同颜色的 mask 表示不同目标,实现并行分割推理。

3. 自动视频分割和追踪能力:以第一帧图像和对应的物体掩码作为上下文示例,SegGPT 能够自动对后续视频帧进行分割,并且可以用掩码的颜色作为物体的 ID,实现自动追踪。

案例展示

1. 作者在广泛的任务上对 SegGPT 进行了评估,包括少样本语义分割、视频对象分割、语义分割和全景分割。下图中具体展示了 SegGPT 在实例、类别、零部件、轮廓、文本和任意形状物体上的分割结果。

a633f49a-d63a-11ed-bfe3-dac502259ad0.png

a699ce8c-d63a-11ed-bfe3-dac502259ad0.png

2. 标注出一个画面中的彩虹(上图),可批量化分割其他画面中的彩虹(下图)

a6c4b84a-d63a-11ed-bfe3-dac502259ad0.gif

3. 用画笔大致圈出行星环带(上图),在预测图中准确输出目标图像中的行星环带(下图)。

a70d0168-d63a-11ed-bfe3-dac502259ad0.png

a74d39f4-d63a-11ed-bfe3-dac502259ad0.png

4. SegGPT 能够根据用户提供的宇航员头盔掩码这一上下文(左图),在新的图片中预测出对应的宇航员头盔区域(右图)。

a774d70c-d63a-11ed-bfe3-dac502259ad0.png

训练方法

SegGPT 将不同的分割任务统一到一个通用的上下文学习框架中,通过将各类分割数据转换为相同格式的图像来统一各式各样的数据形式。

具体来说,SegGPT 的训练被定义为一个上下文着色问题,对于每个数据样本都有随机的颜色映射。目标是根据上下文完成各种任务,而不是依赖于特定的颜色。训练后,SegGPT 可以通过上下文推理在图像或视频中执行任意分割任务,例如实例、类别、零部件、轮廓、文本等。

a7ad7cce-d63a-11ed-bfe3-dac502259ad0.png

Test-time techniques

如何通过 test-time techniques 解锁各种能力是通用模型的一大亮点。SegGPT 论文中提出了多个技术来解锁和增强各类分割能力,比如下图所示的不同的 context ensemble 方法。所提出的 Feature Ensemble 方法可以支持任意数量的 prompt 示例,实现丰俭由人的推理效果。

a7c3990a-d63a-11ed-bfe3-dac502259ad0.png

此外,SegGPT 还支持对特定场景优化专用 prompt 提示。对于针对性的使用场景,SegGPT 可以通过 prompt tuning 得到对应 prompt,无需更新模型参数来适用于特定场景。比如,针对某一数据集自动构建一个对应的 prompt,或者针对一个房间来构建专用 prompt。如下图所示:

a7e70282-d63a-11ed-bfe3-dac502259ad0.png

结果展示

模型只需少数 prompt 示例,在 COCO 和 PASCAL 数据集上取得最优性能。SegGPT 显示出强大的零样本场景迁移能力,比如在少样本语义分割测试集 FSS-1000 上,在无需训练的情况下取得 state-of-the-art 性能。

a813d762-d63a-11ed-bfe3-dac502259ad0.png

a82daffc-d63a-11ed-bfe3-dac502259ad0.png

无需视频训练数据,SegGPT 可直接进行视频物体分割,并取得和针对视频物体分割专门优化的模型相当的性能。

a8585856-d63a-11ed-bfe3-dac502259ad0.png

以下是基于 tuned prompt 在语义分割和实例分割任务上的效果展示:

a8836b54-d63a-11ed-bfe3-dac502259ad0.png

a8b520a4-d63a-11ed-bfe3-dac502259ad0.png

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    88

    文章

    35760

    浏览量

    282497
  • GPT
    GPT
    +关注

    关注

    0

    文章

    368

    浏览量

    16336

原文标题:通用视觉GPT时刻来临?智源推出通用分割模型SegGPT

文章出处:【微信号:3D视觉工坊,微信公众号:3D视觉工坊】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    GPT-5震撼发布:AI领域的重大飞跃

    跃升重新定义了人工智能的能力边界。OpenAI首席执行官山姆·奥特曼在发布会上直言:“这不仅是模型的升级,更是通往通用人工智能(AGI)的关键里程碑。” ? ? GPT-5:集成模型
    的头像 发表于 08-09 07:44 ?8357次阅读
    <b class='flag-5'>GPT</b>-5震撼发布:AI领域的重大飞跃

    晶振8m和24m通用

    晶振8MHz和24MHz一般情况下不通用,这是由它们在电路中的作用以及电路对频率的要求决定的
    的头像 发表于 07-22 15:57 ?780次阅读
    无<b class='flag-5'>源</b>晶振8m和24m<b class='flag-5'>通用</b>吗

    基于FMC接口的XCZU7EV?通用PCIe卡

    基于通用PCIe ,实现FMC的数据接口和主控计算,广泛应用于工业控制,检测,视觉处理。支持工业级温度工作。
    的头像 发表于 05-07 09:10 ?266次阅读
    基于FMC接口的XCZU7EV?<b class='flag-5'>通用</b>PCIe卡

    ?VLM(视觉语言模型)?详细解析

    的详细解析: 1. 核心组成与工作原理 视觉编码器 :提取图像特征,常用CNN(如ResNet)或视觉Transformer(ViT)。 语言模型 :处理文本输入/输出,如GPT、BE
    的头像 发表于 03-17 15:32 ?5068次阅读
    ?VLM(<b class='flag-5'>视觉</b>语言<b class='flag-5'>模型</b>)?详细解析

    BlackBerry QNX推出通用嵌入式开发平台

    BlackBerry有限公司(纽交所代码:BB;多伦多证券交易所代码:BB)旗下部门QNX今日宣布推出QNX 通用嵌入式开发平台(General Embedded Development
    的头像 发表于 03-11 16:04 ?707次阅读

    海康威视推出视觉模型系列摄像机

    依托海康观澜大模型技术体系,海康威视将大模型能力直接部署至端侧,推出一系列视觉模型摄像机。
    的头像 发表于 03-05 14:06 ?863次阅读

    OpenAI即将发布GPT-4.5与GPT-5

    GPT-4.5将在未来几周内率先亮相,它将是OpenAI通用GPT-4模型的继承者。这款新的算法在技术上进行了诸多优化和升级,旨在为用户提供更加精准、高效的AI服务。 而在
    的头像 发表于 02-13 13:43 ?742次阅读

    今日看点丨OpenAI将发布新的GPT-4.5模型;三星西安工厂将升级286层NAND闪存工艺

    1. OpenAI 将发布新的GPT-4.5 模型 ? OpenAI首席执行官阿尔特曼周三表示,该公司内部称为Orion的GPT-4.5模型将在“几周内”
    发表于 02-13 11:22 ?584次阅读

    OpenAI即将推出GPT-5模型

    OpenAI首席执行官奥尔特曼近日宣布了一项重要消息:OpenAI将在今年未来几个月内推出全新的GPT-5模型。这一消息引起了业界的广泛关注和期待。 据了解,GPT-5
    的头像 发表于 02-13 11:21 ?688次阅读

    通用模型在垂直行业的应用

    随着DeepSeek这类通用模型的普及,接下来会迎来更加精细化的垂直行业模型,那么哪些垂直行业会率先受益?以下是DeepSeek的整理预测,供大家参考。
    的头像 发表于 02-10 15:44 ?948次阅读

    用于任意排列多相机的通用视觉里程计系统

    如何让多相机视觉SLAM系统更易于部署且对环境更具鲁棒性?本文提出了一种适用于任意排列多相机的通用视觉里程计系统。在KITTI-360和MultiCamData数据集上验证了该方法对于任意放置相机的鲁棒性。与其他立体和多相机
    的头像 发表于 12-13 11:22 ?849次阅读
    用于任意排列多相机的<b class='flag-5'>通用</b><b class='flag-5'>视觉</b>里程计系统

    基于视觉语言模型的导航框架VLMnav

    本文提出了一种将视觉语言模型(VLM)转换为端到端导航策略的具体框架。不依赖于感知、规划和控制之间的分离,而是使用VLM在一步中直接选择动作。惊讶的是,我们发现VLM可以作为一种无需任何微调或导航数据的端到端策略来使用。这使得该方法具有开放性和可适用于任何下游导航任务的
    的头像 发表于 11-22 09:42 ?903次阅读

    深信服发布安全GPT4.0数据安全大模型

    近日,深信服在数据安全领域迈出了重要一步,正式发布了安全GPT4.0数据安全大模型。这一创新的大模型技术,旨在为用户提供更高效、精准的数据安全解决方案。
    的头像 发表于 10-29 11:12 ?663次阅读

    通用模型评测标准正式发布

    近日,在2024中国移动全球合作伙伴大会上,一项关于大模型评测体系建设的新成果——《通用模型评测标准》正式发布。这一标准由中国移动携手工信部中国电子技术标准化研究院、中国电信、国家电网、中国石油以及科大讯飞等产业各方共同
    的头像 发表于 10-14 15:52 ?1098次阅读

    英伟达预测机器人领域或迎“GPT-3时刻

    未来2-3年内,机器人基础模型的研究将迎来重大突破,这一时刻被形象地比喻为机器人领域的“GPT-3时刻”。
    的头像 发表于 09-20 17:05 ?1144次阅读