0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

理解指向,说出坐标,Shikra开启多模态大模型参考对话新维度

智能感知与物联网技术研究所 ? 来源:未知 ? 2023-07-02 20:55 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在人类的日常交流中,经常会关注场景中不同的区域或物体,人们可以通过说话并指向这些区域来进行高效的信息交换。这种交互模式被称为参考对话(Referential Dialogue)

如果 MLLM 擅长这项技能,它将带来许多令人兴奋的应用。例如,将其应用到 Apple Vision Pro 等混合现实 (XR) 眼镜中,用户可以使用视线注视指示任何内容与 AI 对话。同时 AI 也可以通过高亮等形式来指向某些区域,实现与用户的高效交流。

本文提出的Shikra 模型,就赋予了 MLLM 这样的参考对话能力,既可以理解位置输入,也可以产生位置输出

bec5cf4c-18d4-11ee-962d-dac502259ad0.png

  • 论文地址:http://arxiv.org/abs/2306.15195

  • 代码地址:https://github.com/shikras/shikra

核心亮点

Shikra 能够理解用户输入的 point/bounding box,并支持 point/bounding box 的输出,可以和人类无缝地进行参考对话

Shikra 设计简单直接,采用非拼接式设计,不需要额外的位置编码器、前 / 后目标检测器或外部插件模块,甚至不需要额外的词汇表。

wKgaomTYg76AbCsLAAEgWXrk07s875.png

如上图所示,Shikra 能够精确理解用户输入的定位区域,并能在输出中引用与输入时不同的区域进行交流,像人类一样通过对话和定位进行高效交流。

wKgZomTYg_OAd3UQAAV75HGNYVs579.png

如上图所示,Shikra 不仅具备 LLM 所有的基本常识,还能够基于位置信息做出推理。

wKgaomTYhBWALYBTAAcHcL5EIns310.png

如上图所示,Shikra 可以对图片中正在发生的事情产生详细的描述,并为参考的物体生成准确的定位。

wKgZomTYhCeAAlPgAAGwEUh_yGQ075.png

尽管Shikra没有在 OCR 数据集上专门训练,但也具有基本的 OCR 能力。

更多例子

wKgZomTYhEuAfTF0AASeQIX7Um0293.png

其他传统任务

wKgaomTYhJiAWGQxAAwtCcQoUoM525.png

方法

模型架构采用 CLIP ViT-L/14 作为视觉主干,Vicuna-7/13B 作为基语言模型,使用一层线性映射连接 CLIP 和 Vicuna 的特征空间。

Shikra 直接使用自然语言中的数字来表示物体位置,使用 [xmin, ymin, xmax, ymax] 表示边界框,使用 [xcenter, ycenter] 表示区域中心点,区域的 xy 坐标根据图像大小进行归一化每个数字默认保留 3 位小数。这些坐标可以出现在模型的输入和输出序列中的任何位置。记录坐标的方括号也自然地出现在句子中。

实验结果

Shikra 在传统 REC、VQA、Caption 任务上都能取得优良表现。同时在 PointQA-Twice、Point-V7W 等需要理解位置输入的 VQA 任务上取得了 SOTA 结果。

c25f8134-18d4-11ee-962d-dac502259ad0.png

c2b6e686-18d4-11ee-962d-dac502259ad0.png

c2d11042-18d4-11ee-962d-dac502259ad0.png

c2e079a6-18d4-11ee-962d-dac502259ad0.png

本文使用 POPE benchmark 评估了 Shikra 产生幻觉的程度。Shikra 得到了和 InstrcutBLIP 相当的结果,并远超近期其他 MLLM。

c2f4afb6-18d4-11ee-962d-dac502259ad0.png

思想链(CoT),旨在通过在最终答案前添加推理过程以帮助 LLM 回答复杂的 QA 问题。这一技术已被广泛应用到自然语言处理的各种任务中。然而如何在多模态场景下应用 CoT 则尚待研究。尤其因为目前的 MLLM 还存在严重的幻视问题,CoT 经常会产生幻觉,影响最终答案的正确性。通过在合成数据集 CLEVR 上的实验,研究发现,使用带有位置信息的 CoT 时,可以有效减少模型幻觉提高模型性能。

c33f0b10-18d4-11ee-962d-dac502259ad0.png

结论

本文介绍了一种名为 Shikra 的简单且统一的模型,以自然语言的方式理解并输出空间坐标,为 MLLM 增加了类似于人类的参考对话能力,且无需引入额外的词汇表、位置编码器或外部插件。

THE END


原文标题:理解指向,说出坐标,Shikra开启多模态大模型参考对话新维度

文章出处:【微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 物联网
    +关注

    关注

    2933

    文章

    46463

    浏览量

    395652

原文标题:理解指向,说出坐标,Shikra开启多模态大模型参考对话新维度

文章出处:【微信号:tyutcsplab,微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    飞凌嵌入式RK3576模态模型图像理解助手,让嵌入式设备“看懂”世界

    (LLM)+视觉语言模型(VLM)模态架构,推出模态模型图像
    的头像 发表于 07-25 11:09 ?982次阅读
    飞凌嵌入式RK3576<b class='flag-5'>多</b><b class='flag-5'>模态</b>大<b class='flag-5'>模型</b>图像<b class='flag-5'>理解</b>助手,让嵌入式设备“看懂”世界

    研华科技携手创新奇智推出模态模型AI一体机

    这是一款基于研华高性能边缘计算平台MIC-733,深度集成创新奇智视觉小模型模态模型的边缘智能终端,通过创新的“视觉识别 + 深度语义理解
    的头像 发表于 07-17 17:14 ?487次阅读
    研华科技携手创新奇智推出<b class='flag-5'>多</b><b class='flag-5'>模态</b>大<b class='flag-5'>模型</b>AI一体机

    商汤日日新SenseNova融合模态模型 国内首家获得最高评级的大模型

    的大模型。 可信AI模态模型评估2025年1月启动,由中国信通院人工智能研究所牵头,依据由业界60余家单位共同编制的《
    的头像 发表于 06-11 11:57 ?824次阅读

    爱芯通元NPU适配Qwen2.5-VL-3B视觉模态模型

    InternVL2.5-1B/8B/MPO,Huggingface推出的全球最小模态模型SmloVLM-256M。为工业界提供了离线部署模态
    的头像 发表于 04-21 10:56 ?1769次阅读
    爱芯通元NPU适配Qwen2.5-VL-3B视觉<b class='flag-5'>多</b><b class='flag-5'>模态</b>大<b class='flag-5'>模型</b>

    基于MindSpeed MM玩转Qwen2.5VL模态理解模型

    模态理解模型是让AI像人类一样,通过整合多维度信息(如视觉、语言、听觉等),理解数据背后的语义
    的头像 发表于 04-18 09:30 ?1807次阅读
    基于MindSpeed MM玩转Qwen2.5VL<b class='flag-5'>多</b><b class='flag-5'>模态</b><b class='flag-5'>理解</b><b class='flag-5'>模型</b>

    海康威视发布模态模型AI融合巡检超脑

    基于海康观澜大模型技术体系,海康威视推出新一代模态模型AI融合巡检超脑,全面升级人、车、行为、事件等算法,为行业带来全新的
    的头像 发表于 04-17 17:12 ?968次阅读

    海康威视发布模态模型文搜存储系列产品

    模态模型为安防行业带来重大技术革新,基于观澜大模型技术体系,海康威视将大参数量、大样本量的图文模态
    的头像 发表于 02-18 10:33 ?766次阅读

    体验MiniCPM-V 2.6 模态能力

    模态组网
    jf_23871869
    发布于 :2025年01月20日 13:40:48

    商汤日日新模态模型权威评测第一

    刚刚,商汤科技日日新SenseNova模态模型,在权威综合评测权威平台OpenCompass的模态评测中取得榜单第一。
    的头像 发表于 12-20 10:39 ?1129次阅读

    一文理解模态大语言模型——下

    /understanding-multimodal-llms ? 《一文理解模态大语言模型 - 上》介绍了什么是
    的头像 发表于 12-03 15:18 ?678次阅读
    一文<b class='flag-5'>理解</b><b class='flag-5'>多</b><b class='flag-5'>模态</b>大语言<b class='flag-5'>模型</b>——下

    一文理解模态大语言模型——上

    /understanding-multimodal-llms 在过去几个月中, OpenVINO? 架构师 Yury阅读了众多有关模态大语言模型的论文和博客,在此基础上,推荐了一篇解读
    的头像 发表于 12-02 18:29 ?1351次阅读
    一文<b class='flag-5'>理解</b><b class='flag-5'>多</b><b class='flag-5'>模态</b>大语言<b class='flag-5'>模型</b>——上

    利用OpenVINO部署Qwen2模态模型

    模态模型的核心思想是将不同媒体数据(如文本、图像、音频和视频等)进行融合,通过学习不同模态之间的关联,实现更加智能化的信息处理。简单来说,
    的头像 发表于 10-18 09:39 ?1407次阅读

    云知声山海模态模型UniGPT-mMed登顶MMMU测评榜首

    近日,模态人工智能模型基准评测集MMMU更新榜单,云知声山海模态模型UniGPT-mMed
    的头像 发表于 10-12 14:09 ?758次阅读
    云知声山海<b class='flag-5'>多</b><b class='flag-5'>模态</b>大<b class='flag-5'>模型</b>UniGPT-mMed登顶MMMU测评榜首

    Meta发布模态LLAMA 3.2人工智能模型

    Meta Platforms近日宣布了一项重要技术突破,成功推出了模态LLAMA 3.2人工智能模型。这一创新模型不仅能够深度解析文本信息,还实现了对图像内容的精准
    的头像 发表于 09-27 11:44 ?763次阅读

    云知声推出山海模态模型

    在人工智能技术的浩瀚星海中,模态交互技术正成为引领未来的新航标。继OpenAI的GPT-4o掀起滔天巨浪后,云知声以创新之姿,推出了其匠心独运的山海模态
    的头像 发表于 08-27 15:20 ?680次阅读