0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

幻觉降低30%!首个多模态大模型幻觉修正工作Woodpecker

智能感知与物联网技术研究所 ? 来源:未知 ? 2023-10-30 11:05 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

视觉幻觉是常见于多模态大语言模型 (Multimodal Large Language Models, MLLMs) 的一个典型问题,它指的是"模型输出的描述与图片内容不相符"这一现象,如下图所示:

wKgZomVQmI6AfJAeAASklfYgC5Y728.png

图中体现了两种幻觉,红色部分错误地描述了狗的颜色(属性幻觉),蓝色部分描述了图中实际不存在的事物(目标幻觉)。幻觉对模型的可靠性产生了显著的负面影响,因此引起了许多研究者的重视。

以往的方法主要集中在 MLLM 本身,通过在训练数据以及架构上进行改进,以重新微调的方式训练一个新的 MLLM。这种方式会造成较大的数据构建和训练开销,且较难推广到各种已有的 MLLMs。

近日,来自中科大等机构的研究者们提出了一种免训练的即插即用的通用架构“啄木鸟(Woodpecker)”,通过修正的方式解决 MLLM 输出幻觉的问题。

wKgZomU_Ho6AbEbEAAL-ApHKwQg789.png

论文链接:
https://arxiv.org/pdf/2310.16045.pdf
代码链接:
https://github.com/BradyFU/Woodpecker
Woodpecker 可以修正各种场景下模型输出的幻觉,并输出检测框作为引证,表明相应的目标确实存在。例如,面对描述任务,Woodpecker 可以修正其中带有幻觉的部分。

wKgaomVQmKeAOfU4AARjczA60Ts920.png

对于 MLLM 难以检测到的小对象,Woodpecker 也可以精准修正:

wKgaomVQmMCAb8c_AAE0uSDzseg010.png

面对 MLLM 难以解决的复杂的计数场景,Woodpecker 同样可以进行解决:

wKgZomVQmNqAAe6EAAJhEa7mVbI506.png

对于目标属性类的幻觉问题,Woopecker 处理地也很好:

wKgaomVQmQGAZktYAAGhMIx_etY271.png

我们还提供了 Demo 供读者测试使用,如下图所示,上传图片并输入请求,就可以得到修正前以及修正后的模型答复,以及供参考验证的新图片。

wKgaomVQmSWAM2BhAAR7XPMAejw641.png

wKgZomU_Ho-AGLnMAAAl6LOgh3c590.png

方法

Woodpecker 的架构如下,它包括五个主要步骤:关键概念提取、问题构造、视觉知识检验、视觉断言生成以及幻觉修正

wKgZomVQmUOAKZCGAASXeRgIHgo653.png

关键概念提取:关键概念指的是 MLLM 的输出中最可能存在幻觉的存在性目标,例如上图描述中的“自行车;垃圾桶;人”。我们可以 Prompt 大语言模型来提取出这些关键概念,这些关键概念是后续步骤进行的基础;

问题构造:围绕着前一步提取出的关键概念,Prompt 大语言模型来提出一些有助于检验图片描述真伪的问题,如“图中有几辆自行车?”、“垃圾桶边上的是什么?”等等;

视觉知识检验:使用视觉基础模型对提出的问题进行检验,获得与图片以及描述文本相关的信息。例如,我们可以利用 GroundingDINO 来进行目标检测,确定关键目标是否存在以及关键目标的数量。这里我们认为像 GroundingDINO 这类视觉基础模型对图片的感知能力比 MLLM 本身的感知能力更强。对于目标颜色等这类属性问题,我们可以利用 BLIP-2 来进行回答。BLIP-2这类传统 VQA 模型输出答案的长度有限,幻觉问题也更少;

视觉断言生成:基于前两步中获得的问题以及对应的视觉信息,合成结构化的“视觉断言”。这些视觉断言可以看做与原有 MLLM 的回答以及输入图片相关的视觉知识库;

幻觉修正:基于前面得到的,使用大语言模型对 MLLM 的文本输出进行逐一修正,并提供目标对应的检测框信息作为视觉检验的参照。

wKgZomU_HpCAWuRJAAAuhh9-KLM103.png ?

实验效果

实验选取了几个典型的 MLLM 作为基线,包括:LLaVA,mPLUG-Owl,Otter,MiniGPT-4 论文中首先测试了 Woodpecker 在面对目标幻觉时的修正能力,在 POPE 验证集的实验结果如下表所示:

wKgZomU_HpCAYpNeAAUJbot3fhA482.png

结果表明在不同的 MLLM 上应用 Woodpecker 修正后,均有不同程度的提升。在随机设定下,Woodpecker 给 MiniGPT-4和 mPLUG-Owl 和在准确率指标上分别带来了 30.66% 和 24.33% 的提升。

此外,研究者还应用更全面的验证集 MME,进一步测试 Woodpecker 在面对属性幻觉时的修正能力,结果如下表所示:

wKgZomU_HpCAZZxiAAVN85YCstY979.png

从表中可见 Woodpecker 不仅在应对目标幻觉时有效,在修正颜色等属性幻觉时也具有出色的表现。LLaVA 的颜色得分从 78.33 分大幅提升到 155 分!经过 Woodpecker 修正后,四个基线模型在四个测试子集上的总分均超过 500 分,在总体感知能力上获得了显著提升。

为了更直接地衡量修正表现,更直接的方式是使用开放评测。不同于以往将图片转译后送入纯文本 GPT-4 的做法,文章利用 OpenAI 最近开放的视觉接口,提出使用 GPT-4 (Vision) 对修正前后的图片描述直接对下列两个维度进行打分:
  • 准确度:模型的答复相对于图片内容是否准确
  • 详细程度:模型答复的细节丰富度

在该实验条件下,实验结果如下表所示:

wKgZomU_HpCANOUaAAMOsiQfU-E600.png

结果表明经过 Woodpecker 修正后图片描述的准确性有一定的提升,这说明该框架可以有效修正描述中幻视的部分。另一方面,Woodpecker 修正后引入的定位信息丰富了文本描述,提供了进一步的位置信息,从而提升了细节丰富度。GPT-4V 辅助的评测样例如下图所示:

wKgaomVQmY2ABM_cAAS4Bjh-SKE689.png

·


原文标题:幻觉降低30%!首个多模态大模型幻觉修正工作Woodpecker

文章出处:【微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 物联网
    +关注

    关注

    2932

    文章

    46349

    浏览量

    394258

原文标题:幻觉降低30%!首个多模态大模型幻觉修正工作Woodpecker

文章出处:【微信号:tyutcsplab,微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    AI智能体+AIoT:智能时代的关键联结,还是又一场幻觉与泡沫?

    从大模型的爆发,到边缘计算的逐渐普及,从智能语音助手走进家庭,到智能设备接入云端,AI智能体与AIoT的结合,正成为产业界的新热点。但在技术热潮的背后,我们必须提出一个冷静的问题:我们是为了更好
    的头像 发表于 07-11 14:57 ?1041次阅读
    AI智能体+AIoT:智能时代的关键联结,还是又一场<b class='flag-5'>幻觉</b>与泡沫?

    商汤日日新SenseNova融合模态模型 国内首家获得最高评级的大模型

    近日,中国信息通信研究院(以下简称“中国信通院”)完成可信AI模态模型首轮评估。 商汤日日新SenseNova融合模态模型在所有
    的头像 发表于 06-11 11:57 ?753次阅读

    爱芯通元NPU适配Qwen2.5-VL-3B视觉模态模型

    熟悉爱芯通元NPU的网友很清楚,从去年开始我们在端侧模态模型适配上一直处于主动紧跟的节奏。先后适配了国内最早开源的模态大模MiniCP
    的头像 发表于 04-21 10:56 ?1613次阅读
    爱芯通元NPU适配Qwen2.5-VL-3B视觉<b class='flag-5'>多</b><b class='flag-5'>模态</b>大<b class='flag-5'>模型</b>

    海康威视发布模态模型AI融合巡检超脑

    基于海康观澜大模型技术体系,海康威视推出新一代模态模型AI融合巡检超脑,全面升级人、车、行为、事件等算法,为行业带来全新的
    的头像 发表于 04-17 17:12 ?892次阅读

    利用腾讯ima收藏公众号推文构建个人知识库,拒绝AI幻觉

    专业领域,使用AI的局限在哪里?2023年ChatGPT横空出世之际,赵工曾就SiCMOSFET的短路问题和ChatGPT掰头过,围观人达6000,当时ChatGPT表现不尽如人意,详见一步步纠正
    的头像 发表于 03-19 18:32 ?2663次阅读
    利用腾讯ima收藏公众号推文构建个人知识库,拒绝AI<b class='flag-5'>幻觉</b>

    百度发布文心大模型4.5和文心大模型X1

    文心大模型4.5是百度自主研发的新一代原生模态基础大模型,通过多个模态联合建模实现协同优化,
    的头像 发表于 03-18 16:29 ?513次阅读

    海康威视发布模态模型文搜存储系列产品

    模态模型为安防行业带来重大技术革新,基于观澜大模型技术体系,海康威视将大参数量、大样本量的图文模态
    的头像 发表于 02-18 10:33 ?735次阅读

    【「基于大模型的RAG应用开发与优化」阅读体验】+第一章初体验

    3降低幻觉风险:通过引入权威数据源(如学术论文、企业文档),RAG为生成过程提供“事实锚点”,减少模型虚构内容的可能性。 4轻量化部署:开发者无需频繁微调大模型,仅需优化检索模块即可
    发表于 02-07 10:42

    体验MiniCPM-V 2.6 模态能力

    模态组网
    jf_23871869
    发布于 :2025年01月20日 13:40:48

    商汤日日新模态模型权威评测第一

    刚刚,商汤科技日日新SenseNova模态模型,在权威综合评测权威平台OpenCompass的模态评测中取得榜单第一。
    的头像 发表于 12-20 10:39 ?1068次阅读

    名单公布!【书籍评测活动NO.52】基于大模型的RAG应用开发与优化

    (Retrieval-Augmented Agenerated,检索增强生成)与Agent(AI智能体)。本篇小枣君首先尝试用通俗易懂的语言帮助大家认识RAG这一重要应用形式。 01 了解大模型的“幻觉” 在了解为什么出现RAG之前
    发表于 12-04 10:50

    一文理解模态大语言模型——下

    /understanding-multimodal-llms ? 《一文理解模态大语言模型 - 上》介绍了什么是模态大语言
    的头像 发表于 12-03 15:18 ?643次阅读
    一文理解<b class='flag-5'>多</b><b class='flag-5'>模态</b>大语言<b class='flag-5'>模型</b>——下

    李彦宏:大模型行业消除幻觉,iRAG技术引领文生图新纪元

    在近日举办的百度世界大会上,百度创始人李彦宏分享了关于大模型行业的最新观察。他指出,过去24个月里,大模型行业经历了显著的变化,其中最引人注目的是大模型已基本消除了幻觉现象。这一进步标
    的头像 发表于 11-14 11:39 ?673次阅读

    利用OpenVINO部署Qwen2模态模型

    模态模型的核心思想是将不同媒体数据(如文本、图像、音频和视频等)进行融合,通过学习不同模态之间的关联,实现更加智能化的信息处理。简单来说,
    的头像 发表于 10-18 09:39 ?1325次阅读

    云知声推出山海模态模型

    在人工智能技术的浩瀚星海中,模态交互技术正成为引领未来的新航标。继OpenAI的GPT-4o掀起滔天巨浪后,云知声以创新之姿,推出了其匠心独运的山海模态
    的头像 发表于 08-27 15:20 ?655次阅读