0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

格灵深瞳视觉基础模型Glint-MVT升级

格灵深瞳 ? 来源:格灵深瞳 ? 2025-07-31 11:01 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近日,格灵深瞳灵感实验室和华为伦敦研究所发布最新版视觉基础模型——Glint-MVT v1.5(RICE)。

格灵深瞳此前有6篇论文亮相国际顶级学术舞台ICCV 2025,涵盖视觉基座模型、人脸3D重建等领域,其中最新版MVT的相关论文不仅入选,还被接收为Highlight论文。

先看升级后的核心要点:

1技术创新性方面:新版MVT提出了一种区域局部感知增强的视觉特征学习方法。

2下游任务表现方面:在OCR和分割等任务上效果优于v1.1版和AIMv2、SigLIP2。

3此外,团队还构建了共4亿图像、20亿局部区域、4亿文字区域的预训练数据集。

概括来说,MVT v1.5的最大升级在于:强化了模型对图像细节和文字特征的捕捉和表达能力,在精细任务上表现更优。

以往的视觉-文本对比学习模型,如OpenAI的CLIP模型和谷歌的改进版SigLIP模型等,更侧重全局图像特征(对图像内容的概括性描述),核心的训练逻辑是 “全局对齐”,让模型理解图像的整体语义,并和文本的整体语义相对应。

但这类模型对图像局部区域的细节信息表达较少,难以满足需要精细处理图像的任务,例如OCR和图像分割等。

针对这一问题,新版MVT提出一种区域局部感知增强的视觉特征学习方法。

在技术方案上,格灵深瞳团队利用专家分割模型和OCR模型,对无标注数据进行处理,产生十亿级局部区域,并通过聚类产生伪标签。也就是说,通过分割-OCR-聚类的技术流程,团队将无标注数据转化为带伪标签的大规模训练集,节约了标注成本,提升了自主学习能力。

25a2de24-6957-11f0-a6aa-92fbcf53809c.png

同时,团队设计了区域Transformer层,用来提取局部区域特征和支持数据扩展的区域鉴别损失,使得团队能在亿级数据上进行预训练,突破了在大规模样本上进行高效训练的技术挑战。

基于以上技术攻关,MVT v1.5增强了局部特征和文字特征。相较于传统的全局图像特征模型,新版MVT在检测分割、OCR等对应的下游任务表现上得到提升,有效性得到验证。

25b9774c-6957-11f0-a6aa-92fbcf53809c.png

以文字OCR任务为例,从下图可以看出,MVT v1.5(RICE)的多项分数高于CLIP和SigLIP等模型。

文字OCR任务和全局理解任务:

25c3e510-6957-11f0-a6aa-92fbcf53809c.png

引用分割:

25d64200-6957-11f0-a6aa-92fbcf53809c.png

检测分割任务:

25e81732-6957-11f0-a6aa-92fbcf53809c.png

单目标跟踪任务:

25fcf4ae-6957-11f0-a6aa-92fbcf53809c.png

从技术创新到下游任务,格灵深瞳并非单纯追求学术表现,而是注重技术成果转化应用,通过提升任务表现推动AI在多元场景中真正落地。

MVT v1.5背后的技术团队——格灵深瞳灵感实验室,是国内计算机视觉领域的深耕者。灵感实验室聚焦于视觉及相关模态特征表达与应用,主要研究方向包括:视觉基础大模型、多模态大模型、图文多模态表征、大规模分布式训练等。下一步,团队将锚定视频理解领域,发布最新模型成果。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6233

    浏览量

    108388
  • 模型
    +关注

    关注

    1

    文章

    3531

    浏览量

    50565
  • 格灵深瞳
    +关注

    关注

    1

    文章

    65

    浏览量

    5749

原文标题:请查收一份“高光”研究成果:格灵深瞳Glint-MVT升级,局部和文字特征再增强

文章出处:【微信号:shentongzhineng,微信公众号:格灵深瞳】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    与您相约WAIC 2025

    7月26-29日,2025世界人工智能大会(WAIC)将在上海世博中心和世博展览馆举行。将在第一现场,联合华为昇腾、百度、飞腾等生态合作伙伴,展示金融全系列整体解决方案、墨刃A
    的头像 发表于 07-26 16:14 ?581次阅读

    六篇论文入选ICCV 2025

    近日,国际顶级会议ICCV 2025(计算机视觉国际大会)公布论文录用结果,团队共有6篇论文入选。
    的头像 发表于 07-07 18:23 ?579次阅读

    亮相AICon 2025全球人工智能开发与应用大会

    此前,6月27-28日,由极客邦科技旗下InfoQ中国主办的“AICon全球人工智能开发与应用大会”在北京举办。作为行业领先的视觉AI公司,
    的头像 发表于 07-05 16:15 ?829次阅读

    AI技术助力体育教育事业高质量发展

    随着体育中考分值的提升与政策持续加码,如何突破传统考试模式效率低、公平性争议大、数据管理难等问题,成为教育现代化的关键议题。以自主创新的智慧校园体育解决方案,深度赋能北京市门头
    的头像 发表于 06-04 11:44 ?522次阅读

    亮相Create2025百度AI开发者大会

    近日,Create2025百度AI开发者大会在武汉体育中心圆满落幕,作为全球首个AI开发者大会,Create2025百度AI开发者大会至今已举办6届,持续驱动科技革新,重塑行业格局。
    的头像 发表于 04-29 16:12 ?552次阅读

    与百度智能云达成战略合作,共筑AI算力新基建

    力底座,推动政务、金融、公共安全等领域的智能化升级。 百度智能云泛科技业务部总经理张玮,销售副总裁芦斌代表双方签约,百度集团执行副总
    的头像 发表于 04-27 10:20 ?685次阅读

    入选量子位2025年AIGC双榜单

    4月16日,第三届中国AIGC产业峰会在京召开。大会由量子位主办,以“万物皆可AI”为主题,峰会C位焦点——“2025年值得关注的AIGC企业”与“2025年值得关注的AIGC产品”双榜单正式发布!
    的头像 发表于 04-18 09:20 ?584次阅读

    亮相第三届北京人工智能产业创新发展大会

    有限公司承办。作为国内AI视觉领域的领军企业,受邀参加,并重点展示了自主研发的“
    的头像 发表于 03-04 18:22 ?676次阅读

    受邀参加RWKV社区开发者大会

    和新的发展方向。算法工程师杨铠成受邀参会并发表了《RWKV-CLIP:一个鲁棒的视觉-语言表征学习器》的主题演讲。
    的头像 发表于 02-28 14:02 ?528次阅读

    发布全国产超融合大模型一体机

    近日,人工智能领域的创新者宣布推出全国产化的超融合大模型一体机,该产品在业界引起了广泛关注。这款一体机不仅展现了
    的头像 发表于 02-19 15:37 ?811次阅读

    近期接连斩获8项大奖

    年关将至,喜事连连。凭借前沿的技术产品和行业领先的市场表现,接连斩获八项大奖,持续获得来自政府、行业以及媒体等各界的肯定。
    的头像 发表于 12-26 10:20 ?597次阅读

    列车巡检机器人顺利通过科创课题结题评审

    近日,自研的列车巡检机器人,在西北某铁路局动车段牵头的课题中顺利通过结题评审。凭借领
    的头像 发表于 12-25 09:25 ?690次阅读

    亮相中国铁路兰州局科技创新大会

    近日,中国铁路兰州局集团有限公司科技创新大会在兰州成功召开。作为深耕轨交行业的人工智能公司,受邀参会,并在现场展示了列车巡检机器人、轨道巡检机器人、穿戴式轨交履职解决方案以及视
    的头像 发表于 12-17 16:56 ?640次阅读

    拟控股国科亿道

    近日发布公告,宣布了一项重要的股权投资计划。公司计划通过增资及收购股权的方式,取得深圳市国科亿道科技有限公司的部分股权,从而进一步拓展其业务领域。 具体而言,
    的头像 发表于 11-26 11:00 ?601次阅读

    同时入选科创AI和科创200两大指数

    科创板开市5周年之际,上交所、中证指数公司发布公告,将正式推出上证科创板医疗指数、上证科创板人工智能指数和上证科创板200指数三大科创板指数。(688207.SH)作为“A股A
    的头像 发表于 09-02 17:03 ?1204次阅读