0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

计算机视觉走向何方?参会ICCV的一些感想

CVer ? 来源:Architistics ? 2023-10-08 16:16 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

ICCV结束了。对我来说,这次的highlight就是第一天下午的"Quo vadis, computer vision“ workshop。“Quo vadis"是拉丁语,意思是“我们去向何方“。

四年前的CVPR,也有过一场类似的workshop(Computer Vision After 5 Years),今年这次workshop,主办方也让四年前也在的大佬们回顾了自己当年的predictions,看看谁是大预言家(spoiler: Jitendra Malik)。这场 workshop是我这几年来参加的各种会议里最有意思的。可惜因为听的太投入,并没有很多的图片记录,现在我意识到似乎主办方并不会上传slides。所以这篇文章里我就简单谈谈我自己的一些感想,而不是记录这个会议。

Ignorance or faith on LLM?

今年最火的莫过于LLM。LLM的成功刺激了很多相关的vision research。然而许多的vision-language的研究其实都是基于一种对LLM的faith,而并没有在深入思考这一切的合理性。David Forsyth问道:why would anyone believe that:

Visual knowledge is the same as linguistic knowledge

You can describe the world of an image properly in words

LLMs can do vision (anything)? if you ask nicely.

深入来看,这其实是一个关于vision和language区别的问题。但其实在我看来这些问题都很奇怪,可能因为我自己也觉得这些想法都很absurd。对我来说,更有意思的问题可能是:vision systems的什么knowledge是LLM做不了的,我们又该怎么做?在这里提一个idea,不知道未来有没有机会去好好做:我们有没有可能对稠密的vision空间进行一个approximate decomposition,分解成几个子空间的积?(其中一个子空间就可以是离散的language空间)

Data over algorithms

这个主题是我非常认同的。四年前,我写过一篇文章(Andre:思考无标注数据的可用极限),提出的也是我们要重视数据的研究,而不是算法的研究。今天依然适用。Alyosha Efros这次也再次强调了这个方向的本质性。

需要解释的是,什么是"data research"。并不是说直接去做数据集才是data research,而是说从data层面开始思考模型的有效性,learning process,generalization ability,等等。从这个角度讲,从data中学习知识 (self-supervised learning)是data research,研究如何克服data shift的影响(OOD, open-world)当然也是data research,这里不再赘述了。

Video与视觉大模型

这个主题是今年开始进入我的视野的。年初随着stable diffusion, segment anything model的出现,我们不少人开始思考视觉大模型该是什么形态,我与组里不少同学聊天后的感受就是要做video。在五月份的ICLR时,我与Ben Poole还有3DGP的作者也交流了不少(顺带表示ICLR的参会体验比ICCV好太多了),感受就是现在3D问题大概就是两个思路:1. 希望随着depth camera的引入,会有更多海量的3D data,直接训出3D大模型;2. 希望video大模型直接绕开explicit 3D modeling的需求,建成vision大模型。这次ICCV另一个MMFM上,Vincent Sitzman也提出了一个类似的思路,但是他直接把video和3d modeling结合了起来(然而我并没有特别跟上他讲的东西,希望之后talk能有slides让我再学习学习)。

讲了上面这么多,我就是想说video很可能是我们走向视觉大模型的路。这次quo vadis workshop上,Jitendra的分享主要也是指出video的重要性。他指出:video有两个用处:

Exteroception:建立对外部世界的认识。We build mental models of behavior (physical, social ...) and use them to interpret, predict, and control

Proprioception:建立对自己的认识。Helps produce an episodic memory situated in space and time, and guides action in a context-specific way。

他还给出了一个对video的思考框架,短video对应了movement/physical action,长video对应了goal/intention,而一个完整的action就是movement + goal。

当然,这些都是比较高屋建瓴的观点了。但对于我们这些正在地上爬的人当然还是有好处的。(另外,Jitendra还认为token-based LLM可能不是最终的模型,因为它不能很好地capture 4D world,同时complexity也太高)。

Embodied AI?

最后,可能大家从上面一段论述中也已经能感觉出来了,许多大佬们正把embodied AI作为一个最终的目标。Antonio Torralba给了一个很有意思的talk,说我们是时候要返璞归真,从focus on performance on benchmarks回到"the original goal"。对他来说,这个goal就是embodied AI。有意思的是, Antonio提出的设想是 small network, big sensing,他称作embodied perception。他举了个例子:人光光味蕾上的传感器就比我们现在最先进的机器人身上全部的传感器要多。然而就在第二天的BRAVO workshop上,Wayve的Jamie Shotton给出了完全相反的框架:lightweight sensors + big model。考虑到传感器的价格,Jamie的想法可能现在这个时候是更合适的。不过也许最终Antonio的想法才最make sense。

cfffe6da-65af-11ee-939d-92fbcf53809c.jpg

Antonio的小模型,大感知

d0102ffe-65af-11ee-939d-92fbcf53809c.jpg

Jamie的大模型,小感知

闲话就说到这里了。这次ICCV还是有不少有意思的talks,希望之后能有公开的videos/slides。最后,祝愿各位同仁们都能继续做自己感兴趣的方向,做出令自己满意的工作!

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 计算机视觉
    +关注

    关注

    9

    文章

    1711

    浏览量

    46952
  • 数据集
    +关注

    关注

    4

    文章

    1225

    浏览量

    25631
  • LLM
    LLM
    +关注

    关注

    1

    文章

    329

    浏览量

    926

原文标题:计算机视觉走向何方?参会ICCV的一些感想

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    易控智驾荣获计算机视觉顶会CVPR 2025认可

    近日,2025年国际计算机视觉与模式识别顶级会议(IEEE/CVF Conference on Computer Vision and Pattern Recognition,CVPR 2025)在美国田纳西州纳什维尔召开。
    的头像 发表于 07-29 16:54 ?671次阅读

    自动化计算机经过加固后有什么好处?

    让我们讨论下部署坚固的自动化计算机一些好处。1.温度范围宽自动化计算机经过工程设计,配备了支持宽温度范围的组件,使自动化计算解决方案能够
    的头像 发表于 07-21 16:44 ?198次阅读
    自动化<b class='flag-5'>计算机</b>经过加固后有什么好处?

    格灵深瞳六篇论文入选ICCV 2025

    近日,国际顶级会议ICCV 2025(计算机视觉国际大会)公布论文录用结果,格灵深瞳团队共有6篇论文入选。
    的头像 发表于 07-07 18:23 ?691次阅读

    理想汽车八篇论文入选ICCV 2025

    近日,ICCV 2025(国际计算机视觉大会)公布论文录用结果,理想汽车共有8篇论文入选,其中5篇来自自动驾驶团队,3篇来自基座模型团队。ICCV作为
    的头像 发表于 07-03 13:58 ?469次阅读

    文带你了解工业计算机尺寸

    项艰巨的任务。本博客将指导您了解关键的工业计算机尺寸、使用案例。关键工业计算机外形要素及其使用案例、工业微型PC尺寸范围:宽度:100毫米-180毫米深度:10
    的头像 发表于 04-24 13:35 ?413次阅读
    <b class='flag-5'>一</b>文带你了解工业<b class='flag-5'>计算机</b>尺寸

    Arm KleidiCV与OpenCV集成助力移动端计算机视觉性能优化

    生成式及多模态人工智能 (AI) 工作负载的广泛增长,推动了对计算机视觉 (CV) 技术日益高涨的需求。此类技术能够解释并分析源自现实世界的视觉信息,并可应用于人脸识别、照片分类、滤镜处理及增强现实
    的头像 发表于 02-24 10:15 ?644次阅读

    AR和VR中的计算机视觉

    ):计算机视觉引领混合现实体验增强现实(AR)和虚拟现实(VR)正在彻底改变我们与外部世界的互动方式。即便是在引人入胜的沉浸式
    的头像 发表于 02-08 14:29 ?1658次阅读
    AR和VR中的<b class='flag-5'>计算机</b><b class='flag-5'>视觉</b>

    云端超级计算机使用教程

    云端超级计算机种基于云计算的高性能计算服务,它将大量计算资源和存储资源集中在起,通过网络向
    的头像 发表于 12-17 10:19 ?606次阅读

    工业中使用哪种计算机

    在工业环境中,工控机被广泛使用。这些计算机的设计可承受极端温度、灰尘和振动等恶劣条件。它们比标准消费类计算机更耐用、更可靠。工业计算机可控制机器、监控流程并实时收集数据。其坚固的结构和专业功能
    的头像 发表于 11-29 14:07 ?779次阅读
    工业中使用哪种<b class='flag-5'>计算机</b>?

    量子计算机与普通计算机工作原理的区别

    ? 本文介绍了量子计算机与普通计算机工作原理的区别。 量子计算个新兴的研究领域,科学家们利用量子力学,制造出具有革命性能力的计算机。虽然
    的头像 发表于 11-24 11:00 ?1675次阅读
    量子<b class='flag-5'>计算机</b>与普通<b class='flag-5'>计算机</b>工作原理的区别

    【小白入门必看】文读懂深度学习计算机视觉技术及学习路线

    、什么是计算机视觉计算机视觉,其实就是教机器怎么像我们人样,用摄像头看看周围的世界,然后理
    的头像 发表于 10-31 17:00 ?1330次阅读
    【小白入门必看】<b class='flag-5'>一</b>文读懂深度学习<b class='flag-5'>计算机</b><b class='flag-5'>视觉</b>技术及学习路线

    计算机接口位于什么之间

    地传输。计算机接口可以分为内部接口和外部接口两大类。 内部接口位于计算机内部各个部件之间,如CPU、内存、主板、硬盘、显卡等。外部接口则位于计算机与外部设备之间,如键盘、鼠标、显示器、打印机等。
    的头像 发表于 10-14 14:02 ?1447次阅读

    计算机存储系统的构成

    计算机存储系统是计算机中用于存放程序和数据的设备或部件的集合,它构成了计算机信息处理的基础。个完整的计算机存储系统通常包括多个层次的存储器
    的头像 发表于 09-26 15:25 ?2695次阅读

    简述计算机总线的分类

    计算机总线作为计算机系统中连接各个功能部件的公共通信干线,其结构和分类对于理解计算机硬件系统的工作原理至关重要。以下是对计算机总线结构和分类的详细阐述,内容将涵盖总线的基本概念、内部结
    的头像 发表于 08-26 16:23 ?5387次阅读

    晶体管计算机和电子管计算机有什么区别

    晶体管计算机和电子管计算机作为计算机发展史上的两个重要阶段,它们在多个方面存在显著的区别。以下是对这两类计算机在硬件、性能、应用以及技术发展等方面区别的详细阐述。
    的头像 发表于 08-23 15:28 ?3832次阅读