0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

智能体已经能像人一样刷视频了?国内联汇科技OmAgent智能体试用!

新众报 ? 来源:jf_48880855 ? 作者:jf_48880855 ? 2024-11-22 18:59 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

智能体已经能像人一样刷视频了?国内知名大模型独角兽级别公司,资深AI玩家联汇科技退出了OmAgent智能体,已经开启试用。


当你正在观看一部紧张刺激的动作电影,忽然好奇:

“那个角色到底是在哪一集说的那句话?”

“这里的背景音乐是什么?”

又或者在一场足球比赛中,你错过了那个决定性的进球,却又想再次回放。诸如此类的需求,如果仅凭人力寻找,无疑存在极大的工作量。

但是 AI 能够为机器配置双眼与大脑,让它们能够看懂视频、理解剧情,对于普通人来说,这不仅是提高了搜索效率,更是扩展我们与数字世界的互动方式。

英伟达最新发布的 NVIDIA AI Blueprint 希望帮助人们解决这一问题。这是一种预训练的、可自定义 AI 工作流,他为开发者构建和部署用于典型用例的生成式 AI 应用程序提供了一套完整的解决方案。

比如在英伟达提供的试用界面中,你可以选择三个视频片段中的一个进行内容问答

wKgaoWdAZACAAiaPAAEkwiGwqls755.png

在几轮测试过后,我们发现 Blueprint 对视频问答还是有不错的效果的。你可以提问某个事件发生的时间,也可以提问某个对象的状态。
例如当我们提问 “工人在什么时候掉落了箱子”,Blueprint 可以正确的回答出时间区间。二类似于 “叉车往哪个方向开” 这种基于连续过程的问题,Blueprint 也可以轻松应答。
不过对于某些细节,例如 “谁捡起了掉在地上的箱子”,Blueprint 则给出了错误的答案。

wKgZoWdAZACAbe6-AADGVe1SurQ102.png

尤其令人遗憾的是,在试用过程中我们不断遇到流量限制,无限验证等问题,试用体验可以说一言难尽。并且目前 Blueprint 仍然处于早期申请使用制阶段,没有办法快速进行使用。

wKgaoWdAZAGAL0xhAAFFNrr4ZdM801.png

Blueprint 之外,我们还有什么选择?

经过一番搜索和调研,我们在 Github 上发现了 OmAgent 这个项目,这是一个多模态智能体框架,提供了同样强大的视频问答功能。

wKgZoWdAZAGAS8aLAAFgY5obiRk207.png

项目地址:https://github.com/om-ai-lab/OmAgent

OmAgent 是什么

OmAgent 是一个开源的智能体框架,支持简单快速地面向设备进行智能体系统的开发,为智能手机、智能可穿戴设备、智能摄像头乃至机器人等各类硬件设备赋能。OmAgent 为各种类型的设备创建了一个抽象概念,并大大简化了将这些设备与最先进的多模态基础模型和智能体算法相结合的过程,使每个人都能基于设备建立最有趣的 AI 应用。

wKgaoWdAZAKAaM5MAADlcoPXPys526.png

OmAgent 的设计架构遵循三个基本原则:
1. 基于图的工作流编排,支持分支、循环、并行等复杂逻辑操作;2. 原生多模态,提供对音视图文等多种模态数据的支持;3. 设备中心化,提供便捷的设备连接和交互方法。
简单来说,开发者可以基于 OmAgent 设计开发基于图工作流编排的面向设备的原生多模态智能体。这里的设备不光包含智能手机,智能可穿戴设备(智能眼镜等),智能家居,还包括命令行以及 web 端,开发者只需要专注于智能体本身,而不用分神处理设备。
OmAgent 项目里提供了 6 个示例项目,由浅入深展示了如何搭建一个智能体的完整过程,其中视频理解智能体工作流被 EMNLP 2024 主会收录,实现了和 Blueprint Demo 相似的功能。


OmAgent 表现如何?


根据项目文档只需要进行简单的配置就可以将 OmAgent 部署运行在本地环境。我们首先对 Blueprint 提供的测试视频进行预处理,在这个阶段视频会被分解为若干个片段,每个片段会被大模型进行总结,并向量化存储在数据库中。接下来使用之前的问题对 OmAgent 进行测试,可以看到智能体可以正确定位事件以及发生的时间。
Q: When did the worker drop the box?

A:

wKgZoWdAZAOAD3bnAAFzkSYaMrs552.png

Q: Which direction did the forklift go?

A:

wKgaoWdAZAOASgm2AAGehcmUwq4016.png


Q: Who picked up the box that fell on the ground?

A:

wKgZoWdAZAOARBJBAADmjQr1png710.png

接下来我们进行更复杂的测试,OmAgent 可以支持音频信息以及超长视频索引。我们选取了最近大火的剧集《双城之战》第二季第一集作为素材,基于其中的画面和剧情进行提问。
Q: 凯特琳收到的钥匙代表了什么?

A:

wKgaoWdAZASAcdA1AAEdrKqU-UI948.png


Q: 凯特琳和蔚在争执些什么?

A:

wKgZoWdAZASAV-WbAAFZb73r65Q400.png

Q: 视频最后几个议员在讨论什么?

A:

wKgaoWdAZASATh9wAAEBsHz15Rs437.png


Q: 议员开会的时候谁闯入了进来?

A:

wKgZoWdAZAWARw98AAFgj5fdgO8724.png

可以看到,即使面对如此复杂的视频素材,OmAgent 依然可以游刃有余。
除了视频问答之外,OmAgent 的最大特点是可以将智能体直接应用在硬件设备上,我们也对此进行了测试。使用项目提供的 app,我们可以运行示例项目中的穿衣搭配推荐智能体。智能体会根据你的需求,以及你已有的衣橱信息,为你推荐合适的穿衣建议。在这个过程中智能体会和用户进行多轮沟通以确定用户需求,并最终返回最合适的搭配。

如果想了解更多OmAgent智能体技术信息,可以通过联汇科技官网联系!

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 智能体
    +关注

    关注

    1

    文章

    329

    浏览量

    11172
  • 大模型
    +关注

    关注

    2

    文章

    3230

    浏览量

    4223
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    STM32一样轻松玩转MPU】睿擎SDK V1.1.0重磅升级:内核性能与开发能力双重突破

    睿擎工业平台是为工业场景设计的软硬件一体化开发方案,全栈自主可控,赋客户聚焦核心业务创新,开发效率提升70%,STM32一样玩转MPU。平台整合
    的头像 发表于 08-06 18:45 ?3314次阅读
    【<b class='flag-5'>像</b>STM32<b class='flag-5'>一样</b>轻松玩转MPU】睿擎SDK V1.1.0重磅升级:内核性能与开发能力双重突破

    天吃透条产业链:具身智能(AI+机器

    伙伴,它可不只是手机里的智能助手那样,只能在屏幕上跟你交流。这个机器是有实体的,它能一样
    的头像 发表于 06-19 09:21 ?543次阅读
    <b class='flag-5'>一</b>天吃透<b class='flag-5'>一</b>条产业链:具身<b class='flag-5'>智能</b>(AI+机器<b class='flag-5'>人</b>)

    【「零基础开发AI Agent」阅读体验】操作实战,开发个编程助手智能

    . 首先要理解智能的相关概念 ,比如角色,限定,技能:包括插件等,知识:包括知识库,文档等等. 创建步骤: 二.创建智能: 预览和
    发表于 05-27 11:16

    从感知到运控:具身智能机器控制器的双脑协同设计与场景适配

    ,则是协调全身的“大脑”与“小脑”,既要大脑一样思考决策,又要小脑一样精准控制运动。作为具身智能机器
    的头像 发表于 05-11 17:42 ?474次阅读
    从感知到运控:具身<b class='flag-5'>智能</b>机器<b class='flag-5'>人</b>控制器的双脑协同设计与场景适配

    学习智能开发

    智能是大模型的应用落地,正在学习中,这本书太及时,非常想看看。
    发表于 03-27 15:48

    Stm32CubeIDEKeil一样指定不同文件下的代码编译到不同的FLASH地址吗?

    Stm32CubeIDEKeil一样指定不同文件下的代码编译到不同的FLASH地址吗?比如部分代码存放到内部FLASH,另部分存放到外部QSPI的FLASH中
    发表于 03-07 08:09

    为什么要费这么大劲让机器人像一样,而不是更实用的形态?

    基础设施兼容性 :人类社会的物理环境(楼梯、门把手、工具、家具等)是为人体结构和动作设计的。人形机器更容易直接融入这些环境,无需大规模改造基础设施。 操作便利性 :人形机器可以人类一样
    的头像 发表于 02-10 10:03 ?494次阅读

    【「具身智能机器系统」阅读体验】+两本互为支持的书

    之极。 《计算机视觉之PyTorch数字图像处理》为《具身智能机器系统》提供感知和识别能力,而《具身智能机器系统》则为《计算机视觉之P
    发表于 01-01 15:50

    【「具身智能机器系统」阅读体验】1.初步理解具身智能

    影响与发展,提供全球及国内行业趋势的见解。书中详细讨论新兴领域面临的诸多挑战,从应用的不确定性、昂贵的成本到伦理问题,为读者呈现了当前形势的现实视角。 接下来,书中深入探讨了具
    发表于 12-28 21:12

    【「具身智能机器系统」阅读体验】+初品的体验

    解决许多技术的和非技术的挑战,如提高智能的自主性、处理复杂环境互动的能力及确保行为的伦理和安全性。 未来的研究需要将视觉、语音和其他传感技术与机器技术相结合,以探索更加先进的知识表示和记忆模块,利用强化学习进
    发表于 12-20 19:17

    《具身智能机器系统》第1-6章阅读心得之具身智能机器系统背景知识与基础模块

    Intelligence)这概念有深入理解。本书开篇和大部分书籍文章一样,都是立足宏观角度,先把视角引申到世界经济形势。书中阐述具身智能机器
    发表于 12-19 22:26

    AI智能是什么_AI智能如何重塑企业业务流程

    AI技术的飞速发展令人瞩目。就在企业领导者们刚开始熟悉AI助手时,AI智能Agent(国际版)已经迅速成为讨论的焦点。它们之所以受到广泛关注,是因为正如每位员工都将配备AI助手一样
    的头像 发表于 12-19 17:55 ?989次阅读

    封装一样的磁棒电感通用吗

    电子发烧友网站提供《封装一样的磁棒电感通用吗.docx》资料免费下载
    发表于 10-28 11:15 ?0次下载

    如何让智能客服真人一样对话?容联七陌揭秘:多Agent大模型

    科技云报到原创。 ? ? 经历多年的“答非所问”、“问三不知”,很多人已经厌倦所谓的“智能客服”。哪怕是技术
    的头像 发表于 09-26 18:41 ?864次阅读
    如何让<b class='flag-5'>智能</b>客服<b class='flag-5'>像</b>真人<b class='flag-5'>一样</b>对话?容联七陌揭秘:多Agent大模型