0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

阿里国际基于Gemma开放模型探索多模态应用

谷歌开发者 ? 来源:谷歌开发者 ? 2025-06-11 10:04 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

作者 / 开发者品牌和声誉营销部 Francesca Di Felice

阿里巴巴集团是一家全球化的科技公司,其目标简单而明确:让天下没有难做的生意。自 1999 年以来,该集团创建了一系列工具和基础设施来支持中小企业。如今,阿里国际运营着全球规模最大的零售商业业务之一。

阿里巴巴为其连接全球买家和供应商的国际电子商务平台构建了一系列多模态大模型 (MLLM)。这个名为 Ovis 的模型系列能够感知和理解视觉信息,允许用户输入图像或视频请求并获得文本输出结果。其性能最佳的模型之一Ovis1.6-Gemma2-9B是基于 Gemma 构建的。

挑战

阿里巴巴的开发者希望为公司的国际电子商务平台创建一个有效的多模态大模型,但在寻找一个能够胜任多种任务且易于集成的基础模型时遇到了困难。在对现有开放模型进行初步实验时,团队发现这些模型在多模态推理和文本生成等关键领域存在多种性能差距。

经过全面测试,Gemma 2 的指令调优 9B 参数模型 (gemma-2-9b-it) 展现出最佳的综合性能,具备卓越的指令遵循能力和强大的文本生成能力。它在数学和编程等语言任务方面的优势使其成为多模态模型的理想基础。然而,无缝集成视觉和文本嵌入又增加了任务的复杂度。团队需要创新,以确保模型能够在基于图像的产品发布等关键业务应用中高效运行。

Gemma 在通用语言任务上表现尤为出色,特别是在数学和编程方面。我们利用 Gemma 的语言能力来提升我们在多模态任务上的表现。

解决方案

使用gemma-2-9b-it作为 Ovis 的基础语言模型,为构建多模态架构奠定了坚实的基础,弥补了视觉和文本输入之间的差距。Ovis 采用独特的方法:首先,它将连续的视觉特征转换为概率性的视觉令牌 (Token)。然后,通过加权索引,Ovis 将这些令牌组装成视觉嵌入。在此基础上,Gemma 的 Transformer 架构将这些嵌入与文本输入集成,确保多模态数据无缝流动。

Gemma 2 在数学和逻辑方面的优势显著提升了 Ovis 在推理和理解任务上的能力,使阿里巴巴团队能够将这一新模型部署到各种业务运营中。例如,阿里国际数字商业平台用户现在可以使用 Ovis 根据产品图像来识别产品类别和属性或添加标签。这大大减少了手动输入的需求,让用户能够更高效地创建商品详情。

Ovis 的功能还扩展到了其他使用场景,如检测文本与图像之间的一致性问题、评估图像质量以及生成结构化输出。这些功能彰显了 Ovis 的多功能性及其适应各种任务的能力。

影响

Ovis 显著改进了阿里国际数字商业平台上的产品生产工作流程,并在推理过程中展现出卓越的效率,为多模态 AI 设定了新的标准。自发布以来,Ovis 已在 GitHub、Hugging Face、Model Scope 和 OpenCompass 等平台上获得了广泛的认可和应用,甚至在 Hugging Face 首页获得推荐展示。

未来计划

阿里巴巴计划优化并扩展 Ovis 系列以适应新的应用场景,同时与其他开发者和社区分享团队的研究成果和见解,推动创新。

扩展产品系列

阿里巴巴希望引入更多样化的新型 Ovis 模型,以满足更多业务需求,例如为资源有限的团队提供较小规模的模型。开发团队基于 gemma-2-27b 模型发布了30B 参数版本,并且已经在为未来的迭代做准备。

新用例

基于社区反馈,阿里巴巴将改进 Ovis 系列的光学字符识别、视觉理解和通用多模态理解能力,为用户提供更多使用模型的方式。团队还计划利用模型出色的图像-文本理解能力,在 Ovis 中加入照片分析、健身指导和美容建议等功能。

知识共享

阿里巴巴致力于与更广泛的 AI 社区分享研究成果。团队希望推动多模态技术领域中研究人员和开发者之间的协作与创新,进一步巩固 Ovis 作为全球商业变革性工具的地位。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    88

    文章

    35476

    浏览量

    281297
  • 阿里巴巴
    +关注

    关注

    7

    文章

    1638

    浏览量

    48286
  • 模型
    +关注

    关注

    1

    文章

    3531

    浏览量

    50578

原文标题:Gemmaverse 开发者故事 | 阿里国际基于 Gemma 开放模型探索多模态应用

文章出处:【微信号:Google_Developers,微信公众号:谷歌开发者】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    商汤日日新SenseNova融合模态模型 国内首家获得最高评级的大模型

    近日,中国信息通信研究院(以下简称“中国信通院”)完成可信AI模态模型首轮评估。 商汤日日新SenseNova融合模态模型在所有
    的头像 发表于 06-11 11:57 ?753次阅读

    爱芯通元NPU适配Qwen2.5-VL-3B视觉模态模型

    熟悉爱芯通元NPU的网友很清楚,从去年开始我们在端侧模态模型适配上一直处于主动紧跟的节奏。先后适配了国内最早开源的模态大模MiniCP
    的头像 发表于 04-21 10:56 ?1616次阅读
    爱芯通元NPU适配Qwen2.5-VL-3B视觉<b class='flag-5'>多</b><b class='flag-5'>模态</b>大<b class='flag-5'>模型</b>

    海康威视发布模态模型AI融合巡检超脑

    基于海康观澜大模型技术体系,海康威视推出新一代模态模型AI融合巡检超脑,全面升级人、车、行为、事件等算法,为行业带来全新的
    的头像 发表于 04-17 17:12 ?897次阅读

    Google Gemma 3开发者指南

    自首次推出以来,Gemma 模型的下载量已超过 1 亿次,社区为各种用例创建了超过 60,000 个变体1。我们很高兴推出 Gemma 3,这是 Gemma
    的头像 发表于 04-08 10:50 ?388次阅读
    Google <b class='flag-5'>Gemma</b> 3开发者指南

    Google发布最新AI模型Gemma 3

    Gemma 开放模型系列是 Google 推动实用 AI 技术普惠大众的重要基石。上个月,Gemma 迎来了首个生日。回望过去一年,其成果斐然:全球下载量突破 1 亿,社区欣欣向荣,衍
    的头像 发表于 03-18 09:51 ?908次阅读

    海康威视发布模态模型文搜存储系列产品

    模态模型为安防行业带来重大技术革新,基于观澜大模型技术体系,海康威视将大参数量、大样本量的图文模态
    的头像 发表于 02-18 10:33 ?735次阅读

    在龙芯3a6000上部署DeepSeek 和 Gemma2大模型

    run deepseek-r1:1.5b 3.运行Gemma 2大模型 如果想体验 Google Gemma 2 可以到下面的网站选择不同参数的大模型https://ollama.
    发表于 02-07 19:35

    智谱 GLM-PC 开放体验,模态 Agent 升级

    1月23日,北京智谱华章科技有限公司宣布旗下智谱GLM-PC开放体验,标志着自主操作电脑的模态Agent迎来重要升级。 GLM-PC是基于智谱
    的头像 发表于 01-24 14:10 ?867次阅读

    阿里云发布开源模态推理模型QVQ-72B-Preview

    近日,阿里云宣布了一项重大技术突破,正式发布了业界首个开源模态推理模型——QVQ-72B-Preview。这一模型的问世,标志着
    的头像 发表于 12-27 10:28 ?648次阅读

    商汤日日新模态模型权威评测第一

    刚刚,商汤科技日日新SenseNova模态模型,在权威综合评测权威平台OpenCompass的模态评测中取得榜单第一。
    的头像 发表于 12-20 10:39 ?1069次阅读

    一文理解模态大语言模型——下

    /understanding-multimodal-llms ? 《一文理解模态大语言模型 - 上》介绍了什么是模态大语言
    的头像 发表于 12-03 15:18 ?643次阅读
    一文理解<b class='flag-5'>多</b><b class='flag-5'>模态</b>大语言<b class='flag-5'>模型</b>——下

    利用OpenVINO部署Qwen2模态模型

    模态模型的核心思想是将不同媒体数据(如文本、图像、音频和视频等)进行融合,通过学习不同模态之间的关联,实现更加智能化的信息处理。简单来说,
    的头像 发表于 10-18 09:39 ?1326次阅读

    阿里国际发布翻译大模型Marco

    近日,阿里国际正式推出了其翻译大模型——Marco。这款模型已在阿里国际AI官网Aidge上线,
    的头像 发表于 10-17 16:07 ?756次阅读

    云知声推出山海模态模型

    在人工智能技术的浩瀚星海中,模态交互技术正成为引领未来的新航标。继OpenAI的GPT-4o掀起滔天巨浪后,云知声以创新之姿,推出了其匠心独运的山海模态
    的头像 发表于 08-27 15:20 ?655次阅读

    Google Gemma 2模型的部署和Fine-Tune演示

    Google 近期发布了最新开放模型 Gemma 2,目前与同等规模的开放模型相比,取得了明显的优势,同时在安全可控性上得到了显著的增强。
    的头像 发表于 08-09 17:04 ?1347次阅读
    Google <b class='flag-5'>Gemma</b> 2<b class='flag-5'>模型</b>的部署和Fine-Tune演示