0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌Gemma 3n模型的新功能

谷歌开发者 ? 来源:谷歌开发者 ? 作者:谷歌开发者 ? 2025-07-25 10:16 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

作者 / 资深开发者关系工程师 Omar Sanseviero 和高级开发者关系工程师 Ian Ballantyne

从第一个 Gemma 模型于去年年初推出以来,已逐渐发展为生机勃勃的 Gemmaverse 生态系统,累计下载量突破 1.6 亿。这个生态系统包括十余款专业模型系列,涵盖从安全防护到医疗应用的各领域。其中,最令人振奋的是来自社区的无数创新。从像 Roboflow 这样的创新者构建的企业级计算机视觉,到东京科学研究所创建的高性能日语 Gemma 变体,各位的作品为我们指明了未来的发展路径。

乘此发展势头,我们宣布 Gemma 3n 现已全面发布。虽然预览版已先行展示了一些功能,但这一移动设备优先的架构现在能够发挥出全部的潜能。Gemma 3n 为帮助塑造了 Gemma 的开发者社区而生。包括 Hugging Face Transformers、llama.cpp、Google AI Edge、Ollama 和 MLX 在内,您熟悉和惯用的多种工具都支持该模型,让您能轻松针对特定的设备端应用进行微调和部署。本篇文章将以开发者视角深入探索,介绍 Gemma 3n 背后的一些创新,分享新的基准测试结果,并向您展示如何立即开始构建。

Gemma 3n 的新功能

Gemma 3n 代表了设备端 AI 的重大进步,为边缘设备带来了强大的多模态功能;过去,这些性能仅在去年基于云端的一些前沿模型中有所展现。

多模态设计: Gemma 3n 原生支持图像、音频视频和文本输入以及文本输出。

针对设备端优化: Gemma 3n 模型的设计以效率为重点,基于有效参数提供两种尺寸: E2B 和 E4B。虽然其原始参数数量分别为 5B 和 8B,但凭借架构创新,它们能够以媲美传统 2B 和 4B 模型的内存占用运行,E2B 仅需 2GB 内存、E4B 仅需 3GB 内存即可运行。

突破性架构: Gemma 3n 的核心特征包括新颖的组件,如用于计算灵活性的 MatFormer 架构、用于内存效率的逐层嵌入 (PLE)、用于架构效率的 LAuReL 和 AltUp,以及针对设备端用例优化的全新音频编码器和基于 MobileNet-v5 的视觉编码器。

改进的质量: Gemma 3n 在多语言 (支持 140 种语言的文本和 35 种语言的多模态理解)、数学、编码和推理方面的质量均有提升。E4B 版本的 LMArena 得分超过 1,300,是首个达到该基准且参数低于 100 亿的模型。

wKgZPGiC6RqAZHlOAAE0zEObCeQ630.png

有效

https://developers.googleblog.com/zh-hans/introducing-gemma-3n-developer-guide/

要实现这种设备端性能的飞跃,需要从零开始,对模型进行颠覆性的重新构思和设计,其基础是 Gemma 3n 独特的移动设备优先架构,而这一切都源于 MatFormer。

MatFormer:

一个模型,多种尺寸

Gemma 3n 的核心是 MatFormer (Matryoshka Transformer) 架构,这是一种专为弹性推理而构建的新型嵌套式 Transformer。您可以把它想象成俄罗斯套娃: 一个更大的模型包含着更小、功能齐全的自身版本。这种方法将 Matryoshka 表征学习的概念从嵌入层扩展到所有 Transformer 组件。

wKgZPGiC6RqAdNMqAADOZEWTjxw758.jpg

MatFormer

https://arxiv.org/abs/2310.07707

Matryoshka 表征学习

https://huggingface.co/papers/2205.13147

如上图所示,在对 4B 有效参数 (E4B) 模型进行 MatFormer 训练期间,2B 有效参数 (E2B) 子模型在其内部同时得到优化。这在当下为开发者提供了两种强大的功能和用例:

预提取的模型: 您可以直接下载并使用主 E4B 模型以获得最高级的功能,也可以使用我们已经为您提取的独立 E2B 子模型,获得主模型 2 倍的推理速度。

使用混合匹配 (Mix-n-Match) 自定义调整尺寸: 为了更精细地控制以适应特定的硬件限制,您可以使用我们称之为 "混合匹配" 的方法,创建介于 E2B 和 E4B 之间的各种自定义尺寸模型。此技术允许您精确切分 E4B 模型的参数,主要是通过调整每层前馈网络隐藏维度 (从 8,192 到 16,384) 并选择性地跳过某些层来实现。我们即将发布 MatFormer Lab,该工具可演示如何检索这些最优模型,这些模型是在 MMLU 等基准测试中通过评估多种配置组合而筛选出来的。

wKgZO2iC6RqACFvvAAHDy39rnoU565.png

△ 不同模型尺寸的预训练 Gemma 3n 检查点的 MMLU 分数 (使用混合匹配)

MatFormer Lab

https://goo.gle/gemma3n-matformer-lab

展望未来,MatFormer 架构也为弹性执行铺平了道路。虽然这项能力并非本次发布实现的一部分,但它允许单个部署的 E4B 模型在 E4B 和 E2B 推理路径之间动态切换,从而根据当前任务和设备负载,实时优化性能和内存用量。

逐层嵌入 (PLE):

解锁更高的内存效率

Gemma 3n 模型包含逐层嵌入 (PLE)。这项创新专为设备端部署量身定制,它在不增加设备加速器 (GPU/TPU) 所需的高速内存占用量的情况下,显著提升了模型质量。

虽然 Gemma 3n E2B 和 E4B 模型的总参数量分别为 5B 和 8B,但逐层嵌入 (PLE) 技术却能让这些参数中的很大一部分 (即与各层相关的嵌入),在 CPU 上高效地加载和计算。这意味着通常在更为受限的加速器内存 (VRAM) 中,只需加载核心 Transformer 权重 (E2B 约为 2B,E4B 约为 4B)。

wKgZO2iC6RqAPx6QAADQ1da-Bno417.jpg

△ 使用逐层嵌入,您可以在加速器中仅加载约 2B 参数的情况下使用 Gemma 3n E2B

KV 缓存共享:

更迅速的长上下文处理

对于诸多先进的设备端多模态应用而言,处理长输入 (例如源自音频和视频流的连续序列) 至关重要。Gemma 3n 引入了 KV 缓存共享功能,旨在极大缩短流式响应应用的首个 token 生成时间。

KV 缓存共享优化了模型处理初始输入阶段 (通常称为 "预填充" 阶段) 的方式。将局部注意力和全局注意力中间层的键 (Keys) 和值 (Values) 直接与所有顶层共享,与 Gemma 3 4B 相比,预填充性能显著提升了 2 倍。这意味着该模型可以比以前更快地注入和理解冗长的提示序列。

音频理解:

语音转文本和翻译功能

Gemma 3n 使用基于通用语音模型 (USM) 的高级音频编码器。编码器为每 160ms 的音频生成一个 token (约每秒 6 个 tokens),然后将其作为输入集成到语言模型中,从而为模型提供高度精细的声音上下文表征。

通用语音模型

https://arxiv.org/abs/2303.01037

这种集成的音频功能解锁了设备端开发的多种关键特性,包括:

自动语音识别 (ASR): 直接在设备端实现高质量的语音转文字。

自动语音翻译 (AST): 将口语翻译成另一种语言的文本。

我们观察到,对于英语和西班牙语、法语、意大利语及葡萄牙语之间的翻译,AST 的表现尤为出色,为针对这些语言的应用开发者提供了巨大潜力。对于语音翻译等任务,利用思维链提示可以显著改进结果。以下是一个示例:

```

user

Transcribe the following speech segment in Spanish, then translate it into English:

model

```

截至文章发布时,Gemma 3n 编码器可处理长达 30 秒的音频片段。然而,这并不是一个根本上的限制。底层的音频编码器是一种流式编码器,通过额外的长篇格式音频训练,编码器可以处理任意长度的音频。后续实现将解锁延迟更低、时间更长的流媒体应用。

MobileNet-V5:

最先进的全新视觉编码器

除了集成的音频功能外,Gemma 3n 还配备了全新的高效视觉编码器 MobileNet-V5-300M,可为边缘设备上的多模态任务提供最先进的性能。

MobileNet-V5 旨在为受限的硬件赋予灵活性和强大功能,为开发者提供:

支持多种输入分辨率: 原生支持 256x256、512x512 和 768x768 像素的分辨率,让您可以根据特定应用需求平衡性能和细节。

广泛的视觉理解力: 该功能采用海量的多模态数据集协同训练,擅长各种图像和视频理解任务。

高吞吐量: 在 Google Pixel 上每秒处理帧数高达 60 帧,实现设备端实时视频分析和交互式体验。

这种性能水平是通过多项架构创新实现的,包括:

MobileNet-V4 模块的先进基础 (包括通用倒置瓶颈和移动 MQA)。

显著扩展的架构,采用混合深度金字塔模型,其规模是最大的 MobileNet-V4 变体的 10 倍。

一种新型的多尺度融合 VLM 适配器,可优化 token 质量,以提高准确性和效率。

得益于新颖的架构设计和先进的蒸馏技术,MobileNet-V5-300M 在 Gemma 3 中的性能大大优于基准 SoViT (使用 SigLip 训练,无蒸馏)。在 Google Pixel Edge TPU 上,该编码器在有量化情况下提速 13 倍 (无量化时为 6.5 倍),所需参数减少 46%,内存占用减少为原来的 1/4,同时在视觉-语言任务上的准确性显著提升。

我们很期待与大家分享该模型的更多研发工作,后续即将发布的 MobileNet-V5 技术报告将深入探讨模型架构、数据扩展策略和先进的蒸馏技术。

与社区共建

我们始终将 Gemma 3n 的易用性放在首位,也非常荣幸能与众多杰出的开源开发者合作,确保模型能在多个热门工具和平台得到广泛支持,其中包括来自 AMD、Axolotl、Docker、Hugging Face、llama.cpp、LMStudio、MLX、NVIDIA、Ollama、RedHat、SGLang、Unsloth 和 vLLM 等团队的贡献。

这个生态系统仅仅是开始,这项技术的真正价值在于用它构建的成果。正因如此,我们推出了 "Gemma 3n 挑战赛",使用 Gemma 3n 独特的 On-Device、离线和多模态能力,打造一款造福世界的产品。即刻参与挑战赛,提交引人注目的视频介绍,并通过精妙的演示展现产品的现实影响力,就有机会赢取 15 万美元的奖金和精美礼品!欢迎加入挑战,共创美好未来。

开始使用 Gemma 3n

准备好即刻探索 Gemma 3n 的潜力了吗?请查收以下攻略:

直接体验: 只需点击几下,即可使用 Google AI Studio 试用 Gemma 3n。Gemma 模型也可以直接从 AI Studio 部署到 Cloud Run。

下载模型: 在 Hugging Face 和 Kaggle 上查找模型权重。

学习&集成: 深入了解我们的综合文档,快速将 Gemma 集成到您的项目中,或从我们的推理和微调指南开始入门。

使用您青睐的设备端 AI 工具构建,包括 Google AI Edge Gallery/LiteRT-LLM、Ollama、MLX、llama.cpp、Docker 和 transformers.js 等。

使用您喜爱的开发工具: 利用您偏好的工具和框架,包括 Hugging Face Transformers 和 TRL、NVIDIA NeMo Framework、Unsloth 和 LMStudio。

随心部署: Gemma 3n 提供多种部署选项,包括 Google GenAI API、Vertex AI、SGLang、vLLM 和 NVIDIA API Catalog。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 计算机
    +关注

    关注

    19

    文章

    7679

    浏览量

    90981
  • AI
    AI
    +关注

    关注

    88

    文章

    35476

    浏览量

    281223
  • 模型
    +关注

    关注

    1

    文章

    3531

    浏览量

    50565

原文标题:深入了解 Gemma 3n: 创新的设备端 AI 模型

文章出处:【微信号:Google_Developers,微信公众号:谷歌开发者】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA RTX AI加速FLUX.1 Kontext现已开放下载

    NVIDIA RTX 与 NVIDIA TensorRT 现已加速 Black Forest Labs 的最新图像生成和编辑模型;此外,Gemma 3n 现可借助 RTX 和 NVIDIA Jetson 加速运行。
    的头像 发表于 07-16 09:16 ?469次阅读

    谷歌Gemma 3n预览版全新发布

    Gemma 3Gemma 3 QAT 的成功发布之后,我们的先进开放模型系列具备了在单一云端或桌面加速器上运行的能力,我们正在进一
    的头像 发表于 06-26 17:18 ?431次阅读

    树莓派5上的Gemma 2:如何打造高效的边缘AI解决方案?

    从数学基础到边缘实现,研究团队:Conecta.ai(ufrn.br)摘要1.引言2.GEMMA2:通用集成机器模型算法2.1模型架构2.2预训练2.3后训练3.边缘AI实现1.引言
    的头像 发表于 06-20 16:57 ?883次阅读
    树莓派5上的<b class='flag-5'>Gemma</b> 2:如何打造高效的边缘AI解决方案?

    Google Gemma 3开发者指南

    自首次推出以来,Gemma 模型的下载量已超过 1 亿次,社区为各种用例创建了超过 60,000 个变体1。我们很高兴推出 Gemma 3,这是 G
    的头像 发表于 04-08 10:50 ?388次阅读
    Google <b class='flag-5'>Gemma</b> <b class='flag-5'>3</b>开发者指南

    Google发布最新AI模型Gemma 3

    Gemma 开放模型系列是 Google 推动实用 AI 技术普惠大众的重要基石。上个月,Gemma 迎来了首个生日。回望过去一年,其成果斐然:全球下载量突破 1 亿,社区欣欣向荣,衍生模型
    的头像 发表于 03-18 09:51 ?905次阅读

    在龙芯3a6000上部署DeepSeek 和 Gemma2大模型

    run deepseek-r1:1.5b 3.运行Gemma 2大模型 如果想体验 Google Gemma 2 可以到下面的网站选择不同参数的大
    发表于 02-07 19:35

    亚马逊云科技发布Amazon Bedrock新功能

    近日,亚马逊云科技宣布了一项重要更新——为其完全托管的Amazon Bedrock服务增添了多项创新功能。Amazon Bedrock旨在通过高性能基础模型,助力用户轻松构建并扩展生成式人工智能
    的头像 发表于 12-25 15:52 ?509次阅读

    亚马逊云科技发布Amazon S3新功能

    近日,亚马逊云科技宣布了一项重大更新,为其旗舰产品Amazon Simple Storage Service(简称Amazon S3)推出了全新功能。这一创新之举使得Amazon S3成为首个完全
    的头像 发表于 12-20 11:03 ?649次阅读

    谷歌发布Gemini 2.0 AI模型

    下文处理技术,能够更有效地支持用户在学术及专业领域进行深入研究。这一新功能的推出,将为用户在探索复杂问题时提供更为精准和全面的帮助。 目前,Gemini 2.0 Flash体验版已经对所有Gemini用户开放。同时,谷歌还推出了更为强大的Gemini Advanced版本
    的头像 发表于 12-12 10:13 ?690次阅读

    荣耀手机新增谷歌Circle to Search功能

    近日,全球知名科技品牌荣耀宣布,在其旗舰智能手机HONOR Magic V3及HONOR 200系列上,正式推出谷歌(Google)Circle to Search功能。这一创新功能
    的头像 发表于 10-17 18:16 ?1219次阅读

    谷歌全新推出开放式视觉语言模型PaliGemma

    这种热烈的反响非常鼓舞人心,开发者们打造了一系列多样的项目,例如用于印度语言的多语言变体 Navarasa,以及设备端侧动作模型 Octopus v2。开发者们展示了 Gemma 在打造极具影响力且易于使用的 AI 解决方案方面的巨大潜力。
    的头像 发表于 10-15 17:37 ?777次阅读

    Zigbee 3.0的新功能

    电子发烧友网站提供《Zigbee 3.0的新功能.pdf》资料免费下载
    发表于 09-26 10:45 ?4次下载
    Zigbee 3.0的<b class='flag-5'>新功能</b>

    谷歌Android 15 Beta 3新功能

    从近期发布的 Beta 3 开始,Android 15 达成了平台稳定性里程碑版本,这意味着开发者 API 和所有面向应用的行为都已是最终版本,您可以查阅它们并将其集成到您的应用中,并且针对
    的头像 发表于 09-09 15:55 ?884次阅读

    谷歌推出效率与性能跃阶的全新开放模型标准

    AI 有可能解决人类面临的一些最紧迫的问题,但前提是每个人都拥有构建 AI 的工具。这就是我们在今年早些时候推出 Gemma 的原因,Gemma 是一系列轻量级开放模型系列,采用了与创建
    的头像 发表于 09-09 15:43 ?809次阅读
    <b class='flag-5'>谷歌</b>推出效率与性能跃阶的全新开放<b class='flag-5'>模型</b>标准

    Google Gemma 2模型的部署和Fine-Tune演示

    Google 近期发布了最新开放模型 Gemma 2,目前与同等规模的开放模型相比,取得了明显的优势,同时在安全可控性上得到了显著的增强。
    的头像 发表于 08-09 17:04 ?1347次阅读
    Google <b class='flag-5'>Gemma</b> 2<b class='flag-5'>模型</b>的部署和Fine-Tune演示