0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA Nemotron Nano 2推理模型发布

NVIDIA英伟达企业解决方案 ? 来源:NVIDIA英伟达企业解决方案 ? 2025-08-27 12:45 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

NVIDIA 正式推出准确、高效的混合 Mamba-Transformer 推理模型系列NVIDIA Nemotron Nano 2。

aa2d7d4a-824b-11f0-a18e-92fbcf53809c.png

*图中,ISL 与 OSL 分别代表输入和输出序列长度,吞吐量数据均在单颗 NVIDIA GPU 上以 bfloat16 精度测得。

如“NVIDIA Nemotron Nano 2:准确、高效的混合 Mamba-Transformer 推理模型”技术报告所示,推理模型 NVIDIA-Nemotron-Nano-v2-9B 在复杂推理基准测试中,实现了与领先的同规模开源模型 Qwen3-8B 相当乃至更佳的准确率,吞吐量较后者至高提升6倍。

我们在 Hugging Face 上发布了以下三个模型,它们均支持 128K 上下文长度:

NVIDIA-Nemotron-Nano-9B-v2:经过对齐和剪枝的推理模型

NVIDIA-Nemotron-Nano-9B-v2-Base:经过剪枝的基础模型

NVIDIA-Nemotron-Nano-12B-v2-Base:未经过对齐或剪枝的基础模型

数据集

此外,作为行业领先开源模型的首次尝试,我们公开了在预训练中使用的大部分数据。

Nemotron-Pre-Training-Dataset-v1 数据集包含6.6万亿个 Token,涵盖高质量网络爬取、数学、代码、SFT 和多语言问答数据,分为以下四个类别:

Nemotron-CC-v2:基于 Nemotron-CC(Su 等人,2025 年)的后续版本,新增了 2024 至 2025 年间的八个 Common Crawl 快照数据集。数据集经过整体去重处理,并使用 Qwen3-30B-A3B 对其进行了合成重述。此外,该数据集还包含15 种语言的合成多样化问答,可支持强大的多语言逻辑推理和通用知识预训练。

Nemotron-CC-Math-v1:一个以数学为重点的数据集,包含1,330 亿个 Token。该数据集使用NVIDIALynx + LLM 管线从 Common Crawl 中提取数据,在保留方程和代码格式的同时,将数学内容统一标准化为 LaTex 的编辑形式,确保了关键数学内容和代码片段完整无损,生成的预训练数据在基准测试中显著优于现有数学数据集。

Nemotron-Pretraining-Code-v1:基于 GitHub 构建的大规模精选代码数据集。该数据集经过多阶段去重、许可证强制执行和启发式质量检查过滤,包含11 种编程语言的 LLM 生成代码问答对。

Nemotron-Pretraining-SFT-v1:覆盖STEM、学术、逻辑推理和多语言领域的合成生成数据集。该数据集包含复杂的多选题和解析题,这些问题源自高质量数学和科学素材、研究生级的学术文本以及经过指令微调的 SFT 数据(涵盖数学、代码、通用问答和逻辑推理任务)。

Nemotron-Pretraining-Dataset-sample:数据集的精简采样版本,包含10 个代表性子集,内容涵盖高质量问答数据、专注于数学领域的提取内容、代码元数据及 SFT 风格指令数据。

技术亮点

数据集的亮点包括:

Nemotron-CC-Math:通过文本浏览器 (Lynx) 渲染网页并结合大语言模型 (phi-4) 进行后处理,首次实现在大规模网页下正确保留各种数学格式的方程和代码的处理流程(包括长尾格式)。相较于过去基于启发式的方法,这是一次突破性改进。内部预训练实验表明,使用 Nemotron-CC-Math 数据集训练的模型在 MATH 测试上较最强基线提升了 4.8 至 12.6 分,在 MBPP+ 代码生成任务上提升了 4.6 至 14.3 分。

Nemotron-CC-v2:此前研究表明,从高质量英文网页爬取数据生成的合成多样化问答数据,能显著提升大语言模型 (LLM) 通用能力(如 MMLU 等基准测试显示)。在此基础上,我们通过将此数据集翻译成 15 种语言,把这一发现扩展到更多语言。消融实验显示,加入翻译过的多样化问答数据后,Global-MMLU 平均准确率比仅使用多语言 Common Crawl 数据提升了 10.0 分。

Nemotron-Pretraining-Code:除 1,751 亿个高质量合成代码数据 Token 外,我们还发布了元数据,使用户能够复现一个精心整理、宽松授权的代码数据集(规模达 7,474 亿 Token)。

模型的亮点包括:

预训练阶段:Nemotron-Nano-12B-v2-Base 采用Warmup-Stable-Decay 学习率调度器在 20 万亿个 Token 上以 FP8 精度进行预训练。随后,通过持续的预训练长上下文扩展阶段,可在不降低其他基准性能的情况下支持 128k 上下文长度。

后训练阶段:Nemotron Nano 2 通过监督式微调 (SFT)、组相对策略优化 (GRPO)、直接偏好优化 (DPO) 和基于人类反馈的强化学习 (RLHF) 进行后训练。其中约 5% 的数据包含故意截断的逻辑推演,使推理时能够精细控制思考预算。

压缩:最后,我们对基础模型和对齐后的模型进行了压缩,使其能够在单颗 NVIDIA GPU(22 GiB 内存,bfloat16 精度)上实现 128k Token 上下文长度的推理。此结果通过扩展基于 Minitron 的压缩策略以压缩受约束的逻辑推理模型实现。

数据示例

aa4f5924-824b-11f0-a18e-92fbcf53809c.png

示例 1:我们的处理流程能够同时保留数学公式和代码,而之前的预训练数据集通常会丢失或损坏数学公式。

引用

@misc{nvidia2025nvidianemotronnano2,
   title={NVIDIA Nemotron Nano2: An AccurateandEfficient Hybrid Mamba-Transformer Reasoning Model},
   author={NVIDIA},
   year={2025},
   eprint={2508.14444},
   archivePrefix={arXiv},
   primaryClass={cs.CL},
   url={https://arxiv.org/abs/2508.14444},

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5370

    浏览量

    106950
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4990

    浏览量

    132280
  • 模型
    +关注

    关注

    1

    文章

    3560

    浏览量

    50821
  • 数据集
    +关注

    关注

    4

    文章

    1227

    浏览量

    25667

原文标题:NVIDIA Nemotron Nano 2 及 Nemotron 预训练数据集 v1

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    澎峰科技完成OpenAI最新开源推理模型适配

    澎峰科技现已完成 OpenAI 最新开源推理模型 gpt-oss-20b 在 DeepFusion 大模型一体机上的原生适配与优化,用户可一键启用这颗“小而强悍”的新引擎,在本地享受企业级 AI 生产力!
    的头像 发表于 08-14 11:34 ?592次阅读

    利用NVIDIA推理模型构建AI智能体

    开放式推理模型能够更快、更广泛地进行思考,为客户服务、网络安全、制造、物流和机器人等领域的 AI 智能体生成更明智的结果。
    的头像 发表于 08-13 14:32 ?749次阅读
    利用<b class='flag-5'>NVIDIA</b><b class='flag-5'>推理模型</b>构建AI智能体

    企业使用NVIDIA NeMo微服务构建AI智能体平台

    发布的 NeMo 微服务可与合作伙伴平台集成,作为创建 AI 智能体的构建模块,使用商业智能与强大的逻辑推理模型 (包括 NVIDIA Llama Nemotron) 处理更多任务。
    的头像 发表于 04-27 15:05 ?678次阅读

    详解 LLM 推理模型的现状

    领域的最新研究进展,特别是自DeepSeekR1发布后兴起的推理时间计算扩展相关内容。在LLM中实施和改进推理简单来说,基于LLM的推理模型是一种旨在通过生成中间
    的头像 发表于 04-03 12:09 ?709次阅读
    详解 LLM <b class='flag-5'>推理模型</b>的现状

    英伟达GTC25亮点:NVIDIA Dynamo开源库加速并扩展AI推理模型

    DeepSeek-R1 上的吞吐量提高了 30 倍 NVIDIA 发布了开源推理软件 NVIDIA Dynamo,旨在以高效率、低成本加速并扩展 AI 工厂中的 AI
    的头像 发表于 03-20 15:03 ?768次阅读

    NVIDIA 推出开放推理 AI 模型系列,助力开发者和企业构建代理式 AI 平台

    NVIDIA 后训练的全新 Llama Nemotron 推理模型,为代理式 AI 提供业务就绪型基础 埃森哲、Amdocs、Atlassian、Box、Cadence、CrowdStrike
    发表于 03-19 09:31 ?264次阅读
    <b class='flag-5'>NVIDIA</b> 推出开放<b class='flag-5'>推理</b> AI <b class='flag-5'>模型</b>系列,助力开发者和企业构建代理式 AI 平台

    AI大模型在汽车应用中的推理、降本与可解释性研究

    佐思汽研发布《2024-2025年AI大模型及其在汽车领域的应用研究报告》。 推理能力成为大模型性能提升的驱动引擎 2024下半年以来,国内外大模型
    的头像 发表于 02-18 15:02 ?1447次阅读
    AI大<b class='flag-5'>模型</b>在汽车应用中的<b class='flag-5'>推理</b>、降本与可解释性研究

    科大讯飞发布星火深度推理模型X1

    今天,科大讯飞正式发布星火深度推理模型X1,星火4.0 Turbo底座全面升级,首发星火语音同传大模型
    的头像 发表于 01-15 15:54 ?843次阅读

    NVIDIA推出开放式Llama Nemotron系列模型

    作为 NVIDIA NIM 微服务,开放式 Llama Nemotron 大语言模型和 Cosmos Nemotron 视觉语言模型可在任何
    的头像 发表于 01-09 11:11 ?905次阅读

    科大讯飞即将发布讯飞星火深度推理模型X1

    近日,科大讯飞在1月7日成功举办的办公智能体产品升级发布会上,宣布了一项令人振奋的新进展。据科大讯飞官方透露,公司将于1月15日正式对外发布其最新的“讯飞星火深度推理模型X1”。 这一新模型
    的头像 发表于 01-08 10:30 ?837次阅读

    智谱推出深度推理模型GLM-Zero预览版

    近日,智谱公司正式发布了其深度推理模型GLM-Zero的预览版——GLM-Zero-Preview。这款模型标志着智谱在扩展强化学习技术训练推理模型方面的重大突破,成为其首个专注于增强
    的头像 发表于 01-03 10:42 ?609次阅读

    智谱GLM-Zero深度推理模型预览版正式上线

    近日,智谱公司宣布其深度推理模型GLM-Zero的初代版本——GLM-Zero-Preview已正式上线。这款模型是智谱首个基于扩展强化学习技术训练的推理模型,标志着智谱在AI推理领域
    的头像 发表于 01-02 10:55 ?617次阅读

    阿里云发布开源多模态推理模型QVQ-72B-Preview

    近日,阿里云宣布了一项重大技术突破,正式发布了业界首个开源多模态推理模型——QVQ-72B-Preview。这一模型的问世,标志着阿里云在AI技术领域的又一次重要飞跃
    的头像 发表于 12-27 10:28 ?698次阅读

    OpenAI发布新一代推理模型o3及o3-mini

    近日,OpenAI在为期12天的发布会上宣布了新一代推理模型o3及其精简版o3-mini。这两款模型被专门设计用于在回答问题之前进行更深入的思考,以期提高答案的准确性。 据悉,o3模型
    的头像 发表于 12-24 09:29 ?949次阅读

    NVIDIA Nemotron-4 340B模型帮助开发者生成合成训练数据

    Nemotron-4 340B 是针对 NVIDIA NeMo 和 NVIDIA TensorRT-LLM 优化的模型系列,该系列包含最先进的指导和奖励
    的头像 发表于 09-06 14:59 ?824次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Nemotron</b>-4 340B<b class='flag-5'>模型</b>帮助开发者生成合成训练数据