0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

DeepSeek最新论文:训练速度提升9倍,推理速度快11倍!

Hobby观察 ? 来源:电子发烧友 ? 作者:梁浩斌 ? 2025-02-20 11:25 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

电子发烧友网报道(文/梁浩斌)周二xAI发布了Grok3,这个马斯克称之为“地球上最聪明的AI”抢占了所有人的眼球。

为了打造最强AI大模型,xAI投入了20万块H100 GPU,计算资源是上一代Grok2的15倍左右。在Benchmarks中,Grok3毫无悬念成功地领先Deepseek R1、o3 mini等对手。

不过用如此大规模的算力集群,花费上一代15倍的计算资源投入,业界认为Grok3的性能只是略微提升了大模型能力上限,实际提升幅度低于算力投入的预期。这或许也预示着大模型的Scaling Laws或许已经出现边际效益递减。

wKgZPGe2oNeARzHmAAUy0goVTck826.png
来源:X

就在Grok3发布的当天,DeepSeek团队也发表了一篇论文(https://arxiv.org/pdf/2502.11089),介绍了一种新的稀疏注意力机制(Natively Sparse Attention,NSA),用于提升长文本训练和推理的效率,并具备硬件对齐和端到端训练的特性。

截至19日下午,这篇推文在X上已经有超过180万观看量。值得一提的是,DeepSeek创始人梁文锋也出现在这篇论文的作者名单中。下面我们就来看一下这篇论文有哪些创新点。

核心理念:用更少的计算做更多的事

在大语言模型(LLM)发展的初期,曾经有一段时间处理长文本是考量不同模型性能的指标之一。因为传统LLM在处理长文本时要面临的一个问题是,计算成本过高。

为什么计算成本高?这主要是因为LLM此前使用的“全注意力”机制需要计算每个词与其他所有词之间的关系,当文本长度增加时,这种计算量会以指数级别增加,导致高延迟和高能耗,大幅增加了计算成本。比如要处理一本十万字的书时,传统方法需要计算这十万字中所有词之间的两两关系,这会让计算速度变得极为缓慢,甚至根本无法完成任务。

为了解决这个问题,实际上稀疏注意力(Sparse Attention)机制一直在LLM中被应用。稀疏注意力的核心思想是,不需要计算所有词之间的关系,只需要关注那些最重要的部分。通过这种方式实现“偷懒”,可以大大减少计算量,同时保持模型性能。

但现有的稀疏注意力机制也存在一些问题,比如在推理端,尽管理论上计算量是减少了,但实际推理速度没有明显加快;而在训练端,现有的稀疏注意力机制在训练端效果都不太好,只适用于推理阶段。

所以这次DeepSeek团队推出的NSA就是为了解决现有稀疏注意力机制的缺点,提高计算效率。

具体来看,NSA主要通过对文本的处理和硬件优化两大方面实现。在文本处理方面,NSA采用分层稀疏策略,首先是将文本进行粗粒度压缩,即将长文本分成多个块,比如每32个词为一个块,然而用机器学习模型提取每个块的摘要,减少计算量。

然后对文本进行细粒度选择,即动态筛选出对当前任务最关键的几个块,比如通过注意力评分选出16个块,只计算这些块的详细信息。

最后保留局部的上下文,比如最近的512个词,来确保模型能够捕捉到上下文中短期的关系。

这个过程可以用阅读书本来理解。比如你想看一本很厚的书,但没有时间逐个字去看,那么你会通过哪些方法去了解这本书里的内容?上面提到的粗粒度压缩,就相当于是将这本书快速翻阅一下,每页都只是一眼扫过,大致了解内容;而细粒度选择,就相当于标记出书里比较重要的章节和段落;最后仔细阅读标记出来的部分,同时也能简单看一下标记部分的上下文内容,这样对于快速阅读一本书而言显然会是一个有效的方式。

而在硬件优化方面,NSA首先是将数据按连续块加载到GPU的内存中,减少随机访问的开销,实现分块内存访问;在解码阶段,令多个注意力头共享相同的键值缓存,降低内存带宽需求;在训练阶段,直接引入稀疏性,确保模型学会如何有效利用稀疏结构,实现端到端训练。

DeepSeek在使用NSA进行验证时,实际效果也相当喜人。首先是模型的训练和推理速度都有明显的提升,在64k长度的文本处理中,使用英伟达A100 GPU,NSA的推理速度比传统注意力快11.6倍,训练速度提升6-9倍。

同时在知识问答(MMLU)、代码生成(HumanEval)、长文本理解(LongBench)等任务中,NSA的性能与全注意力模型相当甚至更好。证明NSA在提高效率的同时,依然可以保持良好的模型性能。

通过适配GPU的Tensor Core和内存架构,NSA也能最大化硬件利用率。NSA首次将分层稀疏策略与GPU内存层级(HBM→SRAM)对齐,实现理论计算节省与实际加速的统一。

所以总结下来,NSA的出现解决了稀疏注意力机制在实际应用中的两大难题。在推理效率上,NSA显著加快长文本处理速度,令大模型能够处理更多超长文本任务;在训练上,NSA相比传统的稀疏注意力机制,可以更好地支持模型训练。

更重要的是,NSA证明了稀疏注意力不是只能被用于推理,还能在训练上应用,这能够为下一代低功耗、高吞吐的LLM部署提供了关键技术基础。

Kimi同步发布MoBA论文,提高长文本处理效率

wKgZO2e2oOaAbuOJAAXLZaK2lxs694.jpg
来源:X


DeepSeek发布论文的同一天,Kimi也发布了与NSA类似的MoBA,同样采用了稀疏注意力的机制,旨在解决大语言模型处理长上下文时计算成本过高的问题。(论文链接https://github.com/MoonshotAI/MoBA/blob/master/MoBA_Tech_Report.pdf)

不过于NSA不同的是,MoBA借鉴了“专家混合”(MoE)的理念,把整个文本分成多个“块”,然后通过一种“选择机制”决定每个查询应该关注哪些块。这种方式类似于让模型自己决定“哪些部分更重要”,而不是预先设定固定的规则。

MoBA的核心是“动态选择”,即通过一个“门控机制”来决定哪些块需要被关注。这种方式让模型可以根据任务需求灵活调整注意力范围。

同时在硬件优化上,结合了FlashAttention技术,进一步提升了计算效率。通过分布式计算解决了GPU内存限制的问题,可以轻松扩展到1000万词以上的超长序列。超长文本也是MoBA最显著的特性之一。

小结:

目前大模型Scaling Laws已经开始出现边际效益递减的迹象,未来提高算力利用率可能是推动大模型应用普及的关键方向。但随着AI应用的不断普及,算力需求整体来看依然是会继续增长,大模型想要继续发展,继续投入算力硬件的回报或许不会再有显著提升,各大研究机构和公司还需要寻找更多新的突破。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • DeepSeek
    +关注

    关注

    2

    文章

    806

    浏览量

    1887
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    【「DeepSeek 核心技术揭秘」阅读体验】--全书概览

    讲解Deepseek的使用方法 第三章 深入剖析Deepseek-V3的模型架构、训练框架、推理阶段优化、后训练优化等关键技术 第四章关于
    发表于 07-21 00:04

    【「DeepSeek 核心技术揭秘」阅读体验】书籍介绍+第一章读后心得

    这本书有150多页,而且是彩色印刷的,图、表很多而且很有条理性。 书籍前言介绍如下: 第1章 介绍 DeepSeek 的一系列技术突破与创新,如架构创新、训练优化、推理与部署优化等,让读者
    发表于 07-17 11:59

    信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代

    网络智能诊断平台。通过对私有化网络数据的定向训练,信而泰打造了高性能、高可靠性的网络诊断模型,显著提升了AI辅助诊断的精准度与实用性。该方案实现了网络全流量深度解析能力与AI智能推理分析能力的有机融合
    发表于 07-16 15:29

    NVIDIA Blackwell GPU优化DeepSeek-R1性能 打破DeepSeek-R1在最小延迟场景中的性能纪录

    前将 67 token / 秒 (TPS) 的速度提升至 253 TPS(提速 3.7 ),而目前这一速度已达 368 TPS(提速 5.5
    的头像 发表于 07-02 19:31 ?2372次阅读
    NVIDIA Blackwell GPU优化<b class='flag-5'>DeepSeek</b>-R1性能 打破<b class='flag-5'>DeepSeek</b>-R1在最小延迟场景中的性能纪录

    【书籍评测活动NO.62】一本书读懂 DeepSeek 全家桶核心技术:DeepSeek 核心技术揭秘

    )和解码(Decoding)分离的策略 ,以及冗余专家策略,在提高推理速度的同时确保了系统的稳定性和可靠性。 DeepSeek 架构图 DeepSeek-R1技术突破 01. 纯强化
    发表于 06-09 14:38

    MVG推出SpeedProbe DL解决方案:有源相控阵天线校准速度提升至5

    系统高达5的校准速度,显著提升有源相控阵天线在防务领域的测试效率与性能。 MVG销售总监 Per Noren 表示:“SpeedProbe DL解决方案 在IDEX展会上
    发表于 04-21 16:35 ?413次阅读
    MVG推出SpeedProbe DL解决方案:有源相控阵天线校准<b class='flag-5'>速度</b><b class='flag-5'>提升</b>至5<b class='flag-5'>倍</b>

    DeepSeek推动AI算力需求:800G光模块的关键作用

    随着人工智能技术的飞速发展,AI算力需求正以前所未有的速度增长。DeepSeek等大模型的训练推理任务对算力的需求持续攀升,直接推动了服务器、光通信设备以及数据中心基础设施的升级。特
    发表于 03-25 12:00

    【幸狐Omni3576边缘计算套件试用体验】DeepSeek 部署及测试

    和人性化等特点。 长时间运行 DeepSeek 程序,开发板未见明显发热,内存占用小,且处理速度快,取得了令人满意的测试效果。 总结 本文介绍了幸狐 Omni3576 边缘计算套件实现 DeepSeek
    发表于 03-21 19:31

    壁仞科技支持DeepSeek-V3满血版训练推理

    DeepSeek在开源周开源了部分关键模块的代码及推理系统参考架构,再次引发行业震动,但目前尚未开源DeepSeek-V3 满血版完整训练代码。壁仞科技凭借八大自主创新技术,实现
    的头像 发表于 03-04 14:01 ?1101次阅读

    研华边缘AI平台测试DeepSeek蒸馏版模型的最新数据

    随着Deepseek大模型的横空出世,预计对整个工业领域会产生颠覆性的影响力,尤其针对边缘部署部分独创动态剪枝与量化技术,DeepSeek大模型支持在边缘设备低功耗运行(最低适配5 TOPS算力硬件),推理
    的头像 发表于 02-24 10:40 ?950次阅读
    研华边缘AI平台测试<b class='flag-5'>DeepSeek</b>蒸馏版模型的最新数据

    DeepSeek推出NSA机制,加速长上下文训练推理

    的特性,专为超快速的长上下文训练推理而设计。 NSA通过针对现代硬件的优化设计,显著加快了推理速度,并大幅度降低了预训练成本,同时保持了卓
    的头像 发表于 02-19 14:01 ?696次阅读

    了解DeepSeek-V3 和 DeepSeek-R1两个大模型的不同定位和应用选择

    ) 扩展上下文+结构化推理(支持更长复杂输入) 响应控制 通用流畅性优先 强化分步解释与中间过程可解释性 3. 技术架构差异 技术点 DeepSeek-V3 DeepSeek-R1 训练
    发表于 02-14 02:08

    昆仑芯率先完成Deepseek训练推理全版本适配

    本文是昆仑芯适配DeepSeek系列推文第一篇,将于近期分别推出在昆仑芯P800上进行DeepSeek-V3/R1推理训练的深度文章,干货满满、持续关注!
    的头像 发表于 02-06 15:13 ?1569次阅读
    昆仑芯率先完成<b class='flag-5'>Deepseek</b><b class='flag-5'>训练</b><b class='flag-5'>推理</b>全版本适配

    英伟达推出归一化Transformer,革命性提升LLM训练速度

    了新的突破。 相较于传统的Transformer架构,nGPT在保持原有精度的同时,直接将大型语言模型(LLM)的训练速度提升了高达20。这一显著的性能
    的头像 发表于 10-23 11:30 ?939次阅读

    6G测试速度达938Gbps,比5G速度快5000

    智能手机网络连接速度的5000。典型的5G运行速度约为200Mbps,而在实际使用中,由于信号连接问题,其提供的速度往往远低于100Mbps。
    的头像 发表于 10-22 16:27 ?1442次阅读