0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

国产大模型DeepSeek推出DeepSeek-V3

奇普乐芯片技术 ? 来源:奇普乐芯片技术 ? 2025-01-06 10:51 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

众所周知,过去一年间,大语言模型(LLM)领域经历了翻天覆地的变化...

回望2023年底,OpenAI的GPT-4还是一座难以逾越的高峰,其他AI实验室都在思考同一个问题:OpenAI究竟掌握了哪些独特的技术秘密?

一年后的今天,形势已发生根本性转变,据Chatbot Arena排行榜显示,原始版本的GPT-4(GPT-4-0314)已跌至第70位左右。目前,已有18家机构的70个模型在性能上超越了这个曾经的标杆。

00783262-c9b5-11ef-9310-92fbcf53809c.jpg

图源:Chatbot Arena

随着2025年的崭新启航,是否意味着AI圈的一颗“王炸”已悄然“引爆”?

近日,国产大模型DeepSeek推出DeepSeek-V3,一个强大的混合专家(Mixture-of-Experts, MoE)语言模型,DeepSeek-V3拥有高达6710亿的参数规模,但每次推理仅激活370亿参数。

尤其,当o1、Claude、Gemini和Llama 3等模型还在为数亿美元的训练成本苦恼时, DeepSeek-V3用557.6万美元的预算,在2048个H800 GPU集群上仅花费3.7天/万亿tokens的训练时间,就达到了足以与它们比肩的性能 。

与此同时,DeepSeek-V3相比其他前沿大模型,性能却足以比肩乃至更优。

00c6b108-c9b5-11ef-9310-92fbcf53809c.jpg

DeepSeek-V3与其他大模型性能对比

其中,这种设计使得模型在性能和效率上实现了完美平衡,在多项模型测评中,DeepSeek-V3不仅超越了Llama 3.1 405B等顶级开源模型,更在代码、数学、长文本处理等领域,与GPT-4o和Claude 3.5 Sonnet等闭源模型分庭抗礼。

其次,通过671B的总参数量,在每个token激活37B参数的精准控制下,DeepSeek-V3用14.8万亿高质量多样化token,构建出了一个能够超越所有开源模型,直逼GPT-4和Claude-3.5的AI巨人。

另外,在基础理解能力测试中,DeepSeek-V3与Claude-3.5模型面对中文脑筋急转弯“小明的妈妈有三个孩子”的问题,DeepSeek V3表现出色,不仅答对还进行了自我验证。但在英文双关语“April Fool's Day”的测试中则略显不足,未能理解其中的语言巧思,而Claude3.5Sonnet则轻松应对。

00daead8-c9b5-11ef-9310-92fbcf53809c.jpg

DeepSeek-V3与Claude-3.5实测对比

除此之外,DeepSeek自言,这得益于采用了Multi-head Latent Attention (MLA)和DeepSeek MoE架构,实现了高效的推理和经济高效的训练。

Multi-head Latent Attention (MLA):MLA 通过对注意力键和值进行低秩联合压缩,减少了推理时的 KV 缓存,同时保持了与标准多头注意力(MHA)相当的性能。

00f34c36-c9b5-11ef-9310-92fbcf53809c.jpg

DeepSeek-V3 的核心亮点

DeepSeekMoE:DeepSeekMoE 采用了更细粒度的专家分配策略,每个 MoE 层包含 1 个共享专家和 256 个路由专家,每个令牌激活 8 个专家,确保了计算的高效性。

因此,在系统架构层面,DeepSeek就使用了专家并行训练技术,通过将不同的专家模块分配到不同的计算设备上同时进行训练,提升了训练过程中的计算效率。

DeepSeek探索出一个精妙的解决策略,不等到最后再算总和,而是每加128个数就把当前结果转移到科学计算器上继续计算。其过程不影响速度,此技术利用了H800 GPU的特点:就像有两个收银员,当一个在结算购物篮的同时,另一个便可继续扫描新商品

这一策略使得模型训练速度大幅提升,毕竟核心计算能提升100%的速度,而显存使用减少也非常明显,并且模型最终的效果精度损失能做到小于0.25%,几乎无损。

010b5dee-c9b5-11ef-9310-92fbcf53809c.jpg

DeepSeek 提出的误差积累解决方法

但由于DeepSeek“大方”开源,Open AI水灵灵地被网友cue进行横向对比,有一种被push的支配感。

Scale AI创始人亚历山大·王 (Alexander Wang)更表示,DeepSeek-V3带来的辛酸教训是:当美国休息时,中国在工作,以更低的成本、更快的速度迎头赶上,变得更强。

011e0156-c9b5-11ef-9310-92fbcf53809c.jpg

图源:X平台

简言之,这种剧变深刻折射出AI领域的变革。在2023年,超越GPT-4还是一个值得载入史册的重大突破,转眼至2024年,这一成就已然演变为衡量顶级AI模型的基准线。

而刚到来的2025年,DeepSeek用行动说明,中国大模型创业者,共同参与这场全球创新AI竞赛中。

由于篇幅受限,本次的DeepSeek V3就先介绍这么多......

想了解更多半导体行业动态,请您持续关注我们。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 开源
    +关注

    关注

    3

    文章

    3755

    浏览量

    44009
  • LLM
    LLM
    +关注

    关注

    1

    文章

    328

    浏览量

    894
  • DeepSeek
    +关注

    关注

    2

    文章

    804

    浏览量

    1847

原文标题:DeepSeek-V3横空出世,GPT-4时代终结?

文章出处:【微信号:奇普乐芯片技术,微信公众号:奇普乐芯片技术】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    【「DeepSeek 核心技术揭秘」阅读体验】--全书概览

    讲解Deepseek的使用方法 第三章 深入剖析Deepseek-V3模型架构、训练框架、推理阶段优化、后训练优化等关键技术 第四章关于DeepSeek-R1的技术剖析 第五章 从
    发表于 07-21 00:04

    【「DeepSeek 核心技术揭秘」阅读体验】书籍介绍+第一章读后心得

    DeepSeek-V3于2024年12月26日正式上线,它是深度求索公司在DeepSeek LLM之后推出的又一力作。DeepSeek-V3是一个拥有6710亿个参数的混合专家
    发表于 07-17 11:59

    【书籍评测活动NO.62】一本书读懂 DeepSeek 全家桶核心技术:DeepSeek 核心技术揭秘

    DeepSeek-V3 的发布几乎没有预热和炒作,仅凭借其出色的效果和超低的成本迅速走红。 DeepSeek-R1 则是在 DeepSeek-V3 的基础上构建的推理模型,它在后训练
    发表于 06-09 14:38

    摩尔线程GPU成功适配Deepseek-V3-0324大模型

    架构和全功能GPU的强大技术实力,摩尔线程迅速响应并完成了对DeepSeek-V3的无缝升级,实现了零报错、零兼容性问题的光速部署,充分展现了摩尔线程在AI大模型领域的领先优势。
    的头像 发表于 03-31 11:34 ?669次阅读
    摩尔线程GPU成功适配<b class='flag-5'>Deepseek-V3</b>-0324大<b class='flag-5'>模型</b>

    HarmonyOS NEXT开发实战:DevEco Studio中DeepSeek的使用

    /completions; 点击Body将model修改为deepseek-chat(对应DeepSeek-V3)或者deepseek-reasoner(对应DeepSeek-R1)
    发表于 03-07 14:56

    壁仞科技支持DeepSeek-V3满血版训练推理

    DeepSeek-V3满血版在国产GPU平台的高效全栈式训练与推理,实现国产模型国产GPU的深度融合优化,开启
    的头像 发表于 03-04 14:01 ?1065次阅读

    RK3588开发板上部署DeepSeek-R1大模型的完整指南

    DeepSeek作为国产AI大数据模型的代表,凭借其卓越的推理能力和高效的文本生成技术,在全球人工智能领域引发广泛关注。DeepSeek-R1作为该系列最新迭代版本,实现了长文本处理效
    发表于 02-27 16:45

    鸿蒙原生应用开发也可以使用DeepSeek

    ://api.DeepSeek.com/chat/completions; 点击Body将model修改为deepseek-chat(对应DeepSeek-V3)或者deepseek-
    发表于 02-20 18:06

    了解DeepSeek-V3DeepSeek-R1两个大模型的不同定位和应用选择

    DeepSeek-V3DeepSeek-R1 是深度求索公司(DeepSeek推出的两个不同定位的大模型,其核心差异主要体现在目标场
    发表于 02-14 02:08

    讯飞开放平台支持DeepSeek

    今天,DeepSeek全系大模型正式上线讯飞开放平台(包括DeepSeek-V3DeepSeek-R1),支持公有云API调用、一键部署专属模型
    的头像 发表于 02-11 09:27 ?1458次阅读

    商汤大装置接入DeepSeek系列模型

    即日起,企业客户和开发者可在商汤大装置万象平台中,快速部署DeepSeek-V3DeepSeek-R1等模型,可享受3个月内1000万tokens免费使用权益。
    的头像 发表于 02-10 10:16 ?694次阅读

    弘信电子携手燧原科技推动智算生态升级

    2024年12月,国产模型DeepSeek推出DeepSeek-V3,以极低训练成本实现媲GPT-4o和Claude Sonnet 3.5
    的头像 发表于 02-06 10:43 ?721次阅读

    AMD将DeepSeek-V3模型集成至Instinct MI300X GPU

    AMD近日宣布了一项重要进展,成功将全新的DeepSeek-V3模型集成到其Instinct MI300X GPU上。这一举措标志着AMD在AI推理优化方面迈出了重要一步。 据了解
    的头像 发表于 02-06 09:41 ?599次阅读

    AMD集成DeepSeek-V3模型至Instinct MI300X GPU

    AMD近日宣布了一项重要的技术进展,即将全新的DeepSeek-V3模型成功集成到其旗舰级GPU产品——Instinct MI300X上。这一举措标志着AMD在人工智能推理领域迈出了坚实的一步
    的头像 发表于 02-05 13:58 ?570次阅读

    谈谈DeepSeek-v3提到的基础设施演进

    DeepSeek-v3的感受是, 算法和Infra的非常紧密结合. 其实很多大模型团队的算法和Infra是非常割裂的, 完全同时懂算法和Infra的人并不多, DeepSeek这个团队就是其中之一
    的头像 发表于 01-02 10:04 ?1001次阅读
    谈谈<b class='flag-5'>DeepSeek-v3</b>提到的基础设施演进