0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

?Groq LPU 如何让万亿参数模型「飞」起来?揭秘 Kimi K2 40 倍提速背后的黑科技

观芯者 ? 来源:观芯者 ? 作者:观芯者 ? 2025-08-07 10:01 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

Groq LPU 如何让万亿参数模型「飞」起来?揭秘 Kimi K2 40 倍提速背后的黑科技?

最近,Moonshot AI 的千亿参数大模型 ?Kimi K2? 在 ?GroqCloud? 上开放预览,引发了开发者社区的疯狂讨论——?为什么 Groq 能跑得这么快??

传统 AI 推理硬件(如 GPU)往往面临一个两难选择:
? ?快?(但牺牲精度)
? ?准?(但延迟高到无法接受)

而 Groq 的 ?LPU(Language Processing Unit)? 却打破了这一魔咒,?既快又准?。

1. 精度与速度的「鱼与熊掌」:如何兼得??
传统硬件的「量化陷阱」?

大多数 AI 加速器(如 GPU)为了提升推理速度,会采用 ?INT8/FP8 等低精度计算?,但这会导致?累积误差?,模型质量大幅下降。

Groq 的「TruePoint Numerics」黑科技?

Groq 的解决方案是 ?动态精度调整?:

权重/激活函数?:用低精度存储(节省内存)
矩阵运算?:全精度计算(保证结果无损)
输出阶段?:根据下游需求?智能选择量化策略?

这样一来,?速度比 BF16 快 2-4 倍,但精度无损?(MMLU/HumanEval 等基准测试验证)。

2. 内存架构革命:SRAM 替代 HBM/DRAM?

传统 AI 芯片(如 GPU)依赖 ?HBM/DRAM? 作为主存,?每次权重访问延迟高达数百纳秒?,严重影响推理速度。

而 Groq ?直接集成数百兆片上 SRAM?,让权重加载?零延迟?,计算单元?全速运转?。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    88

    文章

    35760

    浏览量

    282482
  • 大模型
    +关注

    关注

    2

    文章

    3231

    浏览量

    4227
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    浪潮信息发布"元脑SD200"超节点,面向万亿参数模型创新设计

    扩展支持64路本土GPU芯片。元脑SD200可实现单机内运行超万亿参数模型,并支持多个领先大模型机内同时运行及多智能体实时协作与按需调用,目前已率先实现商用。在实际评测中,元脑SD2
    的头像 发表于 08-08 22:17 ?115次阅读
    浪潮信息发布&quot;元脑SD200&quot;超节点,面向<b class='flag-5'>万亿</b><b class='flag-5'>参数</b>大<b class='flag-5'>模型</b>创新设计

    请问InDTU IHDMP协议使用的CRC校验使用的什么参数模型

    InDTU IHDMP协议使用的CRC校验使用的什么参数模型
    发表于 08-06 07:57

    奇异摩尔邀您相约2025 AI网络技术应用创新大会

    AI大模型的军备赛每天都在上演,近期Kimi发布的K2模型再次引发全球关注。相关专业机构评价K2是至今最好的开源权重
    的头像 发表于 08-01 17:27 ?667次阅读

    硅基流动携手沐曦首发基于曦云的Kimi K2推理服务

    今天,硅基流动联合沐曦集成电路(上海)股份有限公司(简称“沐曦”),全球首发基于沐曦曦云 C550 集群的月之暗面 Kimi-K2模型商业化服务部署。该服务运行于汇天网络科技有限公司(简称“汇
    的头像 发表于 07-23 17:33 ?895次阅读

    万亿参数!元脑企智一体机率先支持Kimi K2模型

    北京2025年7月21日 /美通社/ --?浪潮信息宣布元脑企智一体机已率先完成对Kimi K2 万亿参数模型的适配支持,并实现单用户70
    的头像 发表于 07-22 09:27 ?214次阅读
    <b class='flag-5'>万亿</b><b class='flag-5'>参数</b>!元脑企智一体机率先支持<b class='flag-5'>Kimi</b> <b class='flag-5'>K2</b>大<b class='flag-5'>模型</b>

    K1,K2,K3是圆形旋转开关问题

    如图所示,K1,K2,K3是圆形旋转开关(控制M的转速),一次只有一个接通,当任意一个接通时,K4闭合则M1得电工作,需三个开关二极管但不懂选型,请热心网友们支招,多谢!
    发表于 05-15 21:06

    OpenAI:DeepSeek与Kimi揭秘o1,长思维链提升模型表现

    近日,据月之暗面报道,OpenAI发布了一项令人瞩目的研究报告。报告指出,DeepSeek和Kimi两个研究团队通过独立研究,成功利用思维链学习方法,在数学解题与编程挑战中显著提升了模型的综合表现
    的头像 发表于 02-18 09:35 ?527次阅读

    【「大模型启示录」阅读体验】对大模型更深入的认知

    阅读《大模型启示录》这本书,我得说,它彻底颠覆了我对大模型的理解。作为一个经常用KIMI和豆包这类AI工具来完成作业、整理资料的大学生,我原以为大模型就是这些工具
    发表于 12-20 15:46

    Kimi发布视觉思考模型k1,展现卓越基础科学能力

    近日,Kimi公司正式发布了其最新的视觉思考模型——k1。这款模型基于先进的强化学习技术构建,原生支持端到端的图像理解和思维链技术,为用户提供了全新的视觉思考体验。
    的头像 发表于 12-17 09:59 ?848次阅读

    深度学习工作负载中GPU与LPU的主要差异

    当前,生成式AI模型参数规模已跃升至数十亿乃至数万亿之巨,远远超出了传统CPU的处理范畴。在此背景下,GPU凭借其出色的并行处理能力,已成为人工智能加速领域的中流砥柱。然而,就在GPU备受关注之时
    的头像 发表于 12-09 11:01 ?3535次阅读
    深度学习工作负载中GPU与<b class='flag-5'>LPU</b>的主要差异

    Kimi发布新一代推理模型k0-math

    近日,Kimi国产大模型正式推出了其首款强化推理能力的模型——k0-math。该模型在多项数学基准能力测试中展现出了出色的表现,成功对标了O
    的头像 发表于 11-19 17:18 ?1271次阅读

    Kimi发布新一代数学推理模型k0-math

    近日,Kimi正式推出了其新一代数学推理模型k0-math。据基准测试显示,该模型的数学能力可与全球领先的OpenAI o1系列中的o1-mini和o1-preview
    的头像 发表于 11-18 11:38 ?1063次阅读

    FPGA和ASIC在大模型推理加速中的应用

    随着现在AI的快速发展,使用FPGA和ASIC进行推理加速的研究也越来越多,从目前的市场来说,有些公司已经有了专门做推理的ASIC,像GroqLPU,专门针对大语言模型的推理做了优化,因此相比GPU这种通过计算平台,功耗更低、
    的头像 发表于 10-29 14:12 ?2189次阅读
    FPGA和ASIC在大<b class='flag-5'>模型</b>推理加速中的应用

    阻抗变换器的参数K1和K2是什么

    阻抗变换器是一种用于实现不同阻抗之间转换的电子设备,广泛应用于通信、广播、电视、雷达等领域。在阻抗变换器中,参数K1和K2是两个非常重要的参数,它们对阻抗变换器的性能和应用有着重要的影
    的头像 发表于 08-28 14:39 ?1617次阅读

    【附实操视频】聆思CSK6大模型开发板接入国内主流大模型(星火大模型、文心一言、豆包、kimi、智谱glm、通义千问)

    接入文心一言、通义千问、豆包、智谱glm、kimi等国内的大模型,但由于各家接口和数据格式不一样,调试验证会浪费很多时间。因此本篇以聆思CSK6大模型开发板接入为例,分享具体的接入步骤和接入模板,大家
    发表于 08-22 10:12