0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

3.5D Chiplet技术典型案例解读

奇异摩尔 ? 来源:奇异摩尔 ? 2025-03-03 11:15 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

大模型训练集群的有效算力

DeepSeek的创新引领大模型基座模型向MoE专家模型进一步演进,未来大模型的参数将从千亿级别向万亿参数迈进,开启人工智能的新纪元。在这一过程中,端侧推理模型的诞生离不开原研基座模型的精心训练。随着模型参数的不断扩大以及AI模型的百舸争流,训练侧所需的算力也将进一步激增。由此所依托的AI基础设施的有效算力已成为下一代AI应用的坚实基石。

智算集群的有效算力由包括单个加速卡的基础算力、集群规模、Scale Out与Scale Up所共同构筑的集群线性加速比以及集群有效运营的时间等多个维度因素构建。在不设资源限制的情况下,我们希望拥有最强大的单个计算卡系统来运行整个AI任务,因为,AI任务作为一个单一实体运行。因此,直接获取最大能力的GPU/xPU是符合逻辑的选择。

3D IC : 下一代AI芯片的加速引擎

后摩尔时代,算力的增长和芯片的性能提升之间面临着内存墙、功耗墙、面积墙等几大瓶颈, 采用基于先进封装的3D Chiplet堆叠芯片带来的重大升级将有效解决这些瓶颈。

4065d6e4-f4ef-11ef-9310-92fbcf53809c.png

3D-IC 的优势可概括为以下几点:

1可以降低成本,Chiplet的解耦特性让先进制程节点更灵活,让非所有功能(包括模拟和存储器)都需要迁移到先进制程节点;

2更容易满足高速互连和带宽要求,帮助先进存储器技术达到 100Gbps的速度;

33D-IC 支持更小的尺寸,可以节省电路板和终端产品的空间;

43D-IC 可以降低功耗,因为不再需要大型驱动器。3D 堆叠可以使用小型 I/O 驱动器,功耗更低。此外,减少电阻-电感-电容 (RLC)寄生参数也有助于进一步降低功耗;

5减少了跨封装之间的互连,可以实现更快的性能和更好的功耗表现。

3.5D技术的引入将显著提升AI集群的计算密度和功耗效率,使得数据中心能够以更低的能耗处理更大的工作负载。这对于应对生成式AI模型的指数级增长需求至关重要。本期主要介绍几个3.5D Chiplet典型案例,分享3D IC设计架构趋势。

典型案例1

AMD MI300 系列开创3.5D IC先河

408140f0-f4ef-11ef-9310-92fbcf53809c.png

(来源:AMD)

AMD是首批采用3.5D IC设计及工艺的芯片公司,2024年发布的MI300 X GPU加速器,基于新一代CDNA计算架构。其采用台积电5nm/6nm FinETH技术,总共1530亿个晶体管

408df8d6-f4ef-11ef-9310-92fbcf53809c.png

(来源:AMD Whitepaper)

XCD计算模块:共计8个XCD加速计算模块,每一个XCD拥有38个CU计算单位,所以总共304个计算单元。

IOD互联模块:每两个XCD为一组,在它们底部放置一个IOD模块,负责输入输出与通信连接,总共4个IOD提供了第四代Infinity Fabric连接通道,总带宽最高896GB/s,还有多达256MB Infinity Cache无限缓存。该模块实际上属于一种3D Base Die,通过TSV硅通孔技术与XCD计算Die模块形成高密度互联。

HBM 部分:IOD与XCD外围一共有8个HBM3共192GB内存(每个HBM3内存大小为24GB)。IOD部分又一次采用的是6nm工艺,XCD部分则使用5nm工艺实现计算与IO芯粒解耦,这也是AMD公司常用的一种IO Die芯粒技术。

40a315d6-f4ef-11ef-9310-92fbcf53809c.png

(来源:知乎@sazc)

封装工艺:上图显示的是MI300A APU的封装工艺,两者区别主要在计算Die部分,APU系列是异构芯粒技术同时包含GPU与CPU功能。但在封装工艺上与MI300X雷同。

8个HBM与其他芯粒使用2.5D先进封装工艺进行互联,而IOD模块(Base Die)与XCD (MI300A还包括CCD)之间直接通过3D TSV堆叠封装工艺互联。

因此,MI300系列无论是A系列还是X系列制造工艺同时覆盖2.5D和3D先进工艺,总称3.5D混合封装。

40b2c648-f4ef-11ef-9310-92fbcf53809c.png

(来源:AMD)

Scale Up互联简介:AMD Instinct MI300X 加速器提供了采用 UBB 业界标准 OCP 平台设计的普适性解决方案,支持将 8 个 GPU 整合为一个性能主导型节点,并且具有全互联式点对点环形设计,单一平台内的 HBM3 显存总计可达到 1.5 TB提供足以应对各类 AI 或 HPC 工作负载部署的性能密集型解决方案。

典型案例2

CPO带动Scale Out 互联进军百万卡集群时代

规模生成式 AI 模型(如 DeepSeek,Grok3 系列等)的兴起,对计算能力的需求呈现出了爆炸式增长。训练这些复杂的模型往往需要庞大的计算资源,动辄依赖于 100,000 个甚至 100 万个 XPU 的大规模集群。近期才发布的Grok 3模型,马斯克预计下一代将搭建百万卡AI数据中心,随着大模型军备赛在DeepSeek背景下展开地更加剧烈,新的互联技术必须为未来百万卡集群的互联构筑可靠的基础。

40d19726-f4ef-11ef-9310-92fbcf53809c.png

(图:各国AI大模型军备赛进行时)

Scale Out互联甚至是更大规模的GPU HBD高带宽域光进铜退的趋势越发明显,一种在2018年前后就被提及的光互联技术CPO随着AI对训练的极高要求演进速度加快。

如果要在长程范围集成更强大的算力/存力(Scale Out互联),就需要借助更高带宽的光互连技术。这也是为何目前光模块在计算集群中广泛使用的重要原因。集群要上升到百万卡互联规模,光互联技术将发挥重要作用,传统光模块芯片和交换机芯片在PCB上的电信号传输以及GPU卡间互联的信号损耗、功耗都远大于单个Die to Die 互联。目前,光模块成为整个大型集群训推时出现故障延迟的主要硬件之一。

40dd6236-f4ef-11ef-9310-92fbcf53809c.png

(来源:公众号光通信女人)

CPO技术可以以解决射频损耗的方式,将CPO光模块与交换机主芯片ASIC专有集成电路芯片封装在一起,降低电信号的互联距离,从而降低射频损耗。

40eb70a6-f4ef-11ef-9310-92fbcf53809c.png

(来源:公众号光通信女人)

目前产业界都在研究晶圆级封装工艺,2024、2025年基于晶圆级扇出式结构,在逐步克服工艺难点,接近商用。上图我们可以看到基于晶圆级别的3D TSV工艺实现相比其他工艺实现了更高的互联密度。

4103e8d4-f4ef-11ef-9310-92fbcf53809c.png

410bd486-f4ef-11ef-9310-92fbcf53809c.png

PIC(硅光芯片)通过与EIC(电芯片)进行3D堆叠,从而实现电连接更短、尺寸小、功耗低且高带宽密度的性能。在此配置中,PIC 位于 EIC 顶部。然而,在 EIC 中创建 TSV 可能具有挑战性,因为它通常需要在先进的晶圆节点上制造。为了克服这个问题,往往采用晶圆级扇出工艺,形成高铜柱以实现与顶部 PIC 的垂直互连。由此产生的光子 FOPOP 在光耦合方面表现出色,因为 PIC 的悬垂部分允许光边缘耦合

实际上,ASIC与CPO的共同封装同样属于一种3.5D IC技术,从光芯片内部通过3D堆叠实现高互联的密度,更佳的传输性能。在交换机芯片侧,CPO OE Chiplet封装在ASIC芯片周围形成一个系统级的IC。以博通的典型CPO方案为例,整体封装结构为CoWoS,计算Die(ASIC)通过Interposer/Package Substrate与CPO互连,互联接口为高速IO(例如Serdes/D2D)。

411a2770-f4ef-11ef-9310-92fbcf53809c.png

(来源:Broadcom CPO )

目前,Nvidia也在研究基于硅光集成的CPO光学,并预计2025 Q3针对一款IB交换机启动CPO方案的验证。产业界更多厂家也在不断研究并推出CPO光模块样机如Cisco、博通、Marvell都推出了基于CPO的交换机方案。

典型案例3

博通下一代3.5D IC大规模提升单卡算力

去年底Broadcom 推出了其 3.5D eXtreme Dimension 系统级封装 (3.5D XDSiP) 平台,该平台适用于适用于 AI 和 HPC 工作负载的超高性能处理器。新平台依赖于 TSMC 的 CoWoS 和其他先进封装技术。它使芯片设计人员能够构建 3D 堆栈逻辑、网络和 I/O 小芯片以及 HBM 内存堆栈的系统级封装 (SiP)。该平台允许使用多达 12 个 HBM 模块实现高达 6000mm? 的 3D 堆叠硅的 SiP。首批 3.5D XDSiP 产品将于 2026 年推出。

博通首次使用F2F(面对面)将一个逻辑Die堆叠到另外一个逻辑Die上;这种使用无凸块混合铜键合直接连接顶部和底部硅芯片的上层金属层的面对面 (F2F) 堆叠方法,是博通的 3D XDSiP 平台的主要优势。据 Broadcom 称,F2F 方法可实现高达 7 倍的信号连接和更短的信号路由,将晶粒间接口的功耗降低 90%,最大限度地减少 3D 堆栈内的延迟,并为设计团队提供额外的灵活性,成就更低功耗更低延迟的ASIC芯片性能。

41763cf4-f4ef-11ef-9310-92fbcf53809c.png

(来源:Broadcom)

此外,它巧妙地融合了 3D 硅片堆叠与 2.5D 封装技术的精髓。该3.5D xPU计算Die与逻辑Die Face to Face进行键合,每个逻辑Die与多组HBM互联,又与IOD通过D2D互联。(更多阅读:Chiplet&互联专题:AI时代变革下 3D IC 芯粒技术的最新应用趋势解读)

41a09bf2-f4ef-11ef-9310-92fbcf53809c.png

(来源:Broadcom)

总的来说,3.5D 集成技术通过将 3D 与 2.5D封装相结合,能够在不单纯依赖制程工艺提升的情况下,实现芯片性能的显著提升、功耗的有效降低以及成本的合理控制,从而成为了下一代 XPU 发展的必然趋势。预计博通将继续加大市场推广力度,针对不同客户的需求,提供定制化的 3.5D XPU 解决方案。

3.5D IC技术是Chiplet小芯片发展旅程中的又一重要里程碑,通过独特的技术架构和卓越的性能表现,为 AI 芯片的发展开辟了新的道路。在技术原理层面,其高密度互连、低功耗设计、多功能集成以及紧凑尺寸与稳定性等核心要素相互协同,构成了强大的技术竞争力。

奇异摩尔自2021年成立以来先从片内互联产品系列研发出发,目前可以提供包括2.5D Central IO Die及3D Base Die等AI单个计算卡算力扩展芯粒方案,未来通过持续性的行业标准共建、产业链生态的互联互通,相信在不久的将来,随着国产Chiplet技术的突破,我们将与产业链伙伴为国产AI算力的释放潜能铺就一条宽广的道路,共同书写AI智能时代的辉煌篇章。

关于我们

AI网络全栈式互联架构产品及解决方案提供商

奇异摩尔,成立于2021年初,是一家行业领先的AI网络全栈式互联产品及解决方案提供商。公司依托于先进的高性能RDMA 和Chiplet技术,创新性地构建了统一互联架构——Kiwi Fabric,专为超大规模AI计算平台量身打造,以满足其对高性能互联的严苛需求。

我们的产品线丰富而全面,涵盖了面向不同层次互联需求的关键产品,如面向北向Scale out网络的AI原生智能网卡、面向南向Scale up网络的GPU片间互联芯粒、以及面向芯片内算力扩展的2.5D/3D IO Die和UCIe Die2Die IP等。这些产品共同构成了全链路互联解决方案,为AI计算提供了坚实的支撑。

奇异摩尔的核心团队汇聚了来自全球半导体行业巨头如NXPIntel、Broadcom等公司的精英,他们凭借丰富的AI互联产品研发和管理经验,致力于推动技术创新和业务发展。团队拥有超过50个高性能网络及Chiplet量产项目的经验,为公司的产品和服务提供了强有力的技术保障。我们的使命是支持一个更具创造力的芯世界,愿景是让计算变得简单。奇异摩尔以创新为驱动力,技术探索新场景,生态构建新的半导体格局,为高性能AI计算奠定稳固的基石。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1810

    文章

    49221

    浏览量

    251596
  • IC技术
    +关注

    关注

    0

    文章

    9

    浏览量

    2376
  • AI芯片
    +关注

    关注

    17

    文章

    1994

    浏览量

    36060
  • 大模型
    +关注

    关注

    2

    文章

    3231

    浏览量

    4229

原文标题:芯粒案例解读 | 3.5D IC技术构建下一代大模型训练集群有效算力

文章出处:【微信号:奇异摩尔,微信公众号:奇异摩尔】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    从 2D3.5D 封装演进中焊材的应用与发展

    从 2D3.5D 封装的演进过程中,锡膏、助焊剂、银胶、烧结银等焊材不断创新和发展,以适应日益复杂的封装结构和更高的性能要求。作为焊材生产企业,紧跟封装技术发展趋势,持续投入研发,开发出更高效、更可靠、更环保的焊材产品,将
    的头像 发表于 08-11 15:45 ?527次阅读
    从 2<b class='flag-5'>D</b> 到 <b class='flag-5'>3.5D</b> 封装演进中焊材的应用与发展

    Chiplet与3D封装技术:后摩尔时代的芯片革命与屹立芯创的良率保障

    在摩尔定律逐渐放缓的背景下,Chiplet(小芯片)技术和3D封装成为半导体行业突破性能与集成度瓶颈的关键路径。然而,随着芯片集成度的提高,气泡缺陷成为影响封装良率的核心挑战之一。
    的头像 发表于 07-29 14:49 ?213次阅读
    <b class='flag-5'>Chiplet</b>与3<b class='flag-5'>D</b>封装<b class='flag-5'>技术</b>:后摩尔时代的芯片革命与屹立芯创的良率保障

    Chiplet技术在消费电子领域的应用前景

    探讨Chiplet技术如何为智能手机、平板电脑等消费电子产品带来更优的性能和能效比。
    的头像 发表于 04-09 15:48 ?436次阅读
    <b class='flag-5'>Chiplet</b><b class='flag-5'>技术</b>在消费电子领域的应用前景

    先进封装技术:3.5D封装、AMD、AI训练降本

    受限,而芯片级架构通过将SoC分解为多个小芯片(chiplets),利用先进封装技术实现高性能和低成本。 芯片级架构通过将传统单片系统芯片(SoC)分解为多个小芯片(chiplets),利用先进封装技术实现高性能和低成本。 3.5D
    的头像 发表于 02-14 16:42 ?886次阅读
    先进封装<b class='flag-5'>技术</b>:<b class='flag-5'>3.5D</b>封装、AMD、AI训练降本

    2.5D集成电路的Chiplet布局设计

    随着摩尔定律接近物理极限,半导体产业正在向2.5D和3D集成电路等新型技术方向发展。在2.5D集成技术中,多个
    的头像 发表于 02-12 16:00 ?1406次阅读
    2.5<b class='flag-5'>D</b>集成电路的<b class='flag-5'>Chiplet</b>布局设计

    解锁Chiplet潜力:封装技术是关键

    如今,算力极限挑战正推动着芯片设计的技术边界。Chiplet的诞生不仅仅是技术的迭代,更是对未来芯片架构的革命性改变。然而,要真正解锁Chiplet
    的头像 发表于 01-05 10:18 ?1089次阅读
    解锁<b class='flag-5'>Chiplet</b>潜力:封装<b class='flag-5'>技术</b>是关键

    3.5D封装来了(上)

    当前,半导体行业正在将 3.5D 作为先进封装的下一个最佳选择,这是一种混合方法,包括堆叠逻辑芯片并将它们分别粘合到其他组件共享的基板上。 这种封装模型既满足了大幅提升性能的需求,又避开了异构集成
    的头像 发表于 12-31 11:41 ?727次阅读
    <b class='flag-5'>3.5D</b>封装来了(上)

    3.5D封装来了(下)

    即使采用所有最新技术并采用 3.5D 封装,控制热量仍然是一项挑战,但将热效应与其他组件隔离的能力是当今可用的最佳选择,并且可能在未来很长一段时间内都是如此。不过,还有其他问题需要解决。即使是
    的头像 发表于 12-31 11:37 ?620次阅读
    <b class='flag-5'>3.5D</b>封装来了(下)

    一颗芯片面积顶4颗H200,博通推出3.5D XDSiP封装平台

    电子发烧友网报道(文/梁浩斌)博通最近推出了3.5D XDSiP的芯片封装平台技术,面向下一代高性能AI、HPC应用的定制XPU和ASIC。3.5D XDSiP的最大亮点,在于可以将超过6000
    的头像 发表于 12-10 09:15 ?2941次阅读
    一颗芯片面积顶4颗H200,博通推出<b class='flag-5'>3.5D</b> XDSiP封装平台

    高带宽Chiplet互连的技术、挑战与解决方案

    需求,业界采用了基于Chiplet的设计方法,将较大系统分解为更小、更易于管理的组件,这些组件可以分别制造并通过先进封装技术进行集成[1]。 先进封装技术 先进封装技术可以大致分为2
    的头像 发表于 12-06 09:14 ?1111次阅读
    高带宽<b class='flag-5'>Chiplet</b>互连的<b class='flag-5'>技术</b>、挑战与解决方案

    Chiplet技术有哪些优势

    Chiplet技术,就像用乐高积木拼搭玩具一样,将芯片的不同功能模块,例如CPU、GPU、内存等,分别制造成独立的小芯片。
    的头像 发表于 11-27 15:53 ?1302次阅读

    一文理解2.5D和3D封装技术

    随着半导体行业的快速发展,先进封装技术成为了提升芯片性能和功能密度的关键。近年来,作为2.5D和3D封装技术之间的一种结合方案,3.5D封装
    的头像 发表于 11-11 11:21 ?3773次阅读
    一文理解2.5<b class='flag-5'>D</b>和3<b class='flag-5'>D</b>封装<b class='flag-5'>技术</b>

    最新Chiplet互联案例解析 UCIe 2.0最新标准解读

    单个芯片性能提升的有效途径?? ? 随着半导体制程不断逼近物理极限,越来越多的芯片厂商为了提升芯片性能和效率开始使用Chiplet技术,将多个满足特定功能的芯粒单元通过Die-to-Die互联技术
    的头像 发表于 11-05 11:39 ?2432次阅读
    最新<b class='flag-5'>Chiplet</b>互联案例解析 UCIe 2.0最新标准<b class='flag-5'>解读</b>

    什么是3.5D封装?它有哪些优势?

    半导体行业不断发展,不断推动芯片设计和制造的边界。随着逐渐接近传统平面缩放的极限,先进封装技术正成为持续提升性能的关键推动力。在这些技术中,3.5D封装作为当前2.5D解决方案和完全3
    的头像 发表于 10-28 09:47 ?1301次阅读
    什么是<b class='flag-5'>3.5D</b>封装?它有哪些优势?

    IMEC组建汽车Chiplet联盟

    来源:芝能智芯 微电子研究中心imec宣布了一项旨在推动汽车领域Chiplet技术发展的新计划。 这项名为汽车Chiplet计划(ACP)的倡议,吸引了包括Arm、ASE、宝马、博世、Cadence
    的头像 发表于 10-15 13:36 ?702次阅读
    IMEC组建汽车<b class='flag-5'>Chiplet</b>联盟