0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

7nm制程,比GPU效率高,Meta发布第一代AI推理加速器

AI智胜未来 ? 来源:机器之心 ? 2023-05-26 15:41 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近日,Meta 透露了其在人工智能方面取得的最新进展。

人们提起 Meta 时,通常会想到其应用程序,包括 Facebook、Instagram、WhatsApp 或即将推出的元宇宙。但许多人不知道的是这家公司设计和构建了非常复杂的数据中心来运营这些服务。

与 AWS、GCP 或 Azure 等云服务提供商不同,Meta 不需要披露有关其硅芯选择、基础设施或数据中心设计的细节,除了其 OCP 设计用来给买家留下深刻印象。Meta 的用户希望获得更好、更一致的体验,而不关心它是如何实现的。

在 Meta,AI 工作负载无处不在,它们构成了广泛用例的基础,包括内容理解、信息流、生成式 AI 和广告排名。这些工作负载在 PyTorch 上运行,具有一流的 Python 集成、即时模式(eager-mode)开发和 API 简洁性。特别是深度学习推荐模型(DLRMs),对于改善 Meta 的服务和应用体验非常重要。但随着这些模型的大小和复杂性的增加,底层的硬件系统需要在保持高效的同时提供指数级增长的内存和计算能力。

Meta 发现,对于目前规模的 AI 运算和特定的工作负载,GPU 的效率不高,并不是最佳选择。因此,该公司提出了推理加速器 MTIA,帮助更快地训练 AI 系统。

MTIA V1

4ca17d8c-fb2c-11ed-90ce-dac502259ad0.png

MTIA v1(推理)芯片(die)

2020 年,Meta 为其内部工作负载设计了第一代 MTIA ASIC 推理加速器。该推理加速器是其全栈解决方案的一部分,整个解决方案包括芯片、PyTorch 和推荐模型。

MTIA 加速器采用 TSMC 7nm 工艺制造,运行频率为 800 MHz,在 INT8 精度下提供 102.4 TOPS,在 FP16 精度下提供 51.2 TFLOPS。它的热设计功耗 (TDP) 为 25 W。

MTIA 加速器由处理元件 (PE)、片上和片外存储器资源以及互连组成。该加速器配备了运行系统固件的专用控制子系统。固件管理可用的计算和内存资源,通过专用主机接口与主机通信,协调加速器上的 job 执行。

内存子系统使用 LPDDR5 作为片外 DRAM 资源,可扩展至 128 GB。该芯片还有 128 MB 的片上 SRAM,由所有 PE 共享,为频繁访问的数据和指令提供更高的带宽和更低的延迟。

MTIA 加速器网格包含以 8x8 配置组织的 64 个 PE,这些 PE 相互连接,并通过网状网络连接到内存块。整个网格可以作为一个整体来运行一个 job,也可以分成多个可以运行独立 job 的子网格。

每个 PE 配备两个处理器内核(其中一个配备矢量扩展)和一些固定功能单元,这些单元经过优化以执行关键操作,例如矩阵乘法、累加、数据移动和非线性函数计算。处理器内核基于 RISC-V 开放指令集架构 (ISA),并经过大量定制以执行必要的计算和控制任务。

每个 PE 还具有 128 KB 的本地 SRAM 内存,用于快速存储和操作数据。该架构最大限度地提高了并行性和数据重用性,这是高效运行工作负载的基础。

该芯片同时提供线程和数据级并行性(TLP 和 DLP),利用指令级并行性 (ILP),并通过允许同时处理大量内存请求来实现大量的内存级并行性 (MLP)。

4d2fdce4-fb2c-11ed-90ce-dac502259ad0.png

MTIA v1 系统设计

MTIA 加速器安装在小型双 M.2 板上,可以更轻松地集成到服务器中。这些板使用 PCIe Gen4 x8 链接连接到服务器上的主机 CPU,功耗低至 35 W。

4d5ef182-fb2c-11ed-90ce-dac502259ad0.png

带有 MTIA 的样品测试板

托管这些加速器的服务器使用来自开放计算项目的 Yosemite V3 服务器规范。每台服务器包含 12 个加速器,这些加速器连接到主机 CPU,并使用 PCIe 交换机层级相互连接。因此,不同加速器之间的通信不需要涉及主机 CPU。此拓扑允许将工作负载分布在多个加速器上并并行运行。加速器的数量和服务器配置参数经过精心选择,以最适合执行当前和未来的工作负载。

MTIA 软件栈

MTIA 软件(SW)栈旨在提供给开发者更好的开发效率和高性能体验。它与 PyTorch 完全集成,给用户提供了一种熟悉的开发体验。使用基于 MTIA 的 PyTorch 与使用 CPU 或 GPU 的 PyTorch 一样简单。并且,得益于蓬勃发展的 PyTorch 开发者生态系统和工具,现在 MTIA SW 栈可以使用 PyTorch FX IR 执行模型级转换和优化,并使用 LLVM IR 进行低级优化,同时还支持 MTIA 加速器自定义架构和 ISA。

下图为 MTIA 软件栈框架图:

4e236b98-fb2c-11ed-90ce-dac502259ad0.png

作为 SW 栈的一部分,Meta 还为性能关键型 ML 内核开发了一个手动调整和高度优化的内核库,例如完全连接和嵌入包运算符。在 SW 栈的更高层级可以选择在编译和代码生成过程中实例化和使用这些高度优化的内核。

此外,MTIA SW 栈随着与 PyTorch 2.0 的集成而不断发展,PyTorch 2.0 更快、更 Python 化,但一如既往地动态。这将启用新功能,例如 TorchDynamo 和 TorchInductor。Meta 还在扩展 Triton DSL 以支持 MTIA 加速器,并使用 MLIR 进行内部表示和高级优化。

MTIA 性能

Meta 比较了 MTIA 与其他加速器的性能,结果如下:

4e597684-fb2c-11ed-90ce-dac502259ad0.png

Meta 使用五种不同的 DLRMs(复杂度从低到高)来评估 MTIA

此外,Meta 还将 MTIA 与 NNPI 以及 GPU 进行了比较,结果如下:

4e63c922-fb2c-11ed-90ce-dac502259ad0.png

评估发现,与 NNPI 和 GPU 相比,MTIA 能够更高效地处理低复杂度(LC1 和 LC2)和中等复杂度(MC1 和 MC2)的模型。此外,Meta 尚未针对高复杂度(HC)模型进行 MTIA 的优化。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 加速器
    +关注

    关注

    2

    文章

    828

    浏览量

    39295
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4980

    浏览量

    132105
  • pytorch
    +关注

    关注

    2

    文章

    810

    浏览量

    14094

原文标题:7nm制程,比GPU效率高,Meta发布第一代AI推理加速器

文章出处:【微信号:AI智胜未来,微信公众号:AI智胜未来】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    PCIe协议分析仪能测试哪些设备?

    /ASIC加速器 测试场景:分析专用AI推理加速器与主系统的PCIe通信,优化数据传输和指令下发效率。 应用价值:提高
    发表于 07-25 14:09

    信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代

    模态的技术特性,DeepSeek正加速推动AI在金融、政务、科研及网络智能化等关键领域的深度应用。 信而泰:AI推理引擎赋能网络智能诊断新范式信而泰深度整合DeepSeek-R1大模型
    发表于 07-16 15:29

    直击Computex 2025:英特尔重磅发布一代GPU,图形和AI性能跃升3.4倍

    电子发烧友原创? 章鹰 5月19日,在Computex 2025上,英特尔发布了最新全新图形处理GPU)和AI加速器产品系列。包括全新英
    的头像 发表于 05-21 00:57 ?6264次阅读
    直击Computex 2025:英特尔重磅<b class='flag-5'>发布</b>新<b class='flag-5'>一代</b><b class='flag-5'>GPU</b>,图形和<b class='flag-5'>AI</b>性能跃升3.4倍

    直击Computex2025:英特尔重磅发布一代GPU,图形和AI性能跃升3.4倍

    5月19日,在Computex 2025上,英特尔发布了最新全新图形处理GPU)和AI加速器产品系列。包括全新英特尔锐炫? Pro B系
    的头像 发表于 05-20 12:27 ?4649次阅读
    直击Computex2025:英特尔重磅<b class='flag-5'>发布</b>新<b class='flag-5'>一代</b><b class='flag-5'>GPU</b>,图形和<b class='flag-5'>AI</b>性能跃升3.4倍

    英特尔发布全新GPUAI和工作站迎来新选择

    英特尔推出面向准专业用户和AI开发者的英特尔锐炫Pro GPU系列,发布英特尔? Gaudi 3 AI加速器机架级和PCIe部署方案 ? 2
    发表于 05-20 11:03 ?1544次阅读

    第一代半导体被淘汰了吗

    在半导体产业的百年发展历程中,“第一代半导体是否被淘汰”的争议从未停歇。从早期的锗晶体管到如今的硅基芯片,以硅为代表的第一代半导体材料,始终以不可替代的产业基石角色,支撑着全球95%以上的电子设备
    的头像 发表于 05-14 17:38 ?478次阅读
    <b class='flag-5'>第一代</b>半导体被淘汰了吗

    谷歌第七TPU Ironwood深度解读:AI推理时代的硬件革命

    谷歌第七TPU Ironwood深度解读:AI推理时代的硬件革命 Google 发布了 Ironwood,这是其第七张量处理单元 (TP
    的头像 发表于 04-12 11:10 ?2020次阅读
    谷歌第七<b class='flag-5'>代</b>TPU Ironwood深度解读:<b class='flag-5'>AI</b><b class='flag-5'>推理</b>时代的硬件革命

    FPGA+AI王炸组合如何重塑未来世界:看看DeepSeek东方神秘力量如何预测......

    。? AI加速器的开发:FPGA被广泛用于开发专为AI算法优化的加速器,例如深度学习推理加速器
    发表于 03-03 11:21

    从图形处理到AI加速文看懂Imagination D系列GPU

    Imagination的D系列于2022年首次发布,见证了生成式AI从云端到智能手机等消费设备中普及。在云端,由于GPU的可编程性、可扩展性和快速处理AI工作负载的能力,
    的头像 发表于 02-27 08:33 ?584次阅读
    从图形处理到<b class='flag-5'>AI</b><b class='flag-5'>加速</b>,<b class='flag-5'>一</b>文看懂Imagination D系列<b class='flag-5'>GPU</b>

    DeepSeek发布Janus Pro模型,英特尔Gaudi 2D AI加速器优化支持

    Gaudi 2D AI加速器现已针对该模型进行了全面优化。这优化举措使得AI开发者能够更轻松地实现复杂任务的部署与优化,从而有效满足行业应用对于
    的头像 发表于 02-08 14:35 ?689次阅读

    英伟达AI加速器新蓝图:集成硅光子I/O,3D垂直堆叠 DRAM 内存

    加速器设计的愿景。 英伟达认为未来整个 AI 加速器复合体将位于大面积先进封装基板之上,采用垂直供电,集成硅光子 I/O 器件,GPU 采用多模块设计,3D 垂直堆叠 DRAM 内存
    的头像 发表于 12-13 11:37 ?771次阅读
    英伟达<b class='flag-5'>AI</b><b class='flag-5'>加速器</b>新蓝图:集成硅光子I/O,3D垂直堆叠 DRAM 内存

    所谓的7nm芯片上没有个图形是7nm

    最近网上因为光刻机的事情,网上又是阵热闹。好多人又开始讨论起28nm/7nm的事情了有意无意之间,我也看了不少网上关于国产自主7nm工艺的文章。不过这些文章里更多是抒情和遐想,却很少
    的头像 发表于 10-08 17:12 ?900次阅读
    所谓的<b class='flag-5'>7nm</b>芯片上没有<b class='flag-5'>一</b>个图形是<b class='flag-5'>7nm</b>的

    RISC-V拥有巨大市场潜力的原因

    发布了第三“香山”开源高性能RISC-V处理核,其性能水平已进入全球第一梯队,可广泛应用于服务芯片、
    发表于 09-30 14:20

    英特尔发布Gaudi3 AI加速器,押注低成本优势挑战市场

    英特尔近期震撼发布了专为AI工作负载设计的Gaudi3加速器,这款新芯片虽在速度上不及英伟达热门型号H100与H200 GPU,但英特尔巧妙地将竞争优势聚焦于其更为亲民的价格与总拥有成
    的头像 发表于 09-26 16:16 ?1284次阅读

    AMD助力HyperAccel开发全新AI推理服务

    提高成本效率。HyperAccel 针对新兴的生成式 AI 应用提供超级加速的芯片 IP/解决方案。HyperAccel 已经打造出个快速、高效且低成本的
    的头像 发表于 09-18 09:37 ?950次阅读
    AMD助力HyperAccel开发全新<b class='flag-5'>AI</b><b class='flag-5'>推理</b>服务<b class='flag-5'>器</b>