0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

数据中心中的FPGA硬件加速器

FPGA技术江湖 ? 来源:FPGA技术江湖 ? 2025-01-14 10:29 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

再来看一篇FPGA的综述,我们都知道微软包括国内的云厂商其实都在数据中心的服务器中部署了FPGA,所以这篇论文就以数据中心的视角,来看下FPGA这个硬件加速器。

还是一样,想要论文原文的可以私信我。

由于论文不长,我们就直接把原始论文翻译出来,而不是跟之前一样只总结部分内容。

摘要

数据流特征的日益动态化,给研究带来了更多挑战。数据中心的计算复杂度、存储、能源和安全等方面的资源消耗正处于 intense 的研究焦点之下。本文旨在回顾通过部署现场可编程门阵列(FPGA 设备)来提高数据中心 operational 效率的方法。由于数据中心对高性能计算的需求巨大,本文解决了在处理数据方面的问题,尽管传统方案仍然存在挑战。本文还回顾了支持 FPGA 在数据中心中取得积极进展的关键使能技术,如大数据和云计算,以及它们所面临的挑战。本文汇编并介绍了研究人员提出的 novel 架构,并对基于 FPGA 的数据中心数据管理进行了详细分析,为研究人员提供了更多有前景的研究方向。

1. 引言

数据中心是一种物理计算设施,用于存储关键应用程序和数据,并用于共享计算应用程序。数据中心的主要组件是交换机、路由器、防火墙、服务器和存储介质。在现代,多个数据中心通过边缘、私有和公共云连接。在当今的情况下,数据中心在企业资源规划、客户关系管理、大数据、机器学习人工智能方面发挥着重要作用。数据中心的infrastructure经历了三个主要的时代:第一个时代是从大型机到 X-86 服务器,第二个时代是infrastructure的虚拟化,而现在是云、混合云和云原生。在过去十年中,计算负载从 10 万增加到数百万;所需的存储容量从 PB 级增加到 EB 级,网络容量所需的速度也朝着 Pbps 级方向增加。因此,技术扩展对功率/热密度、中央处理器 (CPU) 性能、异构计算(即低功耗下的高性能)的需求非常迫切。现在是时候从应用程序加速、处理器卸载、性能/功耗和软件定义开发的角度重新定义数据中心网络架构,以实现规模扩展。

A. 数据中心中的 FPGA

为了填补数据中心的计算空白,人们认为现场可编程门阵列 (FPGA) 将发挥主导作用,其市场价值预计将大幅上升。现在的 FPGA 具有高速连接、存储块和信号处理块。除此之外,还提供 USB 3.0、SATA 3.0、DDR4 控制器,以实现高速数据处理。此外,借助内置的 ARM 处理器,可以实现实时处理,该处理器具有浮点和内存管理功能。显然,最新的 FPGA 部署了应用处理器单元、实时处理单元和多媒体处理单元。此外,它们还具有复杂的加密算法、高速外设和收发器。上面讨论的功能都集成在 FPGA 中。Xilinx 开发了专用的自适应加速器卡硬件模块 ALVEO,用于数据中心相关应用。同样,英特尔开发了 Agilex 和 Stratix 10 FPGA 系列,用于支持四核 ARM Cortex-A53 处理器的高性能加速应用。强烈建议对下一代计算的芯片制造工艺进行必要的更改,尤其是在数据中心应用中。全球大多数著名的数据中心都使用可再生能源和超环路网络设施来运营,以提供高效的电信数据和基于云的服务。

II. 数据中心大数据处理方案的演进

使用无源光网络,可以通过协同流调度来管理大数据,并进行资源优化。作者还考虑了改变大数据的流量模式,并使用 MapReduce 在以交换机为中心的设计中路由数据包。无源光网络还用于以服务器为中心的应用,为数据中心网络提供可靠的高速骨干架构。为了使用户能够在异构数据中心中完美地利用 FPGA 加速器,Kchris 等人开发了一种集成的多功能加速器。图 1 显示了在数据中心应用中发挥重要作用的节能大数据处理方案的详细分类。

829ed66c-cfb7-11ef-9310-92fbcf53809c.png

B. 案例研究:用于数据处理的可重构设备

硬件加速器

谷歌、微软和亚马逊已经更新了部署 FPGA 的数据中心,以增强后端的机器学习。FPGA 为节能可编程硬件架构提供了一种很有前景的替代方案。FPGA 的可重构能力允许在数据中心的不同环境下实现高性能、低功耗和高吞吐量。表 1 列出了 CNN 在 FPGA 中的性能。基于全方位、基于加速器的异构集成数据中心的 VINEYARD .

82c84ee8-cfb7-11ef-9310-92fbcf53809c.png

如图 2 所示,它为具有粗粒度和细粒度可编程加速器的低能耗数据中心提供了一个单一平台。基于 FPGA 的加速与超片概念是为 CNN 设计的,用于在数据中心中执行各种不同的视频和图像相关推理任务。图 3 显示了超片单元上的卷积计算。在此设计中,对基本增强处理单元 (EPE) 进行了放大和修改,使其成为超片单元,以提高不同种类卷积过程的交错类型任务调度的性能。ConvNet、DNN Weaver、Caffeine 和 Snow Flake CNN 在 Zynq 和 Kintex FPGA 设备中实现。这些结果表明,所实现的 CNN 的工作频率高达 250 MHz,延迟为 8.22 毫秒,并且能够在 FPGA 中执行 197.4 GOPS(每秒千兆次运算),如表 1 所示。

82e61e6e-cfb7-11ef-9310-92fbcf53809c.png

830c5124-cfb7-11ef-9310-92fbcf53809c.png

微软自 2015 年起就将 FPGA 集成到 Bing 中,以加速数据搜索。它由 PCI Express 交换机中的 6 个 Virtex 6 组成。该 FPGA 加速器卡安装在 Supermicro-Super-Server 中,用于 48(根据需要)节点服务器 pod,连接到 10 Gb 每秒以太网通信端口的 4 个节点。它已扩展到 1632 个节点集群。图 2 显示了 FPGA 查询延迟行为。FPGA 的采用将搜索性能提高了 2 倍。吞吐量增加,延迟减少了 29%,与 X86 iron 相比,降低了成本(高达 30%)和功耗。可以将计算密集型任务转发到附近的边缘节点。具有 FPGA 的硬件可定制边缘计算提高了性能并节省了能源。使用此方法通过卸载实现了基于计算机视觉的移动应用程序,这分别为边缘设备和移动设备提供了 16.2% 和 29.5% 的能效。如表 4 和表 5 所示,响应时间也大大减少了。

83393e78-cfb7-11ef-9310-92fbcf53809c.png

最近,CESNET(捷克 NREN)演示了基于 Virtex Ultra Scale+ FPGA 的 NFB-200G2QL 加速器可在单个 NIC 卡中实现 200 Gbps 吞吐量的网络数据传输。在此环境上进行的现代基准测试模拟提供的性能是完整软件模拟的两倍。

C. 高性能计算

本节主要强调了将基于云的服务与基于 FPGA 的数据中心架构相集成的重要性,以及基于云网络的数据处理任务的动机。表 7 突出显示了 FPGA 支持的云计算在数据中心中的各种作用。

8352066a-cfb7-11ef-9310-92fbcf53809c.png

在 FPGA 上移植应用程序并不是适用于数据中心或云应用程序中使用的所有类型和配置的 FPGA 的即插即用任务。为数据中心开发的 FPGA 虚拟化可用于与领域无关的用户设计进行交互。显然,虚拟化 FPGA 是为数据中心中的流式云应用程序开发的,并将结果与使用 FPGA 设计的传统虚拟机进行了比较。即使 FPGA 中软错误的物理发生频率不高,也需要测试 FPGA 的鲁棒性。尤其是在采用了超过 100,000 个 FPGA 节点的大规模数据中心中,需要确保可靠性以避免数据损坏。对基于 FPGA 的云计算节点进行故障分析,以估计 FPGA 在云计算中对软错误的敏感性。对 FPGA 结构代理和多 FPGA 结构的设计进行了动态策略分析,并对 FPGA 的扩展进行了分析,观察到吞吐量、性能和延迟方面的改进。

D. 高性能计算

随着智能设备、自动驾驶汽车和互联工厂的发展,它们将生成大量需要处理的数据。高性能计算用于利用分布式计算资源来解决复杂问题,其中包含大约 TB 甚至 ZB 的大型数据集,这些数据集需要实时处理。此类高性能计算通常由 CPU 和 GPU 执行。表 8 突出显示了 FPGA 在 HPC 中最重要的作用。

83695bee-cfb7-11ef-9310-92fbcf53809c.png

与 CPU 和 GPU 相比,FPGA 在某些应用中的性能优于 CPU 和 GPU:

线性代数方程的求解速度比 CPU 快 19 倍。地球物理的 3D 卷积比 CPU 快 70 倍,比 CPU 快 14 倍。分子动力学的求解速度比 NAMD CPU 快 80 倍。用于生物信息学的基本局部比对搜索工具 (BLAST) 的求解速度比并行优化的 CPU 快 5 倍。用于气候建模的全球大气方程比 CPU 快 19 倍,比 GPU 快 7 倍。FPGA 可配置用于具有高速计算的数据压缩应用程序,并将其集成到虚拟化环境中。

此外,在没有任何通信开销的情况下,FPGA 可以配置为提供具有更好硬件加速的微服务。使用带有 OpenCL 编译器的 Nallatech FPGA 实现了两个 HPC 应用程序,例如最近邻和 Lava MD(分子动力学)以及文档分类。与 Xeon 类型的处理器相比,此硬件架构产生的结果快 4.3 倍、5.3 倍和 1.3 倍。FPGA 实现的功耗也降低了。表 9 显示了上述应用程序的实现时间。在 FPGA、CPU 和 GPU 上演示了 AES256。基于 FPGA 的密码分析在成本、功耗和吞吐量方面的性能优于 GPU 和 CPU,如表 9 和表 10 所示。

837d719c-cfb7-11ef-9310-92fbcf53809c.png

83933234-cfb7-11ef-9310-92fbcf53809c.png

基于 ZU102 FPGA 的配置与纯软件数据传输相比,延迟降低了 25%。此外,在相同配置上进行 HPC 矩阵乘法的吞吐量提高了 10%。FPGA 可以配置为协处理器,因此与英特尔 i5 处理器相比,它可以使同态加密算法的速度提高 13 倍。表 11 列出了 FFT 实现的结果。它证实了基于 FPGA 的实现具有更高的吞吐量,并且由于模块之间通过互连进行高速数据传输而降低了延迟。

83ab823a-cfb7-11ef-9310-92fbcf53809c.png

因此,可以将 FPGA 集成到特定应用任务、计算密集型任务、内存访问结构等中,以改善延迟、吞吐量和执行速度。

III. 未来研究趋势、挑战和机遇

随着数据量的增加,数据中心必须移动更多的数据,它们面临着来自不同方向的重大挑战。尽管列出的问题并不代表所有基于 FPGA 的数据中心中尚未解决的研究趋势,但它们对通过高速计算执行以数据为中心的功能(如持久性、数据缩减、数据安全、数据过滤、数据分析等)具有长期影响。因此,FPGA 数据中心预计将与 CPU 进行协同调度,包括异构云数据中心管理、深度神经网络加速、通道攻击管理、FPGA 调度、虚拟化和漏洞分析。

IV. 结论和未来范围

芯片制造技术和 FPGA 的进步至关重要,它们在增强数据中心数据管理性能方面发挥着至关重要的作用。CPU 和传统计算资源面临着许多与数据流的动态特性相关的问题,这些问题涉及在数据中心云网络中处理数据流。FPGA 集群架构、云计算、硬件加速方面的创新可用于实现数据的快速处理并适应其动态流特性。

83beb256-cfb7-11ef-9310-92fbcf53809c.png

83e21fca-cfb7-11ef-9310-92fbcf53809c.png

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • FPGA
    +关注

    关注

    1646

    文章

    22070

    浏览量

    619742
  • 加速器
    +关注

    关注

    2

    文章

    828

    浏览量

    39200
  • 数据中心
    +关注

    关注

    16

    文章

    5256

    浏览量

    73631

原文标题:数据中心中的FPGA硬件加速器

文章出处:【微信号:HXSLH1010101010,微信公众号:FPGA技术江湖】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    PCIe协议分析仪在数据中心中有何作用?

    PCIe协议分析仪在数据中心中扮演着至关重要的角色,它通过深度解析PCIe总线的物理层、链路层、事务层及应用层协议,帮助运维人员、硬件工程师和系统架构师优化性能、诊断故障、验证设计合规性,并提
    发表于 07-29 15:02

    大型数据中心中的差分晶体振荡应用与频率匹配方案解析

    介绍差分晶体振荡数据中心中在交换芯片、AI服务、存储控制等场景下的频率匹配和接口设计方案。
    的头像 发表于 07-16 08:00 ?794次阅读
    大型<b class='flag-5'>数据中心中</b>的差分晶体振荡<b class='flag-5'>器</b>应用与频率匹配方案解析

    中型数据中心中的差分晶体振荡应用与匹配方案

    中型数据中心的定义与特点 中型数据中心通常服务于中大型企业、科研机构或地方行业节点,具备50至200个机柜,部署多台服务、交换设备、存储系统与光通信链路等,强调高带宽、低延迟与高可用性。关键设备
    发表于 07-01 16:33

    小型数据中心晶振选型关键参数全解

    的高精度时钟信号能够保证这些设备间的高效数据同步。 在小型数据中心中,差分晶体振荡(DCO)通常用于交换机、路由的时钟同步、网络接口卡(NIC)、存储设备(如NAS、SAN)等多个
    发表于 06-11 13:37

    是德科技推出AI数据中心构建

    是德科技(NYSE:KEYS)推出Keysight AI (KAI)数据中心构建,这是一款先进的软件套件,通过模拟真实工作负载来评估新算法、组件和协议对AI训练性能的影响。KAI数据中心构建
    的头像 发表于 04-07 11:06 ?538次阅读

    适用于数据中心和AI时代的800G网络

    和性能隔离能力,以保障不同用户任务互不干扰。 分布式AI计算与网络架构设计 分布式计算已成为AI训练的主流方式,通过将工作负载分配到多个GPU节点并行处理,以加速模型训练。这对数据中心网络架构
    发表于 03-25 17:35

    FPGA+AI王炸组合如何重塑未来世界:看看DeepSeek东方神秘力量如何预测......

    FPGA硬件加速能力处理传感数据。? 低功耗设计:针对边缘设备和物联网应用,开发低功耗的FPGA解决方案,以满足严格的功耗限制。 4.借
    发表于 03-03 11:21

    当我问DeepSeek AI爆发时代的FPGA是否重要?答案是......

    ,这为AI的持续创新提供了有力支持。 6.数据中心与云计算加速 ? 在云计算和数据中心中FPGA被用作AI计算加速器,尤其是针对深度学习工
    发表于 02-19 13:55

    亚马逊云科技发布全新数据中心组件

    近日,亚马逊云科技宣布了一项重大创新,推出了一系列全新的数据中心组件。这些组件旨在满足新一代人工智能(AI)创新的需求,并帮助客户应对日益复杂且多变的应用场景。 亚马逊云科技通过对电源、冷却以及硬件
    的头像 发表于 12-24 15:05 ?567次阅读

    从版本控制到全流程支持:揭秘Helix Core如何成为您的创意加速器

    加速器
    龙智DevSecOps
    发布于 :2024年11月26日 13:42:47

    PCIe加速卡在数据中心的应用

    随着数据中心的快速发展,对计算能力的需求也在不断增长。PCIe(Peripheral Component Interconnect Express)加速卡作为一种高性能的计算设备,已经在数据中心中
    的头像 发表于 11-06 09:32 ?1861次阅读

    适用于数据中心应用中的硬件加速器的直流/直流转换解决方案

    电子发烧友网站提供《适用于数据中心应用中的硬件加速器的直流/直流转换解决方案.pdf》资料免费下载
    发表于 08-26 09:38 ?0次下载
    适用于<b class='flag-5'>数据中心</b>应用中的<b class='flag-5'>硬件加速器</b>的直流/直流转换<b class='flag-5'>器</b>解决方案

    半导体存储数据中心中的应用

    半导体存储数据中心中的应用是极其重要且广泛的,它们不仅是数据中心存储系统的核心组件,还直接关系到数据处理的效率、可靠性和安全性。以下将详细阐述半导体存储
    的头像 发表于 08-20 10:17 ?1341次阅读

    图形图像硬件加速器卡设计原理图:270-VC709E 基于FMC接口的Virtex7 XC7VX690T PCIeX8 接口卡

    扩展。软件支持windows,Linux操作系统。Net FPGA , XC7VX690T板卡 , 软件无线电处理平台 , 图形图像硬件加速器
    的头像 发表于 08-06 10:16 ?1003次阅读
    图形图像<b class='flag-5'>硬件加速器</b>卡设计原理图:270-VC709E 基于FMC接口的Virtex7 XC7VX690T PCIeX8 接口卡

    混合冷却在数据中心中仍将是必不可少的#混合冷却

    数据中心
    深圳崧皓电子
    发布于 :2024年08月06日 06:58:06