0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

VMware在vSphere上验证Alveo FPGA性能

星星科技指导员 ? 来源:Xilinx ? 作者:Xilinx ? 2022-06-03 11:28 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

硬件加速器已经在数据中心变得司空见惯,大量新的工作负载已经成熟,可以利用 FPGA 加速的优势及其更高的计算效率。对机器学习 (ML) 的快速增长的兴趣正在推动在私有、公共和混合云数据中心环境中越来越多地采用 FPGA 加速器来加速这种计算密集型工作负载。作为促进 IT 基础架构向异构计算转型的一部分,我们最近与 VMware 合作在 vSphere上测试 FPGA 加速,VMware的云计算虚拟化平台。鉴于赛灵思 FPGA 越来越多地用于 ML 推理加速,我们将展示如何将赛灵思 FPGA 与 VMware vSphere 结合使用,以实现虚拟和裸机部署之间几乎相同的高吞吐量和低延迟 ML 推理性能。

自适应计算优势

FPGA 是自适应计算设备,可提供重新编程的灵活性以满足所需应用程序的不同处理和功能要求。这一特性将 FPGA 与 GPUASIC 等固定架构区分开来——更不用说定制 ASIC 飞涨的成本了。此外,与其他硬件加速器相比,FPGA 在实现高能效和低延迟方面也具有优势,这使得 FPGA 特别适用于 ML 推理任务。与 GPU 从根本上依赖大量并行处理内核来实现高吞吐量不同,FPGA 可以通过定制的硬件内核、数据流管道和互连同时实现 ML 推理的高吞吐量和低延迟。

在 vSphere 上使用 Xilinx FPGA 进行 ML 推理

VMware 在他们的实验室中使用 Xilinx Alveo U250 数据中心卡 进行测试。使用 Vitis AI中提供的 Docker 容器快速配置 ML 模型, Vitis AI是 Xilinx 统一开发堆栈,用于在 Xilinx 硬件平台上从 Edge 到 Cloud 进行 ML 推理。它由优化的工具、库、模型和示例组成。Vitis AI 支持主流框架,包括 Caffe 和 TensorFlow,以及能够执行各种深度学习任务的最新模型。此外,Vitis AI 是开源的,可以在 GitHub 上访问。

poYBAGKUOhaAWWRxAABjyRIuucA862.png

Vitis AI 软件堆栈

目前,Xilinx FPGA 可以通过 DirectPath I/O 模式(直通)在 vSphere 上启用。通过这种方式,我们的 FPGA 可以被运行在 VM 中的应用程序直接访问,绕过虚拟机管理程序层,从而最大限度地提高性能并最大限度地减少延迟。在 DirectPath I/O 模式下配置 FPGA 是一个简单的两步过程:首先,在主机级别启用 ESXi 上的设备,然后将设备添加到目标 VM。详细说明可在此 VMware 知识库文章中找到。请注意,如果您运行的是 vSphere 7,则不再需要重新引导主机。

高吞吐量、低延迟的机器学习推理性能

VMware 与 Xilinx 一起通过使用四个 CNN 模型运行推理来评估我们的 Alveo U250 加速卡在 DirectPath I/O 模式下的吞吐量和延迟性能:Inception_v1;初始_v2;资源网50;和 VGG16。这些模型的模型参数数量不同,因此具有不同的处理复杂性。

测试使用了配备两个 10 核 Intel Xeon Silver 4114 CPU 和 192 GB DDR4 内存的 Dell PowerEdge R740 服务器。我们使用了 ESXi 7.0 管理程序,并将每个模型的端到端性能结果与作为基准的裸机进行了比较。Ubuntu 16.04(内核 4.4.0-116)用作来宾操作系统和本机操作系统。此外,Vitis AI v1.1 和 Docker CE 19.03.4 用于整个测试。使用从 ImageNet2012 派生的 50k 图像数据集,为了进一步避免读取图像的磁盘瓶颈,创建了一个 RAM 磁盘并用于存储 50k 图像。

通过这些设置,虚拟和裸机测试之间的性能比较可以在以下两张图中查看,一张用于吞吐量,另一张用于延迟。y 轴是虚拟机和裸机之间的比率,y=1.0 表示虚拟机和裸机的性能相同。

pYYBAGKUOiGAZcb2AAA-wxzkd5U703.png

Xilinx Alveo U250 FPGA 机器学习推理的裸机和虚拟机吞吐量性能比较

pYYBAGKUOieAJctFAAA7mw1IcfU006.png

Xilinx Alveo U250 FPGA 机器学习推理的裸机和虚拟机延迟性能比较

测试验证了虚拟机和裸机之间的性能差距上限为 2%,无论是吞吐量还是延迟。这表明在虚拟环境中用于 ML 推理的 vSphere 上的 Alveo U250 的性能几乎与裸机基准相同。

云中的 FPGA 性能

FPGA 加速器在数据中心的采用正变得越来越普遍,并将继续增加以满足对异构计算和性能提升的日益增长的需求。我们很高兴与 VMware 合作,以确保客户能够充分利用 vSphere 平台上的 Xilinx FPGA 加速。我们的 Alveo U250 加速器在 vSphere for ML inference 上的测试成功地向客户展示了通过 DirectPath I/O 模式实现的接近原生的性能。审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • FPGA
    +关注

    关注

    1646

    文章

    22097

    浏览量

    620711
  • 数据中心
    +关注

    关注

    16

    文章

    5287

    浏览量

    73724
  • 机器学习
    +关注

    关注

    66

    文章

    8513

    浏览量

    135104
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    降低adc不同PCB的噪声,如何做到接近AD4134验证板噪声水平?

    ,。多片AD4134布局到一整版PCB,且PCB存在FPGA和大量DC/DC,LDO。 374ksps采样率下,Nrms大约有1mvpp,(已采集过已知正弦波信号,波形特征正常)
    发表于 08-11 08:24

    FPGA EDA软件的位流验证

    位流验证,对于芯片研发是一个非常重要的测试手段,对于纯软件开发人员,最难理解的就是位流验证FPGA芯片研发中,位流验证是在做什么,在哪些
    的头像 发表于 04-25 09:42 ?1520次阅读
    <b class='flag-5'>FPGA</b> EDA软件的位流<b class='flag-5'>验证</b>

    FPGAAI方面有哪些应用

    随着人工智能技术的飞速发展,对计算性能的需求也日益增长。FPGA(现场可编程门阵列)作为一种高性能、低功耗、可灵活编程的硬件平台,正逐渐 AI 领域崭露头角,展现出独特的优势,为 A
    的头像 发表于 01-06 17:37 ?1527次阅读

    Netflix起诉博通,指控VMware虚拟机专利侵权

    近日,全球知名流媒体服务商Netflix加利福尼亚州北区地方法院正式对博通公司提起诉讼,指控其旗下VMware公司的vSphere虚拟化平台侵犯了Netflix所持有的五项与虚拟机通信相关的技术
    的头像 发表于 12-26 10:37 ?644次阅读

    AMD Alveo媒体加速产品组合SDK 1.2.1发布

    我们很高兴地宣布AMD Alveo 媒体加速产品组合( AMA )SDK 1.2.1 版本发布,从而进一步扩展 AMD Alveo MA35D 媒体加速卡功能。
    的头像 发表于 12-18 16:01 ?816次阅读

    芯华章发布FPGA验证系统新品HuaProP3

    近日,国内EDA(电子设计自动化)领域的佼佼者芯华章公司,正式对外宣布其最新研发的FPGA验证系统——HuaProP3已正式面世。这款产品的推出,标志着芯华章FPGA
    的头像 发表于 12-13 11:12 ?921次阅读

    芯华章推出新一代高性能FPGA原型验证系统

    华章科技,也不断提升硬件验证的对应方案和产品能力。 HuaPro P3作为芯华章第三代FPGA验证系统产品,采用最新一代可编程SoC芯片,结合自研的HPE Compiler工具链,可
    发表于 12-10 10:49 ?656次阅读
    芯华章推出新一代高<b class='flag-5'>性能</b><b class='flag-5'>FPGA</b>原型<b class='flag-5'>验证</b>系统

    国产EDA公司芯华章科技推出新一代高性能FPGA原型验证系统

    作为国产EDA公司的芯华章科技,也不断提升硬件验证的对应方案和产品能力。 HuaPro P3作为芯华章第三代FPGA验证系统产品,采用最新一代可编程SoC芯片,结合自研的HPE Co
    发表于 12-10 09:17 ?764次阅读
    国产EDA公司芯华章科技推出新一代高<b class='flag-5'>性能</b><b class='flag-5'>FPGA</b>原型<b class='flag-5'>验证</b>系统

    助力AIoT应用:米尔FPGA开发板实现Tiny YOLO V4

    受限的设备运行,尤其低功耗、实时检测的边缘计算设备中表现出色。相比传统 GPU,FPGA 能在小面积和低功耗下实现类似的推理性能,非常契合 AIoT 应用。像米尔 ZU3EG 这样
    发表于 12-06 17:18

    AMD Alveo V80计算加速器网络研讨会

    欢迎参加本次网络研讨会,我们将深入探讨 AMD Alveo V80 计算加速器如何帮助您处理高性能计算、数据分析、金融科技、网络安全、存储加速、AI 计算等领域的内存密集型工作负载。Alveo
    的头像 发表于 11-08 09:35 ?709次阅读

    数字芯片设计验证经验分享文章 实际案例说明用基于FPGA的原型来测试、验证和确认IP——如何做到鱼与熊掌兼

    本系列文章从数字芯片设计项目技术总监的角度出发,介绍了如何将芯片的产品定义与设计和验证规划进行结合,详细讲述了FPGA使用硅知识产权(IP)内核来开发ASIC原型项目时,必须认真考
    的头像 发表于 10-28 14:53 ?1184次阅读
    数字芯片设计<b class='flag-5'>验证</b>经验分享文章 实际案例说明用基于<b class='flag-5'>FPGA</b>的原型来测试、<b class='flag-5'>验证</b>和确认IP——如何做到鱼与熊掌兼

    快速部署原型验证:从子卡到调试的全方位优化

    引言原型验证是一种FPGA平台上验证芯片设计的过程,通过FPGA
    的头像 发表于 09-30 08:04 ?1199次阅读
    快速部署原型<b class='flag-5'>验证</b>:从子卡到调试的全方位优化

    贸泽开售适用于高性能计算应用的AMD Alveo V80加速器卡

    产品搭载高性能的AMD Versal? HBM自适应片系统 (SoC),集成了速度更快的高带宽内存 (HBM2e DRAM),能克服高性能计算 (HPC) 应用中的内存瓶颈问题,这些应用包括基因测序
    发表于 09-27 14:59 ?401次阅读

    FPGA算法工程师、逻辑工程师、原型验证工程师有什么区别?

    逻辑工程师和 FPGA 原型验证工程师工作重点和职责存在一定的区别: FPGA 算法工程师: 主要关注算法的设计和优化,以
    发表于 09-23 18:26

    数字芯片设计验证经验分享(第三部分):将ASIC IP核移植到FPGA——如何确保性能与时序以完成充满挑战的

    本篇文章是SmartDV数字芯片设计经验分享系列文章的第三篇,将继续分享第五、第六主题,包括确保FPGA实现所需的性能和时钟两个方面的考量因素。
    的头像 发表于 08-26 14:31 ?2575次阅读
    数字芯片设计<b class='flag-5'>验证</b>经验分享(第三部分):将ASIC IP核移植到<b class='flag-5'>FPGA</b><b class='flag-5'>上</b>——如何确保<b class='flag-5'>性能</b>与时序以完成充满挑战的