0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

爆红智能AI如何看待DPU

芯启源 ? 来源:芯启源 ? 2023-02-10 14:30 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

上线仅2个月,OpenAI的最新一代产品-AI聊天机器人ChatGPT月活用户接近1亿。

作为自然语言处理(NLP)领域的前沿研究成果之一,ChatGPT已成为AIGC里程碑式的产品。

这周我们也与ChatGPT聊了聊他/她对大规模预训练背后所需资源的看法。

让我们一起来看看ChatGPT的回答是否能让你满意呢?

9f63de06-a8df-11ed-bfe3-dac502259ad0.png

9f8cfb56-a8df-11ed-bfe3-dac502259ad0.png

9fb5eda4-a8df-11ed-bfe3-dac502259ad0.png

强大的语言生成能力现在引起更多讨论的是规模预训练。在过去的很长一段时间里,许多的AI厂商都是通过本地设备来进行训练的。

GPT-3所训练的参数约为1750亿个,这部分需要大量的算力,而目前我们已知ChatGPT导入了至少1万颗英伟达高端GPU来训练模型。

a0011ebe-a8df-11ed-bfe3-dac502259ad0.png

a01a0bf4-a8df-11ed-bfe3-dac502259ad0.png

a034200c-a8df-11ed-bfe3-dac502259ad0.png

业界部分专家认为GPT-4训练参数可能会达到100万亿个参数,如此大规模、长时间的GPU集群训练任务,也对网络互联底座的性能、可靠性、成本等各方面都提出了极致的要求。

面对千亿、万亿参数规模的大模型训练,仅仅是单次计算迭代内梯度同步需要的通信量就高达TB量级。此外还有各种并行模式、加速框架引入的通信需求,使得传统低速网络的带宽远远无法支撑GPU集群的高效计算,甚至成为了其中关键的瓶颈。

因此要充分发挥GPU计算资源的强大算力,必须构建一个全新的高性能网络底座,用高速网络的大带宽来助推整个集群计算的高效率。

a0b178ae-a8df-11ed-bfe3-dac502259ad0.png

a0e8cb24-a8df-11ed-bfe3-dac502259ad0.png

CPU+GPU的异构计算模型已经成为高性能计算领域中的主流计算架构。而高吞吐、低延时是高性能计算场景中最为迫切的应用需求。

a124efc8-a8df-11ed-bfe3-dac502259ad0.png

a14629cc-a8df-11ed-bfe3-dac502259ad0.png

a1dac668-a8df-11ed-bfe3-dac502259ad0.png

我们可以知道,GPUDirect RDMA是RDMA在异构计算场景中的应用延伸,使得GPU之间的通信不在依赖CPU转发,从而进一步提升高性能计算场景中整体算力。

从DPU芯片的实现角度看,不同DPU厂商的核心竞争壁垒在于专用加速引擎的硬件实现上。由于DPU是数据中心中所有服务器的流量入口,并以处理报文的方式处理数据,在网络芯片领域积累更多的厂商将更有优势。

a1fea060-a8df-11ed-bfe3-dac502259ad0.png

传统的GPU在访问存储时,需要将数据先搬移到系统内存,再由系统内存搬移到目标设备。而采用DPU介入后可以绕过CPU,直接通过PCIe访问远端的NVMe设备,加速AI训练,大大降低CPU的开销。

在AI/ML领域的工作负载对于存储系统的要求十分苛刻,目前此类应用已主要采用全闪存存储,其中NVMe全闪存逐渐成为主流趋势。同时存储与前端应用主机的网络存储协议开始采用NVMe over Fabrics(NVMe-oF)。

NVMe-oF是一种存储网络协议,通过网络将NVMe命令传送到远程NVMe子系统,以利用NVMe 全闪存的并行访问和低延迟,该规范定义了一个协议接口,旨在与高性能fabric技术配合使用,包括通过实现RDMA技术的InfiniBand、RoCE v2、iWARP或TCP。

NVMe-oF是一种使用NVMe协议将访问扩展到远程存储系统的非易失性存储器(NVM)设备的方法。这使得前端接口能够连接到存储系统中,扩展到大量NVMe设备,并延长数据中心内可以访问NVMe子系统的距离。NVMe-oF的目标是显著改善数据中心网络延迟,并为远程NVMe设备提供近似于本地访问的延迟,目标为10us。

我们知道AI对计算的需求非常大,目前主流的AI加速还是以GPU、FPGA和一些专门的AI芯片等为主。在GPU、AI芯片用于AI计算之前都是CPU承担计算的任务,CPU的效率难以满足需求,从而产生CPU+GPU+ASIC的异构计算。随着DPU的出现,这种异构计算的发展更加彻底,可以更大提供并行处理能力,适合大规模计算的发展。

a217cd2e-a8df-11ed-bfe3-dac502259ad0.png

支持Chiplet技术的超异构算力芯片,伴随着AI/ML的发展将会得到更好的应用,而支持Die-To-Die互联技术将能够提供互联其他AI芯片和算力单元的巨大能力,摆脱一直以来PCIe发展的限制。 ??拿芯启源自身举例,以支持高级AI为主要目标之一的芯启源最新的DPU芯片,其架构中就应用Chiplet技术。不仅提升了自有智能网卡的性能,通过支持与第三方芯片的Die-To-Die互联,还可以集成更多的特定专业领域的芯片,比如AI训练中的GPU芯片。

虽然PCIe非常的标准,但是带宽非常有限的,PCIe Gen3的理论带宽是32GB/s,PCIe Gen4的理论带宽是64GB/s,而实测带宽大概分别是24GB/s和48GB/s。

在AI训练中,每完成一轮计算,都要同步更新一次参数,也就是权系数。模型规模越大,参数规模一般也会更大,这样算力芯片的效率会收到PCIe架构的限制,支持更高能力层次的互联技术讲彻底解决带宽限制和瓶颈,极大提升单节点计算效率。

和ChatGPT聊了那么多,最后再让我们来看看他/她对于DPU应用了解多少呢?

a2a5aea0-a8df-11ed-bfe3-dac502259ad0.png

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    88

    文章

    35506

    浏览量

    281414
  • DPU
    DPU
    +关注

    关注

    0

    文章

    394

    浏览量

    25015
  • chiplet
    +关注

    关注

    6

    文章

    461

    浏览量

    13036

原文标题:爆红智能AI如何看待DPU ChatGPT这样说

文章出处:【微信号:corigine,微信公众号:芯启源】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    AI智能眼镜将达千万级,这颗芯片提前火了!

    电子发烧友网报道(文/黄晶晶)自CES2025展上AI智能眼镜大放异彩之后,业界普遍期待这一单品有望接棒TWS耳机,成为又一款消费电子产品。前有?Meta 公司与雷朋(Ray-Ban)品牌合作推出
    的头像 发表于 02-24 07:48 ?3786次阅读
    <b class='flag-5'>爆</b>品<b class='flag-5'>AI</b><b class='flag-5'>智能</b>眼镜将达千万级,这颗芯片提前火了!

    信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代

    DeepSeek-R1:强大的AI推理引擎底座DeepSeek是由杭州深度求索人工智能基础技术研究有限公司开发的新一代AI大模型。其核心优势在于强大的推理引擎能力,融合了自然语言处理(NLP)、深度
    发表于 07-16 15:29

    最新人工智能硬件培训AI基础入门学习课程参考2025版(离线AI语音视觉识别篇)

    端侧离线 AI 智能硬件作为 AI 技术的重要载体之一,凭借其无需依赖网络即可实现智能功能的特性,在一些网络条件受限或对数据隐私有较高要求的场景中,发挥着不可或缺的作用。本章基于CSK
    发表于 07-04 11:14

    达实智能如何看待行业的发展

    智能化行业发展如何?在行业深耕30载的达实智能如何看待行业的发展?全新系列“刘磅解码智能化”已上线,达实智能董事长刘磅将与大家分享
    的头像 发表于 06-23 13:48 ?393次阅读

    【解构·AI玩具】从“小智AI”引爆开发者热潮说起

    一、AI玩具火,“小智AI”引爆全民热潮 在众多AI硬件产品当中,AI玩具曾长期被视为边缘品类,相较于满足功能性需求的
    发表于 05-20 09:20 ?1573次阅读
    【解构·<b class='flag-5'>AI</b>玩具】从“小智<b class='flag-5'>AI</b>”引爆开发者热潮说起

    10分钟快速打造AI硬件!涂鸦产品AI功能和智能体开发平台重磅上新

    智能化浪潮的推动下,AI智能设备的深度融合,不仅重塑了人类的生活方式,更为开发者带来了无限想象空间。例如AI陪伴机器人、AI玩具、
    的头像 发表于 03-06 18:59 ?925次阅读
    10分钟快速打造<b class='flag-5'>爆</b>款<b class='flag-5'>AI</b>硬件!涂鸦产品<b class='flag-5'>AI</b>功能和<b class='flag-5'>智能</b>体开发平台重磅上新

    又一个中国AI产品Manus刷屏 中国AI新星Manus火 全网抢邀请码

    Manus 的 AI 产品在科技圈一夜火,全球首款通用智能体Manus开启内测火,据说现在很多的网友都在求Manus邀请码。而Manus的
    的头像 发表于 03-06 14:09 ?1394次阅读

    AI赋能边缘网关:开启智能时代的新蓝海

    在数字化转型的浪潮中,AI与边缘计算的结合正掀起一场深刻的产业变革。边缘网关作为连接物理世界与数字世界的桥梁,在AI技术的加持下,正从简单的数据采集传输节点,进化为具备智能决策能力的边缘计算单元
    发表于 02-15 11:41

    泰晶科技晶振在AI眼镜中的应用

    近年来,随着人工智能与增强现实(AR)技术的深度融合,AI智能眼镜正从科幻概念加速迈向消费级市场,成为继智能手机之后最具潜力的下一代智能终端
    的头像 发表于 02-14 16:18 ?809次阅读

    HarmonyOS NEXT 应用开发练习:AI智能对话框

    一、练习内容 在这个HarmonyOS NEXT原生应用DEMO中,我们将使用ArkTS开发语言创建一个功能更为丰富的AI智能对话框。这个对话框不仅具备基本的聊天功能,还能展示图片消息、表情符号,并
    发表于 01-03 11:29

    AI智能网卡在AI网络中的作用

    写在开头,本文主要介绍智能网卡在AI网络的作用并在一定场景下说明DPU智能网卡在功能上的一些区别以理解两者的相似点和不同点。
    的头像 发表于 12-18 16:17 ?1606次阅读

    AI for Science:人工智能驱动科学创新》第4章-AI与生命科学读后感

    很幸运社区给我一个阅读此书的机会,感谢平台。 《AI for Science:人工智能驱动科学创新》第4章关于AI与生命科学的部分,为我们揭示了人工智能技术在生命科学领域中的广泛应用和
    发表于 10-14 09:21

    AI for Science:人工智能驱动科学创新》第二章AI for Science的技术支撑学习心得

    非常高兴本周末收到一本新书,也非常感谢平台提供阅读机会。 这是一本挺好的书,包装精美,内容详实,干活满满。 关于《AI for Science:人工智能驱动科学创新》第二章“AI
    发表于 10-14 09:16

    人工智能ai4s试读申请

    目前人工智能在绘画对话等大模型领域应用广阔,ai4s也是方兴未艾。但是如何有效利用ai4s工具助力科研是个需要研究的课题,本书对ai4s基本原理和原则,方法进行描诉,有利于总结经验,拟
    发表于 09-09 15:36