0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

在AWS Graviton4处理器上运行大语言模型的性能评估

Arm社区 ? 来源:Arm社区 ? 2025-02-24 10:28 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

作者:Arm 基础设施事业部 AI 解决方案架构师 Na Li;Arm 基础设施事业部首席软件工程师 Masoud Koleini

亚马逊科技 (AWS) 新一代基于 Arm 架构的定制 CPU —— AWS Graviton4 处理器已于 2024 年 7 月正式上线。这款先进的处理器基于 64 位 Arm 指令集架构的 Arm Neoverse V2 核心打造,使其能为各种云应用提供高效且性能强大的解决方案[1]。

在本文中,我们将评估在基于 Graviton4 处理器的 AWS EC2 实例(C8g 实例类型)上运行语言模型的推理性能。通过利用针对 Arm 内核优化的 Q_4_0_4_8 量化技术,在参数范围从 38 亿到 700 亿不等的模型[2-5]上使用 llama.cpp[6] 进行基准测试。此外,我们还比较了基于 Graviton4 的实例与采用上一代 Graviton3 处理器的 EC2 实例上运行模型的性能。

Llama 3 70B 在 AWS Graviton4 上的执行速度快于人类可读性水平

与 Graviton3 相比,AWS Graviton4 处理器提供了执行更大参数规模语言模型的潜力。为了评估 Graviton4 处理器在运行不同参数大小的大语言模型 (LLM) 时的性能,我们在 Graviton4 C8g.16xlarge 实例上部署了三个模型,分别为 Llama 3 70B、Phi-3-mini 3.8B 和 Llama 3 8B,并测量了其推理性能。主要性能指标是生成下个词元 (next-token) 的延迟,如图表 1 所示。尽管 Llama 3 70B 模型相对于其他较小的模型表现出更长的延迟,但在批次大小为 1 的情况下,它仍然能达到每秒生成 5 至 10 个词元的人类可读性水平,并近乎满足生成下个词元延迟 100 毫秒的目标服务等级协议 (SLA)。

907a8826-f005-11ef-9310-92fbcf53809c.jpg

图表 1:在 C8g.16xlarge 实例上运行 Llama 3 70B、Phi-3-mini 3.8B 和 Llama 3 8B 模型时,下个词元生成时间的性能表现,其中批次大小模拟了一个或多个用户同时调用模型的场景

根据 Meta[7] 的说法,尽管与 Llama 3 8B 模型相比,Llama 3 70B 模型生成下个词元的延迟更长(图表 1),但该模型在需要高级逻辑推理的任务中表现相当卓越(见图 1 中的示例)。对于看重低延迟响应时间且无需复杂逻辑推理的应用而言,Llama 3 8B 模型是合适之选。相反,如果应用在延迟性方面的要求更为宽松,但需要高级推理或创造性能力,则 Llama 3 70B 模型是合适的选择。

909d1d6e-f005-11ef-9310-92fbcf53809c.jpg

图 1:在第一行显示的示例中,Llama 3 8B 和 Llama 3 70B 模型都为基于知识的问题提供了很好的回答;而在第二行的示例中,只有 Llama 3 70B 回答正确,因为问题的解答需要进行逻辑推理

使用 Graviton3 和 Graviton4 处理器

支持不同的语言模型

为了评估 AWS Graviton 处理器在运行 LLM 时的性能,我们在 Graviton3 (C7g.16xlarge) 和 Graviton4 (C8g.16xlarge) 实例上部署了参数范围从 38 亿到 700 亿不等的模型,并评测了它们的推理能力。

如表 1 所示,基于 Graviton3 和 Graviton4 的实例均能支持多达 270 亿参数的模型,包括 Phi-3-mini 3.8B、Llama 3 8B 和 Gemma 2 27B。然而,在被评估的模型中,Graviton4 能够处理参数量最大的 Llama 3 70B 模型。

90c4fb86-f005-11ef-9310-92fbcf53809c.jpg

表 1:Graviton3 和 Graviton4 处理器支持多种语言模型

从 Graviton3 到Graviton4 处理器的性能提升

我们在 Graviton3 (C7g.16xlarge) 和 Graviton4 (C8g.16xlarge) 的实例上部署了 Llama 3 8B 模型,以评估性能方面的提升。性能是基于提示词编码进行评估的,它衡量了语言模型处理和解释用户输入的速度,如图表 2 所示。在不同的用户批次大小测试中,Graviton4 的提示词编码性能相较 Graviton3 提升了 14% 至 26%(见图表 2 右轴)。

90e39578-f005-11ef-9310-92fbcf53809c.jpg

图表 2:从 Graviton3 (C7g.16xlarge) 到 Graviton4 (C8g.16xlarge) 运行 Llama 3 8B 模型的提示词编码所实现的性能提升

如图表 3 所示,词元生成(评估语言模型在运行 Llama 3 8B 时响应和生成文本的速度)也展示了显著的性能提升。性能曲线显示,在不同的用户批次大小测试中,性能都有明显增长,Graviton4 在较小的用户批次上显示出更显著的效率提升,实现了 5% 至 50% 的增长(参见图表 3 右轴)。

90edf7a2-f005-11ef-9310-92fbcf53809c.jpg

图表 3:从 Graviton 3 (C7g.16xlarge) 到 Graviton 4 (C8g.16xlarge) 运行 Llama 3 8B 模型实现的词元生成性能提升

结论

在 AWS Graviton4 C8g.x16large 实例上运行 Llama 3 70B,每秒可生成 10 个词元,该速度超过了人类可读性水平。与 Graviton3 相比,这种性能增强使 Graviton4 能够处理包括需要高级推理等更广泛的生成式 AI 任务。在运行 Llama 3 8B 模型时,Graviton4 的提示词编码性能较 Graviton3 提高了 14% 至 26%,词元生成性能提高了 5% 至 50%。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • cpu
    cpu
    +关注

    关注

    68

    文章

    11097

    浏览量

    217648
  • 亚马逊
    +关注

    关注

    8

    文章

    2699

    浏览量

    84809
  • AWS
    AWS
    +关注

    关注

    0

    文章

    438

    浏览量

    25370

原文标题:在 AWS Graviton4 CPU 上运行 Llama 3 70B 模型,执行速度超过人类可读性水平

文章出处:【微信号:Arm社区,微信公众号:Arm社区】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    强悍的AWS Graviton4处理器及其背后的Arm Neoverse

    Graviton4相较于上一代产品带来了巨大的性能提升。同时,为Graviton4赋能的Arm Neoverse也跟着受到了更多的关注。 ? 强悍的Graviton4
    的头像 发表于 12-19 00:04 ?2473次阅读

    基于ARM Cortex-M4处理器与板载NAND闪存的ATSAM4E-EK评估套件

    ATSAM4E-EK,SAM4E-EK评估板基于ARM Cortex-M4处理器与板载NAND闪存和一系列流行外设的集成。它旨在为各种应用提
    发表于 04-22 10:16

    Arm Neoverse V1的AWS Graviton3深度学习推理工作负载方面的作用

    :具有 AWS Graviton3 处理器的 c7g.4xlarge 实例集群和具有 AWS Gravi
    发表于 08-31 15:03

    AWS云中使用Arm处理器设计Arm处理器

    1、AWS云中使用Arm处理器设计Arm处理器  Amazon Web Services (AWS) 宣布推出基于 Arm 的全新
    发表于 09-02 15:55

    Sitara AM62处理器的资料分享

    和小型人机界面 (HMI) 应用。TI 将于2022年6月21日至23日德国纽伦堡的Embedded World展会(215号展位)展出全新的AM62处理器,并演示适用于边缘AI和电动汽车充电HMI
    发表于 11-03 06:11

    Cortex?-M4处理器介绍

    本实验的目的是向您介绍意法半导体Cortex?-M4处理器,该处理器使用ARM?KEIL?MDK工具包,具有集成开发环境μ?。 我们将使用串行线查看(SWV)和板载ST-Link/V
    发表于 09-04 07:47

    AMD Athlon 4处理器

    AMD Athlon 4处理器 2001年5月,AMD发布了基于palomino核心的新型移动Athlon 4处理器,包括Mobile Athlon
    发表于 01-22 10:52 ?932次阅读

    A14处理器性能已超酷睿i9处理器,意味着ARM超越Intel吗?

    苹果最新发布的A14处理器性能比去年的A13提升了16%,而去年的A13处理器已与Intel的顶级PC处理器酷睿i9-10920X相当,如此一来A14
    的头像 发表于 10-21 10:48 ?8182次阅读
    A14<b class='flag-5'>处理器</b><b class='flag-5'>性能</b>已超酷睿i9<b class='flag-5'>处理器</b>,意味着ARM超越Intel吗?

    A14处理器性能超过酷睿i9处理器,ARM胜出一筹

    苹果最新发布的A14处理器性能比去年的A13提升了16%,而去年的A13处理器已与Intel的顶级PC处理器酷睿i9-10920X相当,如此一来A14
    发表于 10-21 15:07 ?3188次阅读
    A14<b class='flag-5'>处理器</b>的<b class='flag-5'>性能</b>超过酷睿i9<b class='flag-5'>处理器</b>,ARM胜出一筹

    AWS基于Arm架构的Graviton 2处理器落地中国

    Graviton 2处理器提供支持的Amazon Elastic Compute Cloud(Amazon EC2)M6g、C6g和R6g实例已在由光环新网运营的AWS中国(北京)地区和由西云数据运营
    的头像 发表于 02-01 11:46 ?3319次阅读

    STM32处理器的示例

    STM32处理器的示例
    发表于 03-23 10:09 ?15次下载
    STM32<b class='flag-5'>处理器</b><b class='flag-5'>上</b>的示例

    亚马逊推出Graviton4处理器及AI量子芯片Trainium2

    据介绍, Graviton4比前代性能提升 30%,内核数增加 50%,内存带宽增加 75%,可以帮助 Amazon EC2 云服务的各类工作负载提供最佳性价比和能效。这款处理器还对所有高速物理硬件接口加密来提高安全性。
    的头像 发表于 11-30 17:43 ?1325次阅读

    亚马逊网络服务即将推出第四代Graviton处理器

    7月10日,雅虎财经独家报道了亚马逊网络服务(AWS)即将推出的重大技术进展——其第四代Graviton处理器,即Graviton4芯片。这一重要信息由
    的头像 发表于 07-10 15:51 ?960次阅读

    亚马逊云科技宣布基于自研Amazon Graviton4的Amazon EC2 R8g实例正式可用

    北京2024年7月15日?/美通社/ -- 亚马逊云科技宣布基于自研芯片Amazon Graviton4处理器的Amazon Elastic Compute Cloud (Amazon EC2
    的头像 发表于 07-15 16:09 ?630次阅读

    Arm与AWS合作深化,AWS Graviton4展现显著进展

    :Invent 2024大会上,AWS进一步展示了其基于Arm架构的AWS Graviton4处理器的显著进展。AWS
    的头像 发表于 12-18 14:17 ?593次阅读