0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

RISC-V CPU 上 3 倍推理加速!V-SEEK:在 SOPHON SG2042 上加速 14B LLM

算能开发者社区 ? 2025-08-05 14:01 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

关键词:V-SEEK、LLM Inference Optimization、RISC-V、SOPHON SG2042、llama.cpp、NUMA Optimization

aef34156-71c1-11f0-9080-92fbcf53809c.png
  • V-SEEK: ACCELERATING LLM REASONING ON OPEN-HARDWARE SERVER-CLASS RISC-V PLATFORMS

近年来,大型语言模型(LLM)的指数级增长依赖于基于 GPU 的系统。然而,CPU 正逐渐成为一种灵活且成本更低的替代方案,尤其是在面向推理(inference,即模型已完成训练、仅做预测的阶段)和推理负载(reasoning workloads,指需要多步逻辑推导的预测任务)时。

RISC-V(一种开源、免授权、可自由定制的指令集架构)凭借开放且与厂商无关的 ISA(Instruction Set Architecture,指令集架构)在该领域迅速受到关注。

然而,面向 LLM 负载的 RISC-V 硬件及其配套软件生态未完全成熟和流畅,原因是需要对特定领域进行调优。

本文旨在填补这一空白,聚焦于在 SOPHON SG2042 上优化 LLM 推理;SG2042 是首款商用、具备向量处理能力的多核 RISC-V CPU。

在两个新近为推理优化的 SOTA(state-of-the-art,业界最佳)开源 LLM——DeepSeek R1 Distill Llama 8B 与 DeepSeek R1 Distill QWEN 14B——上,我们实现了:

  • token 生成(token generation,逐词生成)4.32 / 2.29 token/s
  • 提示处理(prompt processing,又称 prefill,把整段输入一次性算完)6.54 / 3.68 token/s 的吞吐,相比我们的基线实现最高加速达 2.9× / 3.0×。

本文目录

  • 本文目录
  • 一、引言
  • 二、研究方法
    • 2.1 高性能 Kernel
    • 2.2 编译器工具链
    • 2.3 模型映射优化
  • 三、实验结果与分析
    • Kernel Scaling
    • 不同编译器影响
    • NUMA 策略影响
    • 性能小结
  • 参考文献

一、引言

超大规模云服务商(hyperscalers,例如 AWS)与 AI 部署公司(例如 OpenAI)通常使用 GPU 集群或专用加速器(如 TPU,Tensor Processing Unit)来加速 LLM 工作负载。然而,多核 CPU 加速 LLM 也已得到近期探索[2],因为它在硬件成本更低的同时提供了更高的灵活性尤其适用于本地部署(on-premise)和低延迟边缘服务器(edge servers)。

现有研究主要针对 x86 和 ARM,而基于灵活且开源的 RISC-V 指令集架构的多核芯片则相对未被充分探索 [1]。

为了填补这一空白,本工作将业界先进的 LLM 推理框架 llama.cpp [7] 适配并优化到首款商用的、通用型多核 RISC-V 平台——SOPHON SG2042[1]。

在两个新近开源、专为推理优化的模型(DeepSeek R1 Distill Llama 8B / QWEN 14B)上,我们相比基线 llama.cpp 实现最高实现了 token 生成 3.0×、提示处理 2.8× 的加速(在 4-bit 量化精度下),分别达到 4.32 / 2.29 与 6.54 / 3.68 token/s 的吞吐。

在 vanilla Llama 7B 上,我们实现 token 生成 6.63 token/s、提示处理 13.07 token/s,即相比基线实现加速 4.3× / 5.5×,并较 SG2042 上已报道的最佳结果 [8] 提升 1.65×,同时与成熟的 x86 CPU 推理性能具有竞争力

二、研究方法

为了探索在 RISC-V 服务器级平台上优化 LLM 推理的可用选项,我们选定了 MILK-V Pioneer 作为目标平台,其核心为 64 核 SOPHON SG2042 CPU,并配备 128 GB DRAM 内存。平台框图见图 1-center。

af47ab06-71c1-11f0-9080-92fbcf53809c.png

我们识别出可以从三个方向着手解决问题的路径,均在软件层面,灵感来自其他架构上的相关工作 [5,6,3]:

2.1 高性能 Kernel

针对关键 LLM 层开发经过优化的、若支持则已量化的计算内核(kernels,指一段专门用于矩阵运算的底层代码),充分利用硬件资源,同时兼顾其内存结构、流水线(pipeline,指令执行顺序)和向量化能力

af47ab06-71c1-11f0-9080-92fbcf53809c.png

图 1-right 给出了我们提出的内核的伪代码:

  • 首先,将 fp32(32 位浮点)输入(向量或瘦矩阵)量化为 int8(8 位整数);
  • 接着,执行两层嵌套循环以完成 GEMV(General Matrix-Vector multiplication,通用矩阵-向量乘法)操作,其中外层循环按步长 2 遍历输入矩阵 A 的行,内层循环按步长 32 遍历其列。
  • 列循环结束后,进行反量化(de-quantization,把整数还原回浮点数),结合 A 块和 B 的缩放因子(scale factors)以生成输出的 fp32 值。

这一新内核既利用了平台的向量单元,又优化了数据局部性(data locality,数据尽量靠近计算单元,减少访存延迟)。

2.2 编译器工具链

选择合适的编译工具链,支持先进的优化 Pass(optimization passes,编译器内部对代码进行变换以提升性能的阶段)并能利用现有 ISA 扩展。

我们的场景下,内核使用 Xuantie 分支的 GCC 10.4 编译,因为只有该版本支持 Sophon SG2042 的硬件向量单元。而对于整个 llama.cpp 框架,我们考虑两种替代方案:GCC 13.2 和 Clang 19(Xuantie GCC 10.4 与最新版 llama.cpp 不兼容)。

2.3 模型映射优化

优化模型映射(model mapping,即把模型权重和计算任务分配到硬件上的过程),特别是页面/线程分配,解决这类系统复杂的内存层级结构。具体而言,我们针对非一致内存访问(NUMA,Non-uniform Memory Access,指多路服务器中 CPU 访问远/近内存速度不同的架构)延迟,探索了不同 numactl 选项组合的 4 种策略

  • NUMA Balancing 开启,其余选项关闭;
  • 所有选项关闭;
  • Balancing 关闭 + Core Binding(核心绑定)开启;
  • Balancing 关闭 + Memory Interleaving(内存交错)开启。

我们将上述优化应用于 llama.cpp [7] 框架,并在 3 个规模递增的开源 LLM 上进行测试,均采用 Q4_0 量化(vanilla Llama 7B,DeepSeek R1 Distill Llama 8B,DeepSeek R1 Distill QWEN 14B,分别简称 7B、8B 和 14B)。

三、实验结果与分析

为展示优化效果,我们用用户提示 “Explain to me what is RISC-V, what are its principles and why it is so cool?”(共 22 个 token)对三款 LLM 执行了预填充(prefill),同时对 token 生成性能取 256 个测试生成 token 的平均值。

Kernel Scaling

图 2 给出了多个基线内核(llama.cpp 自带的 GGML 与 OpenBLAS 默认实现)与我们所提出内核的单线程可扩展性对比。

af6e59cc-71c1-11f0-9080-92fbcf53809c.png

与最佳基线相比,我们平均将 GOPS(Giga Operations Per Second,十亿次运算每秒)提升 38.3%,在矩阵规模为 4096 时峰值提升达 56.3%。

不同编译器影响

图 3 评估了使用 Clang 或 GCC 编译时 DeepSeek 8B 模型的推理性能,均使用我们提出的内核。

af84f5f6-71c1-11f0-9080-92fbcf53809c.png

Clang 19 持续优于 GCC 13.2,在 token 生成上平均性能提升 34%,在预填充上提升 25%。关键原因在于 Clang 对 ISA 扩展的支持以及更先进的编译优化(例如更激进的内联和循环展开)。无论使用哪种编译器,当线程数超过 32 时都会出现性能下降。该行为归因于默认的 NUMA balancing 策略,它对 LLM 推理这种可预测负载并不理想,导致大量线程与内存页迁移。

NUMA 策略影响

事实上,在关闭 NUMA balancing 并开启内存交错后,如预期所示,我们在 64 线程下取得了 token 生成 4.32 token/s 与预填充 6.54 token/s 的最佳结果,这得益于内存页迁移的大幅减少。

af9b8500-71c1-11f0-9080-92fbcf53809c.png

性能小结

得益于我们的优化,7B、8B 和 14B 这三款 LLM分别达到了 13.07 / 6.54 / 3.68 token/s 的最大吞吐,相比基线 llama.cpp 最高提升 5.5× / 2.9× / 3×

  • 与 SG2042 上已报道的最佳结果 [8] 相比,我们在Llama 7B 上的峰值吞吐提升 1.65×
  • 与类似且更成熟的 x86 平台——64 核 AMD EPYC 7742——相比,我们将能效提升 1.2×(55 token/s/mW 对 45 token/s/mW)

参考文献

afb6b1c2-71c1-11f0-9080-92fbcf53809c.png

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • cpu
    cpu
    +关注

    关注

    68

    文章

    11116

    浏览量

    218297
  • RISC-V
    +关注

    关注

    46

    文章

    2629

    浏览量

    49221
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    “核心技术突破+关键应用支撑”,赛昉加速RISC-V生态突围

    核心技术护城河1.首款适配RISC-V核的国产一致性NoCIP——StarNoC-700高性能计算分论坛,赛昉科技IP产品线总经理周杰宣布,公司自主研发的大规模一
    的头像 发表于 07-19 17:03 ?568次阅读
    “核心技术突破+关键应用支撑”,赛昉<b class='flag-5'>加速</b><b class='flag-5'>RISC-V</b>生态突围

    RISC-V 的平台思维和生态思维

    Doorn 认为,RISC-V 扩展要拥抱 “平台思维” 和 “生态思维”。 ? 7 月 17 日举办的第五届(2025)RISC-V 中国峰会主论坛,Leendert van
    发表于 07-17 14:04 ?3933次阅读

    RISC-V International CEO:RISC-V 应用全面开花,2031 年渗透率将达 25.7%

    7 月 16 日~19 日,第五届(2025)RISC-V 中国峰会在上海张江科学会堂拉开帷幕。峰会设置 1 场主论坛、8 大垂直领域分论坛、多场研习会及多项同期活动。 7 月 17 日的主论坛
    发表于 07-17 10:28 ?3377次阅读
    <b class='flag-5'>RISC-V</b> International CEO:<b class='flag-5'>RISC-V</b> 应用全面开花,2031 年渗透率将达 25.7%

    如何在魔搭社区使用TensorRT-LLM加速优化Qwen3系列模型推理部署

    TensorRT-LLM 作为 NVIDIA 专为 LLM 推理部署加速优化的开源库,可帮助开发者快速利用最新 LLM 完成应用原型验证与产
    的头像 发表于 07-04 14:38 ?847次阅读

    首款RISC-V架构服务器,助力行业精准适配AI场景

    RISC-V融合服务器RS-SRM120为2U双路异构服务器产品,搭载双RISC-V指令集64核处理器SG2042,通过高效的双芯互联架构,提供强大的智算能力。支持CV模型、LLM等多
    的头像 发表于 02-28 16:34 ?1051次阅读
    首款<b class='flag-5'>RISC-V</b>架构服务器,助力行业精准适配AI场景

    进迭时空完成A+轮数亿元融资 加速RISC-V AI CPU产品迭代

    及生态建设。成立至今三年的快速发展中,进迭时空布局了RISC-V高性能CPU核、AI-CPU核、AICPU芯片、系统软件等全栈计算技术,形成了软硬全栈的计算系统解决方案
    的头像 发表于 02-18 14:22 ?538次阅读
    进迭时空完成A+轮数亿元融资 <b class='flag-5'>加速</b><b class='flag-5'>RISC-V</b> AI <b class='flag-5'>CPU</b>产品迭代

    关于RISC-V学习路线图推荐

    和稳定性。 五、RISC-V高级应用 操作系统移植 : 了解如何将操作系统(如Linux、FreeRTOS等)移植到RISC-V架构。 硬件加速与优化 : 学习如何利用
    发表于 11-30 15:21

    RISC-V能否复制Linux 的成功?》

    型的内核、加速器以及所需的各种模块汇集在一起。”他表示,“RISC-V ISA在此发挥了关键作用,它开拓了一个创新的领域”。任何人只需下载ISA规范就可以设计中使用内核,而无需与任何人签署协议。从这
    发表于 11-26 20:20

    算能 SG2042 / Milk-V Pioneer 的含金量还在不断提升:RISC-V 生态逐步完善,玩大型游戏已经不远了!

    SG2042高性能RISC-V处理器的台式机Milk-VPioneer上成功玩了一把并录制了一段视频,可以看到即使最为入门级的AMDRX580系列显卡,游戏过程也非常流畅。
    的头像 发表于 11-01 08:10 ?1009次阅读
    算能 <b class='flag-5'>SG2042</b> / Milk-<b class='flag-5'>V</b> Pioneer 的含金量还在不断提升:<b class='flag-5'>RISC-V</b> 生态逐步完善,玩大型游戏已经不远了!

    RISC-V,即将进入应用的爆发期

    计算机由控制整体的CPU(中央处理器)和加速器两部分构成。AI计算中,功耗和效率是两个关键因素。RISC-V架构通过其简洁的设计和定制化的扩展,可以实现高效的能量使用。该架构能够通过
    发表于 10-31 16:06

    RISC-V跑AI算法能加速吗?

    现在好多ARM单片机都带机器学习加速RISC-V有这方面的硬件加速吗?
    发表于 10-10 22:14

    RISC-V拥有巨大市场潜力的原因

    AI技术深度融合,例如Meta基于RISC-V架构推出AI推理加速器,高通与谷歌合作推出基于RISC-V架构的智能穿戴芯片等。 3、多元化应
    发表于 09-30 14:20

    加入全球 RISC-V Advocate 行列,共筑 RISC-V 的未来 !

    ,贡献内容,社交媒体推广RISC-V。加入我们,共同发展RISC-V社区,传播RISC-V的消息!成为
    的头像 发表于 09-10 08:08 ?968次阅读
    加入全球 <b class='flag-5'>RISC-V</b> Advocate 行列,共筑 <b class='flag-5'>RISC-V</b> 的未来 !

    RISC-V Summit China 2024 | 青稞RISC-V+接口PHY,赋能RISC-V高效落地

    应用开发更加便捷,使广大客户无需改变原有开发习惯,即可轻松了解RISC-V、上手RISC-V、快速完成项目开发,从而加速RISC-V应用端
    发表于 08-30 17:37

    2024 RISC-V 中国峰会:abg欧博电子助力RISC-V生态!

    。 (abg欧博电子<电子发烧友>平台社区负责人刘勇对RISC-V生态系统介绍) 峰会现场,刘勇分享了abg欧博电子RISC-V芯片创新应用与生态
    发表于 08-26 16:46