0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

K1 AI CPU基于llama.cpp与Ollama的大模型部署实践

进迭时空 ? 2025-02-18 14:23 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

为了应对大模型(LLM)、AIGC等智能化浪潮的挑战,进迭时空通过AI指令扩展,在RISC-V CPU中注入了原生AI算力。这种具有原生AI能力的CPU,我们称之为AI CPU。K1作为进迭时空第一颗AI CPU芯片,已于今年4月份发布。

下面我们以K1为例,结合llama.cpp来展示AI CPU在大模型领域的优势。


llama.cpp是一个开源的高性能CPU/GPU大语言模型推理框架,适用于消费级设备及边缘设备。开发者可以通过工具将各类开源大语言模型转换并量化成gguf格式的文件,然后通过llama.cpp实现本地推理。

得益于RISC-V社区的贡献,已有llama.cpp在K1上高效运行的案例,但大语言模型的CPU资源使用过高,使其很难负载其他的上层应用。为此进迭时空在llama.cpp社区版本的基础上,基于IME矩阵加速拓展指令,对大模型相关算子进行了优化,在仅使用4核CPU的情况下,达到目前社区最好版本8核性能的2-3倍,充分释放了CPU Loading,给开发者更多空间实现AI应用。


Ollama是一个开源的大型语言模型服务工具,它帮助用户快速在本地运行大模型。通过简单的安装指令,用户可以执行一条命令就在本地运行开源大型语言模型,如Llama、Qwen、Gemma等。

部署实践

工具与模型准备

#在K1上拉取ollama与llama.cpp预编译包apt updateapt install spacemit-ollama-toolkit
#k开启ollama服务ollama serve
#下载模型wget -P /home/llm/ https://archive.spacemit.com/spacemit-ai/ModelZoo/gguf/qwen2.5-0.5b-q4_0_16_8.gguf
#导入模型,例为qwen2.5-0.5b#modelfile地址:https://archive.spacemit.com/spacemit-ai/ollama/modelfile/qwen2.5-0.5b.modelfileollama create qwen2 -f qwen2.5-0.5b.modelfile
#运行模型ollama run qwen2

Ollama效果展示


性能与资源展示

我们选取了端侧具有代表性的0.5B-4B尺寸的大语言模型,展示K1的AI扩展指令的加速效果。

参考性能分别为llama.cpp的master分支(下称官方版本),以及RISC-V社区的优化版本(下称RISC-V社区版本,GitHub地址为:

https://github.com/xctan/llama.cpp/tree/rvv_q4_0_8x8)

d43e940e-edc0-11ef-9434-92fbcf53809c.png

所有模型均采用4bit量化。其中RISC-V社区版本以及官方版本模型为最优实现的加速效果,模型量化时将token-embedding-type设置为q8_0。

llama.cpp的进迭时空版本CPU占用情况:

d44b142c-edc0-11ef-9434-92fbcf53809c.pngd4557b74-edc0-11ef-9434-92fbcf53809c.png

llama.cpp的RISC-V社区版本CPU占用情况:

d4611e5c-edc0-11ef-9434-92fbcf53809c.pngd46aee64-edc0-11ef-9434-92fbcf53809c.png

参考文档

https://github.com/ggerganov/llama.cpp

https://github.com/ollama/ollama

https://github.com/QwenLM/Qwen2.5

Qwen2 Technical Report

https://ollama.com

结语

进迭时空在K1平台上大模型部署方面取得了初步进展,其卓越的性能与高度的开放性令人瞩目。这为开发者们提供了一个极为友好的环境,使他们能够轻松依托社区资源,进一步拓展和创新,开发出更多丰富的应用。

我们满怀期待地憧憬着K1平台上未来可能出现的更多大语言模型应用的创新设想。在此过程中,我们将持续保持关注并不断推进相关工作。此外,本文所提及的预发布软件包,将在年底以源代码的形式开源,以供广大开发者共同学习与探索。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 芯片
    +关注

    关注

    460

    文章

    52616

    浏览量

    442623
  • cpu
    cpu
    +关注

    关注

    68

    文章

    11097

    浏览量

    217577
  • 大模型
    +关注

    关注

    2

    文章

    3191

    浏览量

    4146
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    利用Arm i8mm指令优化llama.cpp

    本文将为你介绍如何利用 Arm i8mm 指令,具体来说,是通过带符号 8 位整数矩阵乘加指令 smmla,来优化 llama.cpp 中 Q6_K 和 Q4_K 量化模型推理。
    的头像 发表于 07-24 09:51 ?881次阅读
    利用Arm i8mm指令优化<b class='flag-5'>llama.cpp</b>

    【VisionFive 2单板计算机试用体验】3、开源大语言模型部署

    1ollama平台搭建 ollama可以快速地部署开源大模型,网址为https://ollama
    发表于 07-19 15:45

    Arm Neoverse N2平台实现DeepSeek-R1满血版部署

    颇具优势。Arm 携手合作伙伴,在 Arm Neoverse N2 平台上使用开源推理框架 llama.cpp 实现 DeepSeek-R1 满血版的部署,目前已可提供线上服务。
    的头像 发表于 07-03 14:37 ?463次阅读
    Arm Neoverse N2平台实现DeepSeek-R<b class='flag-5'>1</b>满血版<b class='flag-5'>部署</b>

    【幸狐Omni3576边缘计算套件试用体验】CPU部署DeekSeek-R1模型1B和7B)

    一、DeepSeek简介 DeepSeek是由中国深度求索公司开发的开源大语言模型系列,其研发始于2023年,目标是为学术界和产业界提供高效可控的AI基础设施。R1系列作为其里程碑版本,通过稀疏化
    发表于 04-21 00:39

    如何在Ollama中使用OpenVINO后端

    Ollama 和 OpenVINO 的结合为大型语言模型(LLM)的管理和推理提供了强大的双引擎驱动。Ollama 提供了极简的模型管理工具链,而 OpenVINO 则通过 Intel
    的头像 发表于 04-14 10:22 ?595次阅读

    将Deepseek移植到i.MX 8MP|93 EVK的步骤

    此共享介绍了如何将 deepseek 移植到i.MX93EVK使用 llama.cpp 的 Yocto BSP 本文档使用的主要测试模型是在 deepseek 模型的基础上进行提炼和量化的 Qwen
    发表于 03-26 06:08

    在MAC mini4上安装Ollama、Chatbox及模型交互指南

    作者:算力魔方创始人/英特尔创新大使刘力 一,简介 本文将指导您如何在MAC mini4上安装Ollama和Chatbox,并下载Deepseek-r1:32b模型Ollama是一个
    的头像 发表于 03-11 17:17 ?856次阅读
    在MAC mini4上安装<b class='flag-5'>Ollama</b>、Chatbox及<b class='flag-5'>模型</b>交互指南

    K230D部署模型失败的原因?

    流程中看到MicroPython部署时要选择第三路串口,但并未成功 补充材料 参考的主要流程如下,这个文件内容是在社区官网的模型训练结束后生成的文件压缩包解压后的结果 确认问题 1.K230D应该
    发表于 03-11 06:19

    添越智创基于 RK3588 开发板部署测试 DeepSeek 模型全攻略

    方法的优缺点与操作要点。 01-使用Ollama工具部署-便捷但有短板 Ollama 是一个开源的大模型服务工具,可以支持最新的deepseek模型
    发表于 02-14 17:42

    进迭时空 K1 系列 8 核 64 位 RISC - V AI CPU 芯片介绍

    一、总体概述K1 系列是基于 RISC - V 开源指令集打造的 AI CPU,致力于构建更通用、高能效的 AI 处理器平台,推动全球开源、开放的
    发表于 01-06 17:37

    Ollama轻松搞定Llama 3.2 Vision模型本地部署

    Ollama 是一个开源的大语言模型服务工具,它的核心目的是简化大语言模型(LLMs)的本地部署和运行过程,请参考《Gemma 2+Ollama
    的头像 发表于 11-23 17:22 ?3838次阅读
    用<b class='flag-5'>Ollama</b>轻松搞定<b class='flag-5'>Llama</b> 3.2 Vision<b class='flag-5'>模型</b>本地<b class='flag-5'>部署</b>

    Ollama轻松搞定Llama 3.2 Vision模型本地部署

    模型
    jf_23871869
    发布于 :2024年11月18日 19:40:10

    Llama 3 与开源AI模型的关系

    体现在多个层面。 1. 开源精神的体现 Llama 3项目可能是一个开源项目,这意味着它的源代码、算法和数据集对公众开放。这种开放性是开源AI模型的核心特征,它鼓励了全球范围内的开发者
    的头像 发表于 10-27 14:42 ?803次阅读

    使用OpenVINO 2024.4在算力魔方上部署Llama-3.2-1B-Instruct模型

    前面我们分享了《三步完成Llama3在算力魔方的本地量化和部署》。2024年9月25日,Meta又发布了Llama3.2:一个多语言大型语言模型(LLMs)的集合。
    的头像 发表于 10-12 09:39 ?1512次阅读
    使用OpenVINO 2024.4在算力魔方上<b class='flag-5'>部署</b><b class='flag-5'>Llama-3.2-1</b>B-Instruct<b class='flag-5'>模型</b>

    [技术] 【飞凌嵌入式OK3576-C开发板体验】llama2.c部署

    llama2.c 是一个用纯 C 语言实现的轻量级推理引擎,无需依赖任何第三方库即可高效地进行推理任务。与 llama.cpp 相比,其代码更加直观易懂,并且可以在 PC、嵌入式 Linux 乃至
    发表于 09-18 23:58