0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何使用OpenVINO运行DeepSeek-R1蒸馏模型

英特尔物联网 ? 来源:英特尔物联网 ? 2025-03-12 13:45 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

作者:

张晶英特尔创新大使

李翊玮英特尔开发者技术推广工程师

DeepSeek-R1在春节期间引发了全球科技界的热度,DeepSeek-R1 是由 DeepSeek 开发的开源推理模型,用于解决需要逻辑推理、数学问题解决和实时决策的任务。使用 DeepSeek-R1,您可以遵循其逻辑,使其更易于理解,并在必要时对其输出提出质疑。此功能使推理模型在需要解释结果的领域(如研究或复杂决策)中具有优势。AI 中的蒸馏从较大的模型创建更小、更高效的模型,在减少计算需求的同时保留了大部分推理能力。DeepSeek 应用了这项技术,使用 Qwen 和 Llama 架构从 R1 创建了一套提炼的模型。这使我们能够在普通笔记本电脑上本地试用 DeepSeek-R1 功能。在本教程中,我们将研究如何使用 OpenVINO 运行 DeepSeek-R1 蒸馏模型。

在创新大使的文章《赶紧在本地运行与OpenAI-o1能力近似的DeepSeek-R1模型》也收到了读者的热烈反馈。很多读者问:DeepSeek-R1除了部署在RTX-4060上,能否部署到英特尔Ultra Core 的CPUGPU或NPU上?

本文将基于OpenVINO GenAI库,介绍使用三行Python代码,将DeepSeek-R1模型到英特尔酷睿Ultra CPU、GPU或NPU的完整过程。

赶紧在本地运行与OpenAI-o1能力近似的DeepSeek-R1模型

https://mp.weixin.qq.com/s/Nu6ovClNOAfhXa-exnlWdg

OpenVINO GenAI库

https://mp.weixin.qq.com/s/1nwi3qJDqAkIXnrGQnP3Rg

1硬件介绍

本文是用KHARAS深圳市世野科技(https://www.khadas.com/product-page/mind-maker-kit-lnl)提供基于英特尔酷睿Ultra的AI PC,只有435g, 以下为其参数:

44c158c0-fb35-11ef-9310-92fbcf53809c.png ? ?

主要特点

oIntel Core Ultra Processor Series 2

oAI Performance: up to 115 TOPS

oNPU: 4.0 AI Engine, up to 47 TOPS

oGPU: Intel Arc 140V, up to 64 TOPS

o32GB LPDDR5X Memory, 1TB PCIe SSD

oCopilot+ PC: Windows AI assistant

oBattery Life Optimization

oWiFi+ Bluetooth: AX211D2

应用场景

AI PC 开发

o 以 AI 为中心的硬件和软件的进步使 AI 在 PC 上成为可能。将项目从早期 AI 开发无缝过渡到基于云的训练和边缘部署。

多个处理器中的 AI 加速

o 英特尔 酷睿 Ultra 7 258V 处理器通过混合架构将 CPU、GPU 和 NPU 相结合,并通过高带宽内存和缓存进行增强,从而加速 AI。

Intel AI PC 开发支持

o 通过针对 Intel CPU 和 GPU 优化的 OpenVINO 工具包和 ONNX 运行时获得 Intel 官方支持。

2什么是OpenVINOGenAI库?

回到标题, 我们将用OpenVINO GenAI库基于OpenVINO 工具套件和运行时,提供C++/Python API,支持生成式AI模型在英特尔硬件平台上快速部署。

44e41626-fb35-11ef-9310-92fbcf53809c.png

OpenVINO GenAI库

https://mp.weixin.qq.com/s/1nwi3qJDqAkIXnrGQnP3Rg

OpenVINO 工具套件

https://mp.weixin.qq.com/s/fORowUzzcPSVIO6AieoUKA

Github仓:https://github.com/openvinotoolkit/openvino.genai

3搭建OpenVINOGenAI开发环境

只需两条安装命令,即可完成OpenVINO GenAI开发环境的搭建:

# 安装OpenVINO GenAI
pip install openvino-genai
# 安装optimum-intel,用于转换并量化生成式AI模型
pip install pip install optimum-intel[openvino]

4下载并量化DeepSeek-R1模型

请先使用下面的命令,从ModelScope下载DeepSeek-R1-Distill-Qwen-1.5B模型到本地:

# 安装ModelScope
pip install modelscope
# 下载DeepSeek-R1-Distill-Qwen-1.5B模型
modelscope download --model deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B

45005d4a-fb35-11ef-9310-92fbcf53809c.png

5使用 Optimum-CLI 工具转换模型

本文使用optimum-intel命令,将DeepSeek-R1-Distill-Qwen-1.5B PyTorch格式模型转换为OpenVINO IR格式模型,并完成FP16、INT8或INT4量化。

Optimum Intel 是 Transformers 和 Diffusers 库与 OpenVINO 之间的接口,用于加速 Intel 架构上的端到端管道。它提供易于使用的 cli 界面,用于将模型导出为 OpenVINO 中间表示 (IR)格式。

以下命令演示了使用optimum-cli 导出模型的基本命令

optimum-cli export openvino --model--task <任务>

其中--model 参数是 HuggingFace Hub 中的模型 ID 或带有 model 的本地目录(使用 .save_pretrained 方法保存),--task 是导出的模型应该解决的支持任务之一。对于 LLM,建议使用 text-generation-with-past。如果模型初始化需要使用远程代码,则应额外传递--trust-remote-code 标志。

optimum-cli export openvino --model d:DeepSeek-R1-Distill-Qwen-1___5B --task text-generation-with-past --weight-format int4 --group-size 128 --ratio 0.8 --sym d:dsr1_int4
optimum-cli export openvino --model d:DeepSeek-R1-Distill-Qwen-1___5B --task text-generation-with-past --weight-format int8 d:dsr1_int8
optimum-cli export openvino --model d:DeepSeek-R1-Distill-Qwen-1___5B --task text-generation-with-past --weight-format fp16 d:dsr1_fp16

设置 --weight-format 分别为 fp16、int8 或 int4。这种类型的优化可以减少内存占用和推理延迟。默认情况下,int8/int4 的量化方案是非对称的,要使其对称化,您可以添加 --sym。

对于 INT4 量化,您还可以指定以下参数:

--group-size 参数将定义用于量化的组大小,-1 将导致每列量化。

--ratio 参数控制 4 位和 8 位量化之间的比率。如果设置为 0.9,则意味着 90% 的层将被量化为 int4,而 10% 的层将被量化为 int8。

较小的 group_size 和 ratio 值通常会以牺牲模型大小和推理延迟为代价来提高准确性。您可以使用 --awq 标志启用在模型导出期间以 INT4 精度额外应用 AWQ,并使用 --datasetparameter 提供数据集名称(例如 --dataset wikitext2)

注意:

1. 应用 AWQ 需要大量的内存和时间。

2. 模型中可能没有匹配的模式来应用 AWQ,在这种情况下,将跳过它。

45202d1e-fb35-11ef-9310-92fbcf53809c.png

6编写DeepSeek-R1的推理程序

获得DeepSeek-R1的OpenVINO IR模型后,即可使用OpenVINO GenAI库编写推理程序,仅需三行Python代码,如下所示:

import openvino_genai
#Will run model on CPU, GPU or NPU are possible options
pipe = openvino_genai.LLMPipeline("D:dsr1_int4", "GPU")
print(pipe.generate("Prove the Pythagorean theorem.", max_new_tokens=4096))

运行视频如下所示:

7总结

使用OpenVINO GenAI库可以方便快捷的将生成式AI模型本地化部署到英特尔 酷睿Ultra CPU、GPU或NPU上。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英特尔
    +关注

    关注

    61

    文章

    10205

    浏览量

    175024
  • cpu
    cpu
    +关注

    关注

    68

    文章

    11097

    浏览量

    217577
  • 模型
    +关注

    关注

    1

    文章

    3531

    浏览量

    50565
  • OpenVINO
    +关注

    关注

    0

    文章

    115

    浏览量

    512
  • DeepSeek
    +关注

    关注

    2

    文章

    804

    浏览量

    1823

原文标题:开发者实战|用英特尔? 酷睿? Ultra及OpenVINO? GenAI本地部署DeepSeek-R1

文章出处:【微信号:英特尔物联网,微信公众号:英特尔物联网】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    了解DeepSeek-V3 和 DeepSeek-R1两个大模型的不同定位和应用选择

    DeepSeek-V3 和 DeepSeek-R1 是深度求索公司(DeepSeek)推出的两个不同定位的大模型,其核心差异主要体现在目标场景、能力侧重和技术优化方向上。以下是二者的实
    发表于 02-14 02:08

    RK3588开发板上部署DeepSeek-R1模型的完整指南

    的核心功能之一,它允许用户将Hugging Face或GGUF格式的大语言模型转换为RKLLM模型,从而将RKLLM模型在Rockchip NPU上加载运行。 (4)编译
    发表于 02-27 16:45

    《电子发烧友电子设计周报》聚焦硬科技领域核心价值 第3期:2025.03.10--2025.03.14

    2、RK3588开发板技术分享 TF卡烧写大于4G容量镜像 3、恩智浦Zephyr调试技巧 开源项目与实战干货 : 1、使用OpenVINO运行DeepSeek-R1
    发表于 03-14 18:00

    对标OpenAI o1,DeepSeek-R1发布

    今天,我们正式发布 DeepSeek-R1,并同步开源模型权重。 DeepSeek-R1 遵循 MIT License,允许用户通过蒸馏技术借助 R
    的头像 发表于 01-22 13:46 ?2386次阅读
    对标OpenAI o<b class='flag-5'>1</b>,<b class='flag-5'>DeepSeek-R1</b>发布

    网易有道全面接入DeepSeek-R1模型

    近日,网易有道宣布了一个重要决定,即全面接入DeepSeek-R1模型。这一举措标志着网易有道在AI技术方面迈出了重要一步,将为用户带来更加智能化、个性化的学习体验。 据悉,网易有道将以
    的头像 发表于 02-07 14:42 ?1086次阅读

    DeepSeek-R1全尺寸版本上线Gitee AI

    DeepSeek 全套蒸馏模型以及 V3 版本上线后,经过 Gitee AI 和沐曦团队两天紧锣密鼓的适配和机器筹备,DeepSeek-R1全尺寸版本现在已上线 Gitee AI
    的头像 发表于 02-07 15:25 ?1393次阅读

    芯动力神速适配DeepSeek-R1模型,AI芯片设计迈入“快车道”!

    近期,国产大模型 DeepSeek-R1横空出世,迅速成为AI领域的焦点。 芯动力在24小时内完成了与DeepSeek-R1模型的适配。 Deep
    的头像 发表于 02-07 16:55 ?667次阅读
    芯动力神速适配<b class='flag-5'>DeepSeek-R1</b>大<b class='flag-5'>模型</b>,AI芯片设计迈入“快车道”!

    deepin UOS AI接入DeepSeek-R1模型

    DeepSeek-R1 模型自发布以来吸引了众多用户关注,为了让 deepin 用户更好地体验这一前沿技术,UOS AI 现已适配接入 DeepSeek-R1 端侧模型!无需忍受服务器
    的头像 发表于 02-08 09:52 ?1168次阅读

    AIBOX 全系产品已适配 DeepSeek-R1

    DeepSeek-R1在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力,目前基于开源的R1模型具有1.5B-70B可选,这些
    的头像 发表于 02-08 17:30 ?641次阅读
    AIBOX 全系产品已适配 <b class='flag-5'>DeepSeek-R1</b>

    广和通支持DeepSeek-R1蒸馏模型

    近期,国产大模型DeepSeek凭借开放性、更低训练成本、端侧部署等优势,迅速成为增速最快的AI应用之一,推动AI普惠化。目前,广和通高算力AI模组及解决方案全面支持小尺寸的DeepSeek-R1
    的头像 发表于 02-11 09:41 ?616次阅读

    Deepseek R1模型离线部署教程

    。作为国产AI大数据模型的代表,凭借其卓越的推理能力和高效的文本生成技术,在全球人工智能领域引发广泛关注。 本文主要说明DeepSeek-R1如何离线运行在EASY-EAI-Orin-Nano(RK3576)硬件上, RK357
    的头像 发表于 02-12 09:37 ?1845次阅读
    <b class='flag-5'>Deepseek</b> <b class='flag-5'>R1</b>大<b class='flag-5'>模型</b>离线部署教程

    超星未来惊蛰R1芯片适配DeepSeek-R1模型

    日前,超星未来研发团队成功完成了惊蛰R1芯片对DeepSeek-R1模型的适配工作,实现了与用户之间的流畅对话。这一成果标志着超星未来在人工智能芯片和模型优化方面取得了重要进展
    的头像 发表于 02-13 14:05 ?739次阅读

    香橙派发布OrangePi AIpro(20T)本地部署Deepseek-R1蒸馏模型指南!

    日前,香橙派官方发布OrangePiAIpro(20T)运行Deepseek-R1蒸馏模型实操指南,帮助用户通过先进算力和硬件架构实现高效的端侧智能。OrangePiAIpro(20T
    的头像 发表于 02-14 16:29 ?1455次阅读
    香橙派发布OrangePi AIpro(20T)本地部署<b class='flag-5'>Deepseek-R1</b><b class='flag-5'>蒸馏</b><b class='flag-5'>模型</b>指南!

    香橙派发布OrangePi 5Plus本地部署Deepseek-R1蒸馏模型指南

    派官方发布OrangePi5Plus运行Deepseek-R1蒸馏模型实操指南,赶紧收藏起来吧!OrangePi5Plus采用了瑞芯微RK3588八核64位处理器
    的头像 发表于 02-19 16:14 ?1209次阅读
    香橙派发布OrangePi 5Plus本地部署<b class='flag-5'>Deepseek-R1</b><b class='flag-5'>蒸馏</b><b class='flag-5'>模型</b>指南

    香橙派发布OrangePi RV2本地部署Deepseek-R1蒸馏模型指南

    继香橙派昇腾系列产品、OrangePi5系列产品完成与DeepSeek模型的深度适配之后,香橙派日前官方发布OrangePiRV2运行Deepseek-R1
    的头像 发表于 03-28 11:55 ?703次阅读
    香橙派发布OrangePi RV2本地部署<b class='flag-5'>Deepseek-R1</b><b class='flag-5'>蒸馏</b><b class='flag-5'>模型</b>指南