0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何为Orca-2-13B创建一个与OpenAI兼容的API服务呢?

jf_wN0SrCdH ? 来源:Second State ? 2023-11-27 10:46 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

Orca-2-13B[1] 是微软最新发布的 Orca 2 系列中的一款模型,Orca 2 另外还提供 7B 版本。Orca 2系列模型是由 LLAMA 2 基础模型中微调而来。Orca 2系列模型擅长推理、文本总结、数学问题解决和理解任务,是在原始 13B Orca 模型的基础上进一步发展而来,模仿更强大的 AI 系统推理过程从而提高小型模型在复杂任务中的能力。

本文将以 Orca-2-13B 为例,将介绍:

如何在你自己的设备上运行 Orca-2-13B

如何为 Orca-2-13B 创建一个与 OpenAI 兼容的 API 服务

你也可以使用同样的方式运行 Orca-2-7B 模型,只需要替换 Orca-2-7B模型的 GGUF 格式的下载链接。

我们将用 Rust + Wasm 技术栈来开发和部署这个模型的应用程序。无需安装复杂的 Python 包或 C++ 工具链!了解我们为什么选择 Rust+Wasm 技术栈[2]。

在自己的设备上运行 Orca-2-13B

步骤 1:通过以下命令行安装 WasmEdge[3]。

curl-sSfhttps://raw.githubusercontent.com/WasmEdge/WasmEdge/master/utils/install.sh|bash-s----pluginwasi_nn-ggml

步骤 2:下载模型 GGUF 文件[4]。由于模型文件有几 GB,所以可能需要很长时间。

curl-LOhttps://huggingface.co/second-state/Orca-2-13B-GGUF/resolve/main/Orca-2-13b-ggml-model-q4_0.gguf

步骤 3:下载一个跨平台的可移植 Wasm 文件,用于聊天应用。该应用能让你用命令行与模型进行交流。戳这里[5]查看该应用的 Rust 源代码。

curl-LOhttps://github.com/second-state/llama-utils/raw/main/chat/llama-chat.wasm

就这样。接下来,可以通过输入以下命令在终端与模型进行聊天。

wasmedge--dir.:.--nn-preloaddefaultAUTO:Orca-2-13b-ggml-model-q4_0.ggufllama-chat.wasm-pchatml-s'YouareOrca,anAIlanguagemodelcreatedbyMicrosoft.Youareacautiousassistant.Youcarefullyfollowinstructions.Youarehelpfulandharmlessandyoufollowethicalguidelinesandpromotepositivebehavior.'--stream-stdout

这个可移植的 Wasm 应用会自动利用你设备上的硬件加速器(如 GPU)。

在我的 Mac M1 32G 内存设备上,它的速度约为每秒 9.15 个token。

[USER]:What isanOrca?

[ASSISTANT]:
Anorca,orkillerwhale,isalargetoothedpredatorbelongingtotheoceanicdolphinfamily.Theyarehighlyintelligentandsocialanimals,knownfortheircuriosityandplayfulness.

[USER]:

为 Orca-2-13B 创建一个与 OpenAI 兼容的 API 服务

一个与 OpenAI 兼容的网络 API 能让 Orca-2-13B 与大量的 LLM 工具和代理框架(如 flows.network、LangChain 和 LlamaIndex)一起工作。

首先,先下载一个 API 服务器应用。它也是一个可以在许多 CPU 和 GPU 设备上运行的跨平台可移植 Wasm 应用。

curl-LOhttps://github.com/second-state/llama-utils/raw/main/api-server/llama-api-server.wasm

然后,使用以下命令行启动模型的 API 服务器。

wasmedge--dir.:.--nn-preloaddefaultAUTO:Orca-2-13B.Q5_K_M.ggufllama-api-server.wasm-pchatml

从另一个终端,你可以使用 curl 与 API 服务器进行交互。

curl-XPOSThttp://0.0.0.0:8080/v1/chat/completions-H'accept:application/json'-H'Content-Type:application/json'-d'{"messages":[{"role":"system","content":"YouareahelpfulAIassistant"},{"role":"user","content":"WhatisthecapitalofFrance?"}],"model":"Orca-2-13B"}'

就这样。WasmEdge 是运行 Orca-2-13B 大模型应用程序最简单、最快、最安全的方式[6]。试试看吧!





审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • C++语言
    +关注

    关注

    0

    文章

    147

    浏览量

    7377
  • python
    +关注

    关注

    56

    文章

    4844

    浏览量

    88200
  • 硬件加速器
    +关注

    关注

    0

    文章

    43

    浏览量

    13171
  • Rust
    +关注

    关注

    1

    文章

    237

    浏览量

    7259
  • OpenAI
    +关注

    关注

    9

    文章

    1224

    浏览量

    9307

原文标题:跨设备运行微软最新大语言模型 Orca-2-13B,只需4个命令行

文章出处:【微信号:Rust语言中文社区,微信公众号:Rust语言中文社区】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    具有载波聚合的 RX 分集 FEM(B26、B8、B12/13B2/25、B4 和 B7) skyworksinc

    电子发烧友网为你提供()具有载波聚合的 RX 分集 FEM(B26、B8、B12/13B2/25、B
    发表于 06-19 18:35
    具有载波聚合的 RX 分集 FEM(<b class='flag-5'>B</b>26、<b class='flag-5'>B</b>8、<b class='flag-5'>B</b>12/<b class='flag-5'>13</b>、<b class='flag-5'>B2</b>/25、<b class='flag-5'>B</b>4 和 <b class='flag-5'>B</b>7) skyworksinc

    安卓原生兼容服务

    安卓原生兼容服务器的定义 安卓原生兼容服务器?指基于Android系统内核和服务框架构建的服务
    的头像 发表于 06-19 17:32 ?282次阅读

    如何获取 OpenAI API Key?API 获取与代码调用示例 (详解教程)

    OpenAI API Key 获取与使用详解:从入门到精通 OpenAI 正以其 GPT 和 DALL-E 等先进模型引领全球人工智能创新。其 API 为开发者和企业提供了强大的 AI
    的头像 发表于 05-04 11:42 ?5670次阅读
    如何获取 <b class='flag-5'>OpenAI</b> <b class='flag-5'>API</b> Key?<b class='flag-5'>API</b> 获取与代码调用示例 (详解教程)

    HarmonyOS NEXT开发实战:DevEco Studio中DeepSeek的使用

    。安装完成后,打开DevEco Studio,创建新的鸿蒙应用项目,选择适合的模板(如Empty Ability)。 第二步:安装CodeGPT插件 在DevEco Studio上安装插件:打开
    发表于 03-07 14:56

    openai api key获取的三种方案(有种可以白嫖到 api key)

    OpenAI API Key 全攻略:官方获取、费用详解与“白嫖”实战 引言: 想要体验 OpenAI 强大的 GPT 模型,却苦于没有 API Key?别担心,本文将为你提供
    的头像 发表于 02-24 22:16 ?1.1w次阅读
    <b class='flag-5'>openai</b> <b class='flag-5'>api</b> key获取的三种方案(有<b class='flag-5'>一</b>种可以白嫖到 <b class='flag-5'>api</b> key)

    OpenAI API Key 获取全攻略:入门、精通与详解教程(国内开发者优化版)

    引言: 想象下:只需几行代码,你的应用就能像 ChatGPT 样智能对话;输入几个关键词,瞬间生成引人入胜的文案;上传张图片,AI 就能理解并分析…… 这不是科幻,而是 OpenAI
    的头像 发表于 02-15 17:26 ?4149次阅读
    <b class='flag-5'>OpenAI</b> <b class='flag-5'>API</b> Key 获取全攻略:入门、精通与详解教程(国内开发者优化版)

    DeepSeek上调API服务价格

    近日,备受用户关注的DeepSeek-V3 API服务价格有所调整。据了解,此前DeepSeek为吸引用户体验其服务,推出了45天的优惠价格体验期。然而,该优惠期已于2月9日正式结束
    的头像 发表于 02-10 10:41 ?1105次阅读

    OpenAI攻克Sora视频创建错误率高难题

    了更加稳定、高效的视频创建体验。 Sora作为款先进的视频处理工具,旨在为用户提供便捷的视频创作服务。然而,在过去的使用过程中,不少用户反馈视频创建错误率较高,影响了整体的使用体验。
    的头像 发表于 12-31 10:37 ?661次阅读

    OpenAI宣布API恢复运行,ChatGPT正在逐步回归

    近日,OpenAI官方发布了则重要更新说明,宣布其API系统现已全面恢复运行,同时确认ChatGPT服务正在逐步恢复中。这消息对于众多依
    的头像 发表于 12-28 14:41 ?951次阅读

    OpenAI 发了支持 ESP32 的 Realtime API SDK

    “ ?昨晚 OpenAI 正式发布了 o3 模型,AI 圈片沸腾。作为电子工程师的我挠了挠头,好像和我没什么直接的关系??倒是 OpenAI 的另一个小发布,让我很感兴趣:
    的头像 发表于 12-21 11:36 ?6607次阅读
    <b class='flag-5'>OpenAI</b> 发了<b class='flag-5'>一</b><b class='flag-5'>个</b>支持 ESP32 的 Realtime <b class='flag-5'>API</b> SDK

    OpenAI暂不推出Sora视频生成模型API

    OpenAI近日宣布,目前暂无推出其视频生成模型Sora的应用程序接口(API)的计划。Sora模型能够基于文本和图像生成视频,引发了广泛关注。然而,由于访问量远超预期,OpenAI此前不得不紧急
    的头像 发表于 12-20 14:23 ?663次阅读

    api驱动的云服务是什么意思?

    API驱动的云服务是指利用API技术来驱动和提供云服务的模式。在这种模式下,云服务提供商会公开
    的头像 发表于 11-14 10:06 ?682次阅读

    微软终止中国大陆人Azure OpenAI服务,为国内大模型带来机遇

    2024年10月17日,微软公司宣布将在中国大陆地区停止面向个人用户的Azure OpenAI服务。这决定紧随OpenAI于2024年7月宣布终止对中国大陆提供
    的头像 发表于 10-28 14:17 ?1877次阅读

    华纳云:使用 WireMock 在开发和测试中模拟 API 服务

    是 WireMock 发挥作用的地方。 WireMock 是开源工具,可以帮助开发人员创建模拟真实 API 行为的模拟服务器,为开发和测
    的头像 发表于 10-25 16:46 ?1092次阅读

    esp32上使用chatGPT做些有意思的事情

    ChatGPT获得响应,我们需要进行以下步骤:1、在OpenAI网站上注册,并在ESP32上安装必要的库。 2、在OpenAI API创建
    的头像 发表于 10-18 10:04 ?1186次阅读