0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

点亮未来:TensorRT-LLM 更新加速 AI 推理性能,支持在 RTX 驱动的 Windows PC 上运行新模型

NVIDIA英伟达企业解决方案 ? 来源:未知 ? 2023-11-16 21:15 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

微软 Ignite 2023 技术大会发布的新工具和资源包括 OpenAIChatAPI 的 TensorRT-LLM 封装接口、RTX 驱动的性能改进 DirectMLforLlama2、其他热门 LLM

Windows PC 上的 AI 标志着科技史上的关键时刻,它将彻底改变玩家、创作者、主播、上班族、学生乃至普通 PC 用户的体验。

AI 为 1 亿多台采用 RTX GPU 的 Windows PC 和工作站提高生产力带来前所未有的机会。NVIDIA RTX 技术使开发者更轻松地创建 AI 应用,从而改变人们使用计算机的方式。

在微软 Ignite 2023 技术大会上发布的全新优化、模型和资源将更快地帮助开发者提供新的终端用户体验。

TensorRT-LLM 是一款提升 AI 推理性能的开源软件,它即将发布的更新将支持更多大语言模型,在 RTX GPU 8GB 及以上显存的 PC 和笔记本电脑上使要求严苛的 AI 工作负载更容易完成。

Tensor RT-LLM for Windows 即将通过全新封装接口与 OpenAI 广受欢迎的聊天 API 兼容。这将使数以百计的开发者项目和应用能在 RTX PC 的本地运行,而非云端运行,因此用户可以在 PC 上保留私人和专有数据。

定制的生成式 AI 需要时间和精力来维护项目。特别是跨多个环境和平台进行协作和部署时,该过程可能会异常复杂和耗时。

AI Workbench 是一个统一、易用的工具包,允许开发者在 PC 或工作站上快速创建、测试和定制预训练生成式 AI 模型和 LLM。它为开发者提供一个单一平台,用于组织他们的 AI 项目,并根据特定用户需求来调整模型。

这使开发者能够进行无缝协作和部署,快速创建具有成本效益、可扩展的生成式 AI 模型。加入抢先体验名单,成为首批用户以率先了解不断更新的功能,并接收更新信息。

为支持 AI 开发者,NVIDIA 与微软发布 DirectML 增强功能以加速最热门的基础 AI 模型之一的 Llama 2。除了全新性能标准,开发者现在有更多跨供应商部署可选。

便携式 AI

2023 年 10 月,NVIDIA 发布 TensorRT-LLM for Windows —— 一个用于加速大语言模型(LLM)推理的库。

本月底发布的 TensorRT-LLM v0.6.0 更新将带来至高达 5 倍的推理性能提升,并支持更多热门的 LLM,包括全新 Mistral 7B 和 Nemotron-3 8B。这些 LLM 版本将可在所有采用 8GB 及以上显存的 GeForce RTX 30系列和 40系列 GPU 上运行,从而使最便携的 Windows PC 设备也能获得快速、准确的本地运行 LLM 功能。

wKgaomVWFwiAI5yYAAD9zpwM1bA457.jpg

TensorRT-LLM v0.6.0

带来至高达 5 倍推理性能提升

新发布的 TensorRT-LLM 可在/NVIDIA/TensorRT-LLMGitHub 代码库中下载安装,新调优的模型将在ngc.nvidia.com提供。

从容对话

世界各地的开发者和爱好者将 OpenAI 的聊天 API 广泛用于各种应用——从总结网页内容、起草文件和电子邮件,到分析和可视化数据以及创建演示文稿。

这类基于云的 AI 面临的一大挑战是它们需要用户上传输入数据,因此对于私人或专有数据以及处理大型数据集来说并不实用。

为应对这一挑战,NVIDIA 即将启用 TensorRT-LLM for Windows,通过全新封装接口提供与 OpenAI 广受欢迎的 ChatAPI 类似的 API 接口,为开发者带来类似的工作流,无论他们设计的模型和应用要在 RTX PC 的本地运行,还是在云端运行。只需修改一两行代码,数百个 AI 驱动的开发者项目和应用现在就能从快速的本地 AI 中受益。用户可将数据保存在 PC 上,不必担心将数据上传到云端。

使用由 TensorRT-LLM 驱动的

Microsoft VS Code 插件 Continue.dev 编码助手

此外,最重要的一点是这些项目和应用中有很多都是开源的,开发者可以轻松利用和扩展它们的功能,从而加速生成式 AI 在 RTX 驱动的 Windows PC 上的应用。

该封装接口可与所有对 TensorRT-LLM 进行优化的 LLM (如,Llama 2、Mistral 和 NV LLM)配合使用,并作为参考项目在 GitHub 上发布,同时发布的还有用于在 RTX 上使用 LLM 的其他开发者资源。

模型加速

开发者现可利用尖端的 AI 模型,并通过跨供应商 API 进行部署。NVIDIA 和微软一直致力于增强开发者能力,通过 DirectML API 在 RTX 上加速 Llama。

在 10 月宣布的为这些模型提供最快推理性能的基础上,这一跨供应商部署的全新选项使将 AI 引入 PC 变得前所未有的简单。

开发者和爱好者可下载最新的 ONNX 运行时并按微软的安装说明进行操作,同时安装最新 NVIDIA 驱动(将于 11 月 21 日发布)以获得最新优化体验。

这些新优化、模型和资源将加速 AI 功能和应用在全球 1 亿台 RTX PC 上的开发和部署,一并加入 400 多个合作伙伴的行列,他们已经发布了由 RTX GPU 加速的 AI 驱动的应用和游戏。

随着模型易用性的提高,以及开发者将更多生成式 AI 功能带到 RTX 驱动的 Windows PC 上,RTX GPU 将成为用户利用这一强大技术的关键。

GTC 2024 将于 2024 年 3 月 18 至 21 日在美国加州圣何塞会议中心举行,线上大会也将同期开放。点击“阅读原文”扫描下方海报二维码,立即注册 GTC 大会。


原文标题:点亮未来:TensorRT-LLM 更新加速 AI 推理性能,支持在 RTX 驱动的 Windows PC 上运行新模型

文章出处:【微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英伟达
    +关注

    关注

    22

    文章

    3957

    浏览量

    94074

原文标题:点亮未来:TensorRT-LLM 更新加速 AI 推理性能,支持在 RTX 驱动的 Windows PC 上运行新模型

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA RTX AI加速FLUX.1 Kontext现已开放下载

    NVIDIA RTX 与 NVIDIA TensorRT 现已加速 Black Forest Labs 的最新图像生成和编辑模型;此外,Gemma 3n 现可借助
    的头像 发表于 07-16 09:16 ?469次阅读

    如何在魔搭社区使用TensorRT-LLM加速优化Qwen3系列模型推理部署

    TensorRT-LLM 作为 NVIDIA 专为 LLM 推理部署加速优化的开源库,可帮助开发者快速利用最新 LLM 完成应用原型验证与产
    的头像 发表于 07-04 14:38 ?756次阅读

    使用NVIDIA Triton和TensorRT-LLM部署TTS应用的最佳实践

    针对基于 Diffusion 和 LLM 类别的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能显著提升推理速度。
    的头像 发表于 06-12 15:37 ?705次阅读
    使用NVIDIA Triton和<b class='flag-5'>TensorRT-LLM</b>部署TTS应用的最佳实践

    英伟达GTC25亮点:NVIDIA Dynamo开源库加速并扩展AI推理模型

    NVIDIA Dynamo 提高了推理性能,同时降低了扩展测试时计算 (Scaling Test-Time Compute) 的成本; NVIDIA Blackwell 推理优化
    的头像 发表于 03-20 15:03 ?704次阅读

    使用NVIDIA推理平台提高AI推理性能

    NVIDIA推理平台提高了 AI 推理性能,为零售、电信等行业节省了数百万美元。
    的头像 发表于 02-08 09:59 ?775次阅读
    使用NVIDIA<b class='flag-5'>推理</b>平台提高<b class='flag-5'>AI</b><b class='flag-5'>推理性能</b>

    新品| LLM630 Compute Kit,AI 大语言模型推理开发平台

    LLM630LLM推理,视觉识别,可开发,灵活扩展···LLM630ComputeKit是一款AI大语言模型
    的头像 发表于 01-17 18:48 ?757次阅读
    新品| <b class='flag-5'>LLM</b>630 Compute Kit,<b class='flag-5'>AI</b> 大语言<b class='flag-5'>模型</b><b class='flag-5'>推理</b>开发平台

    NVIDIA推出面向RTX AI PCAI基础模型

    NVIDIA 今日发布能在 NVIDIA RTX AI PC 本地运行的基础模型,为数字人、内容创作、生产力和开发提供强大助力。
    的头像 发表于 01-08 11:01 ?590次阅读

    NVIDIA TensorRT-LLM中启用ReDrafter的一些变化

    Recurrent Drafting (简称 ReDrafter) 是苹果公司为大语言模型 (LLM) 推理开发并开源的一种新型推测解码技术,该技术现在可与 NVIDIA TensorRT-L
    的头像 发表于 12-25 17:31 ?800次阅读
    <b class='flag-5'>在</b>NVIDIA <b class='flag-5'>TensorRT-LLM</b>中启用ReDrafter的一些变化

    解锁NVIDIA TensorRT-LLM的卓越性能

    NVIDIA TensorRT-LLM 是一个专为优化大语言模型 (LLM) 推理而设计的库。它提供了多种先进的优化技术,包括自定义 Attention Kernel、Inflight
    的头像 发表于 12-17 17:47 ?941次阅读

    Arm KleidiAI助力提升PyTorchLLM推理性能

    热门的深度学习框架尤为突出,许多企业均会选择其作为开发 AI 应用的库。通过部署 Arm Kleidi 技术,Arm 正在努力优化 PyTorch,以加速基于 Arm 架构的处理器
    的头像 发表于 12-03 17:05 ?1553次阅读
    Arm KleidiAI助力提升PyTorch<b class='flag-5'>上</b><b class='flag-5'>LLM</b><b class='flag-5'>推理性能</b>

    NVIDIA TensorRT-LLM Roadmap现已在GitHub公开发布

    感谢众多用户及合作伙伴一直以来对NVIDIA TensorRT-LLM支持TensorRT-LLM 的 Roadmap 现已在 GitHub 公开发布!
    的头像 发表于 11-28 10:43 ?761次阅读
    NVIDIA <b class='flag-5'>TensorRT-LLM</b> Roadmap现已在GitHub<b class='flag-5'>上</b>公开发布

    TensorRT-LLM低精度推理优化

    本文将分享 TensorRT-LLM 中低精度量化内容,并从精度和速度角度对比 FP8 与 INT8。首先介绍性能,包括速度和精度。其次,介绍量化工具 NVIDIA TensorRT Model
    的头像 发表于 11-19 14:29 ?1359次阅读
    <b class='flag-5'>TensorRT-LLM</b>低精度<b class='flag-5'>推理</b>优化

    开箱即用,AISBench测试展示英特尔至强处理器的卓越推理性能

    。 中国电子技术标准化研究院赛西实验室依据国家标准《人工智能服务器系统性能测试规范》(征求意见稿)相关要求,使用AISBench?2.0测试工具,完成了第五代英特尔至强可扩展处理器的AI模型
    的头像 发表于 09-06 15:33 ?890次阅读
    开箱即用,AISBench测试展示英特尔至强处理器的卓越<b class='flag-5'>推理性能</b>

    RTX AI PC和工作站提供强大AI性能

    由 NVIDIA RTX 和 GeForce RTX 技术驱动AI PC 时代已经到来。在这一背景下,一种评估
    的头像 发表于 08-23 16:57 ?1114次阅读

    魔搭社区借助NVIDIA TensorRT-LLM提升LLM推理效率

    “魔搭社区是中国最具影响力的模型开源社区,致力给开发者提供模型即服务的体验。魔搭社区利用NVIDIA TensorRT-LLM,大大提高了大语言模型
    的头像 发表于 08-23 15:48 ?1183次阅读