0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA T4 GPU和TensorRT提高微信搜索速度

NVIDIA英伟达企业解决方案 ? 来源:NVIDIA英伟达企业解决方案 ? 作者:NVIDIA英伟达企业解 ? 2022-06-27 14:34 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

腾讯公司深耕模型量化开发,且长期与 NVIDIA 团队合作,成功将深度学习模型精度从 FP32 压缩到 FP16 以及 INT8。现在,该技术再次获得了新的重要突破。腾讯团队利用全新设计的 QAT 训练算法 Auto48,以及 INT4 推理能力,实现业界首次无损 INT4 在 NLP 领域落地使用的技术突破。服务上线后,不仅极大提升了微信中的搜索能力,在之前的基础上更进一步为公司节省了约 30% 的计算资源,其中 NVIDIAT4、A10 GPUTensorRT 即为本案例的应用核心。

腾讯微信是目前国内最大的社交平台及通讯工具之一。随着微信生态环境的优化,其功能也越来越丰富,搜索也成为其越来越重要的入口,这个入口可以用来搜索微信内部的功能、信息,以及搜索互联网上的内容,目前微信搜一搜月活跃用户已超过 7 亿。而在搜索业务当中微信团队使用了大量的神经网络模型,包括自然语言理解、匹配排序等等,这些模型的训练和推理也都大量依赖于 NVIDIA GPU,尤其在推理方面, NVIDIA GPU 及相应的解决方案皆满足了业务所需的延迟和吞吐要求。

搜索业务由多个子模块构成,包括查询理解、匹配、搜索排序等等。由于搜索的业务特点,这些任务对线上服务的延迟和吞吐都十分敏感。而在最近几年,随着算力的提升以及算法的创新,众多大型复杂的神经网络模型也开始应用在这些任务上。一方面,现有的模型(例如 BERT/GPT)带来的成本压力显著;另一方面,超大规模(十/百亿参数)模型带来的精度提升使得大模型应用需求持续升温。因此,这些大模型需要的计算资源和业务上的高要求对推理端的软硬件都是很大的挑战,必须针对具体的硬件做极致的优化。现有的对于大模型的推理加速技术,比如模型压缩、剪枝、低精度计算等等,都被证明能够一定程度上实现性能加速、节约资源。然而,这些技术可能会带来精度下降等负面影响,限制了这些技术的广泛应用。因此,如何在保证精度效果以及服务吞吐延迟需求的情况下,高效地对这些模型进行推理成为了业务上的巨大挑战。NVIDIA GPU 以及 TensorRT 给这一场景提供了解决方案。

为了满足线上服务的需求,并且尽可能地节约成本,微信搜一搜选择使用 NVIDIA T4 GPU 以及 TensorRT+CUTLASS 实现来进行线上大模型的推理。

线上服务对于吞吐和延迟有很高的要求,微信搜一搜选择使用 NVIDIA T4 GPU 以及 TensorRT 推理引擎来做线上推理服务,利用 NVIDIA 基于 TensorRT 实现的 INT8 BERT,可以很方便地在 INT8 精度下实现满足需求的线上推理功能。利用 TensorRT 提供的“校准”(Calibration)功能结合量化感知训练(Quantization Aware Training, QAT),可以方便地将 Float 精度模型转换为 INT8 低精度模型,实现低精度推理。通过低精度推理,模型的单次推理时间大大缩短 30%。这个方案在线上取得了很好的效果。

在此基础上,微信搜一搜希望进一步加快推理速度,节约计算资源,以便更好地服务用户,节约成本。更低的低精度推理成为了很好的选择。NVIDIA GPU 从图灵(Turing)架构开始就有了 INT4 Tensor Core,其计算吞吐量最高可达 FP16 精度的 4 倍。并且低精度推理可以同时使用其他技术比如剪枝、蒸馏等相结合做进一步提升。微信搜一搜线上大量使用 NVIDIA T4 GPU,非常适合应用 INT4 推理,且 CUTLASS 对 INT4 GEMM 也有良好的支持。

然而当进一步将数据类型从 INT8 降低到 INT4 的时候,如果使用相同的 QAT 算法时,模型的精度会发生显著的下降(超过 2%)。因此,微信搜一搜设计了全新的训练算法—— Auto48。Auto48 是一套全新的自动化模型量化工具,能够帮助用户自动生成自定义压缩率下,性能最优的量化模型。在 QAT 算法的启发下, Auto48 设计了全新的动态压缩算法来极大地减小高压缩率(INT4)带来的压缩误差,并且结合了更有效的知识蒸馏相关技术,使得量化后的模型准确度得到了显著的提高。进一步的, Auto48 还支持 INT8+INT4 混合精度的压缩,这使得用户可以自由的在压缩率和精度之间做权衡,甚至实现无损压缩。TensorRT 对于导入 QAT 训练好的模型进行 INT8 低精度推理已经有了很好的支持。T4 GPU 在硬件上支持 INT4 Tensor Core,使用 CUTLASS 可以方便地构建出满足多种需求的 INT4 GEMM 算子。这些算子不仅降低了推理时间,还保证了算子的功能的灵活性和扩展性。基于 Auto48 训练的模型,不仅得到了最佳性能,而且精度没有损失,线上服务只需做少许改动即可,极大地简化了部署的流程。

通过这样的方案,微信搜一搜中的一些关键任务,比如查询理解等自然语言理解任务,可以在精度没有损失的情况下,达到 1.4 倍的加速效果,平均单句推理时间达到了 0.022ms。任务相应的计算资源节省了约 30%。近期微信搜一搜在部分任务上线了 INT4 模型服务,该服务相较于之前的 INT8 模型服务有显著的性能提升,在流量高峰时平均响应时间降低了 21%,超时率降低了 70%。这个方案大大优化了微信搜一搜业务的性能,降低了部署成本。

使用 NVIDIA T4 GPU 以及 TensorRT 推理引擎进行 INT4 低精度推理,极大提升了微信搜一搜相关任务的速度,进一步提升了用户体验,节约了公司成本。

INT4 与 INT8 服务请求耗时和失败率对比

工程师朱健琛和李辉表示:“我们成功地实现了 INT4 的量化加速模型,并且在微信搜索核心任务(例如 query 理解和打分)上,显著的提高了这些模型的推理速度。通过使用我们提出的 Auto48 算法,我们成功打破了 NLP 模型的复杂性带来的限制。这种先进的优化手段可以极大地减少计算资源的需求。”

原文标题:NVIDIA TensorRT 助力腾讯加速微信搜一搜

文章出处:【微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5324

    浏览量

    106658
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4969

    浏览量

    131728
  • 腾讯
    +关注

    关注

    7

    文章

    1678

    浏览量

    50381
  • 微信
    +关注

    关注

    6

    文章

    512

    浏览量

    27406

原文标题:NVIDIA TensorRT 助力腾讯加速微信搜一搜

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    aicube的n卡gpu索引该如何添加?

    请问有人知道aicube怎样才能读取n卡的gpu索引呢,我已经安装了cuda和cudnn,在全局的py里添加了torch,能够调用gpu,当还是只能看到默认的gpu0,显示不了gpu1
    发表于 07-25 08:18

    NVIDIA Blackwell GPU优化DeepSeek-R1性能 打破DeepSeek-R1在最小延迟场景中的性能纪录

    本文将探讨 NVIDIA TensorRT-LLM 如何基于 8 个 NVIDIA Blackwell GPU 的配置,打破 DeepSeek-R1 在最小延迟场景中的性能纪录:在 G
    的头像 发表于 07-02 19:31 ?2324次阅读
    <b class='flag-5'>NVIDIA</b> Blackwell <b class='flag-5'>GPU</b>优化DeepSeek-R1性能 打破DeepSeek-R1在最小延迟场景中的性能纪录

    使用NVIDIA Triton和TensorRT-LLM部署TTS应用的最佳实践

    针对基于 Diffusion 和 LLM 类别的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能显著提升推理速度。在单张 NVIDIA Ada Love
    的头像 发表于 06-12 15:37 ?719次阅读
    使用<b class='flag-5'>NVIDIA</b> Triton和<b class='flag-5'>TensorRT</b>-LLM部署TTS应用的最佳实践

    使用NVIDIA RTX PRO Blackwell系列GPU加速AI开发

    NVIDIA GTC 推出新一代专业级 GPU 和 AI 赋能的开发者工具—同时,ChatRTX 更新现已支持 NVIDIA NIM,RTX Remix 正式结束测试阶段,本月的 NVIDIA
    的头像 发表于 03-28 09:59 ?666次阅读

    搜一搜灰度测试接入DeepSeek

    自家的混元大模型来丰富AI搜索功能,还近日正式启动了灰度测试,接入了DeepSeek技术。这一举措旨在为用户提供更加多元化、智能化的搜索体验。 被灰度测试选中的用户,在对话框顶部的
    的头像 发表于 02-17 14:20 ?688次阅读

    NVIDIA技术助力Pantheon Lab数字人实时交互解决方案

    本案例中,Pantheon Lab(万想科技)专注于数字人技术解决方案,通过 NVIDIA 技术实现数字人实时对话与客户互动交流。借助 NVIDIA GPUNVIDIA
    的头像 发表于 01-14 11:19 ?664次阅读

    NVIDIA和GeForce RTX GPU专为AI时代打造

    NVIDIA 和 GeForce RTX GPU 专为 AI 时代打造。
    的头像 发表于 01-06 10:45 ?715次阅读

    NVIDIA TensorRT-LLM中启用ReDrafter的一些变化

    Recurrent Drafting (简称 ReDrafter) 是苹果公司为大语言模型 (LLM) 推理开发并开源的一种新型推测解码技术,该技术现在可与 NVIDIA TensorRT-LLM 一起使用。
    的头像 发表于 12-25 17:31 ?807次阅读
    在<b class='flag-5'>NVIDIA</b> <b class='flag-5'>TensorRT</b>-LLM中启用ReDrafter的一些变化

    解锁NVIDIA TensorRT-LLM的卓越性能

    Batching、Paged KV Caching、量化技术 (FP8、INT4 AWQ、INT8 SmoothQuant 等) 以及更多功能,确保您的 NVIDIA GPU 能发挥出卓越的推理性能。
    的头像 发表于 12-17 17:47 ?953次阅读

    《CST Studio Suite 2024 GPU加速计算指南》

    的各个方面,包括硬件支持、操作系统支持、许可证、GPU计算的启用、NVIDIA和AMD GPU的详细信息以及相关的使用指南和故障排除等内容。 1. 硬件支持 - NVIDIA
    发表于 12-16 14:25

    NVIDIA TensorRT-LLM Roadmap现已在GitHub上公开发布

    感谢众多用户及合作伙伴一直以来对NVIDIA TensorRT-LLM的支持。TensorRT-LLM 的 Roadmap 现已在 GitHub 上公开发布!
    的头像 发表于 11-28 10:43 ?767次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>TensorRT</b>-LLM Roadmap现已在GitHub上公开发布

    TensorRT-LLM低精度推理优化

    本文将分享 TensorRT-LLM 中低精度量化内容,并从精度和速度角度对比 FP8 与 INT8。首先介绍性能,包括速度和精度。其次,介绍量化工具 NVIDIA
    的头像 发表于 11-19 14:29 ?1365次阅读
    <b class='flag-5'>TensorRT</b>-LLM低精度推理优化

    AMD与NVIDIA GPU优缺点

    NVIDIA的RTX系列显卡以其强大的光线追踪和DLSS技术领先于市场。例如,NVIDIA的RTX 3080在4K分辨率下提供了卓越的游戏体验,而AMD的Radeon RX 6800 XT虽然在某些游戏中表现接近,但在光线追踪
    的头像 发表于 10-27 11:15 ?2789次阅读

    NVIDIA Nemotron-4 340B模型帮助开发者生成合成训练数据

    Nemotron-4 340B 是针对 NVIDIA NeMo 和 NVIDIA TensorRT-LLM 优化的模型系列,该系列包含最先进的指导和奖励模型,以及一个用于生成式 AI
    的头像 发表于 09-06 14:59 ?763次阅读
    <b class='flag-5'>NVIDIA</b> Nemotron-<b class='flag-5'>4</b> 340B模型帮助开发者生成合成训练数据

    魔搭社区借助NVIDIA TensorRT-LLM提升LLM推理效率

    “魔搭社区是中国最具影响力的模型开源社区,致力给开发者提供模型即服务的体验。魔搭社区利用NVIDIA TensorRT-LLM,大大提高了大语言模型的推理性能,方便了模型应用部署,提高
    的头像 发表于 08-23 15:48 ?1190次阅读