0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA助力腾讯AI LAB打造一体AI生态

星星科技指导员 ? 来源:NVIDIA ? 作者:NVIDIA ? 2022-04-21 10:50 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

案例简介

? 本案例中通过使用NVIDIA T4 GPUTensorRT,OpenGL,CUDA, CUDA/OpenGL interoperability等GPU软件技术栈,助力腾讯AI LAB虚拟人项目在人脸生成阶段达到了超过3倍的加速。

? 本案例主要应用到 NVIDIA T4 GPU,TensorRT, OpenGL,CUDA, CUDA/OpenGL interoperability等AI加速平台。

客户简介及应用背景

腾讯AI LAB致力于打造产学研用一体的 AI 生态,主要的研究方向包括计算机视觉语音识别、自然语言处理和机器学习,结合腾讯场景与业务优势,在社交AI,游戏AI,内容AI及平台AI等领域取得了显著的成果,技术被应用于微信、QQ、天天快报和QQ音乐等上百个腾讯产品。其中围棋AI “绝艺” 多次获得世界人工智能围棋大赛的冠军。

腾讯AI LAB打造的虚拟人,具有自然,生动且饱含情绪的表情,其背后由一套腾讯 AI Lab 自研的复杂系统支撑,系统首先要从文本中提取不同信息,包括表情、情感、重音位置、和激动程度等;之后,这些信息被输入到模型中生成,再同步生成语音、口型和表情参数,最终才有了虚拟人自然生动的表现。

客户挑战

根据虚拟人物需要表达的语言和情感,生成自然生动的人脸,是打造虚拟人重要的一个阶段。需要先渲染人脸的纹理图和渲染图,并将它们输入到深度学习模型中,最终生成自然生动的人脸。在这个过程中,需要用到OpenGL、OpenCV、CUDA、TensorFlow等软件技术,腾讯原有的方案有很多CPU与GPU的数据交互,且有很多计算型的操作通过CPU来实现,效率非常低下, 无论是吞吐还是延时都不满足要求,具体体现在:

OpenGL在GPU上渲染好图像绘制到framebuffer后,需要先用glReadPixels拷贝数据到CPU,再用cudaMemcpy将数据从CPU拷回到GPU以进行深度学习模型的推理,这里有两次不必要的CPU与GPU之间的数据传输。

颜色空间转换,深度学习推理的前后处理等操作在CPU上完成,效率非常低下。

应用方案

NVIDIA 技术在虚拟人项目的渲染和推理阶段均提供了强大的支持。在渲染阶段,NVIDIA 助力提升了颜色空间转换效率,降低整体延时,主要体现在:

用NVIDIA CUDA/OpenGL interoperability 代替腾讯之前使用glReadPixels在CUDA和OpenGL之间拷贝数据的方案,大幅减少了CPU和GPU之间的数据拷贝,从而降低了整体的延时。

把原来在CPU上做的颜色空间转换的操作,迁移到NVIDIA T4 GPU上用CUDA kernel实现,利用GPU的并行优势,大大提高了颜色空间转换的效率,进一步降低了整体的延时。

将多帧的mesh组成一个batch分别绘制到framebuffer的不同区域,在提高OpenGL并行度的同时,给下一阶段的深度学习模型的推理提供了更大的输入数据的batch size,充分发挥NVIDIA T4 GPU高并发计算的优势,进一步提高GPU的利用率,从而提高整体的吞吐。

在推理阶段,NVIDIA助力提高推理整体吞吐,降低推理延时,主要体现在以下几点:用NVIDIA TensorRT替换TensorFlow对模型推理进行加速,并利用NVIDIA T4 GPU上的FP16 Tensor Core可以极大提高矩阵乘等操作速度的特性,在最终视觉效果几乎不变的情况下,进一步提升推理的吞吐,降低推理延时。

用NVIDIA TensorRT替换TensorFlow对模型推理进行加速,并利用NVIDIA T4 GPU上的FP16 Tensor Core可以极大提高矩阵乘等操作速度的特性,在最终视觉效果几乎不变的情况下,进一步提升推理的吞吐,降低推理延时。

在NVIDIA T4 GPU上利用CUDA kernel 替代原始流程中在CPU上使用OpenCV实现 Mat-to-Tensor 和 Tensor-to-Mat 等格式转换操作,并使用OpenCV-CUDA版替换OpenCV-CPU版的部分操作(如Resize等),充分发挥GPU相对于CPU更高的并发优势,在加速这些操作的同时减少GPU到CPU的数据传输通信量,提高格式转换效率,降低端到端的推理延时。

通过Pipeline的方式,使GPU和CPU上的操作进行overlap,并结合NVIDIA的MPS技术提高单卡上多个进程同时处理多个数据流的同时提高整体的吞吐。

使用效果及影响

在虚拟人项目中,NVIDIA CUDA技术大幅提升了渲染速度,NVIDIA TensorRT 方便快速地加速深度学习模型的推理,结合MPS技术,实现了单卡多路推流,使整体推理效率达到了原来的三倍!性能的大幅提升,既提升了GPU的利用率,又降低了AI技术的使用成本。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5324

    浏览量

    106637
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4968

    浏览量

    131658
  • AI
    AI
    +关注

    关注

    88

    文章

    35476

    浏览量

    281261
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    大家都在用什么AI软件?有没有好用的免费的AI软件推荐下?

    大家都在用什么AI软件?有没有好用的免费的AI软件推荐下?直接发个安装包,谢谢。比如deepseek、Chatgpt、豆包、阿里AI、百度AI
    发表于 07-09 18:30

    NVIDIA AI技术助力欧洲医疗健康行业发展

    从构建全球规模最大的生物多样性数据库,到打造赋能罕见病研究的 AI 工厂,NVIDIAAI 初创企业生态系统正持续为欧洲医疗健康领域注
    的头像 发表于 06-19 14:40 ?2192次阅读

    NVIDIA技术助力企业创建主权AI智能

    AI Factory 的经验证设计将加速基础设施与软件(包括全新 NVIDIA NIM 微服务和经扩展的 NVIDIA Blueprint)相结合,为各国和企业简化了全栈式 AI 开发
    的头像 发表于 06-16 14:28 ?692次阅读

    首创开源架构,天玑AI开发套件让端侧AI模型接入得心应手

    套件2.0,打造整套围绕AI开发效率与落地路径展开的“系统性解法”,为开发者提供了AI应用开发工具全家桶。同时,全新升级的旗舰5G智能
    发表于 04-13 19:52

    硅基觉醒已至前夜,联发科携手生态加速智能化用户体验时代到来

    、适配与部署;Dimensity Profiler提供深层调试能力;而天玑AI开发套件2.0则在模型规模、训练性能与平台接口全面升级,为开发者打造从芯片到底层算法的闭环支持。 驶向AI
    发表于 04-13 19:51

    Banana Pi 发布 BPI-AI2N & BPI-AI2N Carrier,助力 AI 计算与嵌入式开发

    和 Renesas直致力于推动开源生态的发展,并积极合作打造高效、开放的计算平台。BPI-AI2N & BPI-AI2N Car
    发表于 03-19 17:54

    《零基础开发AI Agent——手把手教你用扣子做智能

    《零基础开发AI Agent——手把手教你用扣子做智能》是本为普通人量身打造AI开发指南。它不仅深入浅出地讲解了Agent的概念和发展
    发表于 03-18 12:03

    软通动力昇腾AI一体助力中铁鲁班AI升级

    近期,随着DeepSeek大模型的推出,人工智能正以前所未有的速度重塑各行业的发展格局。紧随行业趋势,中铁鲁班基于软通动力昇腾AI一体机自主打造鲁班平台大模型底座-鲁小宝,并实现与DeepSeek大模型全栈应用对接,为各单位招投
    的头像 发表于 02-24 18:00 ?1059次阅读

    NVIDIA推出多个生成式AI模型和蓝图

    NVIDIA 宣布推出多个生成式 AI 模型和蓝图,将 NVIDIA Omniverse 一体化进步扩展至物理
    的头像 发表于 01-08 10:48 ?683次阅读

    NVIDIA和GeForce RTX GPU专为AI时代打造

    NVIDIA 和 GeForce RTX GPU 专为 AI 时代打造
    的头像 发表于 01-06 10:45 ?712次阅读

    赖耶科技通过NVIDIA AI Enterprise平台打造超级AI工厂

    NVIDIA 技术团队保持合作。赖耶科技通过NVIDIA AI Enterprise平台打造的超级 AI 工厂,致力于加速大模型场景应用
    的头像 发表于 11-19 14:55 ?1171次阅读

    NVIDIA助力Amdocs打造生成式AI智能

    正在使用NVIDIA DGX Cloud 与 NVIDIA AI Enterprise软件开发和交付基于商用大语言模型(LLM)和领域适配模型的解决方案。该公司还在使用NVIDIA
    的头像 发表于 11-19 14:48 ?954次阅读

    使用全新NVIDIA AI Blueprint开发视觉AI智能

    为提高生产力、优化流程和创造更加安全的空间,埃森哲、戴尔科技和联想等公司正在使用全新 NVIDIA AI Blueprint 开发视觉 AI 智能
    的头像 发表于 11-06 13:58 ?1107次阅读

    NVIDIA助力印度打造AI基础设施

    在孟买举办的 NVIDIA AI Summit 上,黄仁勋和穆克什·安巴尼(Mukesh Ambani)探讨了关于 AI 基础设施的投资,这些投资有望为各行各业带来变革。
    的头像 发表于 10-27 09:44 ?613次阅读

    存算一体架构创新助力国产大算力AI芯片腾飞

    在湾芯展SEMiBAY2024《AI芯片与高性能计算(HPC)应用论坛》上,亿铸科技高级副总裁徐芳发表了题为《存算一体架构创新助力国产大算力AI芯片腾飞》的演讲。
    的头像 发表于 10-23 14:48 ?917次阅读