0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

新版NVIDIA Maxine为实时音频和视频通信铺平道路

NVIDIA英伟达 ? 来源:NVIDIA英伟达 ? 作者:NVIDIA英伟达 ? 2022-09-26 09:19 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

抢先体验 AI 微服务在云端提供的优质通信

新版NVIDIA Maxine为实时音频视频通信铺平了道路。无论是参加视频会议、致电客户服务中心,还是进行直播,Maxine 都能够助您实现清晰明确的沟通,增强虚拟交互的效果。

NVIDIA Maxine 是一套由 GPU 加速的 AI 软件开发套件 (SDK) 和云原生微服务,用于部署经过优化和加速的 AI 功能,可达到实时增强音频、视频和增强现实 (AR) 效果的目的。

借助 Maxine 的先进模型,最终用户无需使用昂贵的设备即可改进音频和视频质量。基于 NVIDIA AI 的技术使标准的麦克风和摄像头设备也能够达到这些高质量的效果。

在 GTC 上,NVIDIA 宣布为云原生微服务重新构建 Maxine,并推出了 Maxine 音频效果微服务的抢先体验版。此外,还推出了新的 Maxine SDK 功能,包括发言者聚焦和人脸表情估计,并正式推出了眼神交流功能。NVIDIA Maxine 现在还包含现有 SDK 功能的增强版。

Maxine 实现云原生

Maxine 的云原生微服务允许开发者构建实时 AI 应用。微服务可以独立管理,并在云端进行无缝部署,从而缩短开发周期。

抢先体验版的 Audio Effects 微服务中包含四种先进的音频功能:

背景噪音消除:使用 AI 模型消除多种常见的背景噪音,同时保留说话者的自然声音。

房间回声消除:使用 AI 模型消除音频中的混响,恢复说话者声音的清晰度。

音频超高分辨率:提高音频信号的时间分辨率,改善音频质量。该功能目前支持 8 kHz 到 16 kHz 以及 16 kHz 到 48 kHz 的上采样。

声学回声消除:消除输入音频流中的实时声学设备回声,从而去除不匹配的声对和双声。借助基于 AI 的技术,Maxine 实现了比传统数字信号处理算法更有效的回声消除。

Pexip 是一家领先的企业视频会议和协作解决方案提供商,正在利用 NVIDIA 的 AI 技术将虚拟会议提升到更高水平,为现代员工队伍提供先进的功能。

Pexip 战略联盟高级副总裁 Eddie Clifton 表示:“随着 Maxine 向云原生微服务的转化,我们能够更加轻松地将 NVIDIA 的先进 AI 技术与我们独特的服务器端架构结合起来。这使我们的 Pexip 团队能够为虚拟会议提供更强的体验。”

探索 SDK 的增强功能

Maxine 提供了三款由 GPU 加速的 SDK,能够通过 AI 重塑实时通信的音频、视频和 AR 效果。

音频效果 SDK 可提供多效果、低延迟,以及基于 AI 的音频质量增强算法。发言者聚焦是抢先体验版中的新功能,该功能能够分离前景和背景发言者的音轨,使听众能够更加轻松地识别每种声音。此外,还更新了音频超高分辨率SDK 功能,使其具备更高的质量。

视频效果 SDK 会使用标准网络摄像头输入创建基于 AI 的视频效果。虚拟背景功能已获得更新,增强了时间稳定性,该功能能够分割个人形象并应用由 AI 驱动的背景去除、替换或模糊功能。

AR SDK 基于标准网络摄像头馈送,提供基于 AI 的实时 3D 面部追踪和身体姿态估计。新功能包括:

眼神交流:通过预估和将视线与摄像头对齐来模拟眼神交流。

人脸表情估计:追踪人脸并推断主体所呈现的表情。

更新了以下 AR 功能:

身体姿态估计:以 2D 和 3D 形式预测和追踪人体的 34 个关键点,并且现已支持多人追踪。

面部特征点追踪:使用 126 个关键点来识别面部特征和轮廓。现已可使用“画质”模式来追踪由于头部运动和表情造成的头部姿势和面部变形(实时追踪的自由度为 3 度),实现了更高质量的跟踪效果。

人脸网格:以高达 3000 个顶点和 6 个自由度的 3D 网格表示人脸,并且现在包括USC 创意技术研究所的 3D 可变形模型。

直接体验 Maxine 的惊艳效果。

体验由 AI 的强大功能带来的先进效果

Maxine SDK 和微服务可为您提供一套低延迟的 AI 效果,且可与现有的客户基础设施进行集成。由于 Maxine 的尖端 AI 功能的构建以 NVIDIA AI 平台为基础,并且拥有领先的预训练模型,所以开发者用户可利用其来创建、定制和部署优质的音频和视频质量功能。

Maxine 也是NVIDIA Omniverse Avatar Cloud Engine的一部分,NVIDIA Omniverse Avatar Cloud Engine 是一系列基于云的 AI 模型和服务,可供开发者构建、定制和部署交互式虚拟形象。Maxine 的可定制云原生微服务允许您在 AI 效果制作流程中进行独立部署。而且,您可以在本地、云端或边缘部署 Maxine。

审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5324

    浏览量

    106661
  • AI
    AI
    +关注

    关注

    88

    文章

    35515

    浏览量

    281424
  • 云原生
    +关注

    关注

    0

    文章

    263

    浏览量

    8297

原文标题:GTC22 | 全新 NVIDIA Maxine 云原生架构可大规模实现突破性影音质量

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    乐鑫ESP-RTC实时视频通信方案

    ESP-RTC乐鑫科技推出ESP-RTC(Real-TimeCommunication)音视频通信方案,能够实现稳定流畅、超低延时的语音和视频实时
    的头像 发表于 05-26 18:07 ?371次阅读
    乐鑫ESP-RTC<b class='flag-5'>实时</b>音<b class='flag-5'>视频</b><b class='flag-5'>通信</b>方案

    智慧路灯于实时通信息供给之作用

    与数据分析 智能摄像及传感装置 叁仟智慧路灯搭载高清摄像设备、车辆检测仪器、行人检测仪器等多种传感设施,能够实时道路上的车流量、车速以及行人动态进行监测。这些设备所采集的数据具备较高精度,交通管理工作提供坚实可靠
    的头像 发表于 03-09 15:15 ?281次阅读
    智慧路灯于<b class='flag-5'>实时</b>交<b class='flag-5'>通信</b>息供给之作用

    罗德与施瓦茨和高通合作加速下一代无线通信发展

    罗德与施瓦茨(以下简称“R&S”)与高通成功验证了13 GHz频段的5G NR连接的高吞吐量性能,该频段属于拟议的FR3频率范围。双方在MWC 2025大会上联合展示这一里程碑技术成果,下一代无线网络的发展铺平道路
    的头像 发表于 03-05 16:26 ?599次阅读

    哈佛新技术为先进机器视觉铺平道路

    了在医疗、AR和智能手机技术中的应用,增强了实时和机器学习集成成像能力。 想想我们根据物体与光波长的相互作用(又称颜色)获得的所有信息。颜色可以告诉我们食物是否可以安全食用,或者一块金属是否发热。在医学上,颜色是一种重要的诊断工具,可以帮
    的头像 发表于 02-06 06:27 ?413次阅读
    哈佛新技术为先进机器视觉<b class='flag-5'>铺平道路</b>

    车载气象监测站:实时监测道路风速风向温湿度气压扬尘等

    在复杂多变的道路环境中,驾驶者需要时刻关注天气变化,以确保行车安全。车载气象监测站应运而生,它集成了高精度传感器,能够实时监测道路的风速、风向、温湿度、气压以及扬尘等关键气象参数。 通过实时
    的头像 发表于 01-22 13:32 ?490次阅读

    NVIDIA技术助力Pantheon Lab数字人实时交互解决方案

    本案例中,Pantheon Lab(万想科技)专注于数字人技术解决方案,通过 NVIDIA 技术实现数字人实时对话与客户互动交流。借助 NVIDIA GPU、NVIDIA Tensor
    的头像 发表于 01-14 11:19 ?664次阅读

    联发科与NVIDIA合作 NVIDIA 个人AI超级计算机设计NVIDIA GB10超级芯片

    各类采用Arm架构SoC的设备提供卓越的AI、通信、多媒体与高能效用户体验。联发科将丰富的专业技术带入此次与NVIDIA的合作中,以共同打造业界先进的平台。 联发科副董事
    的头像 发表于 01-07 16:26 ?628次阅读

    如何在播放视频过程中插入音频

    ZDP14x0是一款基于开源GUI引擎的图像显示专用驱动芯片,可以通过串口或者SPI与其他芯片通信,且能播放视频。本文将介绍如何在播放视频过程中插入音频
    的头像 发表于 12-26 11:13 ?1197次阅读
    如何在播放<b class='flag-5'>视频</b>过程中插入<b class='flag-5'>音频</b>

    实时通信RTC的常见问题及解决方案

    语音和视频通信中的卡顿和延迟。 解决方案: 优化网络路径: 使用高质量的网络服务提供商,确保网络带宽充足。 使用QoS(Quality of Service): 通过设置网络优先级,确保实时
    的头像 发表于 12-11 15:40 ?1827次阅读

    苹果预订M5芯片,预计2025年底投产

    据最新媒体报道,苹果公司已经向台积电预订了下一代M5芯片,未来的设备生产开发铺平道路。这款M5系列芯片预计将采用增强型ARM架构,并借助台积电先进的3纳米制程技术进行制造。
    的头像 发表于 12-03 10:44 ?774次阅读

    高清视频线与音频线的连接方式

    随着家庭娱乐系统的不断升级,高清视频和高质量音频成为了现代家庭影院系统的重要组成部分。 1. 了解不同类型的连接线 在开始连接之前,了解不同类型的连接线是非常重要的。常见的高清视频线包括HDMI
    的头像 发表于 10-30 16:11 ?2295次阅读

    想通过手机音频口实现与MCU的实时通信,有没有体积较小,开发起来难度较小的音频解码芯片?

    想通过手机音频口实现与MCU的实时通信,有没有体积较小,开发起来难度较小的音频解码芯片?
    发表于 10-25 07:44

    NVIDIA Parabricks v4.3.1版本的新功能

    会(ESHG)上发布,其加入了新的体细胞数据变异检测功能,并将业内领先的工具升级到最新版本。这个版本是继在 NVIDIA GTC 2024 大会上发布 Parabricks v4.3 之后推出的新版本。
    的头像 发表于 09-10 10:22 ?873次阅读
    <b class='flag-5'>NVIDIA</b> Parabricks v4.3.1版本的新功能

    IB Verbs和NVIDIA DOCA GPUNetIO性能测试

    NVIDIA DOCA GPUNetIO 是 NVIDIA DOCA SDK 中的一个库,专门实时在线 GPU 数据包处理而设计。它结合了 GPUDirect RDMA 和 GPUD
    的头像 发表于 08-23 17:03 ?1445次阅读
    IB Verbs和<b class='flag-5'>NVIDIA</b> DOCA GPUNetIO性能测试

    英伟达发布新版NVIDIAApp

    英伟达推出了 NVIDIA App 测试版?10.0.2 版本,?NVIDIA App新版本新增功能包括显示设置、RTX 视频增强控制、应用排序,以及面向其他国家 / 地区用户的应用翻
    的头像 发表于 08-07 16:16 ?1187次阅读