0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

智能化编码面临的算力瓶颈 如何利用CPU解决全链路智能编码?

LiveVideoStack ? 来源:LiveVideoStack ? 2023-08-09 09:09 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

智能化编码面临的算力瓶颈

图中是一个视频转码推流的一般性流程图。主播将视频上传到上行CDN,然后再由视频处理中心进行各种前处理,包括内容理解,审核,编辑,增强和超分,然后进行编码,再推送到下行CDN,供观众观看。

ae71458e-364a-11ee-9e74-dac502259ad0.png

红色框部分都是和AI相关的部分。智能化编码中,AI所需算力已经超过编码本身。1080p的数据超成4K,编码只需要20几个物理核,但是如果要超分,就需要一张GPU卡。一张GPU卡5000块一个月,对比下来成本优势一目了然。

根据相关视频企业公开的财报,视频转码和带宽的成本占到公司全年收入的10%左右。随着AIGC的发展,未来肯定不局限于10%,因此成本问题是我们的痛点之一。

aeb51f70-364a-11ee-9e74-dac502259ad0.png

CPU全链路智能化编码的优势就在于成本节约,运维简单。下面举一个更具体的例子:

我们都知道转码方式有很多种,但CPU有两个不可替代的优势:1.高灵活性;2.高复用性。CPU的升级几乎没有成本,只需升级一下软件部分即可,以云为基础,申请一个虚拟主机,无论是docker还是container都可以随用随放,十分自由灵活,成本很低。

由于超分部分对算力的要求非常高,需要通过GPU来辅助,但同时也会引发一些问题:客户将高要求的AI负载迁移到GPU上,将编码和前处理完全分离。这就像在一间屋子里解码——发送到另一间屋子进行前处理——再转回来编码。这不仅让流程变得冗长,也对运维造成了极大负担,数据的反复调度也造成了一定时延的增加。

CPU全链路智能化编码正是解决了这一痛点。

英特尔第四代至强可扩展处理器及AMX赋能智能化编码

接下来会介绍英特尔第四代至强可扩展处理器及其内置的AI加速器AMX,以及如何利用AMX和英特尔成熟的软件栈和工具链帮助视频编解码工作者,打造全链路智能化编码。

据最新的统计数据,英特尔至强服务器在中国市场的数据中心的占有率保持在80%以上,可以说至强服务器是数据中心的基石。第四代至强一个重要的革新就是内置了数个硬件加速器,用于不同应用场景的性能加速,例如之前需要外置的PCIE插卡就已经内置在CPU内部。

aed170a8-364a-11ee-9e74-dac502259ad0.png

从左往右第一个AMX适用于AI;QAT负责压缩、解压和加解密;DLB负责Load Balance,CDN负责负载均衡,自动dispatch到闲散的资源上;DSA负责内存拷贝,不需要CPU参与,异步拷贝不仅速度快,而且不占用CPU内存;IAA负责存内分析,更多和数据库相关,IAA可以在不解压数据的情况下分析数据。

AMX的全称是Advanced Matrix eXensions,高级矩阵扩展指令集。它在AVX512的基础之上做了进一步的扩展。AMX有两个核心思想,一个是Tiles,一个是Timo。Tiles是物理上两地寄存器的叠加,16个AVX512叠加在一块。Timo是针对两地Tiles的矩阵运算。最新的至强每一颗物力核上都有一个内置的AMX,充当AI 的加速卡。

aff5c86c-364a-11ee-9e74-dac502259ad0.png

和大多数加速卡一样,AMX加速的是量化精度。目前第四代至强支持的是BF16和INT8,未来也会很快支持FP8和FP16。BF16的表达范围和FP32一模一样,只是精度比FP32小一点。目前绝大多数的场景,BF16已经足够。对于训练来说FP16足矣,而推理则只需要INT8。

b0668dae-364a-11ee-9e74-dac502259ad0.png

AMX是如何加速矩阵乘的呢?我们在做大的矩阵时可以把矩阵拆成16*64,然后一次性计算。如果算力不够,可以用oneDNN和MLKDNN处理,而AMX加速矩阵乘计算,算力是前一代产品的8倍。

b0ad32d6-364a-11ee-9e74-dac502259ad0.png

这张图是至强服务器峰值计算能力的演进过程。从2019年开始的第二代至强可扩展处理器支持VNNI,最新发布的第四代至强可扩展处理器支持AMX,可以看到每个指令周期的计算能力得到8倍的提升。

b0f880c4-364a-11ee-9e74-dac502259ad0.png

硬件性能只是一方面,软件生态某种意义上说对开发者来说更为关键。这是一张英特尔 AMX的软件生态图,从下往上,从最底层的操作系统到虚拟化KVM、HyperV,再到核心AI计算库都是英特尔开发的。在框架层面,主流的TF和PyTorch也都包含在内,除此之外英特尔还提供了丰富的推理工具。这些成熟的软件生态使得我们的开发者可以专注于算法创新,而不用考虑如何部署等细节,开箱即用。

b1770fca-364a-11ee-9e74-dac502259ad0.png

BF16和INT8的高算力对将AI从GPU迁到CPU之上确实有很大的帮助,但如何保证精度呢?英特尔有一个工具叫做INC,内置了很多专门用于精度的校正算法。作为开发者,只需要做三件事:输入模型、输入数据集和输入精度要求即可。INC会根据客户的输入进行tuning,直到有一个用户满意的算法。如果最终达不到设定的精度要求,还可以对某些层进行回滚,从而保证设定的精度可以达到要求。

b1e11672-364a-11ee-9e74-dac502259ad0.png

回到视频编解码领域,我们知道视频前处理是在FFmpeg解码之后,对YUV或者RGB数据进行处理,处理结束后再送到编码器x264或者x265编码。由于整个pipeline中,数据的处理速度并不一致,因此为了让整个过程的数据顺滑地流动起来,就需要做一部分的改造,比如解码后的raw data放入一个buffer队列中,AI推理异步从这个队列中取数据做推理,并把推理后的结果送到编码器中,这需要一定量针对FFmpeg的开发工作。

幸运的是,英特尔已经帮用户做好了。FFmpeg中有一个英特尔的OpenVINO后端,用户直接使用就行。FFmpeg的DNN AI推理后端,目前只支持2个后端,一个是Tensorflow,另外一个就是英特尔的OpenVINO。

总结:FFmpeg已经集成了OpenVINO作为AI 的后端推理引擎且英特尔有专门的团队去维护,大家可以放心使用。

b2365eac-364a-11ee-9e74-dac502259ad0.png

这是一个和合作伙伴的实际案例。在视频增强和目标检测这两个场景下,使用了英特尔第四代至强可扩展处理器AMX优化的AI推理性能相对上一代平台分别提升了1.86倍和1.95倍。与此同时,精度损失被控制在可接受的范围,这也使得英特尔的客户在CPU上实现了全链路智能化编码,大幅降低了部署成本和运维成本。






审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 处理器
    +关注

    关注

    68

    文章

    19971

    浏览量

    237912
  • 编码器
    +关注

    关注

    45

    文章

    3840

    浏览量

    138872
  • DSA
    DSA
    +关注

    关注

    0

    文章

    53

    浏览量

    15602
  • 硬件加速器
    +关注

    关注

    0

    文章

    43

    浏览量

    13125
  • GPU芯片
    +关注

    关注

    1

    文章

    306

    浏览量

    6235

原文标题:面对算力瓶颈,如何利用CPU解决全链路智能编码?

文章出处:【微信号:livevideostack,微信公众号:LiveVideoStack】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    沐曦方案亮相WAIC 2025

    以“智能时代 同球共济”为主题的2025世界人工智能大会(WAIC)于7月26日在上海开幕,全球人工智能领域的技术创新与产业实践成为焦点。沐曦集成电路(上海)股份有限公司(以下简称“沐曦”)携
    的头像 发表于 08-01 11:58 ?1620次阅读

    多摩川编码器:为木工机械赋能智能化生产

    在木工行业蓬勃发展的今天,智能化生产已成为行业发展的必然趋势。木工机械作为木材加工的核心设备,其智能化水平的高低直接影响着生产效率、产品质量和企业的竞争。而多摩川编码器,凭借其卓越的
    的头像 发表于 07-23 16:18 ?210次阅读

    腾视科技TS-NV-P100系列AI边缘盒子综合算高达157TOPS:重新定义AI边缘,赋能千行百业智能化升级

    视科技正通过持续的技术创新,为千行百业的智能化转型提供坚实的边缘底座,让AI真正成为驱动产业升级的核心动能。
    的头像 发表于 07-02 10:24 ?949次阅读
    腾视科技TS-NV-P100系列AI边缘<b class='flag-5'>算</b><b class='flag-5'>力</b>盒子综合算<b class='flag-5'>力</b>高达157TOPS:重新定义AI边缘<b class='flag-5'>算</b><b class='flag-5'>力</b>,赋能千行百业<b class='flag-5'>智能化</b>升级

    腾视科技TS-NV-P100系列AI边缘盒子综合算高达157TOPS:重新定义AI边缘,赋能千行百业智能化升级

    视科技正通过持续的技术创新,为千行百业的智能化转型提供坚实的边缘底座,让AI真正成为驱动产业升级的核心动能。
    的头像 发表于 07-02 10:16 ?361次阅读

    精准定位 高效驱动丨基于极海APM32E030的磁电式绝对值编码器参考方案,加速工业智能化转型

    编码器作为工业自动智能制造的核心组件,凭借高精度、实时反馈和智能化控制等特性,广泛应用于机器人、自动控制、数控机床、电梯、新能源等领域
    发表于 05-13 13:46 ?871次阅读
    精准定位 高效驱动丨基于极海APM32E030的磁电式绝对值<b class='flag-5'>编码</b>器参考方案,加速工业<b class='flag-5'>智能化</b>转型

    智能基建:RAKsmart如何赋能下一代AI开发工具

    当今,AI模型的复杂与规模提出了前所未有的要求。然而,传统的基础设施在灵活性、成本
    的头像 发表于 05-07 09:40 ?237次阅读

    点动科技战略聚焦AI智,领航服务新征程

    Al智业务收入占比已突破40%,标志着点动从传统业务向智能化转型的战略跨越取得阶段性胜利! 技术赋能构建核心壁垒,栈能力驱动行业智能化升级 在技术布局上,点动科技聚焦行业模型和Al
    的头像 发表于 05-07 09:29 ?292次阅读

    智能家居Mesh组网方案:实现智能化生活的无缝连接NRF52832

    互联成为了一个迫切的问题。 为了解决这一问题,迅通科技研发了智能家居 Mesh 组网方案,为传统智能家居产品商提供了智能化解决方案,以实现智能
    发表于 04-15 14:07

    智能最具潜力的行业领域

    智能最具潜力的行业领域 一、金融行业 智能风控与精准服务?:大型银行通过集群(6.27万
    的头像 发表于 04-11 08:20 ?547次阅读
    <b class='flag-5'>智能</b><b class='flag-5'>算</b><b class='flag-5'>力</b>最具潜力的行业领域

    工业4.0革命利器!明远智睿SSD2351核心板:低成本+高,破解产线智能化难题

    行业痛点:传统工业设备智能化改造面临三大瓶颈——不足导致实时性差、接口资源有限难以扩展多设备、进口方案成本高昂且供货不稳定。 核心板方案
    发表于 03-21 14:22

    国产新标杆!卓怡恒通EPC-S4450边缘AI工控机开启工业智能新纪元

    在工业4.0与数字转型浪潮的推动下,边缘计算正加速重构工业智能化版图。国内信创工业计算领域领军企业卓怡恒通今日正式发布EPC-S4450边缘AI工控机,以"栈国产+AI
    的头像 发表于 03-06 17:30 ?701次阅读
    国产<b class='flag-5'>化</b><b class='flag-5'>算</b><b class='flag-5'>力</b>新标杆!卓怡恒通EPC-S4450边缘AI工控机开启工业<b class='flag-5'>智能</b>新纪元

    云 GPU 加速计算:突破传统瓶颈的利刃

    ,犹如一把利刃,成功突破了传统瓶颈。 传统的 CPU 计算在面对大规模并行计算任务时,往往显得力不从心。CPU 核心数量有限,且设计侧
    的头像 发表于 02-17 10:36 ?347次阅读

    中心的如何衡量?

    作为当下科技发展的重要基础设施,其的衡量关乎其能否高效支撑人工智能、大数据分析等智能应用的运行。以下是对智中心算
    的头像 发表于 01-16 14:03 ?2939次阅读
    <b class='flag-5'>算</b>智<b class='flag-5'>算</b>中心的<b class='flag-5'>算</b><b class='flag-5'>力</b>如何衡量?

    单轴测径仪也可以智能化

    关键字:蓝鹏牌测径仪,智能测径仪,单轴智能测径仪,测径仪智能化,测径仪智能测控,外径智能测量,单
    发表于 12-31 13:55