0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

英特尔四大层面,提升DeepRec训练和推理能力

英特尔中国 ? 来源:英特尔中国 ? 作者:英特尔中国 ? 2022-07-10 10:56 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

从淘宝到天猫应用,从搜索、推荐到广告等场景,对井喷式的数据进行超大规模训练推理的应用,已经在我们身边落地开花。阿里巴巴集团的开源推荐引擎 DeepRec (PAI-TF) 主要用于稀疏模型训练和预测,可支撑千亿特征、万亿样本的超大规模稀疏训练。

从2019 年开始,英特尔就与阿里巴巴PAI团队紧密合作,将英特尔 AI 技术应用到 DeepRec 中。特别是英特尔处理器内置的英特尔DL Boost (英特尔深度学习加速),为 DeepRec 实现了四个层面上的优化:框架优化、算子优化、子图优化和模型优化。

四大层面,提升DeepRec 训练和推理能力

自英特尔 至强 可扩展处理器问世以来,通过从 AVX-256 升级到 AVX-512,英特尔将 AVX 的能力提高了一倍,极大地提升了深度学习训练和推理能力。第三代英特尔 至强 可扩展处理器之后,英特尔推出支持 BFloat16 (BF16) 数据类型的指令集,也应用到 DeepRec 的优化中。

框架优化:DeepRec 集成了英特尔开源的跨平台深度学习性能加速库oneDNN (oneAPI Deep Neural Network Library),该程序库已经针对大量主流算子实现了性能优化。与搭载 BF16 指令的第三代英特尔至强可扩展处理器同时使用,可显著提高模型训练和推理性能。

算子优化:搜索广告推荐模型中存在着大量稀疏算子,调用 AVX-512 指令加以优化后,大幅提升了数据读写效率和性能。

子图优化:图优化是 AI 性能优化的主要有效手段之一。在大规模稀疏场景下,DeepRec 加入多种子图融合功能,减少大量冗余操作,配合英特尔 AVX-512 指令加速,实现了子图性能的明显提升。

模型优化:基于CPU 平台,英特尔在 DeepRec 构建了涵盖多个主流模型的独有推荐模型集合,涉及召回、排序、多目标等多种常见场景;并针对硬件平台进行性能优化,相较于其他框架在 CPU 平台上带来跨越式性能提升。

阿里巴巴 PAI 团队的测试结果证明:基于 Criteo 数据集,使用BF16优化后,模型WDL精度或AUC可以逼近FP32,并且BF16模型的训练性能提升达1.4倍,效果显著。

未来,英特尔还会从优化器算子、attention 子图、添加多目标模型等多个角度进一步实施优化,更大程度地发挥 CPU 平台硬件优势、尤其是新硬件特征的效果最大化,从而为稀疏场景打造更高性能的 CPU 解决方案。

当然,英特尔为 DeepRec 的优化并不仅限于 CPU 层面。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英特尔
    +关注

    关注

    61

    文章

    10216

    浏览量

    175533
  • cpu
    cpu
    +关注

    关注

    68

    文章

    11119

    浏览量

    218365

原文标题:发挥CPU平台硬件优势,英特尔助力DeepRec优化超大规模稀疏训练

文章出处:【微信号:英特尔中国,微信公众号:英特尔中国】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    世纪大并购!传高通有意整体收购英特尔英特尔最新回应

    电子发烧友网报道(文/吴子鹏)9月21日,《华尔街日报》发布博文称,高通公司有意整体收购英特尔公司,而不是仅仅收购芯片设计部门。“最近几天,高通已经接触了芯片制造商英特尔。”报道称,这笔交易还远未
    的头像 发表于 09-22 05:21 ?3797次阅读
    世纪大并购!传高通有意整体收购<b class='flag-5'>英特尔</b>,<b class='flag-5'>英特尔</b>最新回应

    英特尔发布全新GPU,AI和工作站迎来新选择

    Pro B50 GPU,搭载了为AI推理和专业工作站量身定制的配置,扩展了英特尔锐炫Pro产品系列。 英特尔 ? Gaudi 3 AI 加速器: 英特尔Gaud
    发表于 05-20 11:03 ?1546次阅读

    1.9倍性能提升英特尔至强6在MLPerf基准测试中表现卓越

    与第五代至强处理器相比,英特尔至强6性能核的性能平均提高了1.9倍。 今日,MLCommons公布了最新的MLPerf推理v5.0基准测试结果,其中,英特尔??至强??6性能核处理器在本次测试的六个
    的头像 发表于 04-07 10:58 ?338次阅读

    请问OpenVINO?工具套件英特尔?Distribution是否与Windows? 10物联网企业版兼容?

    无法在基于 Windows? 10 物联网企业版的目标系统上使用 英特尔? Distribution OpenVINO? 2021* 版本推断模型。
    发表于 03-05 08:32

    英特尔?独立显卡与OpenVINO?工具套件结合使用时,无法运行推理怎么解决?

    使用英特尔?独立显卡与OpenVINO?工具套件时无法运行推理
    发表于 03-05 06:56

    英特尔代工或引入多家外部股东

    英特尔的合作模式为“出钱拿产能”。这两家ASIC设计大厂将通过股权投资的方式,确保自身能够获得英特尔的先进制程生产能力。同时,高通和博通的订单也将有助于提升
    的头像 发表于 02-18 10:45 ?803次阅读

    英特尔带您解锁云上智算新引擎

    在近日举办的2024火山引擎FORCE原动力大会上,英特尔与火山引擎联合发布基于英特尔 至强 6 性能核处理器的第代服务器实例,以打造弹性算力底座的产品化实践。同时,英特尔也携手扣子
    的头像 发表于 12-23 14:05 ?1035次阅读

    使用英特尔AI PC为YOLO模型训练加速

    之后,情况有了新的变化,PyTorch2.5正式开始支持英特尔显卡,也就是说,此后我们能够借助英特尔 锐炫 显卡来进行模型训练了。
    的头像 发表于 12-09 16:14 ?1746次阅读
    使用<b class='flag-5'>英特尔</b>AI PC为YOLO模型<b class='flag-5'>训练</b>加速

    英特尔推出全新英特尔锐炫B系列显卡

    英特尔锐炫B580和B570 GPU以卓越价值为时新游戏带来超凡表现。 ? > 今日,英特尔发布全新英特尔锐炫 B系列显卡(代号Battlemage)。英特尔锐炫 B580和B570
    的头像 发表于 12-07 10:16 ?1537次阅读
    <b class='flag-5'>英特尔</b>推出全新<b class='flag-5'>英特尔</b>锐炫B系列显卡

    使用PyTorch在英特尔独立显卡上训练模型

    《PyTorch 2.5重磅更新:性能优化+新特性》中的一个新特性就是:正式支持在英特尔独立显卡上训练模型!
    的头像 发表于 11-01 14:21 ?2226次阅读
    使用PyTorch在<b class='flag-5'>英特尔</b>独立显卡上<b class='flag-5'>训练</b>模型

    英特尔宣布扩容成都封装测试基地

    英特尔宣布扩容英特尔成都封装测试基地。在现有的客户端产品封装测试的基础上,增加为服务器芯片提供封装测试服务,并设立一个客户解决方案中心,以提高本土供应链的效率,加大对中国客户支持的力度,提升响应速度。该扩容计划体现了
    的头像 发表于 10-29 13:58 ?624次阅读

    英特尔考虑出售Altera股权

    近日,英特尔(Intel)正积极寻求出售其可编程芯片制造子公司Altera的股权,并考虑引入战略投资或PE投资。据悉,英特尔对Altera的估值约为170亿美元,而英特尔于2015年以167亿美元的价格收购了这家公司。
    的头像 发表于 10-21 15:42 ?937次阅读

    英特尔AI PC无所不能的实力

    百业的最后一公里问题。而客户端的AI能力也在不断提升,最终将解决个人AI的数据隐私和个性化问题。可见,AI非常适合云边端三级架构,按照用户场景进行针对性部署。英特尔为云边端都提供了强大的AI解决方案。
    的头像 发表于 10-12 10:26 ?843次阅读

    四大核心展区,英特尔在工博会展现AI与制造深度融合

    2024年9月25日,上海—— ?在第24届中国国际工业博览会(CIIF)上,英特尔携手多家生态合作伙伴亮相展会,通过精心布局的 “机器视觉”、“负载整合”、“工业控制”、及“工业AI与大模型”四大
    的头像 发表于 09-27 09:30 ?473次阅读
    <b class='flag-5'>四大</b>核心展区,<b class='flag-5'>英特尔</b>在工博会展现AI与制造深度融合

    开箱即用,AISBench测试展示英特尔至强处理器的卓越推理性能

    近期,第五代英特尔?至强?可扩展处理器通过了中国电子技术标准化研究院组织的人工智能服务器系统性能测试(AISBench)。英特尔成为首批通过AISBench大语言模型(LLM)推理性能测试的企业
    的头像 发表于 09-06 15:33 ?946次阅读
    开箱即用,AISBench测试展示<b class='flag-5'>英特尔</b>至强处理器的卓越<b class='flag-5'>推理</b>性能