0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

百度自研AI芯片昆仑解读 与国产处理器飞腾良好适配

工程师邓生 ? 来源:雷锋网 ? 作者:包永刚 ? 2020-04-03 08:56 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

4月2日下午,百度智能芯片总经理欧阳剑在一场公开课中首次对昆仑芯片进行了详细分享,并公开了昆仑K200与英特尔T4 GPU的多项对比数据,其中最有优势的一项数据是Gemm-Int8 的Benchmark是T4性能的3倍。欧阳剑还通过视频展示了昆仑芯片的杀手锏,与国产处理器飞腾的良好适配。

2018年的百度AI开发者大会上,百度创始人、董事长兼CEO李彦宏宣布推出自研AI芯片昆仑。百度研发AI芯片的积累得益于其用FPGA做AI加速的积累,也得益于其在软件定义加速器和XPU架构的多年积累。

百度最早在2010年开始用FPGA做AI架构的研发,2011年开展小规模部署上线,2017年部署超过了10000片FPGA,2018年发布自主研发AI芯片,2019年下半年流片成功,2020年开始量产。

昆仑芯片的定位是通用AI芯片,目标是提供高性能、低成本、高灵活性的AI芯片。欧阳剑在分享中说:“相比GPU,昆仑芯片的通用性和可编程性都做的不错,并且我们还在努力把编程性做的更好。”

昆仑发布之后,其相关消息陆续公布。架构方面,昆仑有2个计算单元,512GB/S的内存带宽,16MB SRAM/unit。欧阳剑介绍,16MB的SRAM对AI推理很有帮助,XPU架构上的XPU-SDNN是为Tensor等而设计,XPU-Cluster则能够满足通用处理的需求。

昆仑第一代芯片并没有采用NVLink,而是通过PCIE 4.0接口进行互联。在三星14nm的制造工艺和2.5D封装的支持下,昆仑芯片峰值性能可以达到260TOPS,功耗为150W。

在灵活性和易用性方面,昆仑面向开发者提供类似英伟达CUDA的软件栈,可以通过C/C++语言进行编程,降低开发者的开发难度。

目前,基于第一代昆仑芯片,百度推出了两款AI加速卡,K100和K200,前者算力和功耗都是后者的两倍。

在今天的分享中,欧阳剑给出了一系列K200对比英伟达T4的数据,其中在Gemm-Int8数据类型,4K X 4K的矩阵下,昆仑K200的Benchmark分出超过2000,是英伟达T4的3倍多。

在语音常用的Bert/Ernie测试模型下,昆仑也有明显性能优势。

在线上性能数据的表现上,昆仑的表现相比英伟达T4更加稳定,且延迟也有优势。

在图像分割YOLOV3算法中,昆仑虽然有优势,但优势已经不那么明显。不过欧阳剑表示百度仍然在通过持续的优化提高昆仑的性能。

他同时表示,昆仑已经在百度内部规模应用。至于对外提供AI算力,去年12月13日百度通过定向邀请的方式通过百度云提供昆仑的算力。在与欧阳剑的直播互动中,雷锋网(公众号:雷锋网)了解到通过百度云提供昆仑AI算力目前仍然是定向邀请的方式,且主要是私有部署的方式。百度会通过定向邀请的客户的反馈消息,再通过百度云大规模向外提供昆仑的算力,但他没有给出具体的时间线。

除了通过百度云提供昆仑的算力,欧阳剑也展示了昆仑加速卡在工业智能设备中的应用。欧阳剑演示的是用CPU和昆仑加速卡去进行产品缺陷检测,昆仑可以大幅提升速度,但并没有给出具体的对比数据。

另外一个展示则是昆仑的杀手锏,那就是和国产处理器平台飞腾的适配。在2019飞腾生态伙伴大会上,欧阳剑就透露昆仑AI芯片正在适配国产飞腾服务器,做性能调优工作。在今天的线上分享中,欧阳剑展示了采用昆仑加速卡带来的图像分割速度的显著加速。

飞腾CPU处理器采用的是Armv8指令级,主要用在数据中心云计算中心,作为国产芯的代表,昆仑选择与飞腾进行很好地适配显然是看中了国产自研芯片的大市场。

通过飞腾CPU+昆仑AI加速器的方式,双方可以更好的实现国产芯片在服务器市场的国产化,也可以视为昆仑AI芯片和加速卡未来增长的一个重要动力和杀手锏。

责任编辑:wv

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 处理器
    +关注

    关注

    68

    文章

    19961

    浏览量

    237581
  • 百度
    +关注

    关注

    9

    文章

    2342

    浏览量

    92605
  • AI芯片
    +关注

    关注

    17

    文章

    1994

    浏览量

    36062
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    百度地图重磅发布地图AI开放平台

    近日,在WGDC25全球时空智能大会上,百度地图重磅发布地图AI开放平台。百度地图深耕20年的数据能力、引擎能力与AI技术全面开放,向开发者深度开放四大核心能力和五大场景解决方案。
    的头像 发表于 05-26 11:26 ?736次阅读

    百度发布文心4.5 Turbo、X1 Turbo和多款AI应用

    近日,Create2025百度AI开发者大会在武汉举办。百度创始人李彦宏发布了文心大模型4.5 Turbo及深度思考模型X1 Turbo两大模型,以及多款AI应用。王海峰现场详细
    的头像 发表于 04-30 10:16 ?667次阅读

    百度AI领域的最新进展

    近日,我们在武汉举办了Create2025百度AI开发者大会,与全球各地的5000多名开发者,分享了百度AI领域的新进展。
    的头像 发表于 04-30 10:14 ?753次阅读

    百度AI荣获2025爱迪生奖金奖和银奖

    刚刚,百度AI在「2025爱迪生奖」中获得一金一银两项大奖。
    的头像 发表于 04-08 15:43 ?571次阅读

    ?强劲“中国芯”飞腾FT-2000+处理器 国产麒麟系统下的自主可控新选择

    近年来,随着信息技术的飞速发展,信息安全问题日益凸显,实现核心技术的自主可控成为国家战略。在此背景下,国产飞腾FT-2000+处理器、集特GME-2002主板与麒麟操作系统的组合,为构建
    的头像 发表于 02-18 16:00 ?2513次阅读
    ?强劲“中国芯”<b class='flag-5'>飞腾</b>FT-2000+<b class='flag-5'>处理器</b>  <b class='flag-5'>国产</b>麒麟系统下的自主可控新选择

    百度智能云发布昆仑芯三代万卡集群及DeepSeek-R1/V3上线

    01百度智能云点亮昆仑芯三代万卡集群 近日,百度智能云成功点亮昆仑芯三代万卡集群,这也是国内首个正式点亮的
    的头像 发表于 02-11 10:58 ?754次阅读

    百度成功点亮国内首个昆仑芯三代万卡集群

    近日,百度智能云宣布了一项重大技术突破:成功点亮了国内首个昆仑芯三代万卡集群。这一里程碑式的成就标志着百度
    的头像 发表于 02-06 17:52 ?1147次阅读

    百度智能云点亮昆仑芯三代万卡集群

    的人工智能算力需求。 昆仑芯三代作为百度AI芯片,其性能卓越,能够满足复杂的人工智能任务需
    的头像 发表于 02-05 14:58 ?763次阅读

    百度文库AI功能用户量飙升,“自由画布”公测启动

    近日,在备受瞩目的百度AI DAY活动上,百度副总裁、文库事业部及网盘事业部负责人王颖带来了令人振奋的消息。她透露,百度文库的AI功能月度活
    的头像 发表于 01-23 10:36 ?617次阅读

    百度文库AI功能MAU突破9000万

    百度文库AI功能MAU突破9000万,AI DAU年同比增长230%。
    的头像 发表于 01-22 10:28 ?803次阅读

    百度文库AI用户量飙升,付费用户突破4000万

    百度文库在AI领域的强大吸引力和市场地位。 文库进行重构以来,百度不断推陈出新,为用户带来了智能PPT、智能文档、研究报告、AI全网搜、
    的头像 发表于 01-07 10:31 ?769次阅读

    百度世界2024公开课完美结束

    近日,以“应用来了"为主题的百度世界2024在上海召开。当天下午,百度世界33节线下AI公开课在上海世博中心开讲,33位来百度内部的高阶技
    的头像 发表于 11-22 09:54 ?651次阅读

    百度将发布AI智能眼镜

    近日,有知情人士透露,百度旗下的人工智能品牌小计划在即将举行的百度世界大会上推出一款全新的AI智能眼镜。这款眼镜将内置先进的人工智能助手,并配备摄像头,为用户提供前所未有的智能体验。
    的头像 发表于 11-11 14:50 ?999次阅读

    百度AI计算平台4.0震撼发布

    在2024年百度云智大会的璀璨舞台上,百度智能云重磅推出了AI异构计算平台的全新力作——4.0版本。此次升级,标志着百度
    的头像 发表于 09-26 14:46 ?962次阅读

    国产DSP,指令集内核C2000,F28335、F280049、F28377

    国产DSP,指令集内核架构,工具链,完美替代TI的 C2000系列产品,F280049、F28335、F28377 性能、主频、外设
    发表于 09-26 13:56