0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

昆仑芯科技资深架构师侯珏:昆仑芯×飞桨——AI产业实践与“芯”生态

昆仑芯科技 ? 来源:昆仑芯科技 ? 2023-03-10 16:21 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近日,“算网筑基、开源启智、AI赋能”第四届OpenI/O启智开发者大会于深圳成功举行。大会围绕中国算力网资源基座、开源社区服务支撑环境、国家级开放创新应用平台三大部分,探讨如何高效建设适合我国的人工智能开源生态体系。

会上,百度飞桨联合大会,围绕“引领前沿技术,推动产业升级”的主题,举办“深度学习与大模型产业应用专场”论坛

作为飞桨的生态合作伙伴,昆仑芯科技受邀参与该论坛并进行主题演讲,与多位人工智能技术专家和资深工程师,从算法、硬件及大模型等不同视角进行深入探讨,介绍各领域深度学习及大模型在产业应用的最新进展与技术突破。

b7c0a5ec-bc30-11ed-bfe3-dac502259ad0.jpg

昆仑芯科技资深架构师 侯珏

本篇以下内容整理于昆仑芯科技资深架构师侯珏题为《昆仑芯×飞桨——AI产业实践与“芯”生态》演讲实录。

大家好,我是来自昆仑芯科技的侯珏。很高兴有这个机会跟大家交流和分享。我分享的题目是《昆仑芯×飞桨——AI产业实践与“芯”生态》。本次主题演讲分为四个方面:

1. 关于昆仑芯科技

2. 昆仑芯x飞桨生态

3. 大模型:训练和推理

4. AI产业实践

01

关于昆仑芯科技

昆仑芯科技前身是百度智能芯片及架构部,2011年开始研发基于FPGA的加速器,截止2017年,FPGA系列的加速器部署数量超过12000片。2018年,我们正式启动了昆仑芯AI芯片产品的研发,发布第一代产品,2020年成功进行了大规模部署。紧接着,第二代系列产品于2021年8月成功量产,到了2022年,昆仑芯二代产品就开始启动互联网及相关行业的交付,不断有项目在落地中。

从我们十几年来的AI芯片及其相关行业的经验来看,AI芯片产业化要重点解决三个问题。我们内部一致认为,可以把三个问题称为三道窄门:一定要过的门,而且门还挺窄。

首先芯片要量产,量产是前提。只有把芯片做到量产、规模化,才能平摊前期流片、研发、设计等一系列成本。并且,一个芯片是不是能够成功量产,也是衡量芯片本身是否成熟的一个标志。

其次,有配套的软件生态。这个软件生态指的是芯片自己的软件以及周边的一些软件。显而易见,如果我们只做了一个芯片给客户,客户不知道如何使用芯片,或者说不知道芯片能够给其业务带来怎样的帮助,在市场上就没有什么竞争力。所以,我们在做软件生态时,除了做昆仑芯自己的一套软件栈,包括编译器、SDK、算子库、模型库等,还为开发者社区以及一定量的用户构建了整个的软件生态。

最后,做产品化。虽然我们说一定要成就客户,要完成具体的项目来实现我们的业务落地,但实际上更重要的是投入长期努力,把一款芯片做好,把一组芯片做好,长期地做出产品来,才能够保证我们的商业模式是可持续发展的状态。

b824be6a-bc30-11ed-bfe3-dac502259ad0.jpg

然后介绍一下昆仑芯科技的产品。首先向大家展示的是昆仑芯二代产品系列中的R200加速卡,是一个全高全长双槽位的卡,可以进行INT8、INT16、FP16、FP32多种精度的计算。算力、内存、访存带宽等细节可参见上图表格。R200可以搭配昆仑芯软件栈,也可以搭配飞桨上层的软件栈。例如,昆仑芯可支持飞桨的深度学习框架,同时支持飞桨框架的各种相关周边套件,进行推理、训练。

b83a154e-bc30-11ed-bfe3-dac502259ad0.jpg

大家会想,只有一张卡也许干不了什么事。因此,针对多卡并行计算的需求,我们又做了一个加速器组。大家可以买一些R200加速卡自己拼,但应该没有我们拼的好,因为我们在做加速器组时,专门做了卡片间的互联,可达200GB/s。当然,8张卡在一起,算力和显存也达到了原来的8倍。单机多卡的形式基本上可以满足最常见的单机的推理或者并行训练的需求。

b84f86ea-bc30-11ed-bfe3-dac502259ad0.jpg

有的朋友可能仍觉得不方便,为此,我们联合飞桨以及百度的全功能AI开发平台BML,做了一个开箱即用的昆仑芯软硬集成一体机。图上是一个2U的服务器,里面有面板、CPU、内存、开发平台等所有东西。此外,还集成了飞桨的稳定发布版本,以及内置了100多个各行各业的模型,真正做到了开箱即用。也就是说,从我们这买了一台2U或4U的服务器,只需要插个电线和网线,就可以用了。

02

昆仑芯×飞桨生态

b861e11e-bc30-11ed-bfe3-dac502259ad0.jpg

首先,我们说深度学习框架是AI时代的操作系统,AI芯片是AI时代的核心算力支撑。框架和芯片的关系大概就如图所示:框架在中间,上面是应用和服务编排,底下是芯片。大家的业务应用都需要通过业务模型和服务编排,再跑到框架,框架负责把用户的脚本、组网代码、参数、优化器等拿到。更准确的说,框架把各种神经网络层、优化算法、学习率衰减等数据拿到之后,会把实际的计算过程翻译成各个算子,下发到AI芯片上进行真正的计算,算好了之后再把结果拿回框架里,继续调下一个算子。

b87de512-bc30-11ed-bfe3-dac502259ad0.jpg

我们按照这个逻辑做了昆仑芯和飞桨的适配,原则是你要什么,我就有什么。接下来为大家介绍下重点。

首先从下往上说,最底下是设备管理层。飞桨的框架有一个设备管理模块,对接着我们提供的驱动和运行时模块,也就是昆仑芯的runtime,这样框架就能识别到我们的设备,并且往我们的设备上下发指令,包括申请内存等。

再往上是计算执行层。这一层是以飞桨的算子库为主,飞桨的算子库有大量的算子,其中很多是昆仑芯提供的,也有很多是昆仑芯与飞桨一起提供的。在昆仑芯软件栈中,有XDNN算子库和XTDK编程接口。从飞桨角度看,可以像调用其它异构计算硬件一样,把要执行的操作,通过算子调用的方式下发到设备上,也就是大家所说的:我们要launch一个kennel,然后去拿结果,在host上发起操作,在device上执行,设备内部算好了再返回给框架。有了这两件事,单机单卡所有的事都能搞定。

但大家会发现单机单卡越来越不够用,所以上面还有一个分布式通信层。昆仑芯有集合通信库(Communication library),把它和飞桨的分布式通信(fleet)模块结合起来,就可以做到通信所需要的send、receive、all_reduce等,也就可以实现单机多卡、多机多卡的训练和推理。

b89bcdc0-bc30-11ed-bfe3-dac502259ad0.jpg

从时间轴上来看,我们跟飞桨的合作从2018开始,合作经历了从简单到困难、从推理到训练、从相对单一的场景扩展到了更复杂的场景的不同阶段。我们一共支持了大概300多个算子,还有大规模验证的50多个模型。(没准儿我正在做主题演讲的同时,昆仑芯和飞桨的QA同学又测试通过了模型,这个数儿还得往上加。)对应的流水线和单元测试我们也都有,这是稳定、正式的发布情况。此外,还有200多个小模型跑通了飞桨TIPC认证的全流程。

需要注意的是,并不是只有50多个模型可以跑,而是因为飞桨框架已经有了这个机制,万一遇到了个别很奇怪的算子,没法放在device上算,就可以自动fallback到CPU上,速度也许会慢点,但也能算。并且我们也在不断更新中,将业界最新的论文、百度各种自研的模型加入到我们的支持列表中来。

b8bc807e-bc30-11ed-bfe3-dac502259ad0.jpg

上图列出了一些我们已经适配好的模型,有图像分类、检测、分割、OCR、自然语言处理(NLP)等。其中有一些是飞桨特色的模型,例如PPYOLO、PPOCR等“PP”开头的模型。在飞桨的官方网站上也可以看到,如何使用昆仑芯进行编译、安装,运行飞桨的各种操作,可供大家参考。

03

大模型:训练和推理

b8d775e6-bc30-11ed-bfe3-dac502259ad0.jpg

下一部分是介绍我们在大模型上专门进行的一些工作,包括训练和推理两部分。

训练部分,昆仑芯可全部支持飞桨的四种数据并行方式:数据并行(DP)、分组切分并行(Sharding)、张量模型并行(MP)、流水线并行(PP)。如果大家用飞桨运行这四种并行方式时很顺利,在用昆仑芯计算时应该也不会有什么问题,只需要把大家熟悉的set_device操作,在昆仑芯的设备上执行。原理很简单,所有飞桨需要的操作我们都可以支持,有kennel、通信算子,那么这些支持就都不是难事。

此外,我们也支持飞桨的各种套件,例如PaddleClass、PaddleDetection等。大家在用PaddleClass、PaddleDetection时,把模型配置中的yaml文件中的项目use_xpu=true打开一下即可。

b8efa77e-bc30-11ed-bfe3-dac502259ad0.jpg

推理部分,针对Transformer,我们专门开发了XPU Faster Transformer工具,可以对算子进行fusion,在针对这些Transformer类型的网络结构时进行加速,并且可以节约很多显存。我们在上面进行了很多针对性的性能优化,使它可以在昆仑芯硬件上充分发挥优势。

04

AI产业实践

首先来看一个典型的工业质监场景。一个工业摄像机拍摄一组零件的健康状况,通过机械臂把不合格的产品踢掉。

b9304d10-bc30-11ed-bfe3-dac502259ad0.jpg

这个原理看似是图片上那么简单,但需要做到推理、训练两件事才能实现。例如要有机构硬件、深度学习平台、推理引擎、Serving、模型训练等等,这些事情做完后就可以拿到一个高效率、高速度的工业质检流水线。

b941ef98-bc30-11ed-bfe3-dac502259ad0.jpg

还有一个文档相关的案例。可能有法律界或相关行业的朋友知道“三书一函”。首先需要对文档进行分析、导入,包括文字识别、语义分析、语义理解,做成一个知识图谱并保存,就可以进行完整的检测和语义分析,最后拿到结果排序,实现了业务全流程的数字化,同时支持用户的自定义模型。

b95327cc-bc30-11ed-bfe3-dac502259ad0.jpg

昆仑芯落地案例丰富,前面两个案例是选择的比较通俗易懂的进行讲解。上图是一个全栈的技术生态图景,从底层的芯片、服务器,到中间的昆仑芯SDK,再到飞桨框架,我们就可以帮助大家把业务目标落地。

本次主题分享的题目是“芯”生态,“芯”是“芯片”的“芯”,也是“昆仑芯”的“芯”。我希望昆仑芯和飞桨,以及一系列上层应用,可以在各行各业发挥出力量,从芯片、框架到算法,从软件到硬件,持续做大做强,和各位开发者、客户一起互相促进、互相成就、共同进步。

最后,非常感谢大家的聆听,欢迎大家访问昆仑芯科技的官网。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    88

    文章

    35916

    浏览量

    283110
  • 开发者
    +关注

    关注

    1

    文章

    662

    浏览量

    17702
  • 深度学习
    +关注

    关注

    73

    文章

    5572

    浏览量

    123127
  • 飞桨
    +关注

    关注

    0

    文章

    35

    浏览量

    2521
  • 昆仑芯科技
    +关注

    关注

    0

    文章

    33

    浏览量

    869

原文标题:分享|昆仑芯科技资深架构师侯珏:昆仑芯×飞桨——AI产业实践与“芯”生态

文章出处:【微信号:昆仑芯科技,微信公众号:昆仑芯科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    聚力创 生态共赢 | 海科技BMS产业应用开发者大会圆满召开

    7月17日,以“聚力创生态共赢”为主题的海科技BMS产业应用开发者大会在海科技(股票代码:688595)深圳总部隆重举行。本届大会在去
    的头像 发表于 07-18 10:10 ?494次阅读
    聚力创<b class='flag-5'>芯</b> <b class='flag-5'>生态</b>共赢 | <b class='flag-5'>芯</b>海科技BMS<b class='flag-5'>产业</b>应用开发者大会圆满召开

    昆仑超节点产品推出,大模型训推任务性能跨越式提升

    AI开发者大会上,昆仑作为底层算力核心被高频提及,三万卡集群点亮振奋人心,昆仑超节点也在大会上正式发布。 ? ? 自ChatGPT问世,
    的头像 发表于 04-25 19:29 ?1340次阅读

    中科昊DSP产品及公司信息

    这一开放的指令集架构,中科昊成功研发出多个系列的DSP产品,并构建了一个完善的处理器生态系统。中科昊DSP广泛应用于工业控制、电机驱动、数字电源、光伏、储能、新能源汽车、消费电子以
    发表于 04-07 09:16

    昆仑科技亮相2025中关村论坛

    此前,3月27日至31日,2025中关村论坛在京举办,昆仑科技与中国移动首次公开展示联合产业合作伙伴共同开发的64卡超节点智算服务器。该服务器依托昆仑
    的头像 发表于 04-02 11:22 ?819次阅读

    昆仑服务器中标招商银行AI芯片资源项目

    近日,昆仑服务器中标招商银行AI芯片资源项目。基于该项目,昆仑P800将围绕多个核心业务场景,全面支持招商银行落地大模型应用。
    的头像 发表于 03-28 14:47 ?1253次阅读

    砥砺创新 耀未来——武汉源半导体荣膺21ic电子网2024年度“创新驱动奖”

    殊荣不仅是业界对武汉源半导体技术突破的认可,更是对其坚持自主创新、赋能产业升级的高度肯定。 作为国产半导体领域的生力军,武汉源半导体始终将“创新”视为企业发展的核心驱动力。面对全球半导体
    发表于 03-13 14:21

    百度智能云发布昆仑三代万卡集群及DeepSeek-R1/V3上线

    01百度智能云点亮昆仑三代万卡集群 近日,百度智能云成功点亮昆仑三代万卡集群,这也是国内首个正式点亮的自研万卡集群。百度智能云将进一步点亮3万卡集群。 自研芯片和万卡集群的建成带来
    的头像 发表于 02-11 10:58 ?762次阅读

    百度成功点亮国内首个昆仑三代万卡集群

    近日,百度智能云宣布了一项重大技术突破:成功点亮了国内首个自研的昆仑三代万卡集群。这一里程碑式的成就标志着百度在AI芯片领域取得了显著进展。
    的头像 发表于 02-06 17:52 ?1154次阅读

    首发 | 昆仑 | 国产AI卡Deepseek训练推理全版本适配、性能卓越,一键部署等您来(附文档下载方式)

    全球增速最快的AI应用。凭借卓越的性能和广泛的应用场景,这匹大模型黑马已然成为行业标杆,为千行百业提供了AI解决方案新选择。 蛇年开工当天,昆仑新一代产品P800万卡集群点亮的消息引
    发表于 02-06 15:28 ?996次阅读
    首发 | <b class='flag-5'>昆仑</b><b class='flag-5'>芯</b> | 国产<b class='flag-5'>AI</b>卡Deepseek训练推理全版本适配、性能卓越,一键部署等您来(附文档下载方式)

    昆仑率先完成Deepseek训练推理全版本适配

    本文是昆仑适配DeepSeek系列推文第一篇,将于近期分别推出在昆仑P800上进行DeepSeek-V3/R1推理、训练的深度文章,干货满满、持续关注!
    的头像 发表于 02-06 15:13 ?1637次阅读
    <b class='flag-5'>昆仑</b><b class='flag-5'>芯</b>率先完成Deepseek训练推理全版本适配

    昆仑P800万卡集群成功点亮,将进一步点亮3万卡集群

    ? 近日,百度智能云成功点亮昆仑三代万卡集群,这也是国内首个正式点亮的自研万卡集群。百度智能云将进一步点亮3万卡集群。 国产昆仑万卡集群以及未来三万卡集群的建设,从硬件到软件,技术
    发表于 02-05 17:58 ?563次阅读
    <b class='flag-5'>昆仑</b><b class='flag-5'>芯</b>P800万卡集群成功点亮,将进一步点亮3万卡集群

    百度智能云点亮昆仑三代万卡集群

    的人工智能算力需求。 昆仑三代作为百度自研的AI芯片,其性能卓越,能够满足复杂的人工智能任务需求。此次万卡集群的成功点亮,不仅展示了百度在AI芯片领域的深厚技术积累,也体现了百度在推
    的头像 发表于 02-05 14:58 ?774次阅读

    昆仑科技一行到访京能集团

    近日,昆仑CEO欧阳剑、副总裁孙孝思一行到访京能集团,与京能集团党委书记、董事长郭明星,副总经理陈国高、张凤阳会面并开展座谈。围绕推动科技创新、发展新质生产力等领域的业务合作,昆仑
    的头像 发表于 01-14 10:50 ?1466次阅读

    中移昇获第十九届“中国”优秀“生态”企业奖

    为推动国家集成电路产业高质量发展,11月7日,由中国电子信息产业发展研究院主办的2024中国微电子产业促进大会暨第十九届“中国”优秀产品征集结果发布仪式在横琴粤澳深度合作区隆重举行。
    的头像 发表于 11-12 01:04 ?1025次阅读
    中移<b class='flag-5'>芯</b>昇获第十九届“中国<b class='flag-5'>芯</b>”优秀“<b class='flag-5'>芯</b><b class='flag-5'>生态</b>”企业奖

    微科技荣获ICCE联盟“产业创新实践奖”

    近日,由中国汽车工业协会主办的2024中国汽车软件大会在上海嘉定举行。润微科技荣获智慧车联产业生态联盟(ICCE)“产业创新实践奖”,这标
    的头像 发表于 11-08 18:08 ?884次阅读