0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

飞桨与昆仑芯携手建设AI产业生态

昆仑芯科技 ? 来源:昆仑芯科技 ? 作者:昆仑芯科技 ? 2022-10-25 10:42 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

10月,来自飞桨与昆仑芯科技的两位专家带来了一场精彩的线上直播,从落地应用案例角度对昆仑芯与飞桨III级适配进行深度解读。

本篇以下内容整理于昆仑芯×飞桨系列直播第一期——昆仑芯科技研发总监罗航飞桨高级产品经理王凯题为“昆仑芯×飞桨:实践探索与落地应用”直播分享。

本次分享分为四个方面:

1.AI芯片为什么会成为产业发展的必然趋势?

2.AI芯片实现产业化,面临哪三个门槛?

3.飞桨与昆仑芯携手建设AI产业生态的进展。

4.昆仑芯和飞桨在实践探索和行业落地应用的案例。

01

AI芯片是产业发展的必然趋势

整个计算产业的周期可以粗略划分为四个阶段:

1

互联网上古时期。它是一个定制化的UNIX操作系统,主要群体是科学家,它的互联网形态,是一个很小规模的局域网形态。

2

PC互联网。这个时候才真正进入了普罗大众,我们才能感受到计算产业的魅力。它和上古形态有很大区别,它形成了一个x86 Windows强生态组合,有很多应用百花齐放。

3

移动互联网时代。这个产业形态的组织形式是基于4G5G的移动互联网,相比上一个阶段,它的网络规模和通讯速度有一个质的飞跃,并且产业形态有一个很重要的变化,可以看到这张图中间出了一条线,这条线代表分化。它分化成了左边移动端的架构和右边中心端或叫云端的架构。为什么会有这样的分化?因为在移动互联网时代,原先x86和Windows的组合无法满足移动端低功耗的场景,所以分化催生出了ARMAndroidIOS的生态,形成了移动端和云端并存的形态。

4

AI时代。可以看到它的分化更复杂了。为什么会出现这样的分化?因为AI的蓬勃发展,导致数据量爆炸以及计算需求的爆发式增长,传统CPU通用计算提供的算力,已经远远不能满足AI时代的计算需求,所以催生出了多种计算架构,不同的计算架构处理各自擅长的数据需求,AI芯片应运而生。CPU、x86等多种计算架构的有机整合就叫异构计算。未来很有可能还会沿着这种分化趋势继续演变。

从这里可以看到,计算产业体系结构的演化很像生物的演化,都是从简单到复杂,比如生物演化是从单细胞到分化出各种器官,从而组成复杂精密的人体。我们借用“十九大”对社会主要矛盾的表述:人民群众对计算的需求,与计算系统的算力发展不平衡之间的矛盾,驱动着整个产业的迭代和发展。

每一次的迭代、分化,都会涌现出巨大的产业机会。

这张图表达的是一个客观事实:AI模型的规模呈指数型爆发式增长。模型在某种意义上等同于数据,模型越来越大代表数据量越来越大。模型简单来讲就是经验,相对于人是经验,相对于机器就是模型。图中有前段时间非常火的GPT3,这个模型的参数量达到了1750亿个,后来Google又发布了一个1.6万亿的超大模型。国内有很多机构也推出了大模型,比如百度的文心大模型,以及智源研究院的悟道大模型等。

大模型是正在发生的事实,也是一个很大的趋势。模型越来越大,对AI芯片及其算力的需求也来越大。上面这张图也从侧面佐证了计算产业等发展和分化的趋势。这也是AI芯片开始逐步产业化的特征所在。

02

AI芯片产业要跨过三道窄门

● 首先是量产。芯片研发和流片的先期投入成本非常大,通过量产可以极大的摊薄先期投入的成本。而且这也是实现盈利的唯一途径。同时,量产的规模也是衡量芯片成熟度很重要的指标之一。

●其次是软件生态。其实这是整个行业正在面临的问题。如果我们只有芯片而没有软件生态提供给用户,客户就不太好把芯片用起来,也就无法完成价值的传递。为了让客户更好地把芯片用起来,我们需要构建一个合理、完整的软件生态。国际上的友商构建了一个非常强大的软件生态,通过这个软件生态,很多开发者和厂商能够很好地用起来,这个软件平台也构筑了很强大的壁垒。本质上,软件生态是芯片强大的护城河。作为国内的产业玩家来说,软件生态的构建也是非常重要的。

●最后是产品化。有了芯片、硬件和软件生态还远远不够。如果做不到产品化,边际成本无法降下来。为了达到产品化的目的,我们有必要提升产品力,努力降低边际成本,这是芯片商业模式的一个关键因素。成熟的产品有量产的规模,用强大的生态构建产品化,做成商业闭环,才能形成商业飞轮,实现盈利。

可以看到,AI软件生态可以抽象地划分为三大类:

1. 视觉类,所谓的CV类、计算机视觉类。它主要处理的任务有图像分类、目标检测、图像分割、图像生成等视觉类算法

2. 语音处理类,比如语音识别、语音合成、特征提取和朗读等。

3. 自然语言处理类,即NLP。比如文本分类、阅读理解、机器翻译和机器问答等。

以上三类场景,PaddlePaddle都有相应的很完善的模型库。计算机视觉类的叫PaddleCV,语音类的叫PaddleSpeech,自然语言处理类叫PaddleNLP。这三个模型库很好用,如果感兴趣,可以在PaddlePaddle的官网下载体验。[1]

接下来有请飞桨高级产品经理王凯为大家介绍飞桨在AI生态中的发展。

03

飞桨与昆仑芯携手建设AI产业生态

我是飞桨高级产品经理王凯,很高兴为大家分享飞桨与昆仑芯在AI产业生态上的建设成果。

昆仑芯与飞桨的合作由来已久。虽然图中显示2018年我们才开始合作,但实际早在飞桨成立之初,当时昆仑芯还在protoype阶段,双方的技术团队就已经有非常深入的合作交流。

随着双方产品的不断成长,我们的技术合作成果不断在百度厂内、厂外的业务上线落地。其中包括了20年7月我们在厂内业务的小流量上线;21年1月,我们共同实现了实时在线推理服务超大规模部署。

而就在上个月,飞桨与昆仑芯完成了III级适配认证,这是飞桨今年发出的第一个III级适配认证证书,也是飞桨硬件生态建设的一个里程碑。飞桨一直致力于与硬件伙伴共建软件生态,我们希望通过联合研发、资源共享、联合授权和培训赋能等各种手段,为硬件合作伙伴的AI软件生态贡献力量。所以今天在我们完成III级适配认证的基础上,我们跟昆仑芯联合举办系列直播课,向我们广大的开发者介绍我们的合作成果,我们也希望能够帮助更多AI产业的伙伴进行产业落地。

下面我将时间交还给罗航,邀请他继续给大家介绍我们的实践探索和应用案例。

04

昆仑芯和飞桨

在实践探索和行业落地应用的案例

可能大家听过这种说法:深度学习框架是AI时代的操作系统。为什么?图中这个比较抽象的技术栈,从底层往上看,最下层是AI芯片的硬件支撑,芯片之上支撑着深度学习框架,框架之上又支撑了各种各样的应用和业务。

从关系来看,可以一一对照到CPU和操作系统,以及操作系统中的应用。比如操作系统也是对下接入不同的硬件,对上支撑不同的应用。深度学习框架是一样的,对下结合各种各样的AI芯片、异构的算力芯片,对上支撑了各种各样的算法应用。

可以说,深度学习框架和AI芯片,又是AI时代召唤出来的很重要的两个组件。所以,我们说深度学习框架是AI时代的操作系统,以及AI芯片是AI时代的核心算力支撑。

上图是细化版的技术栈图示,展示了飞桨PaddlePaddle和昆仑芯共同打造的技术生态,是一个很丰富的、全栈的技术生态。

简单来看,从底层硬件层,包括服务器芯片和操作系统,一直到上层应用层,这是一个全栈打透的技术生态。包括底层的服务器、中间的算子库以及深度学习框架。深度学习框架之上提供了很多算法,在算法的加持下,我们可以做很多的应用落地。

我们有一个很完整的全栈生态,飞桨一体机,其实就是全栈技术生态的物理标品,或者说是框架、芯片、算法和应用的一个集大成者。飞桨一体机集成了昆仑芯R200、版本较高的PaddlePaddle深度学习框架,并提供了单机两卡、四卡、八卡三款选择。

框架之上集成了飞桨BML企业版。BML是机器学习平台,客户可以从训练到推理全链路使用。开发平台之上,内置了至少100多个行业的模型应用,足以让客户拿到飞桨一体机之后实现开箱即用。

举个OCR场景的例子。基于飞桨一体机的集群,可以实现一些通用OCR场景。OCR的使用场景非常广泛,比如金融行业卡证票OCR模型套件识别的效果就非常好。

在飞桨一体机之上,可以搭载OCR服务引擎,引擎内包含了资源调度、虚拟化等集群纳管的能力。以及内置很多OCR场景的细分模型,包括文字识别、卡证识别、票据识别、表格识别等。此外,还集成了Paddle Serving的服务化框架,对上提供服务化接口

这样的模型可以很方便地供客户PaaS去调用。因为很多买飞桨一体机,或OCR引擎服务的客户,有自己的PaaS。PaaS一般都需要一个服务化引擎,调用起来比较方便,而且耦合性也比较低。所以通过这种设计,可以实现对业务层足够的透明,PaaS平台以及其上的应用层移植到飞桨和昆仑芯的技术栈是非常容易的。

同理,基于飞桨一体机,我们可以做OCR的场景,也可以在上面换一些引擎。比如换成CV的引擎、NLP的引擎,也可以做一些其他的引擎。通过打造这样一个飞桨一体机,可以很方便的去做各种场景,为各种各样的行业客户提供服务。

大规模训练是很多客户非常关心的一个场景功能,特别是多机多卡的大规模训练。其实,飞桨PaddlePaddle和昆仑芯在大规模训练场景中,做了非常多的技术点创新和优化。

上图中可以看到,最底层是昆仑芯和CPU共同接入了飞桨平台,也就是一个异构平台接入。在飞桨内部分了几个模块,其中重点在于昆仑芯XPU架构。每一个昆仑芯XPU架构上,都有一个训练逻辑实体。多个训练逻辑实体通过CCIX或PCIE RDMA进行数据同步。通过数据同步,飞桨平台做了非常多的优化。

在这个同步的机制上,昆仑芯提供了XCCL高性能通信库,以保证多卡之间、多机之间通信的性能。

同时这里还实现了参数分级存储的创新。最底下SSD,可以通俗理解为硬盘,MEM可以理解为内存,片上HBM,通俗来讲,可以认为是昆仑芯上的显存。

这三级存储,分别存了不同类型的数据。比如说在训练的时候,在硬盘上存的是全量的参数数据。一些热点参数可以加载到内存中,提高访存效率。还有一些在片上直接运行的数据,就会加载到HBM,即昆仑芯的显存里,提高昆仑芯上的访存效率。通过参数分级的存储来管理,极大提升了整体架构的训练、访存的效率。

对于有大规模训练场景的客户,由于飞桨提供了大规模训练的DEMO,客户无需详细了解技术细节,直接下载即可方便地找到并运用应用型的代码。

举一个工业质检的落地案例。这是一个流水线的示意图,产品经过流水线时,我们要去检测产品是不是合格、有没有缺陷。以往都是人工用肉眼去检测,拿起一个产品检查至少需要好几秒钟,特别费眼。

昆仑芯提供的方案是通过相机和光源阵列,从各个角度拍摄产品,得到图像之后,通过AI做图像处理和识别判断产品上有无缺陷,如果有缺陷就丢弃。该方案是全自动化的,无需人工干预,可以在一秒之内完成,极大提高了工业质检的效率。

这是上述场景的细化架构图。左边两个灰色框,可以认为是客户的机器,右边是昆仑芯和飞桨提供的机器模块。这种设计的耦合度非常低。客户已有的东西,包括软件、运动模组以及控制模组等,均无需改变。客户在应用软件中,只需改变AI相关的引擎的调用。昆仑芯在这里提供的缺陷识别引擎基于PaddleDetection套件,由昆仑芯R200算力卡提供算力支撑。

对客户暴露的是一个通过Paddle Serving封装出来的服务化接口,与前文提到的OCR类似,都是提供服务化接口,可以很方便地调用,且耦合度非常低,对客户的代码也没有太多侵入。

基于推理引擎,客户可以把已训练好的模型通过推理引擎推起来,直接上产线。如果发现模型在产线上效果不好,需要调优、调精度,我们提供了由昆仑芯R200提供算力支撑的企业级BML训练平台,该平台上有一套数据标注的平台,产线工人可以很方便地使用这套工具,在生产线现场做图片标注。通过BML上一些简单的操作,可以基于现场的图片做重训,得到新的模型去做测试,测试后可以自动发布到产线上。

这一套平台是直接用在产线侧的,把模型的重训、测试以及发布,全流程打通,可以方便地在产线直接做高频的模型迭代,适应各个产线不同的产品以及有新产品上线之后可以快速训出适合的模型快速应用起来。

上述工业质检案例用的是CV算法,接下来的案例则用的是NLP算法,它应用在检务行业。

一般来说,检务处理的文档信息非常多,这就需要把文档信息进行规整和知识提取,进而做结构化的知识存储,并且要能够方便检务人员进行检索,从而提高办案人员处理文档的效率。

上图展示了昆仑芯提供的方案的组件构成。最下层是AI智能开发的管理平台,也就是由昆仑芯提供算力支撑的一个算力集群。在这个算力集群上不仅仅有硬件,还有一些内置的软件,比如BML,也就是机器学习平台,还内置了很多模型算法库,同时它也是PaddlePaddle针对深度学习框架所支撑的一个平台。

在这样一个AI智能开发管理平台之上,就可以做检务业务的应用。昆仑芯提供了文档管理平台和PaddleOCR套件做文字识别。很多检务文章是扫描件图片,图片中包含的文字信息,以往都是用肉眼去解读,费时费力。通过PaddleOCR可以把扫描件文字、表格等信息识别出来并结构化存储。

我们还提供了TextMind产品。它可以再加工已经结构化存储的文档,也就是去理解文章中的知识和语义。检务的很多案件文档,其中有很多重要的实体、关系、属性,比如金额的大小、案件的分类,这种知识都会提取出来。当把实体、关系、属性等各种知识提取出来后,就可以构建一个知识图谱,我们也给客户提供了知识图谱。

各种图谱建立起来后,可以方便用户在图谱中进行检索,所以我们同时也提供了一个企业级的检索服务。它可以通过客户检索的意图,做意图分析,了解到客户更想搜索出来的是什么,最终排序出一个客户想要的结果。

通过这一整套自动化的服务,极大提升了检务的信息化水平和文档处理效率。由于文档非常多,我们最后构建的是一个亿级规模的关系数据库。

同时,客户还可以基于这套平台定制自己的模型。昆仑芯提供了BML开发平台,如果我们内置的很多模型(包括OCR或者KG等),对于某些文档识别、处理的效果不好,或者文档比较敏感、不方便给出,客户也可以通过BML把模型重训出来,得到匹配这些文档特征的、效果更好的模型,顺利地自动化部署在生产线上。

这样来看,整个系统就是一个活的系统,可以进行不断迭代。

可能有人会问,这个方案检务能用,法务能不能用?政务能不能用?其实,所有需要处理文档、提取文档知识、分析文档、构建知识图谱、检索以及构建一整套知识体系的场景,均可以用这套方案去实现。所以这是一个可复制性很高的方案。

审核编辑:彭静
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 软件
    +关注

    关注

    69

    文章

    5183

    浏览量

    89664
  • AI
    AI
    +关注

    关注

    88

    文章

    35916

    浏览量

    283143
  • 飞桨
    +关注

    关注

    0

    文章

    35

    浏览量

    2521
  • 昆仑芯科技
    +关注

    关注

    0

    文章

    33

    浏览量

    869

原文标题:分享|昆仑芯×飞桨:实践探索与落地应用

文章出处:【微信号:昆仑芯科技,微信公众号:昆仑芯科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    中软国际AI产业生态论坛深圳站圆满结束

    以“云智能行业赋能,全场景AI正当时”为主题的中软国际AI产业生态论坛圆满结束。深圳论坛作为重要环节,汇聚了众多客户、合作伙伴及行业专家,共议AI
    的头像 发表于 07-25 14:19 ?459次阅读

    紫光同加入中国联通AI+5G+eSIM产业合作行动计划

    2025 MWC上海期间,中国联通携手50余家产业链头部企业,正式发起“AI+5G+eSIM产业合作行动”。此次行动汇聚运营商、芯片商、卡商、系统商等行业关键力量,旨在打造开放共赢的
    的头像 发表于 06-25 16:42 ?637次阅读

    昆仑超节点产品推出,大模型训推任务性能跨越式提升

    AI开发者大会上,昆仑作为底层算力核心被高频提及,三万卡集群点亮振奋人心,昆仑超节点也在大会上正式发布。 ? ? 自ChatGPT问世,
    的头像 发表于 04-25 19:29 ?1342次阅读

    燧原科技正式纳入例行版本发布体系

    燧原科技与经过长时间的适配合作和持续集成(CI)建设,对合?的每?行代码都在燧原硬件上进?了验证。如今,燧原正式纳入
    的头像 发表于 04-11 11:31 ?578次阅读
    燧原科技正式纳入<b class='flag-5'>飞</b><b class='flag-5'>桨</b>例行版本发布体系

    百度框架3.0正式版发布

    大模型训练成本高?推理效率低?硬件适配难? 4月1日,百度发布 框架3.0正式版 !五大特性专为大模型设计。 作为大模型时代的Infra“基础设施”,深度学习框架的重要性愈发凸显,大模型训练
    的头像 发表于 04-02 19:03 ?829次阅读
    百度<b class='flag-5'>飞</b><b class='flag-5'>桨</b>框架3.0正式版发布

    昆仑科技亮相2025中关村论坛

    此前,3月27日至31日,2025中关村论坛在京举办,昆仑科技与中国移动首次公开展示联合产业合作伙伴共同开发的64卡超节点智算服务器。该服务器依托昆仑
    的头像 发表于 04-02 11:22 ?821次阅读

    沐曦曦云C500通用计算GPU与百度完成Ⅱ级兼容性测试

    近日,沐曦曦云C500通用计算GPU与百度已完成Ⅱ级兼容性测试。测试结果显示,双方兼容性表现良好,整体运行稳定。这是沐曦加入“硬件生态
    的头像 发表于 03-31 14:22 ?1028次阅读

    昆仑服务器中标招商银行AI芯片资源项目

    近日,昆仑服务器中标招商银行AI芯片资源项目。基于该项目,昆仑P800将围绕多个核心业务场景,全面支持招商银行落地大模型应用。
    的头像 发表于 03-28 14:47 ?1253次阅读

    首发 | 昆仑 | 国产AI卡Deepseek训练推理全版本适配、性能卓越,一键部署等您来(附文档下载方式)

    全球增速最快的AI应用。凭借卓越的性能和广泛的应用场景,这匹大模型黑马已然成为行业标杆,为千行百业提供了AI解决方案新选择。 蛇年开工当天,昆仑新一代产品P800万卡集群点亮的消息引
    发表于 02-06 15:28 ?996次阅读
    首发 | <b class='flag-5'>昆仑</b><b class='flag-5'>芯</b> | 国产<b class='flag-5'>AI</b>卡Deepseek训练推理全版本适配、性能卓越,一键部署等您来(附文档下载方式)

    昆仑率先完成Deepseek训练推理全版本适配

    本文是昆仑适配DeepSeek系列推文第一篇,将于近期分别推出在昆仑P800上进行DeepSeek-V3/R1推理、训练的深度文章,干货满满、持续关注!
    的头像 发表于 02-06 15:13 ?1644次阅读
    <b class='flag-5'>昆仑</b><b class='flag-5'>芯</b>率先完成Deepseek训练推理全版本适配

    昆仑科技一行到访京能集团

    近日,昆仑CEO欧阳剑、副总裁孙孝思一行到访京能集团,与京能集团党委书记、董事长郭明星,副总经理陈国高、张凤阳会面并开展座谈。围绕推动科技创新、发展新质生产力等领域的业务合作,昆仑
    的头像 发表于 01-14 10:50 ?1466次阅读

    凌智电子荣获“百度AI技术生态伙伴”认证

    2024年10月,百度(厦门)人工智能产业赋能中心(以下简称“百度厦门中心”)建成并试运营。该中心位于厦门软件园一期,由厦门市思明区
    的头像 发表于 01-04 14:10 ?672次阅读
    凌智电子荣获“百度<b class='flag-5'>AI</b>技术<b class='flag-5'>生态</b>伙伴”认证

    英特尔与火山引擎携手升级AI时代企业IT管理体验

    AI 技术的推动下,企业 IT 管理正经历一场革命。日前,火山引擎连新品发布会成功举办。英特尔受邀参与此次活动,并在会上展示了新一代英特尔凌动 x7000 系列处理器等产品,与火山引擎
    的头像 发表于 11-14 17:17 ?1021次阅读

    在Ubuntu 24.04 LTS上安装PaddleX

    了众多开箱即用的预训练模型,可以实现模型从训练到推理的全流程开发,支持国内外多款主流硬件,助力AI 开发者进行产业实践。 ? 本文将介绍在Ubuntu 24.04.1LTS上从零开始安装
    的头像 发表于 11-11 17:45 ?993次阅读
    在Ubuntu 24.04 LTS上安装<b class='flag-5'>飞</b><b class='flag-5'>桨</b>PaddleX

    凌智电子加入技术伙伴计划,携手PaddleX为视觉模组产品赋能添“智”

    PaddleX,配合星河社区AlStudio,全面探索AI在边缘端的应用场景。双方将进一步加速AI技术在边缘设备中的落地,满足行业对高效、智能化解决方案的需求,
    的头像 发表于 11-01 08:07 ?759次阅读
    凌智电子加入<b class='flag-5'>飞</b><b class='flag-5'>桨</b>技术伙伴计划,<b class='flag-5'>携手</b>PaddleX为视觉模组产品赋能添“智”