0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

昆仑芯重磅打造xHuggingface开源推理套件

昆仑芯科技 ? 来源:昆仑芯科技 ? 2023-07-23 09:42 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

新一轮人工智能热潮下,国内大模型群雄逐鹿,目前已有超过80个大模型公开测试。而相关数据显示,ChatGPT自发布以来,全球访问量环比增幅持续下降,6月首次出现环比下滑9.7%。泡沫退去,如何在大模型时代保持市场竞争力?

针对大模型场景,昆仑芯早已在产品定义上作出布局,相较第一代产品,昆仑芯2代AI芯片可大幅优化算力、互联和高性能,而在研的下一代产品则将提供更佳的性能体验。

在近日落幕的XceedCon2023人工智能芯片生态大会上,昆仑芯大模型端到端解决方案正式发布,该解决方案随即入选2023世界人工智能大会卓越人工智能引领者奖(Super AI Leader,简称SAIL奖)TOP30榜单。

昆仑芯副总裁王勇、昆仑芯互联网行业总经理王志鹏先后在XceedCon2023人工智能芯片生态大会、2023世界人工智能大会对昆仑芯大模型端到端解决方案进行发布与推介。本篇以下内容整理自现场实录。

软硬协同、技术创新

打造高性能产品矩阵

集十余年AI加速领域研发积累,昆仑芯核心团队于2017年在Hot Chips上发布自研、面向通用人工智能计算的芯片核心架构——昆仑芯XPU。目前,已有两代昆仑芯AI芯片基于该架构实现量产和规模部署。

昆仑芯XPU专为密集型计算而设计,相比GPU可提供更多AI加速单元,同时支持C/C++、类CUDA语法编程,兼具高性能和可编程性,适配几乎所有主流AI场景,满足不同行业的大模型训推需求。

大模型的演进必将伴随参数量的增加,更加依赖于分布式训练与推理能力。昆仑芯2代系列产品搭载新一代核心架构XPU-R,性能相较一代提升2-3倍,在分布式场景中优势明显。

01.

大显存

昆仑芯2代产品拥有32GB显存容量,在同价位产品中内存优势突出。

02.

高互联

昆仑芯通过领先技术,可实现单机八卡高速互联,带宽达到200GB/s;支持Direct RDMA,可实现跨机间低延时、高速通讯。

昆仑芯推出针对不同参数级别的大模型产品矩阵,兼具显存和算力成本优势。

昆仑芯AI加速卡R200-8F面向百亿以内参数量级,相比同类型产品性能提升20%;

昆仑芯AI加速器组R480-X8面向百亿至千亿参数量级,性能达到同类型产品的1.3倍以上;

昆仑芯AI加速器组R480-X8集群针对千亿以上参数量级,可实现多机多卡分布式推理。

昆仑芯大模型解决方案软件栈

软件生态层面,昆仑芯提供了针对大模型场景的专用加速库、丰富的云原生插件,支持文心一言、LLaMA、Bloom、ChatGLM、GPT等行业主流大模型。

昆仑芯XFT(XPU Fast Transformer)推理加速库,较原生框架小算子版本性能提升5倍以上。目前,XFT加速库已与百度飞桨、PyTorch等主流深度学习框架完成适配;

昆仑芯云原生插件可帮助用户快速完成和大模型平台的适配;同时提供昆仑芯SDK,帮助用户快速完成适配和实时自定义开发。

昆仑芯xHuggingface开源推理套件

此外,昆仑芯全面拥抱开源社区,积极携手生态伙伴构建软硬一体的AI芯片生态。

昆仑芯打造了xHuggingface开源推理套件,仅修改1-2行代码,即可快速搭建基于XPU的智能客服APP。同时,昆仑芯与飞桨PaddlePaddle的AI Studio社区紧密合作,基于xHuggingface开源推理套件向广大开发者提供更快、更强、更省的算力产品;

昆仑芯与飞桨深入协同适配行业主流大模型,可支持超大规模分布式训练与推理。针对稠密大模型,昆仑芯支持飞桨的Sharding并行、数据并行、模型并行、流水线并行四种并行方式;针对稀疏大模型,昆仑芯与飞桨共同打造大规模参数服务器架构,实现了万亿参数的大模型训练。

深入场景、真实历练

打磨端到端解决方案

昆仑芯深入了解不同应用场景下客户的真实需求,凭借软硬协同技术与高性能产品矩阵,为千行百业提供开箱即用的产品和全栈式AI服务。

大语言模型场景

昆仑芯推理加速方案

目前,昆仑芯已与业界主流开源大模型完成适配,向客户开放开源软件库,供客户进行二次修改、微调,满足不同推理场景下的个性化定制需求。

GPT百亿参数大模型场景:昆仑芯产品的QPS相比主流165W产品提高30%以上,同时首字时延更低。

文心一格:目前已大规模应用昆仑芯产品,成本降低的同时,可实现2秒快速出图。

昆仑芯训练产品总览

针对大语言模型训练场景,昆仑芯也可提供一整套精调的训练策略。目前,昆仑芯已适配pretrain、post-pretrain、SFT、LoRA等模型,可根据客户的数据量与计算资源情况,灵活推荐不同的训练模式。

能源行业:昆仑芯解决方案通过SFT训练模式,客户仅使用少量数据即可2天打造专属行业大模型。

智源研究院:昆仑芯和智源研究院在大模型方面已有深入合作。昆仑芯已完成和Aquila大语言模型推理任务的适配、精度调试和性能优化,并实现大规模分布式推理上线,训练任务适配优化中;同时也适配了智源eva视觉大模型,初步验证了大规模分布式预训练能力。

稀疏大模型推荐场景

稀疏大模型存在训练门槛高、算力消耗大等技术挑战。对于算法和模型持续高频迭代的推荐场景,昆仑芯始终将“安全可信”、“从GPU零成本无缝迁移”作为目标,实现训练与推理系统的紧密耦合,为客户降本增效。目前,昆仑芯已与互联网头部客户完成了训练场景的端到端联合开发,并在TB级以上稀疏大模型上完成了“替换主流GPU的全量上线”。

大模型的持续迭代加速了我国AI技术及AI产业的演进,利好政策的相继出台同时开启了我国大模型商用浪潮。面向未来,昆仑芯将始终坚持软硬协同创新,夯实AI领域综合优势,加速大模型产业落地,勇立大模型时代潮头。

责任编辑:彭菁

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4980

    浏览量

    132104
  • 开源
    +关注

    关注

    3

    文章

    3779

    浏览量

    44128
  • 昆仑芯科技
    +关注

    关注

    0

    文章

    33

    浏览量

    861

原文标题:来了!一文读懂昆仑芯大模型端到端解决方案

文章出处:【微信号:昆仑芯科技,微信公众号:昆仑芯科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    澎峰科技完成OpenAI最新开源推理模型适配

    澎峰科技现已完成 OpenAI 最新开源推理模型 gpt-oss-20b 在 DeepFusion 大模型一体机上的原生适配与优化,用户可一键启用这颗“小而强悍”的新引擎,在本地享受企业级 AI 生产力!
    的头像 发表于 08-14 11:34 ?400次阅读

    昆仑超节点产品推出,大模型训推任务性能跨越式提升

    ? 开年后,随着DeepSeek席卷千行百业,昆仑率先适配、业内首家单机部署满血版展示卓越性能,并在互联网、科研、金融等领域实现规模部署,一系列进展引发广泛关注。刚刚落幕的Create2025百度
    的头像 发表于 04-25 19:29 ?1294次阅读

    首创开源架构,天玑AI开发套件让端侧AI模型接入得心应手

    录音人声质量,将vivo X200s打造成安卓首款K歌旗舰手机,并获得臻品录音Pro级认证,给用户带来一款录音室级的K歌神器。 基于天玑AI开发套件开源弹性架构,联发科还与美图合作完成美图自研
    发表于 04-13 19:52

    昆仑科技亮相2025中关村论坛

    此前,3月27日至31日,2025中关村论坛在京举办,昆仑科技与中国移动首次公开展示联合产业合作伙伴共同开发的64卡超节点智算服务器。该服务器依托昆仑P800,采用OISA技术
    的头像 发表于 04-02 11:22 ?767次阅读

    昆仑服务器中标招商银行AI芯片资源项目

    近日,昆仑服务器中标招商银行AI芯片资源项目。基于该项目,昆仑P800将围绕多个核心业务场景,全面支持招商银行落地大模型应用。
    的头像 发表于 03-28 14:47 ?1090次阅读

    【幸狐Omni3576边缘计算套件试用体验】RKNN 推理测试与图像识别

    【幸狐 Omni3576 边缘计算套件测评】RKNN 推理测试与图像识别 本文介绍了幸狐 Omni3576 边缘计算套件实现 RKNN 推理和图像物体识别的测试流程,包括 RKNN 介
    发表于 03-20 16:14

    将英特尔?独立显卡与OpenVINO?工具套件结合使用时,无法运行推理怎么解决?

    使用英特尔?独立显卡与OpenVINO?工具套件时无法运行推理
    发表于 03-05 06:56

    首发 | 昆仑 | 国产AI卡Deepseek训练推理全版本适配、性能卓越,一键部署等您来(附文档下载方式)

    编者按:本文是昆仑适配DeepSeek系列推文第一篇,将于近期分别推出在昆仑P800上进行DeepSeek-V3/R1推理、训练的深度文
    发表于 02-06 15:28 ?965次阅读
    首发 | <b class='flag-5'>昆仑</b><b class='flag-5'>芯</b> | 国产AI卡Deepseek训练<b class='flag-5'>推理</b>全版本适配、性能卓越,一键部署等您来(附文档下载方式)

    昆仑率先完成Deepseek训练推理全版本适配

    本文是昆仑适配DeepSeek系列推文第一篇,将于近期分别推出在昆仑P800上进行DeepSeek-V3/R1推理、训练的深度文章,干货
    的头像 发表于 02-06 15:13 ?1588次阅读
    <b class='flag-5'>昆仑</b><b class='flag-5'>芯</b>率先完成Deepseek训练<b class='flag-5'>推理</b>全版本适配

    昆仑P800万卡集群成功点亮,将进一步点亮3万卡集群

    ? 近日,百度智能云成功点亮昆仑三代万卡集群,这也是国内首个正式点亮的自研万卡集群。百度智能云将进一步点亮3万卡集群。 国产昆仑万卡集群以及未来三万卡集群的建设,从硬件到软件,技术
    发表于 02-05 17:58 ?542次阅读
    <b class='flag-5'>昆仑</b><b class='flag-5'>芯</b>P800万卡集群成功点亮,将进一步点亮3万卡集群

    新品| LLM630 Compute Kit,AI 大语言模型推理开发平台

    LLM630LLM推理,视觉识别,可开发,灵活扩展···LLM630ComputeKit是一款AI大语言模型推理开发平台,专为边缘计算和智能交互应用而设计。该套件的主板搭载爱AX63
    的头像 发表于 01-17 18:48 ?803次阅读
    新品| LLM630 Compute Kit,AI 大语言模型<b class='flag-5'>推理</b>开发平台

    昆仑科技一行到访京能集团

    近日,昆仑CEO欧阳剑、副总裁孙孝思一行到访京能集团,与京能集团党委书记、董事长郭明星,副总经理陈国高、张凤阳会面并开展座谈。围绕推动科技创新、发展新质生产力等领域的业务合作,昆仑
    的头像 发表于 01-14 10:50 ?1413次阅读

    开源鸿蒙应用案例重磅发布

    开源赋能千行百业,有效推动产业创新升级。随着开放原子开源基金会的开源鸿蒙(OpenHarmony)5.0 Release版本正式发布,项目生态逐步走向成熟,众多开源应用案例应运而生。近
    的头像 发表于 12-23 11:32 ?1381次阅读

    阿里云开源推理大模型QwQ

    近日,阿里云通义团队宣布推出全新AI推理模型QwQ-32B-Preview,并同步实现了开源。这一举措标志着阿里云在AI推理领域迈出了重要一步。 据评测数据显示,QwQ预览版本已具备研究生水平的科学
    的头像 发表于 11-29 11:30 ?1259次阅读

    李开复:中国擅长打造经济实惠的AI推理引擎

    10月22日上午,零一万物公司的创始人兼首席执行官李开复在与外媒的交流中透露,其公司旗下的Yi-Lightning(闪电模型)在推理成本上已实现了显著优势,比OpenAI的GPT-4o模型低了31倍。他强调,中国擅长打造经济实惠的AI
    的头像 发表于 10-22 16:54 ?810次阅读