杭州灵汐类脑智算集群实现大模型快速推理-电子发烧友网

以下文章来源于脑启社区，作者脑启社区

据悉，“杭州灵汐类脑智算集群”已于7月底实现了大模型快速推理API的企业服务试运行。该集群由杭州灵汐类脑科技有限公司牵头搭建运营，中国电信、中国电子科技南湖研究院以及脑启社区作为合作方参与，由杭州电信具体承担集成建设。该集群部署在中国电信杭州智算中心，算力规模超200POPS。这也是类脑智算集群在全球范围内，首次以支持大模型快速推理的方式，走向商用试运行。

作为类脑智能技术的创新应用成果，该智算集群具有”存算一体、众核并行、稀疏计算、事件驱动”的特性，可显著提升计算效率、大幅降低能耗，实现大语言模型推理的“一快、一低、一降”：一是推理速度快，单用户的推理延迟控制在毫秒级别，速度性能相对于传统方案有明显优势（可流畅响应实时交互及长本文深度推理），告别卡顿；二是首token延迟低，可降至百毫秒乃至十毫秒级；三是智算集群的功耗大幅下降，较业界同等推理算力水平可降低功耗二分之一至三分之二以上。异构融合类脑芯片具有兼容PyTorch框架的类CUDA软件栈，可直接服务于多类开源大模型的快速推理、而不需要转换类脑算法。

当前，大模型推理普遍存在吞吐速度慢（每秒十到几十词输出）和高延迟问题（常常超过1秒甚至数秒），对众多行业场景构成了制约。在此背景下，灵汐科技基于类脑智能技术给出了“高实时、高吞吐、低延迟”的推理服务解决方案，将在金融应用、情感陪聊、快速导览、大规模数据标注以及无人机实时航拍处理、灾害预警与应急处置等领域场景逐步落地。据介绍，该智算集群（中心）将持续升级，新一代类脑智算高密度计算平台也将在近期正式发布推出，集群能效比预计将进一步提升。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

集群

集群

+关注

关注
0

文章
119

浏览量
17485
灵汐科技

灵汐科技

+关注

关注
0

文章
15

浏览量
1366
大模型

大模型

+关注

关注
2

文章
3244

浏览量
4237

原文标题：首次商用试运行，类脑智算集群支持大模型快速推理服务

文章出处：【微信号：北京灵汐科技有限公司，微信公众号：北京灵汐科技有限公司】欢迎添加关注！文章转载请注明出处。

搜索历史

杭州灵汐类脑智算集群实现大模型快速推理

评论