0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

国际首创新突破!中国团队以存算一体排序架构攻克智能硬件加速难题

半导体芯科技SiSC ? 来源:半导体芯科技SiSC ? 作者:半导体芯科技SiS ? 2025-07-02 16:50 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

2025 年 6 月 25 日,北京大学团队在智能计算硬件方面取得领先突破,国际上首次实现了基于存算一体技术的高效排序硬件架构 (A fast and reconfigurable sort-in-memory system based on memristors),解决了传统计算架构面对复杂非线性排序问题时计算效率低下的瓶颈问题,在这一极难攻克的人工智能基础算子加速领域形成优势,将为具身智能、大语言模型、智能驾驶、智慧交通、智慧城市等人工智能应用提供更高效算力支持。该成果由北京大学集成电路学院杨玉超教授、人工智能研究院陶耀宇研究员组成的团队完成,已在国际顶级学术期刊《自然?电子》上发表。

chaijie_default.png

chaijie_default.png

排序加速:存算一体架构中难啃的 “硬骨头”

排序,作为人工智能系统中最常用、最耗时的基础操作之一,广泛存在于自然语言处理、信息检索、图神经网络、智能决策等人工智能相关领域中。在传统的冯?诺依曼计算架构中,处理器与存储器分离的特点导致数据被频繁搬运,严重制约了计算速度和系统能效,因此将存储与计算融合的 “存算一体” 架构是突破硬件性能的必由之路。

例如在智能驾驶场景中,车辆在高速公路等简单环境中,只需对周边几台车的行进路线进行排序就能判断是否会对自身安全产生影响,整个耗时可控制在毫秒级别,但在复杂的城市环境中风险来自周边的数百个乃至更多的各类交通参与者,排序的复杂程度和硬件延迟大幅提高;再比如,在抖音、小红书等平台大的规模检索与推荐系统中,用户点击、评分、相似度计算后,常需要对海量的候选内容进行快速排序,找出最相关项,排序性能直接影响系统的响应时间和可扩展性;此外,在大语言模型训练、机器人路径规划、强化学习搜索等场景中,快速评估多个决策或行动的优劣并进行排序,也是必不可少而又极为费时的步骤。

然而,在传统计算架构下,大规模的非线性排序难以在端侧或边缘设备高效完成,这一过程消耗大量时间与功耗,极大制约了具身智能、智能驾驶等新兴技术的发展与普及。 近年来,“存算一体” 被认为是突破传统硬件架构计算瓶颈的关键技术,已经在矩阵计算等规则性强的数值计算中取得显著成果。然而由于排序存在逻辑复杂、操作非线性、数据访问不规则,缺乏通用、高效的硬件排序原语等诸多障碍,目前国际主流的存算一体架构均无法解决大数据排序问题,这一难题成为了制约下一代人工智能计算硬件发展的前沿焦点与核心卡点问题。

科研团队围绕 “让数据就地排序” 的第一性原理目标,在存算一体架构上攻克了多个核心技术难题,实现了排序速度与能效的数量级提升。主要突破包括:首先,开发了一套基于新型存内阵列结构的高并行比较机制;第二,开创性地引入了 “忆阻器阵列”,实现了低延迟、多通路的硬件级并行排序电路设计;第三,在算子层面,优化了面向人工智能任务的算法 - 架构协同路径,同时兼容现有矩阵计算;第四,完全自主设计的器件 - 电路 - 系统级技术栈整合。

在人工智能系统中,排序通常作为数据预处理或决策中间环节存在,一旦执行效率不高,将成为整个系统的主要瓶颈。论文第一作者、北京大学集成电路学院博士生余连风介绍道,“排序的核心是比较运算,需要精准地实现‘条件判断 + 数据搬移’,在复杂的应用场景中,要对不同因素的优先级进行比较,因此排序的逻辑非常复杂。一般排序过程需要构建支持多级‘比较 - 选择’的比较器单元,而传统存算一体架构主要面向‘乘加’、‘累加’等操作,难以支持这样的复杂运算,我们的工作成功解决了这一难题,设计了一种‘无比较器’的存算一体排序架构。”

据实测结果显示,该硬件方案在典型排序任务中提升速度超 15 倍,面积效率提升超过 32 倍,具备并行处理百万级数据元素排序任务的潜力,功耗仅为传统 CPUGPU 处理器的 1/10。在人工智能推理场景中,支持动态稀疏度下的推理响应速度可提升 70% 以上,特别适用于要求极高实时性的任务环境。论文通讯作者、北京大学人工智能研究院陶耀宇研究员说,“正因为排序计算在人工智能中是高频、通用、基础且极难处理的一类操作,这一难题的突破意味着存算一体从‘适合特定应用’走向‘可支持更广泛的通用计算’,为人工智能相关任务构建了全链路的底层硬件架构支持。”

提高计算效率,打造加速引擎

据悉,该技术具有广泛的应用前景,可用于智慧交通图像排序系统、金融智能风控评分引擎、边缘监控设备的目标优先识别模块等场景。在测试中该技术展现出高速度与低功耗的显著优势。例如,在智慧交通场景中,系统有望在毫秒级内完成十万级事件优先级评估,为超大规模交通决策、应急响应调度等提供高效的实时算力支持。存算一体超高性能排序加速架构的成功突破,不仅是一次架构创新的胜利,更是将科研成果转化为实际应用、服务国家重大战略需求的重要行动。

“根据初步测算,若该技术在智能终端、工业控制、数据中心等核心应用场景中推广,仅在边缘 AI 芯片市场就可形成百亿元级年产值潜力,大幅提升传统算力系统的性能。北京大学科研团队正是瞄准了‘算力’这个牛鼻子,聚焦‘存算一体’这一关键技术开展高强度科研攻关,实现了从器件到系统的全栈自主设计。这一成果不仅是技术层面的突破,更是攻克了存算一体化排序加速的‘硬骨头’难题,在面向人工智能基础操作的硬件加速领域实现了突破,将为我国建设科技强国,实现高水平科技自立自强注入新算力。

来源:半导体芯科技

【2025全年计划】

隶属于ACT雅时国际商讯旗下的两本优秀杂志:《化合物半导体》&《半导体芯科技》2025年研讨会全年计划已出。

线上线下,共谋行业发展、产业进步!商机合作一览无余,欢迎您点击获取!

https://www.compoundsemiconductorchina.net/seminar/

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 半导体
    +关注

    关注

    335

    文章

    29024

    浏览量

    240105
  • 智能硬件
    +关注

    关注

    205

    文章

    2387

    浏览量

    109351
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    一体技术加持!后摩智能 160TOPS 端边大模型AI芯片正式发布

    ,同步推出力擎?系列M.2卡、力谋?系列加速卡及计算盒子等硬件组合,形成覆盖移动终端与边缘场景的完整产品矩阵。这系列动作标志着后摩智能
    的头像 发表于 07-30 07:57 ?6009次阅读
    <b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b>技术加持!后摩<b class='flag-5'>智能</b> 160TOPS 端边大模型AI芯片正式发布

    缓解高性能一体芯片IR-drop问题的软硬件协同设计

    在高性能计算与AI芯片领域,基于SRAM的一体(Processing-In-Memory, PIM)架构因兼具计算密度、能效和精度优势成为主流方案。随着
    的头像 发表于 07-11 15:11 ?242次阅读
    缓解高性能<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b>芯片IR-drop问题的软<b class='flag-5'>硬件</b>协同设计

    苹芯科技 N300 一体 NPU,开启端侧 AI 新征程

    随着端侧人工智能技术的爆发式增长,智能设备对本地力与能效的需求日益提高。而传统冯·诺依曼架构在数据处理效率上存在瓶颈,“内存墙”问题成为制约端侧AI性能
    的头像 发表于 05-06 17:01 ?532次阅读
    苹芯科技 N300 <b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b> NPU,开启端侧 AI 新征程

    亿铸科技亮相2025中国移动云智大会

    2025年4月10-11日,中国移动云智大会在苏州金鸡湖国际会议中心成功举办。作为AI芯片领域的创新企业,亿铸科技受邀参加此次盛会,并在大会发表重要演讲,展示公司在
    的头像 发表于 04-12 13:46 ?489次阅读
    亿铸科技亮相2025<b class='flag-5'>中国</b>移动云智<b class='flag-5'>算</b>大会

    午芯芯科技国产电容式MEMS压力传感器芯片突破卡脖子技术

    本帖最后由 jf_94815006 于 2025-4-25 10:11 编辑 午芯芯科技(辽宁省)有限公司是专注于MEMS芯片和集成电路的研发、设计、生产、销售于一体的科技创新型企业。午芯芯
    发表于 02-19 12:19

    济南市中区一体化智中心上线DeepSeek

    济南市中未来产业发展有限公司(简称“市中产发”)联合华为、北京昇腾和清昴智能基于市中区一体化智中心(国家大学科技园节点)昇腾
    的头像 发表于 02-19 10:38 ?786次阅读

    梯度科技推出DeepSeek智一体

    近日,梯度科技搭载DeepSeek大模型的智一体机正式发布。该产品基于“国产服务器+国产GPU+自主算法”核心架构,搭载梯度科技人工智能应用开发平台,形成了软硬
    的头像 发表于 02-17 09:53 ?869次阅读

    澎峰科技发布DeepSeek智一体

    人工智能普惠化迎来里程碑式突破!澎峰科技发布业内“首款”万元级别DeepSeek智一体机,本地运行671B满血模型。
    的头像 发表于 02-15 16:29 ?1556次阅读

    一体行业2024年回顾与2025年展望

    2024年,大模型技术的迅猛发展成为人工智能领域的核心驱动力,其对硬件力和存储效率的极致需求,促使
    的头像 发表于 01-23 11:24 ?1150次阅读

    开源芯片系列讲座第24期:基于SRAM的高效计算架构

    种先进的计算架构技术,克服传统冯诺依曼架构中计算单元与存储单元分离导致的“内存墙”问题。基于SRAM的
    的头像 发表于 11-27 01:05 ?928次阅读
    开源芯片系列讲座第24期:基于SRAM<b class='flag-5'>存</b><b class='flag-5'>算</b>的高效计算<b class='flag-5'>架构</b>

    直播预约 |开源芯片系列讲座第24期:SRAM一体:赋能高能效RISC-V计算

    RISC-V计算报告简介一体种先进的计算架构技术,克服传统冯诺依曼
    的头像 发表于 11-16 01:10 ?777次阅读
    直播预约 |开源芯片系列讲座第24期:SRAM<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b>:赋能高能效RISC-V计算

    一体化与边缘计算:重新定义智能计算的未来

    随着数据量爆炸式增长和智能化应用的普及,计算与存储的高效整合逐渐成为科技行业关注的重点。数据存储和处理需求的快速增长推动了对计算架构的重新设计,“
    的头像 发表于 11-12 01:05 ?880次阅读
    <b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b>化与边缘计算:重新定义<b class='flag-5'>智能</b>计算的未来

    一体架构创新助力国产大力AI芯片腾飞

    在湾芯展SEMiBAY2024《AI芯片与高性能计算(HPC)应用论坛》上,亿铸科技高级副总裁徐芳发表了题为《一体架构创新助力国产大
    的头像 发表于 10-23 14:48 ?917次阅读

    科技新突破:首款支持多模态一体AI芯片成功问世

    一体介质,通过存储单元和计算单元的深度融合,采用22nm成熟工艺制程,有效把控制造成本。与传统架构下的AI芯片相比,该款芯片在力、能效
    发表于 09-26 13:51 ?696次阅读
    科技新<b class='flag-5'>突破</b>:首款支持多模态<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b>AI芯片成功问世

    后摩智能首款一体智驾芯片获评突出创新产品奖

    近日,2024年6月29日,由深圳市汽车电子行业协会主办的「第十三届国际汽车电子产业峰会暨2023年度汽车电子科学技术奖颁奖典礼」在深圳宝安隆重举行。后摩智能首款
    的头像 发表于 09-24 16:51 ?950次阅读