国际首创新突破！中国团队以存算一体排序架构攻克智能硬件加速难题-电子发烧友网

2025 年 6 月 25 日，北京大学团队在智能计算硬件方面取得领先突破，国际上首次实现了基于存算一体技术的高效排序硬件架构 (A fast and reconfigurable sort-in-memory system based on memristors)，解决了传统计算架构面对复杂非线性排序问题时计算效率低下的瓶颈问题，在这一极难攻克的人工智能基础算子加速领域形成优势，将为具身智能、大语言模型、智能驾驶、智慧交通、智慧城市等人工智能应用提供更高效算力支持。该成果由北京大学集成电路学院杨玉超教授、人工智能研究院陶耀宇研究员组成的团队完成，已在国际顶级学术期刊《自然?电子》上发表。

排序加速：存算一体架构中难啃的 “硬骨头”

排序，作为人工智能系统中最常用、最耗时的基础操作之一，广泛存在于自然语言处理、信息检索、图神经网络、智能决策等人工智能相关领域中。在传统的冯?诺依曼计算架构中，处理器与存储器分离的特点导致数据被频繁搬运，严重制约了计算速度和系统能效，因此将存储与计算融合的 “存算一体” 架构是突破硬件性能的必由之路。

例如在智能驾驶场景中，车辆在高速公路等简单环境中，只需对周边几台车的行进路线进行排序就能判断是否会对自身安全产生影响，整个耗时可控制在毫秒级别，但在复杂的城市环境中风险来自周边的数百个乃至更多的各类交通参与者，排序的复杂程度和硬件延迟大幅提高；再比如，在抖音、小红书等平台大的规模检索与推荐系统中，用户点击、评分、相似度计算后，常需要对海量的候选内容进行快速排序，找出最相关项，排序性能直接影响系统的响应时间和可扩展性；此外，在大语言模型训练、机器人路径规划、强化学习搜索等场景中，快速评估多个决策或行动的优劣并进行排序，也是必不可少而又极为费时的步骤。

然而，在传统计算架构下，大规模的非线性排序难以在端侧或边缘设备高效完成，这一过程消耗大量时间与功耗，极大制约了具身智能、智能驾驶等新兴技术的发展与普及。近年来，“存算一体” 被认为是突破传统硬件架构计算瓶颈的关键技术，已经在矩阵计算等规则性强的数值计算中取得显著成果。然而由于排序存在逻辑复杂、操作非线性、数据访问不规则，缺乏通用、高效的硬件排序原语等诸多障碍，目前国际主流的存算一体架构均无法解决大数据排序问题，这一难题成为了制约下一代人工智能计算硬件发展的前沿焦点与核心卡点问题。

科研团队围绕 “让数据就地排序” 的第一性原理目标，在存算一体架构上攻克了多个核心技术难题，实现了排序速度与能效的数量级提升。主要突破包括：首先，开发了一套基于新型存内阵列结构的高并行比较机制；第二，开创性地引入了 “忆阻器阵列”，实现了低延迟、多通路的硬件级并行排序电路设计；第三，在算子层面，优化了面向人工智能任务的算法 - 架构协同路径，同时兼容现有矩阵计算；第四，完全自主设计的器件 - 电路 - 系统级技术栈整合。

在人工智能系统中，排序通常作为数据预处理或决策中间环节存在，一旦执行效率不高，将成为整个系统的主要瓶颈。论文第一作者、北京大学集成电路学院博士生余连风介绍道，“排序的核心是比较运算，需要精准地实现‘条件判断 + 数据搬移’，在复杂的应用场景中，要对不同因素的优先级进行比较，因此排序的逻辑非常复杂。一般排序过程需要构建支持多级‘比较 - 选择’的比较器单元，而传统存算一体架构主要面向‘乘加’、‘累加’等操作，难以支持这样的复杂运算，我们的工作成功解决了这一难题，设计了一种‘无比较器’的存算一体排序架构。”

据实测结果显示，该硬件方案在典型排序任务中提升速度超 15 倍，面积效率提升超过 32 倍，具备并行处理百万级数据元素排序任务的潜力，功耗仅为传统 CPU 或 GPU 处理器的 1/10。在人工智能推理场景中，支持动态稀疏度下的推理响应速度可提升 70% 以上，特别适用于要求极高实时性的任务环境。论文通讯作者、北京大学人工智能研究院陶耀宇研究员说，“正因为排序计算在人工智能中是高频、通用、基础且极难处理的一类操作，这一难题的突破意味着存算一体从‘适合特定应用’走向‘可支持更广泛的通用计算’，为人工智能相关任务构建了全链路的底层硬件架构支持。”

提高计算效率，打造加速引擎

据悉，该技术具有广泛的应用前景，可用于智慧交通图像排序系统、金融智能风控评分引擎、边缘监控设备的目标优先识别模块等场景。在测试中该技术展现出高速度与低功耗的显著优势。例如，在智慧交通场景中，系统有望在毫秒级内完成十万级事件优先级评估，为超大规模交通决策、应急响应调度等提供高效的实时算力支持。存算一体超高性能排序加速架构的成功突破，不仅是一次架构创新的胜利，更是将科研成果转化为实际应用、服务国家重大战略需求的重要行动。

“根据初步测算，若该技术在智能终端、工业控制、数据中心等核心应用场景中推广，仅在边缘 AI 芯片市场就可形成百亿元级年产值潜力，大幅提升传统算力系统的性能。北京大学科研团队正是瞄准了‘算力’这个牛鼻子，聚焦‘存算一体’这一关键技术开展高强度科研攻关，实现了从器件到系统的全栈自主设计。这一成果不仅是技术层面的突破，更是攻克了存算一体化排序加速的‘硬骨头’难题，在面向人工智能基础操作的硬件加速领域实现了突破，将为我国建设科技强国，实现高水平科技自立自强注入新算力。

来源：半导体芯科技

【2025全年计划】

隶属于ACT雅时国际商讯旗下的两本优秀杂志：《化合物半导体》＆《半导体芯科技》2025年研讨会全年计划已出。

线上线下，共谋行业发展、产业进步！商机合作一览无余，欢迎您点击获取！

https://www.compoundsemiconductorchina.net/seminar/

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉