0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

奔向大模型时代,存算一体成为突破算力瓶颈的关键技术?

Carol Li ? 来源:电子发烧友网 ? 作者:李弯弯 ? 2023-04-03 00:28 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

电子发烧友网报道(文/李弯弯)大模型的训练和推理需要高性能的算力支持。以ChatGPT为例,据估算,在训练方面,1746亿参数的GPT-3模型大约需要375-625台8卡DGXA100服务器训练10天左右,对应A100GPU数量约3000-5000张。

在推理方面,如果以A100GPU单卡单字输出需要350ms为基准计算,假设每日访问客户数量高达5,000万人时,按单客户每日发问ChatGPT应用10次,单次需要50字回答,则每日消耗GPU的计算时间将会高达243万个小时,对应的GPU需求数量将超过10万个。

大模型的训练和推理依赖通用GPU

算力即计算能力,具体指硬件对数据收集、传输、计算和存储的能力,算力的大小表明了对数字化信息处理能力的强弱,常用计量单位是FLOPS(Floating-pointoperationspersecond),表示每秒浮点运算次数。

当前大模型的训练和推理多采用GPGPU。GPGPU是一种由GPU去除图形处理和输出,仅保留科学计算、AI训练和推理功能的GPU。GPU芯片最初用于计算机系统图像显示的运算,但因其相比于擅长横向计算的CPU更擅长于并行计算,在涉及到大量的矩阵或向量计算的AI计算中很有优势,GPGPU应运而生。

在这波ChatGPT浪潮中长期押注AI的英伟达可以说受益最多,ChatGPT、包括各种大模型的训练和推理,基本都采用英伟达的GPU。目前国内多个厂商都在布局GPGPU,包括天数智芯、燧原科技、壁仞科技、登临科技等,不过当前还较少能够应用于大模型。

事实上业界认为,随着模型参数越来越大,GPU在提供算力支持上也存在瓶颈。在GPT-2之前的模型时代,GPU内存还能满足AI大模型的需求,近年来,随着Transformer模型的大规模发展和应用,模型大小每两年平均增长240倍,实际上GPT-3等大模型的参数增长已经超过了GPU内存的增长。传统的设计趋势已经不能适应当前的需求,芯片内部、芯片之间或AI加速器之间的通信成为了AI计算的瓶颈。

存算一体技术如何突破算力瓶颈

而存算一体作为一种新型架构形式受到关注,存算一体将存储和计算有机结合,直接在存储单元中处理数据,避免了在存储单元和计算单元之间频繁转移数据,减少了不必要的数据搬移造成的开销,不仅大幅降低了功耗,还可以利用存储单元进行逻辑计算提高算力,显著提升计算效率。

大模型的训练和部署不仅对算力提出了高要求,对能耗的要求也很高,从这个角度来看,存算一体降低功耗,提升计算效率等特性在大模型方面确实更具优势。

因为独具优势,过去几年已经有众多企业进入到存算一体领域,包括知存科技、千芯科技、苹芯科技、后摩智能、亿铸科技等。各企业的技术方向也有所不同,从介质层面来看,有的采用NORFlash,有的采用SRAM,也有的采用RRAM。

从目前的情况来看,基于NORFlash的存算一体产品,在算力上难以做大,应用场景主要是对算力要求不高,对功耗要求高的可穿戴设备等领域;基于SRAM的存算一体算力可以更大些,能够用于自动驾驶领域;而真正能够在算力上实现突破,可以称之为大算力AI芯片的,目前只有亿铸科技主推的基于RRAM的存算一体技术。

在大模型对大算力的需求背景下,亿铸科技近期更是提出了存算一体超异构计算。超异构计算能够把更多的异构计算整合重构,从而各类型处理器间充分地、灵活地进行数据交互而形成的计算。

简单来说,就是结合DSA、GPU、CPU、CIM等多个类型引擎的优势,实现性能的飞跃:DSA负责相对确定的大计算量的工作;GPU负责应用层有一些性能敏感的并且有一定弹性的工作;CPU啥都能干,负责兜底;CIM就是存内计算,超异构和普通异构的主要区别就是加入了CIM,由此可以实现同等算力,更低能耗,同等能耗,更高算力。另外,CIM由于器件的优势,能负担比DSA更大的算力。

亿铸科技创始人、董事长兼CEO熊大鹏博士表示,存算一体超异构计算的好处在于:一是在系统层,能够把整体的效率做到最优;二是在软件层,能够实现跨平台架构统一。

基于存算一体超异构概念,亿铸科技提出了自己的技术畅想:若能把新型忆阻器技术(RRAM)、存算一体架构、芯粒技术(Chiplet)、3D封装等技术结合,将会实现更大的有效算力、放置更多的参数、实现更高的能效比、更好的软件兼容性、从而突破性能瓶颈,抬高AI大算力芯片的发展天花板。

图源:亿铸科技

目前国内已公开的能够实现存算一体AI大算力的芯片公司仅有亿铸科技,其基于RRAM的存算一体AI大算力芯片将在今年回片。

小结

无论是大模型的训练还是部署,对大算力芯片的需求都很大,从目前的情况来看,大模型的训练在很长时间都将要依赖于英伟达的GPU芯片。

而在大模型的推理部署方面,除了GPU,存算一体将是非常合适的选择。未来大模型的部署规模会很大,从前不久英伟达专门推出适合大型语言模型部署的芯片平台也能看出来。据亿铸科技透露,公司规划的产品,在同等功耗下,性能将超越英伟达H100系列的推理芯片。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    88

    文章

    35476

    浏览量

    281279
  • 大数据
    +关注

    关注

    64

    文章

    8963

    浏览量

    140581
  • 存算一体
    +关注

    关注

    1

    文章

    110

    浏览量

    4702
  • 大模型
    +关注

    关注

    2

    文章

    3191

    浏览量

    4147
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    一体技术加持!后摩智能 160TOPS 端边大模型AI芯片正式发布

    ,同步推出力擎?系列M.2卡、谋?系列加速卡及计算盒子等硬件组合,形成覆盖移动终端与边缘场景的完整产品矩阵。这系列动作标志着后摩智能在一体
    的头像 发表于 07-30 07:57 ?5996次阅读
    <b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b><b class='flag-5'>技术</b>加持!后摩智能 160TOPS 端边大<b class='flag-5'>模型</b>AI芯片正式发布

    缓解高性能一体芯片IR-drop问题的软硬件协同设计

    在高性能计算与AI芯片领域,基于SRAM的一体(Processing-In-Memory, PIM)架构因兼具计算密度、能效和精度优势成为主流方案。随着
    的头像 发表于 07-11 15:11 ?242次阅读
    缓解高性能<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b>芯片IR-drop问题的软硬件协同设计

    国际首创新突破!中国团队以一体排序架构攻克智能硬件加速难题

    2025 年 6 月 25 日,北京大学团队在智能计算硬件方面取得领先突破,国际上首次实现了基于一体技术的高效排序硬件架构 (A fas
    的头像 发表于 07-02 16:50 ?250次阅读
    国际首创新<b class='flag-5'>突破</b>!中国团队以<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b>排序架构攻克智能硬件加速难题

    苹芯科技 N300 一体 NPU,开启端侧 AI 新征程

    随着端侧人工智能技术的爆发式增长,智能设备对本地与能效的需求日益提高。而传统冯·诺依曼架构在数据处理效率上存在瓶颈,“内存墙”问题成为
    的头像 发表于 05-06 17:01 ?532次阅读
    苹芯科技 N300 <b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b> NPU,开启端侧 AI 新征程

    DeepSeek推动AI需求:800G光模块的关键作用

    集群的部署过程中,带宽瓶颈成为制约发挥的关键因素,而光模块的速率跃升
    发表于 03-25 12:00

    接棒,慧荣科技以主控技术突破AI存储极限

    电子发烧友网报道(文/黄山明)在AI的高速增长下,尤其是以DeepSeek为代表的AI大模型推动存储需求激增,增长倒逼升级。而存储是
    的头像 发表于 03-19 01:29 ?1861次阅读
    <b class='flag-5'>存</b><b class='flag-5'>力</b>接棒<b class='flag-5'>算</b><b class='flag-5'>力</b>,慧荣科技以主控<b class='flag-5'>技术</b><b class='flag-5'>突破</b>AI存储极限

    文看懂】什么是端侧

    随着物联网(IoT)、人工智能和5G技术的快速发展,端侧正逐渐成为智能设备性能提升和智能化应用实现的关键技术。什么是端侧
    的头像 发表于 02-24 12:02 ?1449次阅读
    【<b class='flag-5'>一</b>文看懂】什么是端侧<b class='flag-5'>算</b><b class='flag-5'>力</b>?

    济南市中区一体化智中心上线DeepSeek

    济南市中未来产业发展有限公司(简称“市中产发”)联合华为、北京昇腾和清昴智能基于市中区一体化智中心(国家大学科技园节点)昇腾
    的头像 发表于 02-19 10:38 ?786次阅读

    云 GPU 加速计算:突破传统瓶颈的利刃

    ,犹如把利刃,成功突破了传统瓶颈。 传统的 CPU 计算在面对大规模并行计算任务时,往往显得力不从心。CPU 核心数量有限,且设计侧
    的头像 发表于 02-17 10:36 ?311次阅读

    澎峰科技发布DeepSeek智一体

    人工智能普惠化迎来里程碑式突破!澎峰科技发布业内“首款”万元级别DeepSeek智一体机,本地运行671B满血模型
    的头像 发表于 02-15 16:29 ?1555次阅读

    一体行业2024年回顾与2025年展望

    2024年,大模型技术的迅猛发展成为人工智能领域的核心驱动力,其对硬件和存储效率的极致需求,促使
    的头像 发表于 01-23 11:24 ?1150次阅读

    一体化与边缘计算:重新定义智能计算的未来

    随着数据量爆炸式增长和智能化应用的普及,计算与存储的高效整合逐渐成为科技行业关注的重点。数据存储和处理需求的快速增长推动了对计算架构的重新设计,“一体化”
    的头像 发表于 11-12 01:05 ?879次阅读
    <b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b>化与边缘计算:重新定义智能计算的未来

    一体架构创新助力国产大AI芯片腾飞

    在湾芯展SEMiBAY2024《AI芯片与高性能计算(HPC)应用论坛》上,亿铸科技高级副总裁徐芳发表了题为《一体架构创新助力国产大
    的头像 发表于 10-23 14:48 ?917次阅读

    科技新突破:首款支持多模态一体AI芯片成功问世

    一体介质,通过存储单元和计算单元的深度融合,采用22nm成熟工艺制程,有效把控制造成本。与传统架构下的AI芯片相比,该款芯片在、能效
    发表于 09-26 13:51 ?696次阅读
    科技新<b class='flag-5'>突破</b>:首款支持多模态<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b>AI芯片成功问世

    模型时代需求

    现在AI已进入大模型时代,各企业都争相部署大模型,但如何保证大模型,以及相关的稳定性和性能
    发表于 08-20 09:04