0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

千亿美元打造一个系统,成本越来越高的AI超算

E4Life ? 来源:电子发烧友 ? 作者:周凯扬 ? 2024-04-09 00:19 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

电子发烧友网报道(文/周凯扬)从近年来新发布的超算机器和新的HPC AI性能榜单可以看出,AI算力已经在超算中成了不可忽视的性能指标之一,但也为厂商带来了更大的成本挑战。比如微软近期就爆出和OpenAI合作,打造一个千亿美元级别的超算系统。

千亿美元打造AI超算

根据外媒报道,此次打造的千亿美元超算系统名为Stargate,星门。这一超算系统仅仅只是微软和OpenAI一系列数据中心合作项目之一,但造价已经高到离谱了。从规模上看,这个超算的硬件配置已经到了远超现有系统的程度。据爆料,星门将集成百亿个最新的英伟达GPU,造价可能会达到1150亿美元。不过在互联方案上,微软可能会跳过英伟达的InfiniBand专用方案,而采用更加通用以太网方案。

当然了,虽然总成本较高,但微软并没有一次建成的部署策略,而是分拆成五个阶段,整个项目在2028年成功建成。这样可以尽早让该系统投入使用,毕竟对于新的模型而言,率先发布才不会错失市场机会。这或许也与微软采用通用的以太网方案有关,毕竟面对跨度如此长的方案而言,专用方案很可能会面临被兼容性差和被淘汰的局面。微软预计会在第四阶段,也就是2026年左右,正式启用这一超算系统。

除此之外,超算的部署地点依然待定,这无疑与部署地的电网供电能力息息相关,当地政府如果能提供支持自然最好。不过从硬件规模来看,单系统的耗电已经达到千兆瓦级,无论是对美国哪个州而言,都是巨大的供电挑战。也正因如此,微软正在考虑核能在内的其他替代能源方案。

超算部署成本发生的变化

时至今日,微软已经在OpenAI上花了130亿美元,使用其数据中心来为ChatGPT之类的应用提供硬件支持。但此次的星门项目更是规模浩大,这也说明了新模型的训练和推理,仍在对数据中心的硬件提出新的要求,需要用性能更强的AI超算来解决。

但这并不意味着普遍的超算成本真的有这么夸张的变化,要知道目前TOP500上排名第一的超算Frontier,其成本也只有6亿美元。对于科研专用的单个超算系统而言,虽然造价不算低,但在政府的科研经费支持下,研究机构还是可以负担起的。

不过值得注意的是,TOP500上的超算都有公开的跑分成绩,为了实现这样的成绩,需要一定时间的优化,再运行一段时间的测试才会有此成绩。而市面上,尤其是在不少大型互联网公司内部,也存在并没有公开提交成绩的超算,因为这类系统几乎是从诞生起就被投入商业使用了。

所以市面上肯定有超过6亿美元的超算系统,比如Meta就在几个月前打造了两套系统,分别集成了2万个H100 GPU,总成本在10亿美元以上。其他的互联网公司,诸如国内的百度、腾讯等,想必也有庞大的硬件购买计划。

写在最后

随着HPC与AI在需求和计算负载上的融合,市场趋势从前几年的“带AI功能的HPC系统”变成了“同样可以用于HPC的AI系统”。但从其规模来看,对于HPC市场也未尝不是一件好事,毕竟目前AI超算的商业价值更高,能够吸引到更多的投资和补贴,也有望进一步推动HPC硬件的革新速度。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    88

    文章

    35899

    浏览量

    282940
  • HPC
    HPC
    +关注

    关注

    0

    文章

    333

    浏览量

    24442
  • 超算
    +关注

    关注

    1

    文章

    118

    浏览量

    9392
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    睿海光电领航AI光模块:快交付与全场景兼容赋能智时代——以创新实力助力全球客户构建高效力底座

    AI力革命催生光模块新需求,睿海光电以技术优势抢占制高点 人工智能、超大规模数据中心和云计算的高速发展,对光模块的传输效率、兼容性及交付周期提出更高要求。作为全球AI光模块领域的
    发表于 08-13 19:03

    文看懂AI力集群

    最近这几年,AI浪潮席卷全球,成为整个社会的关注焦点。大家在讨论AI的时候,经常会提到AI力集群。AI的三要素,是
    的头像 发表于 07-23 12:18 ?228次阅读
    <b class='flag-5'>一</b>文看懂<b class='flag-5'>AI</b><b class='flag-5'>算</b>力集群

    便携式AI突破:DFRobot LattePanda Mu 助力泛灵人工智能RM-01实现“公文包里的

    在人工智能力需求爆炸式增长的今天,传统GPU服务器的高功耗、高成本和大体积限制了AI技术的灵活部署。泛灵人工智能(PanlingAI)推出的RM-01桌面推理
    的头像 发表于 07-23 10:34 ?424次阅读
    便携式<b class='flag-5'>AI</b>突破:DFRobot LattePanda Mu 助力泛灵人工智能RM-01实现“公文包里的<b class='flag-5'>超</b><b class='flag-5'>算</b>”

    后摩尔时代:芯片不是越来越凉,而是越来越

    1500W,而在消费领域,旗舰显卡RTX5090也首次引入了液态金属这更高效但成本更高的热界面材料(TIM)。为什么芯片越来越热?它的热从哪里来?芯片内部每一个晶体管
    的头像 发表于 07-12 11:19 ?565次阅读
    后摩尔时代:芯片不是<b class='flag-5'>越来越</b>凉,而是<b class='flag-5'>越来越</b>烫

    Intel至强6:AI江湖的幕后大佬、NVIDIA B300的唯伙伴

    随着生成式AI、预测式AI的浪潮波高过波,工作负载的类型越来越丰富、复杂度越来越高,对于
    的头像 发表于 06-19 16:37 ?263次阅读
    Intel至强6:<b class='flag-5'>AI</b>江湖的幕后大佬、NVIDIA B300的唯<b class='flag-5'>一</b>伙伴

    加速卡是什么东西?它真能在AI战场上干掉GPU和TPU!

    随着AI技术火得塌糊涂,大家都在谈"大模型"、"AI加速"、"智能计算",可真到了落地环节,力才是硬通货。你有没有发现,现在越来越多的
    的头像 发表于 06-05 13:39 ?719次阅读
    智<b class='flag-5'>算</b>加速卡是什么东西?它真能在<b class='flag-5'>AI</b>战场上干掉GPU和TPU!

    昆仑芯节点产品推出,大模型训推任务性能跨越式提升

    AI开发者大会上,昆仑芯作为底层力核心被高频提及,三万卡集群点亮振奋人心,昆仑芯节点也在大会上正式发布。 ? ? 自ChatGPT问世,大模型参数快速增长,单卡显存无法容纳越来越
    的头像 发表于 04-25 19:29 ?1327次阅读

    90元打造小智AI腕表,语音交互有趣!

    最近小智AI非常火,这周给大家分享来自开源平台的小智AI腕表项目。 项目作者@dotnfc,复刻成本90元左右,开源协议:MIT Lic
    发表于 04-16 14:26

    DeepSeek推动AI力需求:800G光模块的关键作用

    力集群的部署过程中,带宽瓶颈成为制约力发挥的关键因素,而光模块的速率跃升成为突破这瓶颈的核心驱动力。 光模块速率跃升 随着力集群的规模不断扩展,AI应用所需的带宽要求也在急
    发表于 03-25 12:00

    国家平台推出AI生态加速计划

    昨日,国家互联网平台正式推出了旨在促进AI生态发展的新举措——“AI生态伙伴加速计划”。该计划旨在通过提供系列激励措施,加速
    的头像 发表于 02-14 09:16 ?558次阅读

    企业AI力租赁模式的好处

    构建和维护高效、可扩展的AI力基础设施,不仅需要巨额的初期投资,还涉及复杂的运维管理和持续的技术升级。而AI
    的头像 发表于 12-24 10:49 ?1297次阅读

    为什么说雷达功能是UWB的“宝藏”

    就需要更多的传感器提供数据。IoT产品趋势就是功能越来越多,要实现越来越多的功能,就需要越来越多的传感器,而传感器多了之后带来的问题就是
    的头像 发表于 12-20 15:26 ?1352次阅读
    为什么说雷达功能是UWB的<b class='flag-5'>一</b><b class='flag-5'>个</b>“宝藏”

    广和通开启端侧AI新时代

    AI发展正酣,随着终端芯片越来越高、端侧模型能力越来越强、实时响应及隐私保护的端侧应用需求增加,端侧AI已然具备落地的条件。端侧
    的头像 发表于 12-12 10:35 ?900次阅读

    人民邮电报:“开源”到底是什么?为啥热度越来越高

    ? ? ? 本文转载自人民邮电报 这些年,“开源”这个词越来越火,开源AI大模型、开源数据库、开源框架、开源硬件等新词汇层出不穷。那么到底什么是“开源”呢,是“开源节流”中的“开源”吗? 非也,今天
    的头像 发表于 10-17 14:21 ?3965次阅读
    人民邮电报:“开源”到底是什么?为啥热度<b class='flag-5'>越来越高</b>?

    稳定、高效、低成本,储能与力正在相互赋能

    电子发烧友网报道(文/黄山明)随着时代的发展,储能与力正越来越紧密的结合。或许对于很多人而言,储能是能源系统,而力则是信息系统,两者似乎
    的头像 发表于 10-09 00:08 ?5718次阅读