电子发烧友网报道(文/李弯弯)随着人工智能技术的快速发展,对于计算能力的需求日益增长。特别是在大模型训练方面,对算力的需求更是呈现指数级增长。传统的单卡计算已经无法满足大模型训练的需求,因此,采用多卡集群的方式成为了必然的选择。
2023年底,摩尔线程推出首个全国产千卡千亿模型训练平台“摩尔线程KUAE智算中心”。摩尔线程相关负责人此前谈到,百卡或更小规模都是实验性的,千卡才是大集群的基本单元,只有千卡及以上才能满足一些基础模型的算力需求。
国产千卡集群完成大模型训练测试
日前,摩尔线程官方宣布,联合羽人科技,已成功实现了夸娥(KUAE)千卡智算集群与羽人系列模型解决方案的训练兼容适配,高效完成了70亿参数羽人大语言模型YuRen-7b的训练测试。
测试结果显示,训练效率达到预期,夸娥千卡智算集群展现出了高度的兼容性和稳定性。未来,羽人科技的零代码训练平台将迁移到摩尔线程夸娥千卡智算集群。
在今年5月27日,摩尔线程联合无问芯穹宣布,双方在近日正式完成基于国产全功能GPU千卡集群的3B规模大模型实训。该模型名为“MT-infini-3B”,在摩尔线程夸娥(KUAE)千卡智算集群与无问芯穹AIStudio PaaS平台上完成了高效稳定的训练。
MT-infini-3B模型训练总用时13.2天,经过精度调试,实现全程稳定训练不中断,集群训练稳定性达到100%,千卡训练和单机相比扩展效率超过90%。
5月29日,摩尔线程又与国内领先的数据智能服务商滴普科技共同宣布,摩尔线程“夸娥”(KUAE)千卡智算集群与滴普企业大模型Deepexi v1.0已完成训练、推理适配,获得产品兼容互认证明。
基于摩尔线程夸娥千卡智算集群,滴普科技成功完成了LLaMA2 700亿参数大语言模型的预训练测试。训练时长共计77小时,全程无故障连续运行,集群训练稳定性达到100%,训练效率和兼容性均达到预期。
可以看到,摩尔线程全国产夸娥千卡智算集群在大模型训练上展现出足够的实力。摩尔线程夸娥方案基于全功能MTT S4000 GPU,提供软硬一体化的全栈解决方案,具备模型覆盖、推理加速、CUDA兼容、断点续训、分布式训练、集群可靠性等8大核心能力。
MTT S4000是摩尔线程推出的大模型智算加速卡,采用第三代MUSA内核,单卡支持48GB显存容量和768GB/s的显存带宽,FP16算力为100TFLOPS。借助摩尔线程自研开发工具,MTT S4000计算卡可以充分利用现有CUDA软件生态,实现CUDA代码零成本迁移到MUSA平台。
大模型训练用千卡集群搭建需要关注的重点
可以看到,国产千卡集群已经取得实质性突破,在性能上能够达到国际先进水平,在应用上,已经有多个大模型实训案例。同时,国产企业也在积极构建和完善生态系统。
事实上,用于大模型训练的千卡集群的搭建并不容易,需要注意多方面的事情。如基础设施搭建方面,首先要考虑硬件的选择,需要选择高性能的GPU或TPU作为核心计算单元,才能够提供必要的计算能力和加速训练过程。其次是网络互联,构建能够支持万卡级别高速互联的智算集群,才能确保各个计算单元之间的数据传输效率和稳定性。还有分布式存储,需要配置分布式存储系统,满足大模型训练过程中大规模数据的存储和访问需求。
除了GPU的选择,网络互联也是千卡集群建设需要关注的重点。大模型训练千卡集群互联要求高,这样能够确保集群的高效、稳定和可靠运行。
具体来看,首先需要高带宽与与低时延,大规模GPU集群中,模型训练对卡间互联的带宽和时延提出更高要求,特别是在万亿参数量模型中,网络节点可能由百卡组建的“超节点”构成,单次通信数据量虽小但通信频繁,因此需要高带宽支持以实现快速数据传输。低时延同样重要,因为在大模型训练中,任何延迟都可能影响训练效率。
其次需要高效互联拓扑,随着智算中心向千卡万卡级别的全互联方向演进,传统的直连拓扑结构不再适用。集群需要采用更高效、更先进的互联拓扑结构,如全向智感互联(OISA)设计方案,以突破大规模卡间互联的技术瓶颈。
再者还需要支持大规模扩展,千卡集群的互联方案需要支持从单机多卡到多机多卡、从单卡到千卡集群的无缝扩展。这要求互联方案具有良好的可扩展性,能够随着集群规模的增长而灵活调整。
另外还要考虑稳定性和可靠性、安全性、兼容性等。大模型训练千卡集群的互联方案有多种,如RDMA(远程直接内存访问)网络,RDMA允许计算机之间的内存直接访问,无需操作系统和CPU的干预,从而大大降低了通信延迟,提高了数据传输速率。在千卡集群中,RDMA网络可以确保节点间的高效数据传输,支持大规模的分布式训练任务。
NVLink高速互联,NVLink是NVIDIA开发的一种GPU间高速互联技术,专为GPU到GPU的通信而设计。它提供了比PCIe更高的带宽和更低的延迟,适用于多GPU系统内的数据共享和通信。在千卡集群中,可以使用NVLink连接GPU服务器,实现节点内部GPU间的高效互联。
高性能交换机与网络拓扑,使用高性能交换机,如InfiniBand交换机或以太网交换机,来构建集群的网络拓扑。网络拓扑设计需要考虑集群的规模和通信需求,以确保所有节点之间的低延迟和高带宽连接。可能的网络拓扑包括全连接、部分连接或基于交换机的层次化结构。
还有多路径数据传输、全向智感互联(OISA)设计方案等,OISA是一个新兴的设计方案,旨在解决大规模卡间互联的技术瓶颈。OISA通过优化网络协议和拓扑结构,实现了更高的带宽、更低的延迟和更好的扩展性。该方案适用于需要高效通信的大规模GPU集群。
写在最后
千卡集群主要是用于处理大规模、高复杂度的计算任务,特别是在人工智能(AI)、深度学习、大模型训练等领域。而此前这种集群的建设都依赖国外的GPU,而如今,可以看到,全国产的千卡集群正在不断进步和完善,在当下国际GPU产品对中国限售的背景下,这对于国内人工智能,尤其是大模型的长远发展具有深远意义。
2023年底,摩尔线程推出首个全国产千卡千亿模型训练平台“摩尔线程KUAE智算中心”。摩尔线程相关负责人此前谈到,百卡或更小规模都是实验性的,千卡才是大集群的基本单元,只有千卡及以上才能满足一些基础模型的算力需求。
国产千卡集群完成大模型训练测试
日前,摩尔线程官方宣布,联合羽人科技,已成功实现了夸娥(KUAE)千卡智算集群与羽人系列模型解决方案的训练兼容适配,高效完成了70亿参数羽人大语言模型YuRen-7b的训练测试。
测试结果显示,训练效率达到预期,夸娥千卡智算集群展现出了高度的兼容性和稳定性。未来,羽人科技的零代码训练平台将迁移到摩尔线程夸娥千卡智算集群。
在今年5月27日,摩尔线程联合无问芯穹宣布,双方在近日正式完成基于国产全功能GPU千卡集群的3B规模大模型实训。该模型名为“MT-infini-3B”,在摩尔线程夸娥(KUAE)千卡智算集群与无问芯穹AIStudio PaaS平台上完成了高效稳定的训练。
MT-infini-3B模型训练总用时13.2天,经过精度调试,实现全程稳定训练不中断,集群训练稳定性达到100%,千卡训练和单机相比扩展效率超过90%。
5月29日,摩尔线程又与国内领先的数据智能服务商滴普科技共同宣布,摩尔线程“夸娥”(KUAE)千卡智算集群与滴普企业大模型Deepexi v1.0已完成训练、推理适配,获得产品兼容互认证明。
基于摩尔线程夸娥千卡智算集群,滴普科技成功完成了LLaMA2 700亿参数大语言模型的预训练测试。训练时长共计77小时,全程无故障连续运行,集群训练稳定性达到100%,训练效率和兼容性均达到预期。
可以看到,摩尔线程全国产夸娥千卡智算集群在大模型训练上展现出足够的实力。摩尔线程夸娥方案基于全功能MTT S4000 GPU,提供软硬一体化的全栈解决方案,具备模型覆盖、推理加速、CUDA兼容、断点续训、分布式训练、集群可靠性等8大核心能力。
MTT S4000是摩尔线程推出的大模型智算加速卡,采用第三代MUSA内核,单卡支持48GB显存容量和768GB/s的显存带宽,FP16算力为100TFLOPS。借助摩尔线程自研开发工具,MTT S4000计算卡可以充分利用现有CUDA软件生态,实现CUDA代码零成本迁移到MUSA平台。
大模型训练用千卡集群搭建需要关注的重点
可以看到,国产千卡集群已经取得实质性突破,在性能上能够达到国际先进水平,在应用上,已经有多个大模型实训案例。同时,国产企业也在积极构建和完善生态系统。
事实上,用于大模型训练的千卡集群的搭建并不容易,需要注意多方面的事情。如基础设施搭建方面,首先要考虑硬件的选择,需要选择高性能的GPU或TPU作为核心计算单元,才能够提供必要的计算能力和加速训练过程。其次是网络互联,构建能够支持万卡级别高速互联的智算集群,才能确保各个计算单元之间的数据传输效率和稳定性。还有分布式存储,需要配置分布式存储系统,满足大模型训练过程中大规模数据的存储和访问需求。
除了GPU的选择,网络互联也是千卡集群建设需要关注的重点。大模型训练千卡集群互联要求高,这样能够确保集群的高效、稳定和可靠运行。
具体来看,首先需要高带宽与与低时延,大规模GPU集群中,模型训练对卡间互联的带宽和时延提出更高要求,特别是在万亿参数量模型中,网络节点可能由百卡组建的“超节点”构成,单次通信数据量虽小但通信频繁,因此需要高带宽支持以实现快速数据传输。低时延同样重要,因为在大模型训练中,任何延迟都可能影响训练效率。
其次需要高效互联拓扑,随着智算中心向千卡万卡级别的全互联方向演进,传统的直连拓扑结构不再适用。集群需要采用更高效、更先进的互联拓扑结构,如全向智感互联(OISA)设计方案,以突破大规模卡间互联的技术瓶颈。
再者还需要支持大规模扩展,千卡集群的互联方案需要支持从单机多卡到多机多卡、从单卡到千卡集群的无缝扩展。这要求互联方案具有良好的可扩展性,能够随着集群规模的增长而灵活调整。
另外还要考虑稳定性和可靠性、安全性、兼容性等。大模型训练千卡集群的互联方案有多种,如RDMA(远程直接内存访问)网络,RDMA允许计算机之间的内存直接访问,无需操作系统和CPU的干预,从而大大降低了通信延迟,提高了数据传输速率。在千卡集群中,RDMA网络可以确保节点间的高效数据传输,支持大规模的分布式训练任务。
NVLink高速互联,NVLink是NVIDIA开发的一种GPU间高速互联技术,专为GPU到GPU的通信而设计。它提供了比PCIe更高的带宽和更低的延迟,适用于多GPU系统内的数据共享和通信。在千卡集群中,可以使用NVLink连接GPU服务器,实现节点内部GPU间的高效互联。
高性能交换机与网络拓扑,使用高性能交换机,如InfiniBand交换机或以太网交换机,来构建集群的网络拓扑。网络拓扑设计需要考虑集群的规模和通信需求,以确保所有节点之间的低延迟和高带宽连接。可能的网络拓扑包括全连接、部分连接或基于交换机的层次化结构。
还有多路径数据传输、全向智感互联(OISA)设计方案等,OISA是一个新兴的设计方案,旨在解决大规模卡间互联的技术瓶颈。OISA通过优化网络协议和拓扑结构,实现了更高的带宽、更低的延迟和更好的扩展性。该方案适用于需要高效通信的大规模GPU集群。
写在最后
千卡集群主要是用于处理大规模、高复杂度的计算任务,特别是在人工智能(AI)、深度学习、大模型训练等领域。而此前这种集群的建设都依赖国外的GPU,而如今,可以看到,全国产的千卡集群正在不断进步和完善,在当下国际GPU产品对中国限售的背景下,这对于国内人工智能,尤其是大模型的长远发展具有深远意义。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。
举报投诉
-
gpu
+关注
关注
28文章
4985浏览量
132236 -
AI
+关注
关注
88文章
35917浏览量
283181 -
大模型
+关注
关注
2文章
3250浏览量
4249
发布评论请先 登录
相关推荐
热点推荐
PCIe协议分析仪能测试哪些设备?
场景:监测GPU与主机之间的PCIe通信,分析数据传输效率、延迟和带宽利用率。
应用价值:优化大规模AI训练任务的数据加载和模型参数同步,例如在多GPU系统中
发表于 07-25 14:09
沐曦曦云C500通用计算GPU与百度飞桨完成Ⅱ级兼容性测试
近日,沐曦曦云C500通用计算GPU与百度飞桨已完成Ⅱ级兼容性测试。测试结果显示,双方兼容性表现
澎峰科技与沐曦完成联合测试,实现全面兼容
实现了全面兼容,为用户提供了更为高效、稳定的解决方案。 在测试过程中,澎峰科技与沐曦科技的技术团队紧密协作,对PerfXLM和PerfXCloud在曦云系列GPU上的运行性能、
天数智芯与无问芯穹合作突破千卡集群训练优化
近日,天数智芯与无问芯穹宣布达成深度合作,并在千卡集群训练优化领域取得了重大技术突破。这一合作基于天数智芯的天垓150卓越计算能力和无问芯穹自主研发的大模型
国产智算集群黑马!曦源一号SADA算力集群综合评测表现优异
近日,加佳科技曦源一号SADA算力集群项目一期顺利通过工信部中国软件评测中心权威评测认证。本次测试涵盖了项目一期已上线的1024张沐曦高性能GPU加速卡

Meta万卡GPU集群稳定性剖析与最佳实践
一、背景 本文中我们将具体介绍 Meta 对其万卡 AI 集群稳定性的剖析和刻画,以及在其中遇到的各种挑战,并在其中补充了一些真实场景中遇到的 Case,便于理解。 对应的论文为

训练AI大模型需要什么样的gpu
训练AI大模型需要选择具有强大计算能力、足够显存、高效带宽、良好散热和能效比以及良好兼容性和扩展性的GPU。在选择时,需要根据具体需求进行权衡和选择。
deepin社区与此芯科技完成产品兼容性认证
近日, deepin 23 正式版操作系统与此芯科技首款芯片此芯P1 完成兼容性测试认证。测试结果表明,双方产品在兼容性、性能及
性能提升近一倍!壁仞科技携手无问芯穹,在千卡训练集群等领域取得技术新突破
随着智能算力需求的倍增,到2024年,千卡算力集群已成为国内大模型训练的必备场景。壁仞科技,作为国内少数拥有原创训推一体架构的高端算力芯片厂商之一,与在AI算力市场具有重要影响力的无问
发表于 11-05 18:45
?1761次阅读

中国电信人工智能研究院完成首个全国产化万卡万参大模型训练
近日,中国电信人工智能研究院宣布了一项重大技术突破:成功完成国内首个基于全国产化万卡集群训练的万亿参数大
评论