电子发烧友网报道(文/周凯扬)ChatGPT的出现,对于数据中心硬件市场无疑是一针强心剂,不少GPU厂商更是从中受益,从再度兴起的聊天机器人潮流中收获了更多订单。那么对于ChatGPT这类对AI算力有着不小需求的应用来说,ASIC和FPGA是否也能借上这股东风呢?
不同硬件的成本对比
在机器学习推理场景中,除了GPU外,还有一大通用AI硬件适合这一负载,那就是FPGA。与GPU一样,在技术和算法还未成熟且仍在打磨阶段时,可以随时重新编程改变芯片功能的FPGA架构前期硬件成本显著低于GPU。在推理性能上,现如今的FPGA加速卡算力远超CPU,甚至高过不少GPU产品。
而且在ChatGPT这样的聊天机器人应用上,将FPGA用于推理得以发挥其最大的优势,那就是高吞吐量和低时延。更高的吞吐量和更低的时延也就意味着更大的并发,对ChatGPT这种应用来说可以极大增强其响应速度。 但随着算法和模型逐渐成熟,FPGA在成本上的优势就慢慢不存在了,在大语言模型上需要用到更多的硬件,而FPGA量产规模的单价成本还是太高了,一旦扩充至成千上万张加速卡,其成本也是不小的。比如AMD推出的新加速卡Alveo V70,据传单卡价格就在2000美元左右。如果我们以INT8精度来衡量算力的话,假设ChatGPT需要28936块A100 GPU,那么改用Alveo V70的话,也需要44693块加速卡。
所以还是有不少人将目光投向了量产规模成本更低的ASIC,比如谷歌就选择用自研的TPU来部署其聊天机器人Bard。ASIC方案在单芯片算力上或许不是最高的,但计算效率却是最高的,而且随着量产化单片成本会逐渐降低。比如谷歌的单个TPU v4 Pod就集成了4096个TPU v4芯片,单芯片的BF16算力达到275TFLOPS,已经相当接近A100单卡峰值算力了。如果只是这样简单换算的话,只需几个TPU v4 Pod,就能满足与ChatGPT同量级的应用了。
不过ASIC方案并没有我们想象得那么美好,首先这类硬件的前期设计成本较大,要想投入数据中心商用,必须组建强大的硬件设计和软件开发团队,这样才能有与GPU相抗衡的性能。其次,因为本身专用硬件的特性,专用于机器学习推理的ASIC方案很难最大化数据中心的硬件利用率,不像GPU还可以同时用于训练、视频编解码等等。
搭建属于自己的ChatGPT的成本有多高
对于GPT-3这样的大型模型来说,要想个人搭建和部署从成本上看肯定不是实惠的选择,所以我们可以选择其他的模型,比如Meta推出的1750亿参数OPT-175B模型。加州大学伯克利分校的Sky Lab就借助该模型推出了一个开源系统Alpa,同时具备聊天机器人、翻译、代码编写和数学计算的功能。
要想部署OPT-175B模型并搭建Alpa这样的文字聊天应用,对GPU的要求要远远小于ChatGPT。但这是建立在其本身响应速度和功能特性就显著弱于ChatGPT的情况下,比如一旦设定的回答长度过长,就需要等上数十秒,何况它列出的GPU需求也不算小。
根据Alpa的官方说明,虽然不需要用到最新一代的A100 80GB这样价格高昂的GPU或是InfiniBand这样先进的互联方案,但对显存的最低要求也已经达到了350GB。所以Alpa给的建议是使用32个英伟达Tesla V100 GPU,从而提供512GB的显存,这样硬件造价在50万到150万之间。

Tesla V100 GPU / 英伟达
如果你只是想开展聊天机器人的服务,而不是自己买硬件的话,也可以选择各大公有云服务厂商的方案,比如亚马逊AWS的EC2 P3系列,就是专为机器学习和HPC准备的实例。每个EC2 P3.16xlarge实例上有8块Tesla V100 GPU,所以至少租赁4个实例就能运行Alpa了。
不过这样一来服务器的费用也并不算便宜,单个实例按需付费每小时的花费在24.48美元左右,也就是说如果要全天运行的话,运行Alpa的成本为2400美元一天。哪怕云服务厂商通常都会给到长期承诺使用的折扣,这也是一笔不小的支出。
谷歌推出的Cloud TPU方案也是如此,如果真的打算以租赁服务器的方式来打造ChatGPT,那么谷歌目前给出的按需定价是每芯片小时价格3.22美元。要想部署数万规模的TPU v4芯片媲美ChatGPT,那么一定逃不掉超高的费用。
结语
不久前我们已经提到了ChatGPT的加入或许会给微软的现有产品带来定价的提升,如今这个猜测也已经成真。微软近日宣布,从今年5月1日开始,微软Bing搜索API的定价将会直线飙升,其中超大并发(每秒250次处理)的S1实例定价从每千次处理7美元提升至25美元,而额外的Bing统计更是从每千次处理1美元的价格拔高至10美元。如此看来,可见大语言模型的推理成本有多高可见一斑了,哪怕是微软也经不起这样烧钱。
所以对于ChatGPT这种应用,其运营者不同,对待硬件成本的看法也会不同,比如微软、谷歌之类已经拥有大规模服务器硬件的厂商,必然会利用现有GPU资源的同时,考虑如何用定制化的ASIC进一步节省成本。而体量较小的运营者,例如聊天机器人应用开发商、研究机构等,还是会选择租赁服务器或小规模本地部署,其首选硬件也会是GPU。
再说回FPGA,虽然从目前数据中心的市场现状来看,FPGA的AI推理加速卡仍处于一个弱势的位置。但随着AMD开始推出Alveo V70这样全新XDNA架构的方案,或许能给未来需要更大吞吐量的模型提供新的出路,尤其是视频分析推理应用。
不同硬件的成本对比
在机器学习推理场景中,除了GPU外,还有一大通用AI硬件适合这一负载,那就是FPGA。与GPU一样,在技术和算法还未成熟且仍在打磨阶段时,可以随时重新编程改变芯片功能的FPGA架构前期硬件成本显著低于GPU。在推理性能上,现如今的FPGA加速卡算力远超CPU,甚至高过不少GPU产品。
而且在ChatGPT这样的聊天机器人应用上,将FPGA用于推理得以发挥其最大的优势,那就是高吞吐量和低时延。更高的吞吐量和更低的时延也就意味着更大的并发,对ChatGPT这种应用来说可以极大增强其响应速度。 但随着算法和模型逐渐成熟,FPGA在成本上的优势就慢慢不存在了,在大语言模型上需要用到更多的硬件,而FPGA量产规模的单价成本还是太高了,一旦扩充至成千上万张加速卡,其成本也是不小的。比如AMD推出的新加速卡Alveo V70,据传单卡价格就在2000美元左右。如果我们以INT8精度来衡量算力的话,假设ChatGPT需要28936块A100 GPU,那么改用Alveo V70的话,也需要44693块加速卡。
所以还是有不少人将目光投向了量产规模成本更低的ASIC,比如谷歌就选择用自研的TPU来部署其聊天机器人Bard。ASIC方案在单芯片算力上或许不是最高的,但计算效率却是最高的,而且随着量产化单片成本会逐渐降低。比如谷歌的单个TPU v4 Pod就集成了4096个TPU v4芯片,单芯片的BF16算力达到275TFLOPS,已经相当接近A100单卡峰值算力了。如果只是这样简单换算的话,只需几个TPU v4 Pod,就能满足与ChatGPT同量级的应用了。
不过ASIC方案并没有我们想象得那么美好,首先这类硬件的前期设计成本较大,要想投入数据中心商用,必须组建强大的硬件设计和软件开发团队,这样才能有与GPU相抗衡的性能。其次,因为本身专用硬件的特性,专用于机器学习推理的ASIC方案很难最大化数据中心的硬件利用率,不像GPU还可以同时用于训练、视频编解码等等。
搭建属于自己的ChatGPT的成本有多高
对于GPT-3这样的大型模型来说,要想个人搭建和部署从成本上看肯定不是实惠的选择,所以我们可以选择其他的模型,比如Meta推出的1750亿参数OPT-175B模型。加州大学伯克利分校的Sky Lab就借助该模型推出了一个开源系统Alpa,同时具备聊天机器人、翻译、代码编写和数学计算的功能。
要想部署OPT-175B模型并搭建Alpa这样的文字聊天应用,对GPU的要求要远远小于ChatGPT。但这是建立在其本身响应速度和功能特性就显著弱于ChatGPT的情况下,比如一旦设定的回答长度过长,就需要等上数十秒,何况它列出的GPU需求也不算小。
根据Alpa的官方说明,虽然不需要用到最新一代的A100 80GB这样价格高昂的GPU或是InfiniBand这样先进的互联方案,但对显存的最低要求也已经达到了350GB。所以Alpa给的建议是使用32个英伟达Tesla V100 GPU,从而提供512GB的显存,这样硬件造价在50万到150万之间。

Tesla V100 GPU / 英伟达
不过这样一来服务器的费用也并不算便宜,单个实例按需付费每小时的花费在24.48美元左右,也就是说如果要全天运行的话,运行Alpa的成本为2400美元一天。哪怕云服务厂商通常都会给到长期承诺使用的折扣,这也是一笔不小的支出。
谷歌推出的Cloud TPU方案也是如此,如果真的打算以租赁服务器的方式来打造ChatGPT,那么谷歌目前给出的按需定价是每芯片小时价格3.22美元。要想部署数万规模的TPU v4芯片媲美ChatGPT,那么一定逃不掉超高的费用。
结语
不久前我们已经提到了ChatGPT的加入或许会给微软的现有产品带来定价的提升,如今这个猜测也已经成真。微软近日宣布,从今年5月1日开始,微软Bing搜索API的定价将会直线飙升,其中超大并发(每秒250次处理)的S1实例定价从每千次处理7美元提升至25美元,而额外的Bing统计更是从每千次处理1美元的价格拔高至10美元。如此看来,可见大语言模型的推理成本有多高可见一斑了,哪怕是微软也经不起这样烧钱。
所以对于ChatGPT这种应用,其运营者不同,对待硬件成本的看法也会不同,比如微软、谷歌之类已经拥有大规模服务器硬件的厂商,必然会利用现有GPU资源的同时,考虑如何用定制化的ASIC进一步节省成本。而体量较小的运营者,例如聊天机器人应用开发商、研究机构等,还是会选择租赁服务器或小规模本地部署,其首选硬件也会是GPU。
再说回FPGA,虽然从目前数据中心的市场现状来看,FPGA的AI推理加速卡仍处于一个弱势的位置。但随着AMD开始推出Alveo V70这样全新XDNA架构的方案,或许能给未来需要更大吞吐量的模型提供新的出路,尤其是视频分析推理应用。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。
举报投诉
发布评论请先 登录
相关推荐
热点推荐
OpenAI甩出王炸:一个APP干翻整个办公室,ASIC开始逆袭GPU?
电子发烧友网报道(文/李弯弯)北京时间7月18日凌晨,OpenAI通过一场精彩绝伦的技术直播盛宴,向全球用户正式揭开了具有划时代意义的AI智能体——ChatGPT Agent的神秘面纱。这款智能体
PCBA加工厂常见的体系认证
??随着汽车行业的兴盛,市面上越来越多的汽车流入,带动了汽车电子的发展,很多PCBA加工厂都想分一杯羹。而汽车电子准入门槛较高,对工厂的技术和设备实力都有着严格的审核标准,IATF16949体系技术含金量较高,认证内容也较复杂。一般来说具备该体系认证的厂商都具备
AI推理带火的ASIC,开发成败在此一举!
的应用性价比远超GPU,加上博通财报AI业务同比大增220%,掀起了AI推理端的ASIC热潮。 ? 那么ASIC跟传统的GPU有哪些区别,开发上又有哪些流程上的不同? ?

JESD204B有专用于ADC/DAC和FPGA或ASIC的接口吗?
请问各位大侠:JESD204B专用于ADC/DAC和FPGA或ASIC的接口吗,该接口同Rapid/PCIe的物理层Serdes接口有何区别,谢谢!
发表于 02-08 09:10
FPGA+GPU+CPU国产化人工智能平台
平台采用国产化FPGA+GPU+CPU构建嵌入式多核异构智算终端,可形成FPGA+GPU、FPGA+CPU、CPU+FPGA等组合模式,形成低功耗、高可扩展性的硬件系统,结合使用场景灵

ASIC和GPU的原理和优势
芯片”。 准确来说,除了它俩,计算芯片还包括大家更熟悉的CPU,以及FPGA。 行业里,通常会把半导体芯片分为数字芯片和模拟芯片。其中,数字芯片的市场规模占比较大,达到70%左右。 数字芯片,还可以进一步细分,分为:逻辑芯片、存储芯片以及微控制单元(MCU)。CPU、

FPGA与ASIC的区别 FPGA性能优化技巧
FPGA与ASIC的区别 FPGA(现场可编程门阵列)和ASIC(专用集成电路)是两种不同的集成电路技术,它们在多个方面存在显著的区别: FPGA
ASIC集成电路如何提高系统效率
在现代电子系统中,效率和性能是衡量一个系统优劣的关键指标。随着技术的发展,ASIC集成电路因其高度定制化和优化的特性,在提高系统效率方面发挥着越来越重要的作用。 ASIC的定义和特点 ASIC
ASIC集成电路与FPGA的区别
ASIC(专用集成电路)与FPGA(现场可编程门阵列)是两种不同的集成电路技术,它们在多个方面存在显著的区别。以下是两者的主要差异: 一、设计与制造 ASIC 是为特定应用定制设计的集
电源IC U6203DC概述和特点
久坐生活方式已经成为了当今社会的一大公共卫生问题,都市白领、司机、开车一族、学生等,长期坐着的人群,都面临腰肌劳损问题,所以腰部按摩仪市场正活跃。想要在腰部按摩仪市场分一杯羹的小伙伴,不妨先锁定专注按摩仪充电器电源ic的厂家——
FPGA和ASIC在大模型推理加速中的应用
随着现在AI的快速发展,使用FPGA和ASIC进行推理加速的研究也越来越多,从目前的市场来说,有些公司已经有了专门做推理的ASIC,像Groq的LPU,专门针对大语言模型的推理做了优化,因此相比

FPGA与ASIC的优缺点比较
FPGA(现场可编程门阵列)与ASIC(专用集成电路)是两种不同的硬件实现方式,各自具有独特的优缺点。以下是对两者优缺点的比较: FPGA的优点 可编程性强 :FPGA具有高度的可编程
ALINX FPGA+GPU异架构视频图像处理开发平台介绍
Alinx 最新发布的新品 Z19-M 是一款创新的 FPGA+GPU 异构架构视频图像处理开发平台,它结合了 AMD Zynq UltraScale+ MPSoC(FPGA)与 NVIDIA Jetson Orin NX(
将ASIC IP核移植到FPGA上——更新概念并推动改变以完成充满挑战的任务!
本系列文章从数字芯片设计项目技术总监的角度出发,介绍了如何将芯片的产品定义与设计和验证规划进行结合,详细讲述了在FPGA上使用IP核来开发ASIC原型项目时,必须认真考虑的一些问题。文章从介绍

评论