0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI推理经济学的关键术语

NVIDIA英伟达企业解决方案 ? 来源:NVIDIA英伟达企业解决方案 ? 2025-05-07 09:09 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

解析 AI 在生产环境中的部署成本,助力用户实现性能优化和盈利能力。

随着AI模型的持续演进与应用普及,企业需要在价值最大化的目标下进行精心权衡。

这是因为推理(将数据输入模型并获取输出的运算过程)面临与模型训练截然不同的计算挑战。

预训练模型(数据导入、token化分解及模式识别的过程)本质上是单次的成本投入。但在推理过程中,模型的每个提示词 (prompt)都会生成token,而每个token都会产生成本。

这意味着,随着AI模型性能提升和应用规模扩大,token的生成量及其相关计算成本也会增加。对于希望构建AI能力的企业来说,关键在于控制计算成本的同时,以最快的速度、最高的准确性和服务质量生成尽可能多的token。

为此,AI生态系统持续推动推理效率优化与成本压缩。得益于模型优化技术的重大突破,过去一年中推理成本持续呈下降趋势,催生了日益先进、高能效的加速计算基础架构和全栈解决方案。

根据斯坦福大学“以人为本人工智能研究所 (HAI)”发布的《2025年人工智能指数报告》,“2022年11月至2024年10月期间,达到GPT-3.5水平系统的推理成本降幅超280倍。硬件层面的成本年降幅30%,而能效年提升率达40%。开放权重模型也在缩小与闭源模型的差距,部分基准测试中,性能差距在一年内就从8%缩小到仅1.7%。多重趋势共同作用下先进AI的门槛正在迅速降低。”

随着模型持续演进引发需求及token量级增加,企业必须扩展其加速计算资源,以提供下一代AI逻辑推理工具,否则将面临成本和能耗增加的风险。

以下是推理经济学概念的入门指南,帮助企业可以建立战略定位,实现高效、高性价比且可盈利的大规模AI解决方案。

AI 推理经济学的关键术语

了解推理经济学的关键术语是理解其重要性的基础。

词元 (Token)是AI模型中的基本数据单位,源自训练过程中的文本、图像、音频片段和视频等数据。通过token化 (tokenization)过程,原始数据被解构成最小语义单元。在训练过程中,模型会学习标记token之间的关系,从而执行推理并生成准确、相关的输出。

吞吐量 (Throughput)指的是模型在单位时间内输出的token量,其本身是运行模型基础架构的一个函数。吞吐量通常以token/每秒为单位,吞吐量越高,意味着基础架构的回报越高。

延迟(Latency)是指从输入提示到模型开始响应所需的时间。较低的延迟意味着更快的响应。衡量延迟的两种主要方法包括:

首 token 时延 (Time to First Token, TTFT):用户输入提示后,模型生成第一个输出 token 所需的时间。

首 token 后,每个输出 token 的时延 (Time per Output Token, TPOT):连续 token 之间的平均输出时间,也可以理解为,模型为每个用户的查询请求生成一个完整输出 token 所需要的时间。它也被称为“token 间延迟”或“token 到 token 延迟”。

TTFT和TPOT固然是重要的基准参数,但它们只是众多计算公式中的两个部分,只关注这两项指标仍可能导致性能衰减或成本超支。

为了考虑其他相互依赖的因素,IT领导者开始衡量“有效吞吐量(goodput)”,即在维持目标TTFT和TPOT水平的前提下,系统实际达成的有效吞吐量。这一指标使企业能够以更全面的方式评估性能,保持吞吐量、延迟和成本的最优配置,确保运营效率和优秀的用户体验。

能效是衡量 AI 系统将电能转化为计算输出效率的指标,以每瓦特性能来表示。通过使用加速计算平台,组织可以在降低能耗的同时,最大化每瓦特的 token 处理量。

扩展定律 (Scaling Law) 如何应用于推理成本

理解推理经济学的核心在于掌握 AI 的三大扩展定律:

-预训练扩展 (Pretraining scaling):最初的扩展定律表明,通过提升训练数据集规模、模型参数数量以及增加计算资源,能够实现模型智能水平和准确率的可预测性提升。

-后训练 (Post-training):对模型的准确性和领域专业性进行微调,以便将其用于应用开发。可以使用检索增强生成 (RAG) 等技术从企业数据库返回更相关的答案。

-测试时扩展 (Test-time scaling,又称“长思考”或“逻辑推理”):在推理过程中,模型会分配额外的计算资源,以评估多种可能的结果,然后得出最佳答案。

虽然AI在不断发展,后训练和测试时扩展技术也在持续迭代,但这并不意味着预训练即将消失,它仍然是扩展模型的重要方法。要支持后训练和测试时扩展,仍需要进行预训练。

可盈利的 AI 需要全栈方案

相较于只经过预训练和后训练的模型推理,采用测试时扩展的模型会生成多个token来解决复杂问题。这虽然可以显著提升准确性和模型输出的相关性,但计算成本也会更高。

更智能的 AI 意味着生成更多 token 来解决问题,而优质的用户体验意味着尽可能快地生成这些 token。AI 模型越智能、越快速,对公司和客户的实用性就越大。

企业需要扩展其加速计算资源,构建能支持复杂问题求解、代码生成和多步骤规划的下一代 AI 逻辑推理工具,同时避免成本激增。

这需要先进的硬件和全面优化的软件栈。NVIDIA AI 工厂产品路线图旨在满足计算需求,帮助解决复杂的推理问题,同时实现更高的效率。

AI 工厂集成了高性能 AI 基础设施、高速网络和经优化的软件,可大规模生产智能。这些组件设计灵活、可编程,使企业能够优先关注对其模型或推理需求更关键的领域。

为了进一步简化在部署大规模 AI 逻辑推理模型时的操作,AI 工厂在高性能、低延迟的推理管理系统上运行,确保以尽可能低的成本满足 AI 逻辑推理所需的速度和吞吐量,从而最大化提升 token 收入。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5324

    浏览量

    106644
  • AI
    AI
    +关注

    关注

    88

    文章

    35476

    浏览量

    281297
  • 模型
    +关注

    关注

    1

    文章

    3531

    浏览量

    50578

原文标题:推理经济学如何驱动 AI 价值最大化

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    AI推理的存储,看好SRAM?

    电子发烧友网报道(文/黄晶晶)近几年,生成式AI引领行业变革,AI训练率先崛起,带动高带宽内存HBM一飞冲天。但我们知道AI推理的广泛应用才能推动A
    的头像 发表于 03-03 08:51 ?1752次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>推理</b>的存储,看好SRAM?

    信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代

    模态的技术特性,DeepSeek正加速推动AI在金融、政务、科研及网络智能化等关键领域的深度应用。 信而泰:AI推理引擎赋能网络智能诊断新范式信而泰深度整合DeepSeek-R1大模型
    发表于 07-16 15:29

    成本控制视角下MCX插头大小的制造经济学

    在MCX插头的制造经济学中,尺寸选择从来不是简单的“越小越好”,而是性能、成本、工艺的系统平衡。德索精密工业以17年技术积淀,为客户提供从0.8mm超薄型到5mm高功率型的全尺寸矩阵,用数据驱动的成本控制方案,让每一款MCX插头都成为性价比最优解。
    的头像 发表于 06-19 08:45 ?212次阅读
    成本控制视角下MCX插头大小的制造<b class='flag-5'>经济学</b>

    谷歌第七代TPU Ironwood深度解读:AI推理时代的硬件革命

    谷歌第七代TPU Ironwood深度解读:AI推理时代的硬件革命 Google 发布了 Ironwood,这是其第七代张量处理单元 (TPU),专为推理而设计。这款功能强大的 AI
    的头像 发表于 04-12 11:10 ?1925次阅读
    谷歌第七代TPU Ironwood深度解读:<b class='flag-5'>AI</b><b class='flag-5'>推理</b>时代的硬件革命

    华为AI WAN在智算边缘推理网络中的关键优势

    WAN:智算边缘推理网络架构、实践及产业进展”的演讲,详细阐述了AI WAN在智算边缘推理网络中的关键优势及其对产业发展的深远意义。
    的头像 发表于 04-09 09:53 ?515次阅读

    DeepSeek推动AI算力需求:800G光模块的关键作用

    随着人工智能技术的飞速发展,AI算力需求正以前所未有的速度增长。DeepSeek等大模型的训练与推理任务对算力的需求持续攀升,直接推动了服务器、光通信设备以及数据中心基础设施的升级。特别是在大规模算
    发表于 03-25 12:00

    英伟达GTC25亮点:NVIDIA Dynamo开源库加速并扩展AI推理模型

    DeepSeek-R1 上的吞吐量提高了 30 倍 NVIDIA 发布了开源推理软件 NVIDIA Dynamo,旨在以高效率、低成本加速并扩展 AI 工厂中的 AI 推理模型。 作
    的头像 发表于 03-20 15:03 ?704次阅读

    AI变革正在推动终端侧推理创新

    尖端AI推理模型DeepSeek R1一经问世,便在整个科技行业引起波澜。因其性能能够媲美甚至超越先进的同类模型,颠覆了关于AI发展的传统认知。
    的头像 发表于 02-20 10:54 ?599次阅读

    浅谈AI Agent的发展阶段

    2025年伊始,有关AI变革潜力的讨论热度正不断攀升。人们对AI的关注焦点正从AI工具转向创建及部署AI Agent。在今年最新发布的文章中,美国数据分析与
    的头像 发表于 02-19 09:50 ?888次阅读

    使用NVIDIA推理平台提高AI推理性能

    NVIDIA推理平台提高了 AI 推理性能,为零售、电信等行业节省了数百万美元。
    的头像 发表于 02-08 09:59 ?777次阅读
    使用NVIDIA<b class='flag-5'>推理</b>平台提高<b class='flag-5'>AI</b><b class='flag-5'>推理</b>性能

    生成式AI推理技术、市场与未来

    OpenAI o1、QwQ-32B-Preview、DeepSeek R1-Lite-Preview的相继发布,预示着生成式AI研究正从预训练转向推理(Inference),以提升AI逻辑推理
    的头像 发表于 01-20 11:16 ?896次阅读
    生成式<b class='flag-5'>AI</b><b class='flag-5'>推理</b>技术、市场与未来

    AI推理CPU当道,Arm驱动高效引擎

    本应发挥关键作用,但其重要性却常常被忽视。 ? “对于那些希望将大语言模型(LLM)集成到产品和服务中的企业和开发者来说,CPU 通常是首选”。Arm 中国区业务全球副总裁邹挺在接受采访时表示。为了适应AI推理的应用落地,CPU
    的头像 发表于 11-13 14:34 ?3453次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>推理</b>CPU当道,Arm驱动高效引擎

    NVIDIA助力丽蟾科技打造AI训练与推理加速解决方案

    丽蟾科技通过 Leaper 资源管理平台集成 NVIDIA AI Enterprise,为企业和科研机构提供了一套高效、灵活的 AI 训练与推理加速解决方案。无论是在复杂的 AI 开发
    的头像 发表于 10-27 10:03 ?893次阅读
    NVIDIA助力丽蟾科技打造<b class='flag-5'>AI</b>训练与<b class='flag-5'>推理</b>加速解决方案

    李开复:中国擅长打造经济实惠的AI推理引擎

    10月22日上午,零一万物公司的创始人兼首席执行官李开复在与外媒的交流中透露,其公司旗下的Yi-Lightning(闪电模型)在推理成本上已实现了显著优势,比OpenAI的GPT-4o模型低了31倍。他强调,中国擅长打造经济实惠的AI
    的头像 发表于 10-22 16:54 ?775次阅读

    AMD助力HyperAccel开发全新AI推理服务器

    HyperAccel 是一家成立于 2023 年 1 月的韩国初创企业,致力于开发 AI 推理专用型半导体器件和硬件,最大限度提升推理工作负载的存储器带宽使用,并通过将此解决方案应用于大型语言模型来
    的头像 发表于 09-18 09:37 ?918次阅读
    AMD助力HyperAccel开发全新<b class='flag-5'>AI</b><b class='flag-5'>推理</b>服务器