0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

DeepSeek模型为何掀起如此大的波澜

IBM中国 ? 来源:IBM中国 ? 2025-02-11 09:13 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

作者:Aili McConnon,IBM

2025年 1月 27 日发表与 IBM 官网 Think 频道,点击阅读英文原文

—— 在 IBM 院士 Kush Varshney 看来,全球 AI 竞赛中的地缘政治差异,可能没有人们想象的那么重要,他说:“一旦模型开源,它源自何处在很多方面就不再重要了。”

DeepSeek-R1 是中国初创公司 DeepSeek 推出的人工智能模型,不久前,在人工智能开源平台 Hugging Face 上发布数小时,便跃居下载量和活跃度最高模型的榜首;同时因其促使投资者重新考虑英伟达(NVIDIA)等芯片制造商的估值,以及 AI 巨头为扩大其AI业务规模而进行的巨额投资,从而给金融市场也带来了震荡。

为何掀起如此大的波澜?DeepSeek-R1 是一款所谓 “推理模型 ”的数字助理,在某些数学和编码任务的人工智能基准测试中,它的表现与 OpenAI 的 o1 不相上下;而据该公司称,训练该系统所使用的芯片数量却要少得多,使用成本低约 96%。

IBM AI 硬件部门的一位首席研究科学家兼经理 Kaoutar El Maghraoui 说:“DeepSeek 无疑正在重塑人工智能的格局,它以开源的雄心和最先进的创新技术向巨头们发起挑战。”

与此同时,TikTok 母公司、中国科技巨头字节跳动最近发布了自己的推理型代理(智能体)UI-TARS,并声称该智能体在某些基准测试中优于 OpenAI 的 GPT-4o、Anthropic 的 Claude 和谷歌的 Gemini。字节跳动的智能体可以读取图形界面,进行推理,并采取自主和一步接一步的行动。

从初创公司到成熟巨头,中国的人工智能公司似乎正在缩小与美国竞争对手的差距,这在很大程度上要归功于它们愿意开源或与其他企业和软件开发商共享底层软件代码。IBM 花岗岩(Granite)模型高级技术产品经理 Abraham Daniels说:“DeepSeek 已经能够在整个社区推广一些相当强大的模型。DeepSeek 真的有可能加速人工智能的民主化。”DeepSeek-R1 在 Hugging Face 上提供,根据 MIT 许可证,允许不受限制地用于商业用途。

去年夏天,中国公司快手(Kuaishou)发布了一款视频生成工具,它与 OpenAI 的索拉(Sora)类似,但公众可以直接使用。Sora 于去年 2 月亮相,但直到 12 月才正式发布,即便如此,也只有订阅了 ChatGPT Pro 的用户才能使用其全部功能。Hugging Face 上的开发者还抢购了中国科技巨头腾讯和阿里巴巴的新开源模式。虽然 Meta 已将其 Llama 模型开源,但 OpenAI 和谷歌在模型开发方面都主要采用闭源方式。

除了开源带来的好处外,DeepSeek 工程师在训练系统时使用的英伟达(NVIDIA)高度专业化芯片也仅为美国竞争对手的一小部分。例如,DeepSeek 工程师在发布 DeepSeek-V3 模型时发表的研究论文称,他们只需要 2000 个 GPU(图形处理单元)或芯片就能训练出他们的模型。

推理模型

IBM 院士(IBM Fellow) Kush Varshney说:“真正令人印象深刻的是 DeepSeek 模型的推理能力。”推理模型本质上是自我验证或检查,代表了一种 “元认知 ”或 “关于思考的思考”。“我们正开始将智慧融入到这些模型中,这是巨大的进步,”Varshney 说。

去年 9月,当 OpenAI 预览其 o1 推理模型时,推理模型成为热门话题。与以往只给出答案而不解释推理过程的人工智能模型不同,它通过将复杂问题分成几个步骤来解决。推理模型可能需要多花几秒或几分钟来回答问题,因为它们会一步一步或以 “思维链 ”的方式来反思自己的分析。

强化学习

DeepSeek-R1 将思维链推理与强化学习相结合,在强化学习中,自主智能体在没有人类用户任何指令的情况下,通过反复试错学会执行任务。强化学习有别于更常用的学习形式,如监督学习和无监督学习,前者使用人工标注的数据进行预测或分类,后者旨在从无标注的数据中发现和学习隐藏的模式。

DeepSeek-R1 质疑了这样一种假设,即通过对正确或错误行为的标记示例进行训练,或者从隐藏模式中提取信息,模型的推理能力就会得到提高。密歇根州立大学博士生张逸骅撰写了数十篇机器学习方面的论文,他说:“它的核心假设很简约,却不那么简单:我们能否只通过奖励信号来教会模型正确回答,从而让它自己摸索出最优的思考方式?”

张逸骅说,对于他和像他一样习惯了传统监督微调的专家而言,“眼见 DeepSeek 这样的大型语言模型仅靠强化学习奖励就能学会‘更好地思考’,着实令人惊艳”,尤其是看到“模型出现真正的‘aha (顿悟)时刻’,它能后退一步,发现错误并自我纠正”。

成本计算

DeepSeek 引发的热议部分源于其低廉的价格。根据该公司发布的技术报告,在圣诞节当天发布的 DeepSeek-V3 的训练成本为 550万美元,而对于希望试用它的开发人员来说,价格要便宜得多。IBM 杰出工程师 Chris Hay说:“他们在模型成本方面所做的工作,以及他们训练模型所花费的时间,确实令人印象深刻。”

然而,IBM 研究院 Granite 技术产品管理总监 Kate Soule表示,低廉的价格标签可能并不是故事的全部。她说,550万美元的成本 “只代表了所需计算量的一小部分”。她说,这还不包括公司即使采用开源模型也要保持专有的成本细节,比如 “强化学习、数据消减和超参数搜索的计算成本”。

无可置疑的是,DeepSeek 通过使用专家混合(MoE)架构实现了更高的成本效益,而这种架构大大降低了训练所需的资源。MoE 架构将人工智能模型划分为不同的子网络(或 “专家”),每个子网络专门处理输入数据的一个子集。模型只激活特定任务所需的特定专家,而不是激活整个神经网络。因此,MoE 架构大大降低了预训练期间的计算成本,并在推理期间实现了更快的性能。在过去一年中,包括法国领先的人工智能公司 Mistral 和 IBM 在内的全球多家公司着力推广了 MoE 架构,并通过将 MoE 与开源相结合实现了更高的效率。(例如,IBM 在 2024年 Think 大会宣布与红帽一起推出 InstructLab,一个推动大模型开源创新的革命性大模型对齐方法。)

就 IBM 的一系列开源 Granite 模型(采用 MoE 架构开发)而言,企业能够以极低的成本实现前沿模型的性能,因为他们可以针对特定应用或用例调整大型预训练模型,从而有效创建更小的适用模型。将强大的功能集成到更小的稠密模型上,意味着这些模型可用于智能手机和其他在边缘运行的移动设备,如汽车计算机或工厂车间的智能传感器

这种采用较大模型并将其蒸馏成资源密集度较低的较小模型的过程也为 DeepSeek 的成功做出了贡献。在发布其标志性的 R1 模型的同时,这家中国初创公司还发布了一系列更小的适合不同用途的模型。有趣的是,他们用实践证明,与一开始就对小型模型进行强化学习相比,将大型模型蒸馏成小型模型的推理效果更好。

全球性的人工智能洗牌?

随着这些新模型在某些基准测试中与老一代竞争对手相抗衡或超越它们时,它们将如何影响全球人工智能格局?El Maghraoui说:“全球人工智能格局不只关乎基准测试的原始性能,更关系到是否能以安全和道德的方式对这些模型进行端到端的整合。” 因此,El Maghraoui 表示,现在判断 DeepSeek-R1 及其他产品是否会 “改变人类互动、技术和企业应用 ”,还为时尚早。

最终,“开发人员的采用率将决定 DeepSeek 模型的受欢迎程度,”Daniels说。他表示期待“看到他们为模型发掘出的各种用例”。

在 IBM 院士 Kush Varshney看来,全球AI竞赛中的地缘政治差异,可能没有人们想象的那么重要,他说:“一旦模型开源,它源自何处在很多方面就不再重要了。”

开始在 IBM watsonx.ai 上使用 DeepSeek:即刻访问 https://ibm.biz/BdGera,了解如何使用 watsonx.ai 以安全的方式部署 DeepSeek-R1 的精馏变体进行推理。

关于 IBM

IBM 是全球领先的混合云、人工智能及企业服务提供商,帮助超过 175个国家和地区的客户,从其拥有的数据中获取商业洞察,简化业务流程,降低成本,并获得行业竞争优势。金融服务、电信和医疗健康等关键基础设施领域的超过 4000家政府和企业实体依靠 IBM 混合云平台和红帽 OpenShift 快速、高效、安全地实现数字化转型。IBM 在人工智能、量子计算、行业云解决方案和企业服务方面的突破性创新为我们的客户提供了开放和灵活的选择。对企业诚信、透明治理、社会责任、包容文化和服务精神的长期承诺是 IBM 业务发展的基石。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • IBM
    IBM
    +关注

    关注

    3

    文章

    1831

    浏览量

    76021
  • AI
    AI
    +关注

    关注

    88

    文章

    35760

    浏览量

    282489
  • DeepSeek
    +关注

    关注

    2

    文章

    807

    浏览量

    1947

原文标题:DeepSeek 推理型 AI 尽显高效训练的小模型之威

文章出处:【微信号:IBMGCG,微信公众号:IBM中国】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    【「DeepSeek 核心技术揭秘」阅读体验】--全书概览

    讲解Deepseek的使用方法 第三章 深入剖析Deepseek-V3的模型架构、训练框架、推理阶段优化、后训练优化等关键技术 第四章关于DeepSeek-R1的技术剖析 第五章 从
    发表于 07-21 00:04

    【书籍评测活动NO.62】一本书读懂 DeepSeek 全家桶核心技术:DeepSeek 核心技术揭秘

    DeepSeek-V3 的发布几乎没有预热和炒作,仅凭借其出色的效果和超低的成本迅速走红。 DeepSeek-R1 则是在 DeepSeek-V3 的基础上构建的推理模型,它在后训练
    发表于 06-09 14:38

    HarmonyOS NEXT开发实战:DevEco Studio中DeepSeek的使用

    随着HarmonyOS Next的持续发布,鸿蒙系统对AI能力的支持显著增强。本文将深入探讨如何在鸿蒙应用中集成AI模型,结合接入DeepSeek,一起来探索开发鸿蒙原生应用的更多可能吧! 第一步
    发表于 03-07 14:56

    聆思CSK6大模型语音开发板接入DeepSeek资料汇总(包含深度求索/火山引擎/硅基流动华为昇腾满血版)

    本帖最后由 jf_40317719 于 2025-3-6 21:20 编辑 近期也有不少开发者想把自己的智能硬件接入DeepSeek模型,本篇就以聆思CSK6大模型开发板接入DeepS
    发表于 03-06 17:02

    RK3588开发板上部署DeepSeek-R1大模型的完整指南

    DeepSeek作为国产AI大数据模型的代表,凭借其卓越的推理能力和高效的文本生成技术,在全球人工智能领域引发广泛关注。DeepSeek-R1作为该系列最新迭代版本,实现了长文本处理效能跃迁、多模态
    发表于 02-27 16:45

    鸿蒙原生应用开发也可以使用DeepSeek

    DeepSeek-R1),点击Apply 具体DeepSeek API参考,以及请求体详情信息可见:DeepSeek API文档 体验DeepSeek辅助编程 选择
    发表于 02-20 18:06

    开源大模型DeepSeek的开放内容详析

    当大家讨论为什么 DeepSeek 能够形成全球刷屏之势,让所有厂商、平台都集成之时,「开源」成为了最大的关键词之一,图灵奖得主 Yann LeCun 称其是「开源的胜利」。模型开源一直备受关注,从
    的头像 发表于 02-19 09:48 ?1629次阅读
    开源大<b class='flag-5'>模型</b><b class='flag-5'>DeepSeek</b>的开放内容详析

    DeepSeek模型引领AI变革,广电运通率先集成应用

    近日,DeepSeek系列模型因其卓越的推理能力,在大模型领域掀起热议,成为新的焦点。面对AI技术的新一轮变革,广电运通迅速响应,依托自研的悟道知识中台,成功集成了
    的头像 发表于 02-18 14:28 ?891次阅读

    添越智创基于 RK3588 开发板部署测试 DeepSeek 模型全攻略

    在 AI 技术日新月异的当下,新的模型与突破不断涌现。近期,DeepSeek(深度求索)模型以其卓越性能和亲民成本,迅速在全球开发者圈子里引发热议。作为一款强大的语言模型
    发表于 02-14 17:42

    DeepSeek模型受行业热捧,加速AI应用迭代

    DeepSeek模型的诞生在行业内掀起了巨大波澜,吸引了众多券商及上市公司的关注。近期,多家机构纷纷宣布,无论是硬件还是软件方面,都将接入Deep
    的头像 发表于 02-14 14:14 ?689次阅读

    了解DeepSeek-V3 和 DeepSeek-R1两个大模型的不同定位和应用选择

    DeepSeek-V3 和 DeepSeek-R1 是深度求索公司(DeepSeek)推出的两个不同定位的大模型,其核心差异主要体现在目标场景、能力侧重和技术优化方向上。以下是二者的实
    发表于 02-14 02:08

    如何在MATLAB中使用DeepSeek模型

    DeepSeek-R1(https://github.com/deepseek-ai/DeepSeek-R1) AI 模型横空出世后,人们几乎就立马开始询问如何在 MATLAB 中
    的头像 发表于 02-13 09:20 ?3555次阅读
    如何在MATLAB中使用<b class='flag-5'>DeepSeek</b><b class='flag-5'>模型</b>

    中软国际科创中心上线DeepSeek模型

    近日,中软国际科创中心以“DeepSeek+昇腾”为引擎,紧跟行业趋势,将DeepSeek全参模型满血版部署在全国产化智算环境中,实现671B参数的DeepSeek
    的头像 发表于 02-08 18:02 ?1467次阅读

    在龙芯3a6000上部署DeepSeek 和 Gemma2大模型

    serve 2.运行deepseek-r1大模型 到以下网站选择不同参数的大模型 https://ollama.com/library/deepseek-r1 新开一个终端执行如下
    发表于 02-07 19:35

    云天励飞上线DeepSeek R1系列模型

    -R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Llama-8B大模型的适配,可以交付客户使用。DeepSeek-R1-Distill-Qwen-32B、Dee
    的头像 发表于 02-06 10:39 ?749次阅读
    云天励飞上线<b class='flag-5'>DeepSeek</b> R1系列<b class='flag-5'>模型</b>