0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI演进的核心哲学:使用通用方法,然后Scale Up!

jf_23871869 ? 来源:刘力 ? 作者:刘力 ? 2025-04-09 14:31 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

作者:算力魔方创始人/英特尔创新大使刘力

一,AI演进的核心哲学:通用方法 + 计算能力


Richard S. Sutton在《The Bitter Lesson》一文中提到,“回顾AI研究历史,得到一个AI发展的重要历史教训:利用计算能力的通用方法最终是最有效的,而且优势明显”。核心原因是摩尔定律,即单位计算成本持续指数级下降。大多数 AI 研究假设可用计算资源是固定的,所以依赖人类知识来提高性能,但长期来看,计算能力的大幅提升才是推进AI演进的关键。

《The Bitter Lesson》原文链接:
http://www.incompleteideas.net/IncIdeas/BitterLesson.html

wKgZPGf2FAWAFpHlAAIkD2BE5d4176.png


把不同时期的AI代表算法和典型计算硬件放到一起,可以看出,依赖人类知识的算法(比如手工设计规则)在某段时期内效果暂时领先,但随着计算能力的发展,会被 “更通用的方法 + 更强的计算” 碾压。计算机视觉和自然语言处理的算法演进,都符合这个规律。

计算机视觉:在CPU时代,手工特征(SIFT/HOG) + SVM的方法暂时领先。到了GPU时代,基于更通用的方法(CNN) + 更强的计算(GTX-580)的AlexNet在2012年,以15.3%的Top-5 错误率碾压了所有基于人类手工提取特征的方法。在多卡并行时代,Transformer摈弃了CNN注入的人类知识(认为相邻像素关联性强),使用自身的自注意力能力自行捕捉全局依赖,使得通用目标识别水平更上一层楼,碾压CNN。

自然语言处理:在CPU时代,最初使用n-gram方法学习单词分布,以此通过前一个字符来预测后一个字符(单词分布决定字符关联就是人类知识)。n-gram的记忆能力有限,能生成一定长度的语句,但在几十个词规模的生成能力就不行了。到了GPU时代,更通用的方法RNN,可以逐个阅读单词的同时更新思维状态,具备了短期记忆能力;LSTM在RNN基础上增加了长期记忆能力,能在百词内较好的生成内容,但在几百词的生成规模上,就会逐渐偏离主题。在多卡并行时代,Transformer摈弃了RNN注入的人类知识(时序依赖关系是关键,当前状态依赖历史状态),使用自身的自注意力能力自行捕捉长程依赖,其生成能力在多个领域能超过人类水平,碾压RNN。

AI 的未来属于通用方法(搜索和学习)+ 无限提升的计算能力,而不是人类对具体问题的 “聪明解法”。越通用的人工智能,方法应该越简单,建模时应该越少人类知识的假设才对。我们应该让 AI 自己通过计算和数据去发现规律,而不是教它 “我们认为正确”的东西。

二,Transformer: 更加通用的神经网络架构


《Attention is All You Need》在2017年首次提出了一种全新的神经网络架构Transformer架构,它完全基于注意力机制,从全局角度“观察和学习”数据的重要特征,相比循环神经网络(RNN)和卷积神经网络(CNN),注入的人类先验知识更少,方法更通用:

CNN注入了相邻像素关联性强的人类知识,导致CNN无法处理不具备该假设的信息,例如:自然语言。

RNN假设了“时序依赖关系”是关键,当前状态依赖历史状态(通过隐藏状态传递信息),导致RNN无法处理不具备该假设的信息,例如:图像。

Transformer使用自身的自注意力能力自行捕捉数据中的关系,即通过自注意力能力从全局角度“观察和学习”数据的重要特征。只要信息能从全局角度被观察和学习,那么该信息就能被Transformer处理。文本、图像、声音等信息,都满足该要求,所以,都能统一到Transformer架构上进行处理。各种模态信息在进入Transformer前,只需要把信息Token化,即切成一个个小块就行。

wKgZPGf2E-yAHCBIAACykTI5pws739.png

《Attention is All You Need》原文链接:
https://arxiv.org/pdf/1706.03762
CNN/RNN/Transformer分析对比表

在多机多卡算力时代,Transformer是比CNN和RNN更加通用的神经网络架构。

三,Decode-Only: 更加通用的大语言模型架构


《Attention is All You Need》提出了Transformer架构后,大语言模型的技术探索出现三个方向:仅使用左边红色框部分的Encoder-Only,仅使用右边绿色框的Decoder-Only和全部都使用的Encoder-Decoder。???????

《Attention is All You Need》原文链接:
https://arxiv.org/pdf/1706.03762

wKgZO2f2FCWAO-YcAAIK6LPiAdA086.png


Encoder-Only:仅使用左边红色框中的编码器部分构建大语言模型,这个方向一开始主要有Google、Baidu等参与,代表模型有BERT、ERNIE等。Encoder-Only模型是掩码语言模型(Masked Language Model),使用双向注意力机制,即训练模型时,提供预测字符的双向上下文,这有点儿类似完形填空,从一句话中随机挖掉一个字(例如:白_依山尽),然后预测被挖掉字。由于模型能获得预测字符之前(过去)和之后(未来)的上下文,所以能高效学习上下文语义,体现出强大的文本语义理解能力,常用于情感分析、阅读理解和文本分类等任务。但也正是由于模型在预测时同时受过去和未来双向的上下文限制,导致在生成文本时表现质量不高和多样性低,不太符合用户的预期。随着 AI 应用向文本创作、对话系统、代码生成等方向扩展,Encoder-only 架构难以满足AIGC应用的生成需求,所以,在2021年后,这个方向就停止演进了。

Decoder-Only: 仅使用右边绿色框中的解码器部分构建大语言模型,这个方向主要由OpenAI主导,代表模型是GPT系列模型。Decoder-Only模型是自回归语言模型(Autoregressive Language Modeling),使用因果注意力机制,即训练模型时,不能看见右侧(未来)的上下文,只能使用左侧(过去)的上下文预测下一个字符(Token),这有点儿类似故事续写,给出前面的字(例如:白_),然后预测下一个字。由于模型只能获得预测字符之前(过去)的上下文,训练起来更难,需要更大的数据集和更强的算力。2020年发布的GPT-3证明了 Decoder-Only 架构在大规模数据上能够更好地学习语言的统计规律和模式,不仅在生成文本时表现出更高的质量和多样性,还显著增强了语言理解的能力,使得模型能够更好地理解用户的意图和需求,并据此生成更加符合用户期望的文本。由此,在2021年后,Google、Baidu、Meta等厂家都转向了Decoder-Only架构。

Encoder-Decoder:同时使用编码器和解码器部分构建大语言模型,这个方向主要由Google、ZhipuAI在探索,代表模型有T5、GLM等。该构架虽然能兼顾Encoder-Only和Decoder-Only架构的优势,但相对Decoder-Only架构,训练成本高2~5倍、推理成本高2~3倍,所以,仅用于一些需要严格双向理解的细分领域(如多模态生成任务),其发展被 Decoder-only 大大超越。

JINGFENG YANG等在《Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond》,

https://arxiv.org/pdf/2304.13712
展现出了大语言模型架构的演进全景图。上述演进趋势可以从下图中看出:

wKgZPGf2FDKAQOa2ABT6FyNvs0E842.png

2023年后的主流大语言模型(如GPT-4、ERNIE4.0、Llama3...)均采用Decoder-Only架构,核心原因正是 Decoder-Only架构比其它两个架构更简单、更通用,在计算能力飞速发展的大趋势下, Decoder-Only架构拥有更大的Scale up的潜力 -- 即保持核心架构不变的情况下,通过增加训练数据,扩大模型参数规模和提升计算能力,可以进一步提升模型能力。

四???????,总结


大语言模型的演进过程,再次证明了Richard S. Sutton在《The Bitter Lesson》

http://www.incompleteideas.net/IncIdeas/BitterLesson.html
提到的AI能力演进的哲学思想:使用通用方法,然后借助计算能力Scale Up。

如果你有更好的文章,欢迎投稿!

稿件接收邮箱:nami.liu@pasuntech.com

更多精彩内容请关注“算力魔方?”!

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    88

    文章

    35476

    浏览量

    281262
  • 语言模型
    +关注

    关注

    0

    文章

    563

    浏览量

    10836
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    一文详解基于以太网的GPU Scale-UP网络

    最近Intel Gaudi-3的发布,基于RoCE的Scale-UP互联,再加上Jim Keller也在谈用以太网替代NVLink。
    的头像 发表于 04-22 17:22 ?5656次阅读
    一文详解基于以太网的GPU <b class='flag-5'>Scale-UP</b>网络

    Scale out成高性能计算更优解,通用互联技术大有可为

    电子发烧友网报道(文/吴子鹏)从聊天机器人程序ChatGPT,到文生视频大模型Sora,AI大模型的蓬勃发展背后,为算法模型、高质量数据、算力基础设施带来了持续的挑战。“当企业通过Scale out
    的头像 发表于 04-07 00:06 ?3542次阅读
    <b class='flag-5'>Scale</b> out成高性能计算更优解,<b class='flag-5'>通用</b>互联技术大有可为

    Unix哲学归纳

    Douglas McIlroy是Unix系统上管道机制的发明者,也是Unix文化的缔造者之一。他归纳的Unix哲学如下:程序应该只关注一个目标,并尽可能把它做好。让程序能够互相协同工作。应该让程序处理文本数据流,因为这是一个通用的接口。
    发表于 07-10 07:05

    AI核心是什么?

    AI概念笼统,范围广大,到底什么才是AI核心?手把手教你设计人工智能芯片及系统(全阶设计教程+AI芯片FPGA实现+开发板)详情链接:http://url.elecfans.com/
    发表于 10-18 06:39

    深度学习推理和计算-通用AI核心

    ,支持广泛的应用程序和动态工作负载。本文将讨论这些行业挑战可以在不同级别的硬件和软件设计采用Xilinx VERSAL AI核心,业界首创自适应计算加速平台超越了CPU/GPU和FPGA的性能。
    发表于 11-01 09:28

    AGI:走向通用人工智能的【生命学&哲学&科学】第一篇——生命、意识、五行、易经、量子 精选资料分享

    AGI:走向通用人工智能的【生命学&哲学&科学】第一篇——生命、意识、五行、易经、量子经典的物理统一在原子上,量子的物理统一在量子上,化学统一在元素上,而生命统一在DNA上,DNA
    发表于 07-26 06:57

    TB-96AI是什么?TB-96AI核心板有哪些核心功能

    产品概述?TB-96AI是由Linaro、Rockchip、Bearkey三方联合研发的全球第一款符合96Boards Compute SOM规范的面向人工智能领域的高性能嵌入式AI核心板,并由
    发表于 06-20 16:28

    CDMA2000核心演进组网策略探讨

    摘要 文章首先阐述了CDMA2000的发展现状,分析了不同的CDMA2000 1X网络演进路线,然后针对新建运营商或已有CDMA2000 1X的网络运营商,给出了CDMA2000核心网电路域、分
    发表于 06-15 17:13 ?1738次阅读

    CDMA核心网向LTE演进分析

    CDMA核心网向LTE演进分析
    发表于 01-14 11:23 ?29次下载

    通用串行总线USB技术演进及测试方案

    通用串行总线USB技术演进及测试方案说明。
    发表于 03-30 09:36 ?7次下载
    <b class='flag-5'>通用</b>串行总线USB技术<b class='flag-5'>演进</b>及测试方案

    AI引擎编程:卡恩进程网络演进

    电子发烧友网站提供《AI引擎编程:卡恩进程网络演进.pdf》资料免费下载
    发表于 09-13 17:24 ?0次下载
    <b class='flag-5'>AI</b>引擎编程:卡恩进程网络<b class='flag-5'>演进</b>

    IBM推出专为AI打造的全新Storage Scale System 6000

    Storage Scale System 6000拥有高性能并行文件系统,能够从容应对数据密集型AI工作负载。它为只读工作负载提供高达700万次的IOPS(每秒输入/输出操作)和最高256 GB/秒的数据吞吐量。这样的性能水平可确保AI
    的头像 发表于 11-01 16:51 ?1015次阅读

    人工智能初创企业Scale AI融资10亿美元

    近日,人工智能领域的初创翘楚Scale AI宣布在F轮融资中成功筹集到10亿美元,使得其估值达到了惊人的138亿美元,较之前的估值实现了近乎翻倍的增长。
    的头像 发表于 05-24 09:22 ?939次阅读

    奇异摩尔分享计算芯片Scale Up片间互联新途径

    开放数据中心委员会ODCC冬季全员会议于12月4日-6日在春暖花开的昆明举行。奇异摩尔首席系统架构师朱琛作为网络工作组ETH-X超节点项目的核心成员分享了AI Networking Scale
    的头像 发表于 12-09 09:36 ?1606次阅读
    奇异摩尔分享计算芯片<b class='flag-5'>Scale</b> <b class='flag-5'>Up</b>片间互联新途径

    华为发布业界首个AI核心

    在MWC25巴塞罗那期间举办的产品与解决方案发布会上,华为云核心网产品线总裁高治国面向全球发布了业界首个AI核心网。AI核心网从
    的头像 发表于 03-05 10:13 ?530次阅读