小白学大模型：国外主流大模型汇总-电子发烧友网

本文转自：Coggle数据科学

Attention Is All You Need (2017)

由Google Brain的团队撰写，它彻底改变了自然语言处理（NLP）领域。论文的核心是提出了一种名为Transformer的全新模型架构，它完全舍弃了以往序列模型（如循环神经网络 RNNs 和卷积神经网络 CNNs）中常用的循环和卷积结构，而是完全依赖于“注意力机制”来处理序列数据。

以往的RNN模型必须按顺序逐个处理序列中的词语，这使得训练过程难以并行化，尤其是在处理长序列时效率很低。Transformer通过引入注意力机制，允许模型一次性处理整个序列，极大地提高了训练效率，使得处理超大规模的数据成为可能。

为了Transformer让模型能从不同角度和层面捕捉词语之间的关系，作者提出了多头注意力。它相当于并行运行多个注意力机制，每个“头”都专注于不同的表示子空间，最后将这些结果拼接起来，使模型能够更全面地理解复杂的关系。

BERT: Bidirectional Encoder Representations (2018)

BERT（Bidirectional Encoder Representations from Transformers）是由Google在2018年推出的一个强大的语言表示模型。与之前的模型（如OpenAI GPT）不同，BERT的核心思想是通过双向的上下文来学习语言表示。这意味着，在预训练过程中，模型可以同时利用一个词语的左侧和右侧的上下文信息，从而获得更深层次、更全面的语言理解能力。

掩码语言模型 (Masked Language Model, MLM) 为了实现双向学习，BERT不像传统的语言模型那样从左到右或从右到左预测下一个词。它从输入文本中随机遮盖 (mask) 掉一部分词（通常为15%），然后让模型去预测这些被遮盖的词是什么。这个任务迫使模型必须同时理解一个词的左侧和右侧的上下文，才能正确地推断出被遮盖的词语。这解决了之前单向模型无法同时利用双向信息的弊端。

下一句预测 (Next Sentence Prediction, NSP) 许多重要的下游任务（如问答和自然语言推断）需要模型理解句子之间的关系。为了解决这个问题，BERT被设计了一个下一句预测任务。在预训练时，它输入一对句子A和B，其中50%的B确实是A的下一句，而另外50%的B是从语料库中随机选取的。模型需要判断B是否是A的真实下一句。这个任务帮助BERT学习到了句子层面的关系，使其在处理多个句子组成的任务时表现更佳。

BERT的架构基于Transformer的编码器部分。它的双向性使其能够生成对上下文敏感的词嵌入，这些嵌入在应用于下游任务时效果显著。

统一的微调方法：BERT的另一个重要贡献是其简单的微调 (fine-tuning)范式。预训练好的BERT模型可以通过在其顶层添加一个简单的输出层，然后用特定任务的少量标注数据进行端到端的微调，就能在广泛的NLP任务（如问答、命名实体识别、文本分类等）上取得当时最先进的（state-of-the-art）表现。
深远影响：BERT的出现为预训练-微调的范式设定了新的标准，证明了双向表示的强大能力。它被认为是NLP领域的一大里程碑，启发了此后无数基于Transformer编码器的大型模型，极大地推动了NLP技术的发展。

T5: Text-to-Text Transfer Transformer (2019)

T5（Text-to-Text Transfer Transformer）是Google于2019年提出的一个开创性模型。这篇论文的核心思想非常简洁而强大：将所有的自然语言处理（NLP）任务都统一为一个“文本到文本”（text-to-text）问题。这意味着，无论是机器翻译、文本摘要、问答，还是文本分类，所有任务都被重新表述为输入一段文本，输出另一段文本。

例如：

翻译：输入 “translate English to German: That is good.”，输出 “Das ist gut.”。
文本分类：输入 “cola sentence: The course is jumping well.”，输出 “not acceptable”。
摘要：输入 “summarize: [原文]”，输出 “ [摘要]”。

T5将不同类型的NLP任务（如生成、分类、理解）转换为统一的文本输入和文本输出格式是可行且有效的。这使得模型可以利用大规模无监督数据进行预训练，并无缝地迁移到各种有监督的下游任务中，而无需对模型架构进行任何修改。

Retrieval-Augmented Generation (RAG) (2020)

RAG是一种结合了参数化记忆（parametric memory）和非参数化记忆（non-parametric memory）**的生成模型。它旨在解决传统大型语言模型（LLMs）在处理知识密集型任务时存在的局限性，例如：

知识更新困难：模型参数中的知识是固定的，无法轻松更新。
容易“幻觉”：模型可能生成听起来合理但实际上是错误的事实。
无法提供来源：模型无法解释其生成内容的知识来源。

RAG模型由两个主要组件组成，并且可以进行端到端的联合训练：

检索器（Retriever）：

这是一个基于BERT的双编码器模型，用于将输入查询（例如问题）和外部文档（例如维基百科段落）都编码成向量。
通过计算向量相似度，它能从一个大型的外部知识库（非参数化记忆，如包含2100万个文档的维基百科向量索引）中快速检索出与输入最相关的K个文档。

生成器（Generator）：
- RAG-Sequence：为整个生成序列使用同一个检索到的文档。
- RAG-Token：在生成每个词语时，都可以基于不同的检索到的文档。这种方法允许模型从多个来源拼凑信息，生成更复杂的答案。

这是一个基于BART的预训练序列到序列（seq2seq）模型（即参数化记忆）。
它以输入查询和检索到的文档作为上下文，生成最终的答案或文本。
论文提出了两种生成方式：

GPT-1: Generative Pre-Training (2018)

GPT-1由OpenAI于2018年发布，其核心思想是提出了一种半监督学习方法，用于解决自然语言处理（NLP）中有标签数据稀缺的问题。该方法的核心是“预训练-微调”（pre-training and fine-tuning）范式，即：

无监督预训练：在一个大规模、未标注的文本语料库上，用生成式语言模型任务来预训练一个强大的通用语言模型。
有监督微调：将预训练好的模型参数作为初始化，然后用少量有标签的目标任务数据对其进行微调。

在预训练阶段，模型的目标是根据前面所有词语来预测下一个词语，这是一种生成式的、从左到右的建模方式。这种方法使得模型能够学习到广泛的语言知识和长距离依赖关系。

Transformer的自注意力机制使其能够更有效地捕捉长距离的依赖关系，这对于理解复杂的文本至关重要，并为模型带来了更强的泛化能力。

GPT-1通过在输入端对不同任务（如自然语言推断、问答等）进行统一的格式化，使得所有任务都可以使用相同的模型架构进行微调，无需对模型本身进行结构上的改变。这大大简化了模型适配不同任务的复杂性。

GPT-2: Scaling Up (2019)

GPT-2的核心主张是：语言模型在进行大规模无监督预训练后，能够无需任何显式监督或架构修改，就能执行多种多样的下游任务。作者们认为，如果一个语言模型拥有足够大的参数规模，并在一个足够多样化的高质量文本数据集上进行训练，它会“自发地”学习如何执行这些任务，因为这些任务的示例（比如问答、翻译等）自然存在于其训练数据中。

语言模型本质上是无监督的多任务学习者。在预训练过程中，模型为了更好地预测下一个词，会隐式地学习到文本中存在的各种任务模式，例如：“翻译法语：[英文]”后面跟着的往往是对应的法文翻译。

GPT-3: Few-Shot Learning (2020)

GPT-3的核心观点是：通过大幅增加语言模型的规模，可以使其在无需任何梯度更新或微调的情况下，仅凭少量示例（或甚至没有示例）就能学会执行新任务。

论文提出，传统的“预训练-微调”范式虽然有效，但需要为每个新任务收集成千上万的标注数据。GPT-3则展示了，当模型拥有1750亿参数的巨大规模时，它能够通过“上下文学习”（in-context learning），即在输入的文本提示中直接给出任务指令和少量演示，就表现出强大的零样本（zero-shot）、单样本（one-shot）和少样本（few-shot）学习能力，有时甚至能与经过微调的SOTA模型相媲美。

零样本学习（Zero-shot）：只给模型一个自然语言指令，不提供任何示例。例如：“将以下英文翻译成法文：[英文]”。
单样本学习（One-shot）：提供一个任务示例和自然语言指令。例如：“将英文‘Hello’翻译成法文‘Bonjour’。现在请翻译‘Goodbye’。”
少样本学习（Few-shot）：提供多个任务示例和自然语言指令。

ChatGPT: Conversational Interface (2022)

ChatGPT 是 OpenAI 训练的一款大型语言模型，专门设计用于通过对话进行交互。这种对话形式使其能够：

回答后续问题。
承认并纠正自己的错误。
质疑不正确的前提。
拒绝不当或有害的请求。

ChatGPT 的训练方法结合了监督学习和强化学习，这一过程被称为人类反馈强化学习（RLHF）：

监督微调：

首先，OpenAI 雇佣了人类 AI 训练员。
这些训练员扮演“用户”和“AI 助手”的角色，编写对话，并提供模型生成的建议作为参考，以创建高质量的对话数据集。
这个新的对话数据集与现有的 InstructGPT 数据集混合，用于训练一个初始的 ChatGPT 模型。

强化学习：
- 为了训练一个奖励模型（Reward Model），OpenAI 收集了对比数据。
- AI 训练员会评估模型为同一条提示生成的多个备选回复，并根据质量对其进行排序。
- 利用这些排序数据，训练出了一个奖励模型，该模型可以根据回复的质量给予分数。
- 最后，使用近端策略优化（PPO）算法，根据奖励模型的分数对初始模型进行微调，以鼓励其生成更高质量的回复。

GPT-4: Multimodal Capabilities (2023)

GPT-4是一个大规模、多模态的模型，能够同时接受图像和文本输入，并生成文本输出。尽管它在许多现实场景中仍不如人类，但在各种专业和学术基准测试中，GPT-4展现出了接近人类水平的性能。

GPT-4是OpenAI首个支持图像输入的模型。报告展示了GPT-4能够理解图像中的文本、图表和幽默，并进行描述和回答相关问题。

GPT-4项目的一个核心挑战是确保深度学习基础设施能可预测地扩展。通过开发新的方法，OpenAI能够使用比GPT-4训练计算量少1000倍甚至10000倍的小型模型。

OpenAI Sora: World Simulation (2024)

Diffusion-based video generation
Physical world modeling from text descriptions
Temporal consistency across long sequences
Camera movement simulation

GPT-4o: Omni Model (2024)

Real-time responsiveness
Native audio input/output
Improved vision capabilities
Cost-efficient multimodal processing

Google's PaLM (2022)

PaLM（Pathways Language Model），一个拥有 5400亿参数的巨型语言模型。PaLM 的训练采用了谷歌的新型机器学习系统 Pathways，这使得在数千个加速器芯片上进行高效训练成为可能。

结合“链式思考”提示技术（即模型先生成逐步推理过程，再给出最终答案），PaLM 在多步推理任务上的表现超越了许多经过微调的SOTA模型，展示了其强大的推理能力。

Switch Transformer (MoE) (2021)

Switch Transformer基于“专家混合”（Mixture-of-Experts, MoE）架构的Transformer模型。与传统模型为所有输入重用相同参数不同，MoE模型会为每个输入动态选择不同的参数子集。

巨大的参数规模（最高可达万亿参数）。
恒定的计算成本：由于每次只激活部分参数，计算量与一个更小的“密集”模型相当。
显著的训练加速：能够比相同计算成本的密集模型（如T5-Base）快7倍以上。

Meta's OPT: First Major Open Model (2022)

Open Pre-trained Transformers (OPT)是一个由 Meta AI 训练和发布的一系列语言模型，参数量从1.25亿到1750亿不等。该项目的目标是开放和负责任地与研究社区共享这些模型，以促进对大型语言模型（LLMs）的深入研究，特别是在鲁棒性、偏见和毒性等关键挑战上。

由于使用了最新的NVIDIA A100 GPU以及高效的训练策略，OPT-175B 的开发所耗费的碳足迹仅为 GPT-3 的七分之一。

LLaMA 1: Meta's Open Research LLM (2023)

LLaMA是一个由 Meta AI 训练和发布的系列基础语言模型，参数量从70亿到650亿不等。该研究的核心论点是，通过在更多的数据上训练更小的模型，可以在相同的计算预算下实现与更大模型（如PaLM-540B或GPT-3）相当甚至更优的性能。

与之前的大型模型（如GPT-3、PaLM）不同，LLaMA系列模型完全使用公开可用的数据集进行训练，这使其可以完全开放给研究社区，从而推动该领域的民主化。

Stanford Alpaca (2023)

Alpaca 7B是一个在LLaMA 7B模型基础上，通过在5.2万条指令遵循数据上进行微调而得到的模型。其主要贡献在于，Alpaca 在指令遵循能力上定性地类似于当时最先进的闭源模型OpenAI 的text-davinci-003，但它的模型规模非常小，且训练成本极低（不到600美元），使其可以被学术界轻松复现。

训练 Alpaca 7B 的总成本低于600美元，其中数据生成成本不到500美元（通过调用OpenAI API），模型微调成本不到100美元。

LLaMA 2: Commercial Open-Source (2023)

Llama 2，一个由 Meta AI 开发和发布的新一代大型语言模型系列。该系列包括了预训练模型 Llama 2和经过微调的聊天模型 Llama 2-Chat，参数规模从70亿到700亿不等。该论文的核心贡献在于：

发布强大的、可商用的模型：Llama 2-Chat 在大多数基准测试中表现优于其他开源聊天模型，并且通过人类评估，其能力足以与一些闭源模型（如 ChatGPT）相媲美。

详细公开其微调和安全对齐方法：论文详细阐述了如何通过监督式微调（SFT）和人类反馈强化学习（RLHF）来将基础模型转化为一个有用的、安全的聊天助手。这种开放性旨在让研究社区能够在此基础上继续研究和改进大型语言模型。

LLaMA 3: Continued Scaling (2024)

Meta Llama 3 是 Meta 推出的新一代开源大型语言模型。此次发布的初始版本包含两个模型：8B 和 70B 参数，旨在支持广泛的应用场景。Meta 宣称，这些模型是同类中能力最强的开源模型，足以与领先的闭源模型（如 Claude Sonnet 和 GPT-3.5）竞争。一个更大的 400B 参数模型目前仍在训练中，未来计划增加多模态、多语言支持等新功能。

LLaMA 4: Mixture-of-Experts (2025)

与前代不同，Llama 4 是 Meta 首个采用专家混合架构（Mixture-of-Experts, MoE）**并原生支持**多模态功能的模型。

此次发布了两个高效模型：

Llama 4 Scout: 拥有170亿活跃参数和16个专家，能适配单张 NVIDIA H100 GPU，并拥有业内领先的1000万tokens超长上下文窗口。它在长文档分析、代码库推理等任务上表现出色。
Llama 4 Maverick: 拥有170亿活跃参数和128个专家，尽管总参数达4000亿，但其高效率带来了卓越的性能成本比。它在图像和文本理解方面表现突出，在通用助理和聊天场景中堪称“主力”。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉