0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

了解大型语言模型 (LLM) 领域中的25个关键术语

颖脉Imgtec ? 2024-05-10 08:27 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

1. LLM(大语言模型)

大型语言模型 (LLMs) 是先进的人工智能系统,经过大量文本数据集的训练,可以理解和生成类似人类的文本。他们使用深度学习技术以上下文相关的方式处理和生成语言。OpenAI的GPT系列、Google的Gemini、Anthropic AI的Claude、Meta的Llama模型等LLMs的发展,标志着自然语言处理领域的重大进步。


2. 训练

训练是指通过将语言模型暴露于大型数据集来教导语言模型理解和生成文本。该模型学习预测序列中的下一个单词,并通过调整其内部参数随着时间的推移提高其准确性。这个过程是开发任何处理语言任务的人工智能的基础。


3. 微调

微调是在较小的特定数据集上进一步训练(或调整)预训练语言模型以专门针对特定领域或任务的过程。这使得模型能够更好地执行原始训练数据中未广泛涵盖的任务。


4. 参数

神经网络(包括LLMs)的背景下,参数是从训练数据中学习的模型架构的可变部分。参数(如神经网络中的权重)在训练期间进行调整,以减少预测输出和实际输出之间的差异。


5. 矢量

机器学习中,向量是以算法可以处理的格式表示数据的数字数组。在语言模型中,单词或短语被转换为向量,通常称为嵌入,它捕获模型可以理解和操作的语义。


6. 嵌入

嵌入是文本的密集向量表示,其中熟悉的单词在向量空间中具有相似的表示。这项技术有助于捕获单词之间的上下文和语义相似性,这对于机器翻译和文本摘要等任务至关重要。


7. 标记化标记化是将文本分割成多个片段,称为标记,可以是单词、子词或字符。这是使用语言模型处理文本之前的初步步骤,因为它有助于处理各种文本结构和语言。


8. Transformer

Transformer 是神经网络架构,它依赖于自注意力机制来不同地权衡输入数据不同部分的影响。这种架构对于许多自然语言处理任务非常有效,并且是大多数现代 LLMs 的核心。


9. 注意力机制

神经网络中的注意力机制使模型能够在生成响应的同时专注于输入序列的不同部分,反映了人类注意力在阅读或听力等活动中的运作方式。这种能力对于理解上下文和产生连贯的响应至关重要。


10. 推理

推理是指使用经过训练的模型进行预测。在 LLMs 的上下文中,推理是指模型使用在训练期间学到的知识基于输入数据生成文本。这是LLMs实现实际应用的阶段。


11. 温度

在语言模型采样中,温度是一个超参数,它通过在应用 softmax 之前缩放 logits 来控制预测的随机性。较高的温度会产生更多的随机输出,而较低的温度会使模型的输出更具确定性。


12. 频率参数

语言模型中的频率参数根据标记的出现频率来调整标记的可能性。该参数有助于平衡常见词和稀有词的生成,影响模型在文本生成中的多样性和准确性。


13. 取样

语言模型上下文中的采样是指根据概率分布随机选择下一个单词来生成文本。这种方法允许模型生成各种且通常更具创意的文本输出。


14. Top-k 采样

Top-k 采样是一种技术,其中模型对下一个单词的选择仅限于根据模型的预测的 k 个最可能的下一个单词。此方法减少了文本生成的随机性,同时仍然允许输出的可变性。


15. RLHF(人类反馈强化学习)

根据人类反馈进行强化学习是一种根据人类反馈而不仅仅是原始数据对模型进行微调的技术。这种方法使模型的输出与人类的价值观和偏好保持一致,从而显着提高其实际有效性。


16. 解码策略

解码策略决定了语言模型在生成过程中如何选择输出序列。策略包括贪婪解码(在每一步中选择最有可能的下一个单词)和波束搜索(通过同时考虑多种可能性来扩展贪婪解码)。这些策略显着影响输出的一致性和多样性。


17. 语言模型提示

语言模型提示涉及设计指导模型生成特定类型输出的输入(或提示)。有效的提示可以提高问题回答或内容生成等任务的表现,而无需进一步培训。


18. Transformer-XL

Transformer-XL 扩展了现有的 Transformer 架构,能够学习超出固定长度的依赖关系,而不会破坏时间一致性。这种架构对于涉及长文档或序列的任务至关重要。


19. 掩码语言建模(MLM)

掩码语言建模需要在训练期间屏蔽某些输入数据段,促使模型预测隐藏的单词。该方法构成了 BERT 等模型的基石,利用 MLM 来增强预训练效果。


20. 序列到序列模型(Seq2Seq)

Seq2Seq 模型旨在将序列从一个域转换为另一个域,例如将文本从一种语言翻译或将问题转换为答案。这些模型通常涉及编码器和解码器。


21. 生成式预训练变压器(GPT)

Generative Pre-trained Transformer 是指 OpenAI 设计的一系列语言处理 AI 模型。GPT 模型使用无监督学习进行训练,根据输入生成类似人类的文本。


22. 困惑度

困惑度衡量概率模型对给定样本的预测准确性。在语言模型中,困惑度的降低表明测试数据的预测能力更强,通常与更流畅、更精确的文本生成相关。


23. 多头注意力

多头注意力是 Transformer 模型中的一个组件,使模型能够同时关注不同位置的各种表示子空间。这增强了模型动态关注相关信息的能力。


24. 上下文嵌入

上下文嵌入是考虑单词出现的上下文的单词表示。与传统的嵌入不同,这些嵌入是动态的,并根据周围的文本而变化,提供更丰富的语义理解。


25. 自回归模型

语言建模中的自回归模型根据序列中先前的单词来预测后续单词。这种方法是 GPT 等模型的基础,其中每个输出单词都成为下一个输入,从而促进连贯的长文本生成。

来源:自由坦荡的湖泊AI、海豚实验室

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1810

    文章

    49221

    浏览量

    251569
  • 语言模型
    +关注

    关注

    0

    文章

    565

    浏览量

    10873
  • LLM
    LLM
    +关注

    关注

    1

    文章

    329

    浏览量

    927
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    小白学大模型:从零实现 LLM语言模型

    在当今人工智能领域大型语言模型LLM)的开发已经成为一热门话题。这些
    的头像 发表于 04-30 18:34 ?668次阅读
    小白学大<b class='flag-5'>模型</b>:从零实现 <b class='flag-5'>LLM</b><b class='flag-5'>语言</b><b class='flag-5'>模型</b>

    详解 LLM 推理模型的现状

    2025年,如何提升大型语言模型LLM)的推理能力成了最热门的话题之一,大量优化推理能力的新策略开始出现,包括扩展推理时间计算、运用强化学习、开展监督微调和进行提炼等。本文将深入探讨
    的头像 发表于 04-03 12:09 ?642次阅读
    详解 <b class='flag-5'>LLM</b> 推理<b class='flag-5'>模型</b>的现状

    无法在OVMS上运行来自Meta的大型语言模型LLM),为什么?

    无法在 OVMS 上运行来自 Meta 的大型语言模型LLM),例如 LLaMa2。 从 OVMS GitHub* 存储库运行 llama_chat Python* Demo 时
    发表于 03-05 08:07

    语言模型的解码策略与关键优化总结

    的技术参考。主要涵盖贪婪解码、束搜索、采样技术等核心解码方法,以及温度参数、惩罚机制等关键优化手段。大型语言模型的技术基础大型
    的头像 发表于 02-18 12:00 ?675次阅读
    大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>的解码策略与<b class='flag-5'>关键</b>优化总结

    新品| LLM630 Compute Kit,AI 大语言模型推理开发平台

    LLM630LLM推理,视觉识别,可开发,灵活扩展···LLM630ComputeKit是一款AI大语言模型推理开发平台,专为边缘计算和智能交互应用而设计。该套件的主板搭载爱芯AX63
    的头像 发表于 01-17 18:48 ?803次阅读
    新品| <b class='flag-5'>LLM</b>630 Compute Kit,AI 大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>推理开发平台

    小白学大模型:构建LLM关键步骤

    随着大规模语言模型LLM)在性能、成本和应用前景上的快速发展,越来越多的团队开始探索如何自主训练LLM模型。然而,是否从零开始训练一
    的头像 发表于 01-09 12:12 ?1111次阅读
    小白学大<b class='flag-5'>模型</b>:构建<b class='flag-5'>LLM</b>的<b class='flag-5'>关键</b>步骤

    什么是LLMLLM在自然语言处理中的应用

    随着人工智能技术的飞速发展,自然语言处理(NLP)领域迎来了革命性的进步。其中,大型语言模型LLM
    的头像 发表于 11-19 15:32 ?3936次阅读

    从零开始训练一语言模型需要投资多少钱?

    一,前言 ? 在AI领域,训练一个大型语言模型LLM)是一耗时且复杂的过程。几乎每个做
    的头像 发表于 11-08 14:15 ?854次阅读
    从零开始训练一<b class='flag-5'>个</b>大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>需要投资多少钱?

    LLM技术的未来趋势分析

    随着人工智能技术的飞速发展,大型语言模型LLM)已经成为自然语言处理(NLP)领域的一
    的头像 发表于 11-08 09:35 ?1294次阅读

    如何训练自己的LLM模型

    训练自己的大型语言模型LLM)是一复杂且资源密集的过程,涉及到大量的数据、计算资源和专业知识。以下是训练
    的头像 发表于 11-08 09:30 ?1667次阅读

    LLM技术对人工智能发展的影响

    随着人工智能技术的飞速发展,大型语言模型LLM)技术已经成为推动AI领域进步的关键力量。
    的头像 发表于 11-08 09:28 ?1990次阅读

    使用LLM进行自然语言处理的优缺点

    自然语言处理(NLP)是人工智能和语言领域的一分支,它致力于使计算机能够理解、解释和生成人类语言
    的头像 发表于 11-08 09:27 ?2701次阅读

    LLM和传统机器学习的区别

    在人工智能领域LLM(Large Language Models,大型语言模型)和传统机器学习是两种不同的技术路径,它们在处理数据、
    的头像 发表于 11-08 09:25 ?2149次阅读

    新品|LLM Module,离线大语言模型模块

    LLM,全称大语言模型(LargeLanguageModel)。是一种基于深度学习的人工智能模型。它通过大量文本数据进行训练,从而能够进行对话、回答问题、撰写文本等其他任务
    的头像 发表于 11-02 08:08 ?1128次阅读
    新品|<b class='flag-5'>LLM</b> Module,离线大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>模块

    理解LLM中的模型量化

    在本文中,我们将探讨一种广泛采用的技术,用于减小大型语言模型LLM)的大小和计算需求,以便将这些模型部署到边缘设备上。这项技术称为
    的头像 发表于 10-25 11:26 ?789次阅读
    理解<b class='flag-5'>LLM</b>中的<b class='flag-5'>模型</b>量化