0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

优于10倍参数模型!微软发布Orca 2 LLM

jf_WZTOguxH ? 来源:AI前线 ? 2023-12-26 14:23 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

微软发布 Orca 2 LLM,这是 Llama 2 的一个调优版本,性能与包含 10 倍参数的模型相当,甚至更好。Orca 2 使用了一个合成训练数据集和一项称为 Prompt Erasure(提示词擦除) 的新技术来实现这一性能。

Orca 2 使用了师生模式的训练方案,其中一个较大、较强的 LLM 作为另一个较小的 LLM(学生)的老师,老师的目标是提升学生的性能,使其与更大模型的性能相媲美。微软的训练技术教会较小的模型多种推理技巧,并教其如何为特定任务选择最有效的技巧。

为此,老师被赋予了复杂的提示词来触发某种推理行为。不过,在一种被称为 Prompt Erasure 的方案中,学生只得到任务要求和期望的响应,而不是老师的提示词。在基准测试中,一个拥有 13B 参数的 Orca 2 模型的表现超过了一个 13B 参数的基准 Llama 2 模型,提升了 47.54%。而一个拥有 7B 参数的 Orca 2 模型在推理任务方面与一个拥有 70B 参数的 Llama 2 模型相当,甚至更好。

尽管像 ChatGPT 这样的 LLM 在给定少量提示词的情况下通常表现良好,但由于其内存和计算需求较大,托管这些模型极具有挑战性。经过调优的较小的模型也可以表现良好,许多研究人员已经在研究使用较大 LLM 生成的合成数据集对它们进行训练。

InfoQ 最近报道了谷歌的 Distilling Step-by-Step 方法,该方法会让老师 LLM 自动生成一个小型的调优数据集,其中包含输入和输出标签,以及为何选择输出标签的“基本原理”。InfoQ 还报道了 Stability AI 的 Stable Beluga 模型,它使用微软原始的 Orca 1 方案进行训练,该方案使用了 Explanation Tuning,其中老师 LLM 被提示“生成详细答案”。

与 Orca 1 类似,Orca 2 训练数据集是由老师 LLM 生成的,而老师 LLM 收到了详细的提示词。然而,微软新的训练方法 Cautious Reasoning 将训练任务与提示词相结合,引导老师 LLM 使用特定的问题解决策略,如“一步一步”或“解释你的答案”。然后在学生的训练过程中,老师的提示词被删除,这促使学生学会选择正确的策略。

为了评估这种方法,微软将 Orca 2 模型的性能与几个基准模型进行了比较,包括 Llama 2、ChatGPT(GPT-3.5)和 GPT-4。基准任务包括推理、语言理解、文本完成和摘要。在推理基准测试中,13B 参数 Orca 2 模型优于除 ChatGPT 和 GPT-4 之外的所有基准。他们还发现,给 Orca 2 一个“谨慎”的系统提示词(“你是一个谨慎的助手,你会仔细遵循指示”)相比无系统提示会略微提升其性能。

有几位用户在 X 上发表了关于 Orca 2 的帖子。一位用户指出:“你不需要用‘一步一步解释’这样的技巧来提示它。它自己知道。” AI 研究员 Rudi Ranck 写道:

许多绝妙的想法都很简单……就像 Orca 2 中的“提示词擦除”一样:完整的提示词不会呈现给模型,而只呈现任务和答案(它过滤了生成这些答案所使用的完整提示词)。这有助于模型在更高层次上制定策略。这是一篇非常好的论文。我强烈建议通读全文。







审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • ChatGPT
    +关注

    关注

    29

    文章

    1590

    浏览量

    9182
  • LLM
    LLM
    +关注

    关注

    1

    文章

    328

    浏览量

    893

原文标题:微软发布 Orca 2 LLM,表现优于 10 倍参数模型

文章出处:【微信号:AI前线,微信公众号:AI前线】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    小白学大模型:从零实现 LLM语言模型

    在当今人工智能领域,大型语言模型LLM)的开发已经成为一个热门话题。这些模型通过学习大量的文本数据,能够生成自然语言文本,完成各种复杂的任务,如写作、翻译、问答等。https
    的头像 发表于 04-30 18:34 ?620次阅读
    小白学大<b class='flag-5'>模型</b>:从零实现 <b class='flag-5'>LLM</b>语言<b class='flag-5'>模型</b>

    详解 LLM 推理模型的现状

    领域的最新研究进展,特别是自DeepSeekR1发布后兴起的推理时间计算扩展相关内容。在LLM中实施和改进推理简单来说,基于LLM的推理模型是一种旨在通过生成中间
    的头像 发表于 04-03 12:09 ?575次阅读
    详解 <b class='flag-5'>LLM</b> 推理<b class='flag-5'>模型</b>的现状

    无法在OVMS上运行来自Meta的大型语言模型LLM),为什么?

    无法在 OVMS 上运行来自 Meta 的大型语言模型LLM),例如 LLaMa2。 从 OVMS GitHub* 存储库运行 llama_chat Python* Demo 时遇到错误。
    发表于 03-05 08:07

    字节跳动发布豆包大模型1.5 Pro

    3.5 Sonnet等模型。 该模型采用大规模稀疏MoE架构,使用较小的激活参数进行预训练,却能等效7激活参数的Dense
    的头像 发表于 01-23 10:24 ?712次阅读

    新品| LLM630 Compute Kit,AI 大语言模型推理开发平台

    LLM630LLM推理,视觉识别,可开发,灵活扩展···LLM630ComputeKit是一款AI大语言模型推理开发平台,专为边缘计算和智能交互应用而设计。该套件的主板搭载爱芯AX630CSoC
    的头像 发表于 01-17 18:48 ?759次阅读
    新品| <b class='flag-5'>LLM</b>630 Compute Kit,AI 大语言<b class='flag-5'>模型</b>推理开发平台

    小白学大模型:构建LLM的关键步骤

    随着大规模语言模型LLM)在性能、成本和应用前景上的快速发展,越来越多的团队开始探索如何自主训练LLM模型。然而,是否从零开始训练一个LLM
    的头像 发表于 01-09 12:12 ?1063次阅读
    小白学大<b class='flag-5'>模型</b>:构建<b class='flag-5'>LLM</b>的关键步骤

    什么是LLMLLM在自然语言处理中的应用

    随着人工智能技术的飞速发展,自然语言处理(NLP)领域迎来了革命性的进步。其中,大型语言模型LLM)的出现,标志着我们对语言理解能力的一次飞跃。LLM通过深度学习和海量数据训练,使得机器能够以前
    的头像 发表于 11-19 15:32 ?3768次阅读

    AMD发布10亿参数开源AI模型OLMo

    AMD公司近日宣布了一项重大进展,推出了首个完全开放的10亿参数语言模型系列——AMD OLMo。这一举措为开发者和研究人员提供了强大的AI研究工具,有助于推动AI技术的进一步发展。
    的头像 发表于 11-12 18:08 ?804次阅读

    车载大模型分析揭示:存储带宽对性能影响远超算力

    车载大模型的定义尚无,传统大模型LLM参数一般在70亿至2000亿之间,而早期的CNN模型参数
    的头像 发表于 11-09 10:36 ?1457次阅读
    车载大<b class='flag-5'>模型</b>分析揭示:存储带宽对性能影响远超算力

    LLM技术的未来趋势分析

    。 技术进步 1. 模型规模的增长 随着计算能力的提升和数据集的扩大,LLM的规模也在不断增长。更大的模型能够捕捉更复杂的语言模式,提高任务的性能。例如,GPT-3模型拥有1750亿个
    的头像 发表于 11-08 09:35 ?1217次阅读

    如何训练自己的LLM模型

    训练自己的大型语言模型LLM)是一个复杂且资源密集的过程,涉及到大量的数据、计算资源和专业知识。以下是训练LLM模型的一般步骤,以及一些关键考虑因素: 定义目标和需求 : 确定你的
    的头像 发表于 11-08 09:30 ?1593次阅读

    LLM技术对人工智能发展的影响

    随着人工智能技术的飞速发展,大型语言模型LLM)技术已经成为推动AI领域进步的关键力量。LLM技术通过深度学习和自然语言处理技术,使得机器能够理解和生成自然语言,极大地扩展了人工智能的应用范围
    的头像 发表于 11-08 09:28 ?1913次阅读

    LLM和传统机器学习的区别

    在人工智能领域,LLM(Large Language Models,大型语言模型)和传统机器学习是两种不同的技术路径,它们在处理数据、模型结构、应用场景等方面有着显著的差异。 1. 模型
    的头像 发表于 11-08 09:25 ?2001次阅读

    新品|LLM Module,离线大语言模型模块

    LLM,全称大语言模型(LargeLanguageModel)。是一种基于深度学习的人工智能模型。它通过大量文本数据进行训练,从而能够进行对话、回答问题、撰写文本等其他任务
    的头像 发表于 11-02 08:08 ?1095次阅读
    新品|<b class='flag-5'>LLM</b> Module,离线大语言<b class='flag-5'>模型</b>模块

    理解LLM中的模型量化

    在本文中,我们将探讨一种广泛采用的技术,用于减小大型语言模型LLM)的大小和计算需求,以便将这些模型部署到边缘设备上。这项技术称为模型量化。它使得人工智能
    的头像 发表于 10-25 11:26 ?759次阅读
    理解<b class='flag-5'>LLM</b>中的<b class='flag-5'>模型</b>量化