0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

参数少近一半,性能逼近谷歌Minerva,又一个数学大模型开源了

智能感知与物联网技术研究所 ? 来源:未知 ? 2023-10-23 09:40 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

大模型家族来了一个专门解决数学问题的「新成员」——Llemma。

如今,在各种文本混合数据上训练出来的语言模型会显示出非常通用的语言理解和生成能力,可以作为基础模型适应各种应用。开放式对话或指令跟踪等应用要求在整个自然文本分布中实现均衡的性能,因此更倾向于通用模型。

不过如果想要在某一领域(如医学、金融或科学)内最大限度地提高性能,那么特定领域的语言模型可能会以给定的计算成本提供更优越的能力,或以更低的计算成本提供给定的能力水平。

普林斯顿大学、 EleutherAI 等的研究者为解决数学问题训练了一个特定领域的语言模型。他们认为:首先,解决数学问题需要与大量的专业先验知识进行模式匹配,因此是进行领域适应性训练的理想环境;其次,数学推理本身就是 AI 的核心任务;最后,能够进行强数学推理的语言模型是许多研究课题的上游,如奖励建模、推理强化学习和算法推理。

因此,他们提出一种方法,通过对 Proof-Pile-2 进行持续的预训练,使语言模型适应数学。Proof-Pile-2 是数学相关文本和代码的混合数据。将这一方法应用于 Code Llama,可以得到 LLEMMA:7B 和 34B 的基础语言模型,其数学能力得到了大幅提高。

wKgZomU10CaAfxDAAAFcpQH7b3o494.png

论文地址:https://arxiv.org/pdf/2310.10631.pdf

项目地址:https://github.com/EleutherAI/math-lm

LLEMMA 7B 的 4-shot Math 性能远超谷歌 Minerva 8B,LLEMMA 34B 在参数少近一半的情况下性能逼近 Minerva 62B。

wKgZomU10CaAZk_oAAKgLyxaIIM868.png

具体来说,本文贡献如下:

  • 1. 训练并发布了 LLEMMA 模型:专门用于数学的 7B 和 34B 语言模型。LLEMMA 模型是在 MATH 上公开发布的基础模型的最新水平。

  • 2. 发布了代数堆栈(AlgebraicStack),这是一个包含 11B 专门与数学相关的代码 token 的数据集。

  • 3. 证明了 LLEMMA 能够使用计算工具来解决数学问题,即 Python 解释器和形式定理证明器。

  • 4. 与之前的数学语言模型(如 Minerva)不同,LLEMMA 模型是开放式的。研究者开放了训练数据和代码。这使得 LLEMMA 成为未来数学推理研究的一个平台。

方法概览

LLEMMA 是专门用于数学的 70B 和34B 语言模型。它由 Proof-Pile-2 上继续对代码 Llama 进行预训练得到的。

wKgZomU10CaAe9GbAAG9tF6AKXA534.png

DATA: Proof-Pile-2

研究者创建了 Proof-Pile-2,这是一个 55B token 的科学论文、包含数学的网络数据和数学代码的混合物。除了 Lean proofsteps 子集之外,Proof-Pile-2 的知识截止日期为 2023 年 4 月。

wKgZomU10CaAbSQrAAH26m_Cmic200.png

数值模拟、计算机代数系统和形式定理证明器等计算工具对数学家的重要性与日俱增。因此,研究者创建了代数堆栈(AlgebraicStack),这是一个包含 17 种语言源代码的 11B token 数据集,涵盖数值数学、符号数学和形式数学。该数据集由来自 Stack、GitHub 公共资源库和形式证明步骤数据的过滤代码组成。表9显示了AlgebraicStack 中各语言的 token 数量。

wKgZomU10CeAPe9rAAL9Lu3uqdc489.png

AlgebraicStack 中各语言的 token 数。

研究者了使用 OpenWebMath,这是一个由高质量网页组成的 15B token 数据集,其中过滤了数学内容。OpenWebMath 根据数学相关关键词和基于分类器的数学评分过滤 CommonCrawl 网页,保留数学格式(如 LATEX、AsciiMath),并包含额外的质量过滤器(如 plexity、domain、length)和近似重复。

除此之外,研究者还使用了 RedPajama 的 ArXiv 子集,它是 LLaMA 训练数据集的开放再现。ArXiv 子集包含 29B 个词块。训练混合数据由少量一般领域数据组成,起到了正则化的作用。由于 LLaMA 2 的预训练数据集尚未公开,研究者使用 Pile 作为替代训练数据集。

模型和训练

每个模型都是从 Code Llama 初始化而来,该模型又初始化自 Llama 2,使用仅解码器(deconder only)的 transformer 结构,在 500B 的代码 token 上训练而成。研究者使用标准自回归语言建模目标,在 Proof-Pile-2 上继续训练 Code Llama 模型。这里,LLEMMA 7B 模型有 200B token,LLEMMA 34B 模型有 50B token。

研究者使用 GPT-NeoX 库在 256 个 A100 40GB GPU 上,以 bfloat16 混合精度来训练以上两个模型。他们为 LLEMMA-7B 使用了世界大小为 2 的张量并行,为 34B 使用了世界大小为 8 的张量并行,以及跨数据并行副本的 ZeRO Stage 1 分片优化器状态。此外还使用 Flash Attention 2 来提高吞吐量并进一步降低内存需求。

LLEMMA 7B 经过了 42000 步的训练,全局 batch 大小为 400 万个 token,上下文长度为 4096 个 token。这相当于 23000 个 A100 时。学习率在 500 步后预热到了 1?10^?4,然后在 48000 步后将余弦衰减到最大学习率的 1/30。

LLEMMA 34B 经过了 12000 步的训练,全局 batch 大小同样为 400 万个 token,上下文长度为 4096。这相当于 47000 个 A100 时。学习率在 500 步后预热到了 5?10^?5,然后衰减到峰值学习率的 1/30。

评估结果

在实验部分,研究者旨在评估 LLEMMA 是否可以作为数学文本的基础模型。他们利用少样本评估来比较 LLEMMA 模型,并主要关注没有在数学任务监督样本上进行微调的 SOTA 模型。

研究者首先使用思维链推理和多数投票(majority voting)方法来评估 LLEMMA 求解数学题的能力,评估基准包括了 MATH 和 GSM8k。然后探索使用少样本工具和定理证明。最后研究了内存和数据混合的影响。

使用思维链(CoT)求解数学题

这些任务包括为 LATEX 或自然语言表示的问题生成独立的文本答案,而无需使用外部工具。研究者使用到的评估基准有 MATH、GSM8k、 OCWCourses、SAT 和 MMLU-STEM。

结果如下表 1 所示,LLEMMA 在 Proof-Pile-2 语料库上的持续预训练在 5 个数学基准上均提升了少样本性能,其中 LLEMMA 34B 在 GSM8k 上比 Code Llama 提高了 20 个百分点,在 MATH 上比 Code Llama 提高了 13 个百分点。同时 LLEMMA 7B 优于专有的 Minerva 模型。

因此,研究者得到结论,在 Proof-Pile-2 上进行持续预训练有助于提升预训练模型求解数学题的能力。

wKgZomU10CeAPYmNAAO3NtutYDs350.png

使用工具求解数学题

这些任务包括使用计算工具来解题。研究者使用到的评估基准有 MATH+Python 和 GSM8k+Python。

结果如下表 3 所示,LLEMMA 在这两项任务上均优于 Code Llama。同时使用工具后在 MATH 和 GSM8k 上的性能也优于没有工具的情况。

wKgZomU10CeAQEzzAAHZi6G1Ss0371.png

形式数学

Proof-Pile-2 的 AlgebraicStack 数据集拥有 15 亿 token 的形式数学数据,包括提取自 Lean 和 Isabelle 的形式化证明。虽然对形式数学的全面研究超出了本文的探讨范围,但研究者在以下两个任务上评估了 LLEMMA 的少样本性能。

wKgZomU10CiAOFjoAAS1H2R2nlk848.png

非形式到形式证明任务,即在给定形式命题、非形式 LATEX 命题和非形式 LATEX 证明的情况下,生成一个形式证明;

形式到形式证明任务,即通过生成一系列证明步骤(或策略)来证明一个形式命题。

结果如下表 4 所示,LLEMMA 在 Proof-Pile-2 上的持续预训练在两个形式定理证明任务上提升了少样本性能。

数据混合的影响

训练语言模型时,一种常见的做法是根据混合权重对训练数据的高质量子集进行上采样。研究者在几个精心挑选的混合权重上进行了短期训练,以此选择混合权重。接着选择了在一组高质量 held-out 文本(这里使用了 MATH 训练集)上能够最小化困惑度的混合权重。

下表 5 显示了使用 arXiv、web 和代码等不同数据混合训练后,模型的 MATH 训练集困惑度。

wKgZomU10CiAdPjxAALJca0qrP0510.png

更多技术细节和评估结果参阅原论文。


原文标题:参数少近一半,性能逼近谷歌Minerva,又一个数学大模型开源了

文章出处:【微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 物联网
    +关注

    关注

    2932

    文章

    46357

    浏览量

    394367

原文标题:参数少近一半,性能逼近谷歌Minerva,又一个数学大模型开源了

文章出处:【微信号:tyutcsplab,微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    华为正式开源盘古7B稠密和72B混合专家模型

    [中国,深圳,2025年6月30日] 今日,华为正式宣布开源盘古70亿参数的稠密模型、盘古Pro MoE 720亿参数的混合专家模型和基于昇
    的头像 发表于 06-30 11:19 ?613次阅读

    看点:黄仁勋:全球一半AI人才都是中国人 富士康将在印度投资15亿美元

    。全球有一半AI人员都是中国人,美国是无法阻止中国AI发展的。而且盛赞我国的Deepseek R1;黄仁勋表示Deepseek R1是款非常棒的产品。Deepseek R1是献给世界的礼物 ;它还为世界各地的美国研究人员开辟
    的头像 发表于 05-21 11:40 ?370次阅读

    模型数学能力或许直都在关键在于如何唤醒它

    却给出了令人震惊的答案:仅需 817 条精心设计的样本,就能让模型数学竞赛级别的题目上超越当前许多最先进模型。这
    的头像 发表于 02-17 17:44 ?616次阅读
    大<b class='flag-5'>模型</b>的<b class='flag-5'>数学</b>能力或许<b class='flag-5'>一</b>直都在关键在于如何唤醒它

    ADS1256第次上电的时候,采集的ADC信号是实际值的一半,为什么?

    最近在用ADS1256这款ADC芯片,出现很怪异的问题。当我第次上电的时候,采集的ADC信号是实际值的
    发表于 12-13 15:33

    关于逆变器的电流峰值控制,为啥电流波形只有一半

    我是用电流峰值控制方法去做反激式逆变器的。为啥我副边电流波形只有一半呢。硬件定是好的,软件是我自己写的,不知道是程序哪里出了问题,希望能解答
    发表于 12-10 16:24

    Kimi发布新一代数学推理模型k0-math

    、考研以及包含入门竞赛题的MATH等四个数学基准测试中,k0-math初代模型的表现超越o1-mini和o1-preview模型。而在两
    的头像 发表于 11-18 11:38 ?1025次阅读

    ADS8686S读取值为实际值一半,是什么原因导致的?

    ADS8686S使用SPI串行通讯,软件模式;SDOA单线数据,终端配置±5V量程,刚开开始运行均正常,校准系数都对,突然code值变为一半;改变输入值也成比例变化,录波波形也正常,幅值也是一半
    发表于 11-18 07:48

    科技云报到:假开源真噱头?开源模型和你想的不样!

    查看、修改、分发。开源自此深刻影响了互联网行业的每一个角落。 在大模型和GenAI崛起的当下,开源再次成为业界关注焦点,对于开源和闭源的争论
    的头像 发表于 11-03 10:46 ?623次阅读

    TPA3255如果仅使用一半,如何处理最好?

    TPA3255只用其中一半做BTL功放,A/B输入,A/B输出。请问C/D 输入端和C/D 输出端如何处理。还有,22、23、24、25、26、27、28、29、30、31(所有仅涉及C/D输入输出的引脚)如何处理,对于芯片比较安全。
    发表于 09-30 06:10

    在频率较高时,如果用50Ω进行匹配,那么电压是不是衰减一半

    在频率较高时,需要考虑阻抗匹配,如果用50Ω进行匹配,那么电压是不是衰减一半
    发表于 09-20 08:24

    用opa842连简单的跟随器,就是输出端直接反馈到反向端,为什么输出会衰减为一半

    我用opa842连简单的跟随器,就是输出端直接反馈到反向端,为什么输出会衰减为一半? 第二问题,用opa842连同相放大器(反馈
    发表于 09-19 07:50

    开源鸿蒙】使用QEMU运行OpenHarmony轻量系统

    本文将会介绍如何从源码安装QEMU 6.2.0,以及如何使用QEMU运行OpenHarmony轻量系统。通过本文,你将会对QEMU和OpenHarmony轻量系统又一个初步的认知,并对如何使用QEMU又一个初步的理解和体会。
    的头像 发表于 09-14 08:51 ?1425次阅读
    【<b class='flag-5'>开源</b>鸿蒙】使用QEMU运行OpenHarmony轻量系统

    如何将输出电压降低一半

    需要将输出电压降低一半,之前输出电压大概是0到10V左右,大家能给方案吗?后面还要进行AD转换,所以需要精确,不要电阻分压。最好用TI的芯片。
    发表于 09-14 06:20

    使用VCA821进行可调增益倍数放大,输出的信号只有一半放大,另一半没有变化,为什么?

    使用VCA821进行可调增益倍数放大,下面是VCA821的原理图,Vin是DA输出信号,Vg是可调的搞电平输出,Amax=20dB, 但是VCA821输出的信号只有一半放大,另一半没有变化。这个是偏置的问题吗?有什么解决的方
    发表于 09-12 07:48

    惠普回应将一半PC生产迁出中国传闻

    针对近期外媒关于惠普计划将一半以上个人电脑(PC)生产迁出中国的传闻,惠普中国方面迅速作出回应,明确指出该报道不实。惠普强调,中国在其全球供应链中占据着不可或缺的重要地位,是公司持续发展的基石。
    的头像 发表于 08-09 10:34 ?768次阅读