0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

1024块TPU在燃烧!将BERT预训练模型的训练时长从3天缩减到了76分钟

电子工程师 ? 来源:lp ? 2019-04-04 16:27 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

“Jeff Dean称赞,TensorFlow官方推特支持,BERT目前工业界最耗时的应用,计算量远高于ImageNet。我们将BERT的训练时间从三天缩短到了一小时多。”UC Berkeley大学在读博士尤洋如是说道。

近日,来自Google、UC Berkeley、UCLA研究团队再度合作,成功燃烧1024块TPU,将BERT预训练模型的训练时长从3天缩减到了76分钟。batch size技术是加速神经网络训练的关键,在“Reducing BERT Pre-Training Time from 3 Days to 76 Minutes”这篇论文中,作者提出了LAMB优化器,它支持自适应元素更新和分层校正。

论文传送门:https://arxiv.org/pdf/1904.00962.pdf

论文摘要:batch size增加到很大时的模型训练是加速大型分布式系统中深度神经网络训练的关键。但是,这种模型训练很难,因为它会导致一种泛化差距。直接优化通常会导致测试集上的准确性下降。

BERT是一种先进的深度学习模型,它建立在语义理解的深度双向转换器上。当我们增加batch size的大小(如超过8192)时,此前的模型训练技巧在BERT上表现得并不好。BERT预训练也需要很长时间才能完成,如在16个TPUv3上大约需要三天。

为了解决这个问题,我们提出了LAMB优化器,可将batch size扩展到65536,且不会降低准确率。LAMB是一个通用优化器,batch size大小均使用,且除了学习率之外不需要别的参数调整。

基线BERT-Large模型需要100万次迭代才能完成预训练,而batch size大小为65536/32768的LAMB仅需要8599次迭代。我们还将batch size进行内存限制,接近TPUv3 pod,结果可在76分钟内完成BERT训练。

据悉,该论文的一作是来自UC Berkeley计算机科学部的在读博士尤洋,同时也是Google Brain的实习生。据公开信息显示,尤洋的导师是美国科学院与工程院院士,ACM/IEEE fellow,伯克利计算机系主任,以及首批中关村海外顾问James Demmel教授。他当前的研究重点是大规模深度学习训练算法的分布式优化。2017年9月,尤洋等人的新算法以24分钟完成ImageNet训练,刷新世界纪录。

在此之前,他曾在英特尔实验室、微软研究院、英伟达、IBM沃森研究中心等机构实习。尤洋本科就读于中国农业大学计算机系,硕士保送清华大学计算机系,是一名杠杠的理工学霸!

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4814

    浏览量

    104487
  • TPU
    TPU
    +关注

    关注

    0

    文章

    154

    浏览量

    21270
  • 深度学习
    +关注

    关注

    73

    文章

    5569

    浏览量

    123090
  • 训练模型
    +关注

    关注

    1

    文章

    37

    浏览量

    3984

原文标题:1024块TPU在燃烧!BERT训练从3天缩短到76分钟 | 技术头条

文章出处:【微信号:rgznai100,微信公众号:rgznai100】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    海思SD3403边缘计算AI数据训练概述

    模型模型转化为嵌入式AI模型模型升级AI摄像机,进行AI识别应用。 AI训练
    发表于 04-28 11:11

    用PaddleNLP为GPT-2模型制作FineWeb二进制训练数据集

    作者:算力魔方创始人/英特尔创新大使刘力 《用PaddleNLP4060单卡上实践大模型训练技术》发布后收到读者热烈反响,很多读者要求进一步讲解更多的技术细节。本文主要针对大语言
    的头像 发表于 03-21 18:24 ?2338次阅读
    用PaddleNLP为GPT-2<b class='flag-5'>模型</b>制作FineWeb二进制<b class='flag-5'>预</b><b class='flag-5'>训练</b>数据集

    训练好的ai模型导入cubemx不成功怎么处理?

    训练好的ai模型导入cubemx不成功咋办,试了好几个模型压缩了也不行,ram占用过大,有无解决方案?
    发表于 03-11 07:18

    Open Model Zoo下载的FastSeg大型公共训练模型,无法导入名称是怎么回事?

    Open Model Zoo 下载的 FastSeg 大型公共训练模型。 运行 converter.py 以 FastSeg
    发表于 03-05 07:22

    用PaddleNLP4060单卡上实践大模型训练技术

    作者:算力魔方创始人/英特尔创新大使刘力 之前我们分享了《从零开始训练一个大语言模型需要投资多少钱》,其中高昂的训练费用让许多对大模型
    的头像 发表于 02-19 16:10 ?1156次阅读
    用PaddleNLP<b class='flag-5'>在</b>4060单卡上实践大<b class='flag-5'>模型</b><b class='flag-5'>预</b><b class='flag-5'>训练</b>技术

    模型训练框架(五)之Accelerate

    Hugging Face 的 Accelerate1是一个用于简化和加速深度学习模型训练的库,它支持多种硬件配置上进行分布式训练,包括 CPU、GPU、
    的头像 发表于 01-14 14:24 ?873次阅读

    KerasHub统一、全面的训练模型

    深度学习领域正在迅速发展,处理各种类型的任务中,训练模型变得越来越重要。Keras 以其用户友好型 API 和对易用性的重视而闻名,始终处于这一动向的前沿。Keras 拥有专用的内
    的头像 发表于 12-20 10:32 ?553次阅读

    GPU是如何训练AI大模型

    AI模型训练过程中,大量的计算工作集中矩阵乘法、向量加法和激活函数等运算上。这些运算正是GPU所擅长的。接下来,AI部落小编带您了解GPU是如何
    的头像 发表于 12-19 17:54 ?838次阅读

    什么是大模型、大模型是怎么训练出来的及大模型作用

    ,基础模型。 ? 大模型是一个简称,完整的叫法,应该是“人工智能训练模型”。
    的头像 发表于 11-25 09:29 ?1.4w次阅读
    什么是大<b class='flag-5'>模型</b>、大<b class='flag-5'>模型</b>是怎么<b class='flag-5'>训练</b>出来的及大<b class='flag-5'>模型</b>作用

    如何训练自己的LLM模型

    训练自己的大型语言模型(LLM)是一个复杂且资源密集的过程,涉及到大量的数据、计算资源和专业知识。以下是训练LLM模型的一般步骤,以及一些关键考虑因素: 定义目标和需求 : 确定你的L
    的头像 发表于 11-08 09:30 ?1667次阅读

    PyTorch GPU 加速训练模型方法

    深度学习领域,GPU加速训练模型已经成为提高训练效率和缩短训练时间的重要手段。PyTorch作为一个流行的深度学习框架,提供了丰富的工具和
    的头像 发表于 11-05 17:43 ?1546次阅读

    Llama 3 模型训练技巧

    Llama 3 模型,假设是指一个先进的人工智能模型,可能是一个虚构的或者是一个特定领域的术语。 1. 数据预处理 数据是任何机器学习模型的基础。
    的头像 发表于 10-27 14:24 ?930次阅读

    如何训练自己的AI大模型

    训练自己的AI大模型是一个复杂且耗时的过程,涉及多个关键步骤。以下是一个详细的训练流程: 一、明确需求和目标 首先,需要明确自己的需求和目标。不同的任务和应用领域需要不同类型的AI模型
    的头像 发表于 10-23 15:07 ?5346次阅读

    直播预约 |数据智能系列讲座第4期:训练的基础模型下的持续学习

    神经网络,特别是训练的基础模型研究得到了广泛的应用,但其仍然主要依赖于大量样本上的批量式训练
    的头像 发表于 10-18 08:09 ?685次阅读
    直播预约 |数据智能系列讲座第4期:<b class='flag-5'>预</b><b class='flag-5'>训练</b>的基础<b class='flag-5'>模型</b>下的持续学习

    如何训练ai大模型

    可靠的来源获取数据,如公开数据集、内部数据库或第三方数据提供商。 2. 数据清洗 去除重复数据 :确保数据集中没有重复项,以避免训练过程中引入冗余信息。 处理缺失值 :对于缺失的数据,可以采取填充、删除或插值等方法进行处
    的头像 发表于 10-17 18:17 ?2859次阅读