0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

布朗大学90后研究生:我们复现了15亿参数GPT-2模型,你也行!

DPVg_AI_era ? 来源:lq ? 2019-09-01 07:11 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

布朗大学的计算机科学研究毕业生 Vanya Cohen 近日在 Medium 分享了他复现 GPT-2 大模型的全过程。作者复刻了Open-AI 15亿参数模型,允许其他人在其预训练模型上进行构建并进一步改进。

BERT,XLNet,GPT-2和Grover等大型语言模型在生成文本和多个NLP任务方面取得了令人瞩目的成果。

本文试图去复刻GPT-2的15亿模型以供研究人员使用。

Google Colab地址:

https://colab.research.google.com/drive/1esbpDOorf7DQJV8GXWON24c-EQrSKOit

单独提供的模型权重:

https://drive.google.com/drive/u/1/folders/1KfK5MXtvgH8C615UUZoKPIUVJYIdJxX1

复刻

之所以采取迟迟不放出模型的安全战略,是因为这些模型难以复刻并需要高度专业的领域知识。

但是布朗大学的两名硕士研究生却证明了本文的许多结果复刻起来并不是那么的难。而且不仅他们俩可以,绝大多数感兴趣的人都可以复刻GPT-2。

研究生之一:Vanya Cohen

此外,Zellers等人表明像GPT-2这样的大型语言模型是一种非常有用的工具,可以抵制使用与文本生成器相同的模型。

两位研究生经过深思熟虑后认为,复刻工作并不是独一无二的,并且大型语言模型是目前抵制生成文本的最有效手段,因此在对抗未来模型被滥用的可能性方面,发布本模型是有益的。

本模型的实现基于Grover模型,并修改其代码库以匹配GPT-2的语言建模训练目标。由于他们的模型是在类似的大型语料库上进行训练的,因此大部分代码和超参数都可以重复使用。本模型没有从Grover中大幅改变超参数。

使用本模型代码从头开始训练模型的成本约为5万美元。要注意这个数字是云计算的估计值,并不包含所涉及的各种其他细微的内部成本。

存在显著的时间-成本平衡,并且较慢的训练方法具有相当小的成本,因此降低了使用门槛。

数据集

原始文件提供了有关如何清理数据集的最低限度的详细信息。

与在WebText中一样,首先从Reddit中解析出超过3个向上投票的所有链接。接着,从PushshiftRedditscrape开始。这是一个包含不断更新的Reddit帖子、评论以及相关元数据集合的数据集。

然后过滤一些链接以删除不太可能包含可用文本或HTML(即视频文件,PDF和CSS样式文件)的文件类型的直接链接。

同时还过滤网页以删除维基百科,因为它被各种评估基准和数据集使用。目前还无法确定过滤标准是否与OpenAI相匹配,因为此信息从未发布过。

使用Newspaper Python库从HTML页面中提取文本,然后使用fastText Python库来提取英文文本、过滤掉其他语言。具体来说,使用WhatTheLangpython Wrapper。

使用局部敏感散列(LSH)来去重。然后将文档散列为5-grams的集合,并且删除了相似度阈值大于0.5的所有文档。

使用Heuristic Cleaning算法,从数据集中删除少于128个令牌的文档。这些较短的文件往往质量较低,这是由文本连贯性决定的。最后将此数据集作为OpenWebTextCorpus发布。

使用Radford等人发布的小型模型和Binary Pattern Encoder对数据集进行编码,并使用OpenWebText web-scrapingcodebase的修改版本作为数据集集合的起点。

勘误表

从公开发布的来自WebText的260k文档集合中来看,研究人员发现所有文件都具有最小字节对(BPE)编码,长度为40,最大值为1024.

OpenWebText的不同之处在于为128个令牌设置文档长度的下限(而不是BPE代码),并且不限制最大文档长度。

原始的WebTextCorpus在这些样本可用之前发布,因此没有使用该信息来生成cleaning heuristics。

研究人员曾多次尝试联系Radford等人,以澄清评估和模型细节,但最终都没有成功。

结果

尽管训练分布存在差异,但确实报告了与大多数数据集相似的困惑。

示例:输入“Recycling is good for the world. NO! YOU COULD NOT BE MORE WRONG!!”输出结果如下:

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 语言模型
    +关注

    关注

    0

    文章

    565

    浏览量

    10875
  • 数据集
    +关注

    关注

    4

    文章

    1225

    浏览量

    25639

原文标题:布朗大学90后研究生:我们复现了15亿参数GPT-2模型,你也行!

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    新思科技连续八年助力中国研究生创“芯”大赛

    作为中国研究生创 “芯” 大赛的创始合作方,新思科技始终秉持初心,连续八年全力支持这一赛事,致力于为中国本土集成电路设计领域培育后备力量,以实际行动推动产业人才生态建设。
    的头像 发表于 08-15 15:40 ?183次阅读

    Cadence连续八年助力中国研究生创“芯”大赛

    中国研究生创“芯”大赛是中国研究生创新实践系列赛事之一,是一项面向全国高等院校和科研院所在读研究生的团体性集成电路设计创意实践活动。大赛以“创芯、选星、育芯”为宗旨,配合国家集成电路产业发展战略,切实提高
    的头像 发表于 08-06 15:05 ?392次阅读

    OpenAI发布2款开源模型

    OpenAI开源两款高性能权重语言模型gpt-oss-120b和gpt-oss-20b,OpenAI CEO Sam Altman表示:「gpt
    的头像 发表于 08-06 14:25 ?474次阅读

    概伦电子助力第八届中国研究生创“芯”大赛圆满落幕

    近日,“华为杯”第八届中国研究生创“芯”大赛决赛在南京大学苏州校区圆满落幕。作为国内首家EDA上市公司,关键核心技术具备国际市场竞争力的EDA领军企业,概伦电子已连续多年支持这一赛事,始终将产教融合
    的头像 发表于 08-05 17:20 ?522次阅读

    3Dfindit 提供的数字立方体模型研究项目的可视化提供支持

    作为学习项目的一部分,罗伊特林根教育大学的学生们在比辛根集中营纪念地的博物馆中使用 3Dfindit 动画立方体模型进行了学习。作为历史教学研讨会的一部分,学生们研究巴登-符腾堡州
    发表于 08-01 14:36

    模型推理显存和计算量估计方法研究

    ,为实际应用提供有益的参考。 未来,我们将继续深入研究模型推理的优化方法,以降低显存和计算资源的需求,提高深度学习模型在实际应用中的性能
    发表于 07-03 19:43

    感应电机智能调速

    内容先进,可作为电力传动专业特别是感应电机控制专业方向的大学教师和学生(高年级本科、硕士研究生、博士研究生)学习研究感应电机智能控制的参考
    发表于 05-28 15:53

    浙江大学与大华股份共建研究生联合培育基地

    近日,浙江大学研究生产教融合人才培养工作会议在杭州召开,会上举行了校级联合培养基地授牌仪式暨行业导师聘书颁发仪式,大华股份作为校级联合培养基地代表参会,标志着“浙江大学-大华股份研究生
    的头像 发表于 03-27 15:34 ?452次阅读

    FA90-220S15G2N5 FA90-220S15G2N5

    电子发烧友网为提供AIPULNION(AIPULNION)FA90-220S15G2N5相关产品参数、数据手册,更有FA90-220S15G2N5的引脚图、接线图、封装手册、中文资料
    发表于 03-19 18:31
    FA<b class='flag-5'>90-220S15G2</b>N5 FA<b class='flag-5'>90-220S15G2</b>N5

    用PaddleNLP在4060单卡上实践大模型预训练技术

    手把手教您如何在单张消费级显卡上,利用PaddleNLP实践OpenAI的GPT-2模型的预训练。GPT-2的预训练关键技术与流程与GPT-4等大
    的头像 发表于 02-19 16:10 ?1160次阅读
    用PaddleNLP在4060单卡上实践大<b class='flag-5'>模型</b>预训练技术

    OpenAI即将推出GPT-5模型

    OpenAI首席执行官奥尔特曼近日宣布一项重要消息:OpenAI将在今年未来几个月内推出全新的GPT-5模型。这一消息引起了业界的广泛关注和期待。 据了解,GPT-5
    的头像 发表于 02-13 11:21 ?690次阅读

    【「具身智能机器人系统」阅读体验】2.具身智能机器人大模型

    需要专业程序员进行繁琐的编程工作,这种方式不仅效率低下,还限制机器人的应用场景。例如,在我们大学工程实训课程中使用的数控机床,需要人为设定起点、终点、移动方向和移动距离等参数,自动化
    发表于 12-29 23:04

    中软国际助力广东外语外贸大学发布涉外法治人才实训大模型

    近期,2024年全国法律专业学位研究生培养单位工作会议在广东外语外贸大学隆重召开。在此次会议期间,由广东外语外贸大学(以下简称:广外)联合华为、中软国际共同研发的“涉外法治人才实训大模型
    的头像 发表于 12-26 10:09 ?692次阅读

    AMD发布10亿参数开源AI模型OLMo

    AMD公司近日宣布一项重大进展,推出了首个完全开放的10亿参数语言模型系列——AMD OLMo。这一举措为开发者和研究人员提供
    的头像 发表于 11-12 18:08 ?824次阅读

    RISC-V AI技术正式纳入北京大学研究生课程

    希姆计算与北京大学达成SOC课程合作2024年10月14日,希姆计算的范福杰博士走进北京大学集成电路学院的研究生课堂,为同学们讲授一节生动的《现代SoC芯片架构设计实验课程》。RIS
    的头像 发表于 10-18 08:09 ?1325次阅读
    RISC-V AI技术正式纳入北京<b class='flag-5'>大学</b><b class='flag-5'>研究生</b>课程