资料介绍
在“人工标注数据+强化学习”框架下,具体而言,InstructGPT的训练过程分为以下三个阶段:
第一阶段:冷启动阶段的监督策略模型
靠GPT 3本身,尽管它很强,但是它很难理解人类不同类型指令中蕴含的不同意图,也很难判断生成内容是否是高质量的结果。为了让GPT 3初步具备理解指令中蕴含的意图,首先会从测试用户提交的prompt(就是指令或问题)中随机抽取一批,靠专业的标注人员,给出指定prompt的高质量答案,然后用这些人工标注好的数据来Fine-tune GPT 3模型。经过这个过程,我们可以认为 GPT 3初步具备了理解人类prompt中所包含意图,并根据这个意图给出相对高质量回答的能力,但是很明显,仅仅这样做是不够的。
第二阶段:训练回报模型(RewardModel,RM)
这个阶段的主要目的是通过人工标注训练数据,来训练回报模型。具体而言,随机抽样一批用户提交的prompt(大部分和第一阶段的相同),使用第一阶段Fine-tune好的冷启动模型,对于每个prompt,由冷启动模型生成K个不同的回答,于是模型产生出了,…。数据。之后,标注人员对K个结果按照很多标准(上面提到的相关性、富含信息性、有害信息等诸多标准)综合考虑进行排序,给出K个结果的排名顺序,这就是此阶段人工标注的数据。接下来,我们准备利用这个排序结果数据来训练回报模型,采取的训练模式其实就是平常经常用到的pair-wiselearning to rank。对于K个排序结果,两两组合,形成 ( k 2 ) \binom{k}{2} (2k) 个训练数据对,ChatGPT采取pair-wiseloss来训练Reward Model。RM模型接受一个输入,给出评价回答质量高低的回报分数Score。对于一对训练数据,我们假设人工排序中answer1排在answer2前面,那么Loss函数则鼓励RM模型对的打分要比 的打分要高。归纳下:在这个阶段里,首先由冷启动后的监督策略模型为每个prompt产生K个结果,人工根据结果质量由高到低排序,以此作为训练数据,通过pair-wiselearning to rank模式来训练回报模型。对于学好的RM模型来说,输入,输出结果的质量得分,得分越高说明产生的回答质量越高。
- FPGA加速视觉搜索引擎解决方案
- 超强的ChatGPT会成为下一代搜索引擎吗
- 基于蜕变测试的用户搜索引擎性能分析 9次下载
- python爬虫入门教程之python爬虫视频教程分布式爬虫打造搜索引擎 29次下载
- 分布式搜索引擎elasticsearch使用手册 0次下载
- 一个大规模超文本网络搜索引擎剖析(英文版) 0次下载
- 基于JAVA技术的搜索引擎的研究与实现
- 主题搜索引擎的研究
- 教育网BBS搜索引擎设计与实现
- 基于压缩后缀数组技术的搜索引擎
- 原创优先的搜索引擎排序算法
- 基于伪爬行器的主题式元搜索引擎研究与设计
- 搜索引擎查询日志的聚类
- 基于网格技术的并行搜索引擎
- 基于网络搜索引擎的网络话题分析框架
- 谷歌搜索引擎优化的各个方面和步骤 930次阅读
- 下一代硅光子技术会是什么样子? 671次阅读
- 使用Rust语言重写的代码搜索引擎黑鸟系统Blackbird正式启用 889次阅读
- 一个基于GPT-4的代码搜索引擎,开源了! 1425次阅读
- 下一代军事通信挑战 1039次阅读
- Elasticsearch 8作为开源软件正式发布 2459次阅读
- 实测没有广告的百度开发者搜索 2835次阅读
- 大数据是如何优化企业搜索引擎 2262次阅读
- 基于Bystack主侧链架构的下一代去中心跨链MOV协议介绍 1297次阅读
- Elasticsearch概述 怎么安装ES 4335次阅读
- 如何用Python实现一个大数据搜索引擎 3062次阅读
- 如何在Python中进行Elasticsearch操作? 7671次阅读
- 基于深度学习技术,从头开始搭建图像语义搜索引擎 4912次阅读
- 垂直搜索引擎是什么_垂直搜索引擎有哪些 7943次阅读
- 下一代平板显示:OLED、MICRO LED、QLED谁将胜出? 1695次阅读
下载排行
本周
- 1山景DSP芯片AP8248A2数据手册
- 1.06 MB | 532次下载 | 免费
- 2RK3399完整板原理图(支持平板,盒子VR)
- 3.28 MB | 339次下载 | 免费
- 3TC358743XBG评估板参考手册
- 1.36 MB | 330次下载 | 免费
- 4DFM软件使用教程
- 0.84 MB | 295次下载 | 免费
- 5元宇宙深度解析—未来的未来-风口还是泡沫
- 6.40 MB | 227次下载 | 免费
- 6迪文DGUS开发指南
- 31.67 MB | 194次下载 | 免费
- 7元宇宙底层硬件系列报告
- 13.42 MB | 182次下载 | 免费
- 8FP5207XR-G1中文应用手册
- 1.09 MB | 178次下载 | 免费
本月
- 1OrCAD10.5下载OrCAD10.5中文版软件
- 0.00 MB | 234315次下载 | 免费
- 2555集成电路应用800例(新编版)
- 0.00 MB | 33566次下载 | 免费
- 3接口电路图大全
- 未知 | 30323次下载 | 免费
- 4开关电源设计实例指南
- 未知 | 21549次下载 | 免费
- 5电气工程师手册免费下载(新编第二版pdf电子书)
- 0.00 MB | 15349次下载 | 免费
- 6数字电路基础pdf(下载)
- 未知 | 13750次下载 | 免费
- 7电子制作实例集锦 下载
- 未知 | 8113次下载 | 免费
- 8《LED驱动电路设计》 温德尔著
- 0.00 MB | 6656次下载 | 免费
总榜
- 1matlab软件下载入口
- 未知 | 935054次下载 | 免费
- 2protel99se软件下载(可英文版转中文版)
- 78.1 MB | 537798次下载 | 免费
- 3MATLAB 7.1 下载 (含软件介绍)
- 未知 | 420027次下载 | 免费
- 4OrCAD10.5下载OrCAD10.5中文版软件
- 0.00 MB | 234315次下载 | 免费
- 5Altium DXP2002下载入口
- 未知 | 233046次下载 | 免费
- 6电路仿真软件multisim 10.0免费下载
- 340992 | 191187次下载 | 免费
- 7十天学会AVR单片机与C语言视频教程 下载
- 158M | 183279次下载 | 免费
- 8proe5.0野火版下载(中文版免费下载)
- 未知 | 138040次下载 | 免费
评论