【ChatGPT专题】ChatGPT关键技术之RLHF简介-AET-电子技术应用

【ChatGPT专题】ChatGPT关键技术之RLHF简介

日期： 2023-02-15

来源：启明星辰核心技术研究

关键词： ChatGPT RLHF OpenAI

　　带有人类反馈的强化学习（RLHF）是一种训练大型语言模型（LLM）的新技术，对OpenAI的ChatGPT模型、DeepMind的Sparrow、Anthropic的Claude等都至关重要。不是仅仅训练LLM来预测下一个单词，而是训练它们理解指令并产生有用的回应。Surge AI的官方博客发表了一篇文章对RLHF技术进行了简介，文章首先给出一些例子对比了没有使用RLHF技术训练的LLM与使用了RLHF技术训练的LLM的差异，然后简要描述了RLHF技术的主要步骤。

　　RLHF使用与否的差异

　　文章给出3个例子，分别是让LLM写一封邮件、做数学运算和生成代码。以下是RLHF使用与否的对比结果（左侧未使用RLFH，右侧使用），很容易看出使用RLHF训练的LLM输出的结果明显优于未使用时的情形。

　　微信截图_20230215172543.png

　　RLHF的主要步骤

　　RLHF技术主要分为如下4个步骤。

　　无监督预训练

　　可以从一个预训练好的语言模型开始，比如GPT-3。

　　有监督的微调

　　生成一组指令，以及对每个指令的人类写的反应。换句话说，生成一个由<提示，理想生成>对组成的训练数据集。然后对预训练的模型进行微调，以输出这些人类反应。

　　训练一个“人类反馈”的奖励模型

　　这一步是建立一个奖励模型，对一个LLM的输出对一个给定的反应的好坏进行评分。换句话说，奖励模型是另一个模型（例如，另一个砍掉了最后几层的LLM），它将提示和生成作为输入，并输出一个标量奖励。

　　再生成一组新的指令，然后生成一组机器生成的对这些指令的反应，并由人类对其质量进行评分或排名。使用这个数据集来训练一个奖励模型，为任何<提示，生成>对输出一个质量分数。

　　训练一个基于奖励模型进行优化的强化学习策略

　　最后，训练一个基于奖励模型进行优化的强化学习策略（即，试图生成奖励模型认为人类更喜欢的文本），它就是新的RLHF算法！

　　换句话说，在强化学习模型中，从一个给定的状态采取的行动将为策略提供一个奖励，它将努力使之最大化。在本场景中，策略本质上只是一个语言模型，它的行动是生成文本，而它的奖励是奖励模型给生成的文本的分数。

　　所以要训练这个RLHF模型：

　　首先，将RL策略初始化为步骤2中的微调LLM。然后重复以下操作。

　　取一个提示并使用RL策略生成一个输出。

　　使用奖励模型来计算该输出的奖励。

　　根据奖励更新RL策略（即，该策略现在正在学习它是否产生了好的或坏的反应）。

　　简评

　　RLHF是训练语言模型的新技术，是近期大火的ChatGPT及其竞品所采用的关键技术之一，它使得LLM的输出更符合人类的偏好。OpenAI还发现RLHF模型的效率要高得多：1.3B参数的RLHF模型优于1750B参数的非RLHF模型，尽管参数少了100多倍。

　　近期ChatGPT的相关信息席卷整个互联网，受到大众的关注，一个重要原因就是其在多个领域背景下的问答对话相比于之前的LLM（如GPT-3）要有明显的提升，从上文所列举的3个简单例子就可见一斑了。从目前公开的相关技术信息来看，ChatGPT构建在GPT-3基础上，模型的规模与参数量没有增大，采用了与InstructGPT相同代际的模型（被人称为GPT-3.5）。而InstructGPT的核心改进正是本文所介绍的RLHF技术，通过将带人类反馈的强化学习引入以训练语言模型来输出人们更偏爱的结果，使得对话更符合人类逻辑。需要注意的是，ChatGPT依然还是一种LLM，核心能力是完成各类自然语言处理及理解相关的各种任务，在准确性与专业性上，还是会受限于其训练数据，距离通用人工智能（AGI）还有相当的距离，其相比于GPT-3的改进还达不到所谓的“革命性”或“颠覆性”，但是我们依然可以继续期待未来的GPT-4及之后版本将会带来什么样的提升。

敬请关注电子技术应用2023年2月22日==>>商业航天研讨会<<

微信图片_20230210170337.jpg

版权声明：本站内容除特别声明的原创文章之外，转载内容只为传递更多信息，并不代表本网站赞同其观点。转载的所有的文章、图片、音/视频文件等资料的版权归版权所有权人所有。本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如涉及作品内容、版权和其它问题，请及时通过电子邮件或电话通知我们，以便迅速采取适当措施，避免给双方造成不必要的经济损失。联系电话：010-82306118；邮箱：aet@chinaaet.com。

【ChatGPT专题】ChatGPT关键技术之RLHF简介

日期： 2023-02-15

来源：启明星辰核心技术研究

相关内容