ChatGPT – 机器学习
赋予 ChatGPT 卓越功能的基础模型是什么?
ChatGPT 的功能建立在机器学习的基础上,其关键贡献来自其类型:监督学习、无监督学习和强化学习。在本章中,我们将了解机器学习如何为 ChatGPT 的功能做出贡献。
什么是机器学习?
机器学习是人工智能 (AI) 的一个动态领域,借助该领域,计算机系统通过算法或模型从原始数据中提取模式。这些算法使计算机能够自主地从经验中学习,并在没有明确编程的情况下做出预测或决策。
现在,让我们了解机器学习的类型及其在塑造 ChatGPT 功能方面的贡献。
监督学习
监督学习是机器学习的一个类别,其中使用标记数据集训练算法或模型。在这种方法中,算法具有输入输出对,其中每个输入都与相应的输出或标签相关联。监督学习的目标是让模型学习输入和输出之间的映射或关系,以便它可以对新的、看不见的数据做出准确的预测或分类。
ChatGPT 使用监督学习来初步训练其语言模型。在此第一阶段,语言模型使用包含输入和输出示例对的标记数据进行训练。在 ChatGPT 的上下文中,输入包括一部分文本,而相应的输出是该文本的延续或响应。
这些带注释的数据可帮助模型学习不同单词、短语及其上下文相关性之间的关联。ChatGPT 通过接触不同的示例,利用这些信息根据给定的输入预测最有可能的下一个单词或单词序列。这就是监督学习成为 ChatGPT 理解和生成类似人类的文本的基础的方式。
无监督学习
无监督学习是一种机器学习方法,其中算法或模型自主分析数据并从数据中得出见解,而无需标记示例的指导。简而言之,这种方法的目标是找到未标记数据中的固有模式、结构或关系。
监督学习为 ChatGPT 提供了坚实的基础,但 ChatGPT 的真正魔力在于能够创造性地生成连贯且与上下文相关的答案或响应。这就是无监督学习发挥作用的地方。
借助对各种互联网文本进行广泛的预训练,ChatGPT 对事实、推理能力和语言模式有了深刻的理解。这就是无监督学习释放 ChatGPT 创造力并使其能够对各种用户输入产生有意义的响应的方式。
强化学习
与监督学习相比,强化学习 (RL) 是一种机器学习范式,其中代理通过与环境交互来学习做出决策。代理在环境中采取行动,以奖励或惩罚的形式接收反馈,并利用这种反馈随着时间的推移改进其决策策略。
强化学习充当导航指南针,引导 ChatGPT 进行动态和不断发展的对话。在最初的监督和无监督学习阶段之后,该模型将进行强化学习,以根据用户反馈微调其响应。
大型语言模型 (LLM) 就像超级智能工具,可以从大量文本中获取知识。现在,想象一下使用一种称为强化学习的技术让这些工具变得更加智能。这就像教他们将知识转化为有用的行动。这种智力组合就是所谓的带人类反馈的强化学习(RLHF)背后的魔力,使这些语言模型能够更好地理解和响应我们。
带人类反馈的强化学习(RLHF)
2017 年,OpenAI 发表了一篇题为从人类偏好中进行深度强化学习的研究论文,其中首次揭示了带人类反馈的强化学习(RLHF)。有时我们需要在使用强化学习的情况下进行操作,但手头的任务很难解释。在这种情况下,人类反馈变得重要,可以产生巨大的影响。
RLHF 的工作原理是涉及少量的人类反馈来改进代理的学习过程。让我们借助此图了解其整体训练过程,这基本上是一个三步反馈循环 −
正如我们在图片中看到的,反馈周期介于代理对目标的理解、人工反馈和强化学习训练之间。
RLHF 最初用于机器人等领域,它证明了自己可以提供更可控的用户体验。这就是为什么 OpenAI、Meta、Google、Amazon Web Services、IBM、DeepMind、Anthropic 等大公司将 RLHF 添加到他们的大型语言模型 (LLM) 中的原因。事实上,RLHF 已成为最受欢迎的 LLM-ChatGPT 的关键构建模块。
ChatGPT 和 RLHF
在本节中,我们将解释 ChatGPT 如何使用 RLHF 与人类反馈保持一致。
OpenAI 利用循环中的强化学习和人类反馈(称为 RLHF)来训练他们的 InstructGPT 模型。在此之前,OpenAI API 由 GPT-3 语言模型驱动,该模型倾向于产生可能不真实且有害的输出,因为它们与用户不一致。
另一方面,InstructGPT 模型比 GPT-3 模型好得多,因为它们−
更少地编造事实
有毒输出的产生量略有减少。
使用 RLHF 对 ChatGPT 进行微调的步骤
对于 ChatGPT,OpenAI 采用了与 InstructGPT 模型类似的方法,数据收集设置略有不同。
步骤 1:SFT(监督微调)模型
第一步主要涉及数据收集以训练监督策略模型,称为 SFT 模型。对于数据收集,选择一组提示,然后要求一组人工标记者演示所需的输出。
现在,像 ChatGPT 这样的多功能聊天机器人的开发人员决定使用 GPT-3.5 系列的预训练模型,而不是对原始 GPT-3 模型进行微调。换句话说,开发人员选择在"代码模型"而不是纯基于文本的模型之上进行微调。
从这一步得出的 SFT 模型的一个主要问题是它倾向于出现错位,导致输出缺乏用户注意力。
第 2 步:奖励模型 (RM)
此步骤的主要目标是直接从数据中获取目标函数。该目标函数为 SFT 模型输出分配分数,按比例反映它们对人类的可取性。
让我们看看它是如何工作的 −
首先,对提示和 SFT 模型输出进行采样。
然后,标记器将这些输出从最好到最差进行排序。现在,数据集比第一步用于 SFT 模型的基线数据集大 10 倍。
现在使用新数据集来训练我们的奖励模型 (RM)。
步骤 3:使用 PPO(近端策略优化)微调 SFT 策略
在此步骤中,应用一种称为近端策略优化 (PPO) 的强化学习特定算法来微调 SFT 模型,使其能够优化 RM。这一步的输出是一个微调模型,称为 PPO 模型。让我们了解一下它是如何工作的 −
首先,从数据集中选择一个新的提示。
现在,初始化 PPO 模型以微调 SFT 模型。
此策略现在生成输出,然后 RM 根据该输出计算奖励。
然后使用此奖励通过 PPO 更新策略。
结论
在本章中,我们解释了机器学习如何增强 ChatGPT 的卓越功能。我们还了解了机器学习范式(监督、无监督和强化学习)如何有助于塑造 ChatGPT 的功能。
在 RLHF(带人工反馈的强化学习)的帮助下,我们探索了人工反馈的重要性及其对 ChatGPT 等通用聊天机器人性能的巨大影响。