当前位置:首页 > 教育 >

wpe零基础自学(wpe专业版使用教程)

来源:原点资讯(m.360kss.com)时间:2024-05-20 23:26:50作者:YD166手机阅读>>

作者:monychen,腾讯 IEG 应用研究员

简单来说,ChatGPT 是自然语言处理(NLP)和强化学习(RL)的一次成功结合,考虑到读者可能只熟悉其中一个方向或者两个方向都不太熟悉,本文会将 ChatGPT 涉及到的所有知识点尽可能通俗易懂的方式展现出来,有基础的同学可以选择性跳过一些内容。

GPT 的进化史

本节的主要目的是介绍自然语言处理中语言模型的一些基础知识,理解语言模型到底在做什么。

GPT

所谓的 GPT(Generative Pre-trained Transformer),其实是 Generative Pre Training of a language model(语言模型)。那什么是语言模型呢?可以简单地把语言模型理解为“给定一些字或者词,预测下一个字或者词的模型”,这里的字或者词在 NLP 领域通常也被称为 token,即给定已有 token,预测下一个 token 的模型,这里举个例子,我们在搜索引擎里进行搜索时,自动会往后联想就是种语言模型的体现。

wpe零基础自学,wpe专业版使用教程(1)

那么训练语言模型有什么优势呢?答案就是它不需要人工标注数据!

比如以“today is a good day”为例,它可以被拆解为:

训练数据标签todayistoday isatoday is agoodtoday is a goodday

接下来让我们来数学化地描述一下,给定一个句子,比如 ,语言模型其实就是想最大化:

其中 是考虑的窗口长度,条件概率 通过一个参数为 的神经网络来描述。

GPT 的神经网络采用了一个多层的 Transformer decoder,输入经过 embedding 层(token embedding 叠加 position embedding),然后过多层解码器,最后通过一个 position-wise 的前向网络得到输出的分布:

有了模型结构,有了目标函数,已经可以预训练一个大容量的语言模型了,这也就是 GPT 的第一阶段,在 GPT 的训练流程里还有第二个阶段,利用一些有标签数据进行微调。假设输入为 ,标签为 ,可以将输入喂入模型,模型的输出再叠加一个线性层作为最终的输出:

目标函数也就是:

然而作者在微调时还发现,同时考虑语言模型的自回归目标函数效果更好,也就是:

在微调阶段,可以优化的参数只有顶部的线性层已经用作分隔符的 token embedding。下图展示的就是 GPT 做微调时对文本的一些常见做法,其实就是拼接和加分割符之类的操作。

wpe零基础自学,wpe专业版使用教程(2)

GPT2

GPT1 需要对特定任务再进行精调(依赖有标签数据进行监督学习),而 GPT2 则是考虑在预训练时考虑各种不同的任务,也就更加通用化。因此,GPT2 的模型从原本 GPT1 的:

改为 task conditioning 的形式:

也就是把任务也作为模型的输入,具体的做法是引入一些表示任务的 token,举几个例子。

  • 自回归任务input:Today is aoutput:good
  • 翻译任务input:Today is a [翻译为中文]output:今天是一个
  • 问答任务input:我是小明 [问题] 我是谁 [答案]output:小明上面例子中 [翻译为中文]、[问题] 、[答案] 这些就是用于告诉模型执行什么任务的 token。

通过这样的方式,各种任务都能塞进预训练里进行了,想学的越多,模型的容量自然也需要更大,GPT2 的参数量达到了 1.5 Billions(GPT1 仅 117 Millions)。

GPT3

GPT3 可以理解为 GPT2 的升级版,使用了 45TB 的训练数据,拥有 175B 的参数量,真正诠释了什么叫暴力出奇迹。

GPT3 主要提出了两个概念:

  • 情景(in-context)学习:就是对模型进行引导,教会它应当输出什么内容,比如翻译任务可以采用输入:请把以下英文翻译为中文:Today is a good day。这样模型就能够基于这一场景做出回答了,其实跟 GPT2 中不同任务的 token 有异曲同工之妙,只是表达更加完善、更加丰富了。
  • Zero-shot, one-shot and Few-shot:GPT3 打出的口号就是“告别微调的 GPT3”,它可以通过不使用一条样例的 Zero-shot、仅使用一条样例的 One-shot 和使用少量样例的 Few-shot 来完成推理任务。下面是对比微调模型和 GPT3 三种不同的样本推理形式图。

wpe零基础自学,wpe专业版使用教程(3)

ChatGPT

ChatGPT 使用了类似 InstructGPT 的方式来训练模型,该方法也叫做 Learning from Human Feedback。主要分为三个步骤:

  • 用有监督数据精调 GPT-3.5;
  • 对于模型输出的候选结果(因为采样会导致同一输入有不同输出)进行打分,从而训练得到一个奖励模型;
  • 使用这个奖励模型,用 PPO 算法来进一步对模型进行训练。

wpe零基础自学,wpe专业版使用教程(4)

栏目热文

wpe教程全集(wpe新手入门教程)

wpe教程全集(wpe新手入门教程)

免责申明:本文章只记录自己每天学习情况,不参与任何牟利,如果侵犯到任何情况请联系本人,本人将及时删帖,本人也不是计算机专...

2024-05-20 22:56:02查看全文 >>

adobe证书有用吗(adobe证书有必要考吗)

adobe证书有用吗(adobe证书有必要考吗)

每每聊起“Adobe国际认证设计师含金量"这个话题,我都感觉自己像是有说不完的话想要和大家互诉衷肠。今天呢,就针...

2024-05-20 23:42:17查看全文 >>

adobe公司有多牛(adobe公司有多少软件)

adobe公司有多牛(adobe公司有多少软件)

2011年至今Adobe股价翻了近10倍,目前市值1112亿美元,相当于1.2个百度、1.7个京东。行情来源:富途证券(...

2024-05-20 23:17:00查看全文 >>

adobe有多厉害(adobe到底有多强大)

adobe有多厉害(adobe到底有多强大)

大家好,终于又熬到了令设计师们 最期待的十一月!说到11月,不仅有双11供大家剁手还有Apple秋季发布会供大家熬夜更重...

2024-05-20 23:01:39查看全文 >>

adobe的收费标准(adobe是付费的吗)

adobe的收费标准(adobe是付费的吗)

其实 6 月就有人发现在Adobe 的土耳其网站购买 Ps 和 Lr 的组合套餐,一年只要 600 多里拉,换算 RMB...

2024-05-20 23:35:55查看全文 >>

wpe教程图解(wpe专业版使用教程)

wpe教程图解(wpe专业版使用教程)

一、什么是塑料?塑料是一种具有可塑性的人造高分子有机化合物(树脂)。塑料是指以有机合成树脂为主要成分,加入或不加入其他...

2024-05-20 23:37:40查看全文 >>

wpe神途刷元宝教程(利用wpe刷游戏道具的思路)

wpe神途刷元宝教程(利用wpe刷游戏道具的思路)

这篇文章首要解说到的便是,一些老玩家在进行过好久的游戏后,所得到的一些主意,要提供给广阔新手朋友,以协助新人们在这些方面...

2024-05-20 23:27:34查看全文 >>

wpe中文版使用教程(wpe怎么进入)

wpe中文版使用教程(wpe怎么进入)

在外人眼里,这是一位不折不扣的“神童”。人们很难想到,这位中国信息安全产业百强企业的CEO,在十几年前就已经展开了一场创...

2024-05-20 23:14:36查看全文 >>

经典鬼故事300字(简短鬼故事3000字)

经典鬼故事300字(简短鬼故事3000字)

从前,有个李家村,村里有个穷书生李善,他已经娶妻,名叫小莲。 这天,小莲偶感风寒,李善进城去给小莲抓药。碰到熟人,硬拉他...

2024-05-20 23:01:49查看全文 >>

数据透视表怎么转换成一般表格(怎么把数据透视表变成正常的表格)

数据透视表怎么转换成一般表格(怎么把数据透视表变成正常的表格)

有人问道如何将透视表的字段分别显示在不同的列上面,也就是不要把所有的字段弄成大纲一样弄成一列。利用上面的字段拖拽得到下面...

2024-05-20 23:38:56查看全文 >>

文档排行