Docs

So-Large-LM-Task02: 大模型的能力

输入“/”快速插入

So-Large-LM-Task02: 大模型的能力

飞书用户6850

1月16日创建

Capabilities

GPT-3 的能力

GPT-3 论文中的基准测试：

•
标准的 NLP 基准测试，例如问题回答；​

•
一些特殊的一次性演示，例如在句子中使用新词（test data）。​

对比每个任务的 sota，GPT-3 的结果参差不齐：

•
在某些任务上，比如语言建模，GPT-3 大幅超越了 sota。​

•
在其他任务上，GPT-3 与 在这个任务上训练有素的系统 竞争时，却明显落后。​

对结果的理解：

GPT-3 作为一个语言模型，可以在广泛的 NLP 任务中做得不错。​

GPT-3 对于其他任务并未特别训练，因此也就没有过拟合，有很大的潜力在这些任务上表现良好。​

将语言模型转化为任务模型

语言模型是一种对 token 序列

的概率分布，

它能够用于评估序列，如

；

也能够用于在给定提示的条件下生成完整的序列，如

。

在这里，任务被定义为从输入映射到输出。以 QA 任务为例，任务中可能有以下的输入输出：​

input：What school did Burne Hogarth establish?​
output：School of Visual Arts​

将语言模型转化为任务模型的过程称为“Adaptation”，其需要以下两个输入。​

•
任务的自然语言描述（system）​

•
一组训练实例（输入-输出对，user-assistant）​

Adaptation有两种方式：训练、提示学习（上下文学习）

训练（标准的有监督学习）：训练一个新模型，使其能够将输入映射到输出。​

•
探针法：创建一个新模型并利用语言模型作为特征​

•
微调：从现有的语言模型出发，根据训练数据进行更新​

•
轻量级的微调：探针法与微调之间的平衡方法​

提示学习（上下文学习）：根据对任务的描述建立提示 / 上下文信息，将其输入到语言模型中以获取基于该任务的生成结果。​

•
Zero-shot（零样本学习）：提示 / 上下文信息的数量为 0，模型直接基于对任务的理解输出结果​

•
One-shot（单样本学习）：提示 / 上下文信息的数量为 1，一般来说模型基于 1 个例子可以更好地理解任务，从而生成较好的结果​

•
Few-shot（少样本学习）：提示 / 上下文信息的数量大于 1，模型可以看到更丰富的例子，一般来说会生成比 One-shot 学习更好的结果。​

选择合适的 Adaptation 是困难的，受限于提示的数量很少，“训练”可能会过拟合。​

对于提示学习而言，我们只能输入少量的训练实例进行训练，因为 Transformer 的局限性：模型可输入的长度具有约束（一般是 2048 个 tokens）。​

GPT-3 论文中，作者评估了 GPT-3 在大量任务的表现，对于每个任务，我们需要关注：​

•
定义：任务是什么，其 motivation 是什么？​

•
Adaptation：如何通过提示学习将任务简化为语言建模？​

•
结果：与该任务上的 sota 模型相比，GPT-3 的定量性能数值怎么样？​

模型的大小和训练集的大小都很重要，对于下面的任务而言，GPT-3 的默认实验设置为：​

•
完整的 GPT-3 模型（davinci），其参数量为 175B （1750亿）。​

•
使用上下文学习，在 prompt 中尽可能多地塞入训练实例。​

我们通过消融实验确定模型大小和训练集大小是否真的重要（确实重要，而且越大越好）​

使用 GPT-3 进行实验的任务如下：

•
Language modeling​

•
Question answering​

•
Translation​

•
Arithmetic​

•
News article generation​

•
Novel tasks​

Language Modeling

语言模型是否真正有用，就是看它能否有效地模仿和理解语言，即语言建模。​

根据语言模型的定义，其为文本 
 分配的概率可以写为每个 token 的条件概率的乘积，即​