So-Large-LM-Task02: 大模型的能力
输入“/”快速插入
So-Large-LM-Task02: 大模型的能力
飞书用户6850
1月16日创建
Capabilities
GPT-3 的能力
GPT-3 论文中的基准测试:
•
标准的 NLP 基准测试,例如问题回答;
•
一些特殊的一次性演示,例如在句子中使用新词(test data)。
对比每个任务的 sota,GPT-3 的结果参差不齐:
•
在某些任务上,比如语言建模,GPT-3 大幅超越了 sota。
•
在其他任务上,GPT-3 与 在这个任务上训练有素的系统 竞争时,却明显落后。
对结果的理解:
GPT-3 作为一个语言模型,可以在广泛的 NLP 任务中做得不错。
GPT-3 对于其他任务并未特别训练,因此也就没有过拟合,有很大的潜力在这些任务上表现良好。
将语言模型转化为任务模型
语言模型是一种对 token 序列
的概率分布,
它能够用于评估序列,如
;
也能够用于在给定提示的条件下生成完整的序列,如
。
在这里,任务被定义为从输入映射到输出。以 QA 任务为例,任务中可能有以下的输入输出:
Plain Text
input:What school did Burne Hogarth establish?
output:School of Visual Arts
将语言模型转化为任务模型的过程称为“Adaptation”,其需要以下两个输入。
•
任务的自然语言描述(system)
•
一组训练实例(输入-输出对,user-assistant)
Adaptation有两种方式:训练、提示学习(上下文学习)
训练(标准的有监督学习):训练一个新模型,使其能够将输入映射到输出。
•
探针法:创建一个新模型并利用语言模型作为特征
•
微调:从现有的语言模型出发,根据训练数据进行更新
•
轻量级的微调:探针法与微调之间的平衡方法
提示学习(上下文学习):根据对任务的描述建立提示 / 上下文信息,将其输入到语言模型中以获取基于该任务的生成结果。
•
Zero-shot(零样本学习):提示 / 上下文信息的数量为 0,模型直接基于对任务的理解输出结果
•
One-shot(单样本学习):提示 / 上下文信息的数量为 1,一般来说模型基于 1 个例子可以更好地理解任务,从而生成较好的结果
•
Few-shot(少样本学习):提示 / 上下文信息的数量大于 1,模型可以看到更丰富的例子,一般来说会生成比 One-shot 学习更好的结果。
选择合适的 Adaptation 是困难的,受限于提示的数量很少,“训练”可能会过拟合。
对于提示学习而言,我们只能输入少量的训练实例进行训练,因为 Transformer 的局限性:模型可输入的长度具有约束(一般是 2048 个 tokens)。
GPT-3 论文中,作者评估了 GPT-3 在大量任务的表现,对于每个任务,我们需要关注:
•
定义:任务是什么,其 motivation 是什么?
•
Adaptation:如何通过提示学习将任务简化为语言建模?
•
结果:与该任务上的 sota 模型相比,GPT-3 的定量性能数值怎么样?
模型的大小和训练集的大小都很重要,对于下面的任务而言,GPT-3 的默认实验设置为:
•
完整的 GPT-3 模型(davinci),其参数量为 175B (1750亿)。
•
使用上下文学习,在 prompt 中尽可能多地塞入训练实例。
我们通过消融实验确定模型大小和训练集大小是否真的重要(确实重要,而且越大越好)
使用 GPT-3 进行实验的任务如下:
•
Language modeling
•
Question answering
•
Translation
•
Arithmetic
•
News article generation
•
Novel tasks
Language Modeling
语言模型是否真正有用,就是看它能否有效地模仿和理解语言,即语言建模。
根据语言模型的定义,其为文本
分配的概率可以写为每个 token 的条件概率的乘积,即