Docs

So-Large-LM-Task04: 大模型的数据

输入“/”快速插入

So-Large-LM-Task04: 大模型的数据

飞书用户6850

1月21日创建

Data / 大模型的数据

我们已经讨论完了大模型的结构，也就是网络，为了让网络获得权重，成为模型，需要训练数据。​

Aside.

在机器学习中，训练数据和测试数据通常是相似的，他们来自同一分布（采集后被划分）或者至少是相似的分布。通过在测试集上获取模型的精度，可以确保模型在训练中学到了普适的模式，在测试中也能泛化到未见数据上。​

而在 LLM 中，训练数据仅仅是“raw text”，意味着它没有被 label, split，也没有预定义的任务。这使得 LLM 在训练中只会学习原始文本的统计信息，而没有明确的指标或任务，因为 LLM 的测试和评估更多地依赖于人工审查、人类评分和自动评估指标的组合。​

Data behind LLM

LLM 是在“raw text”上训练的，为了使其具有很强的能力（语言知识和世界知识），这些 raw text 应该涵盖广泛的领域、类型、语言等。​

网络寻找这种文本的最佳（但不是唯一）的场所，Google 的搜索索引就有 100PB（参考值），而深层网络（无法被搜索引擎识别的网页，类似于私域，例如小红书等）的规模比 Google 更大。​

此外，大公司的私有数据比公开可用的数据量更大，例如 WalMart 每小时就会产生 2.5PB 的数据！

Common Crawl 是一个非营利组织，它对网络进行爬取并免费提供给公众快照，已成为许多模型，如 T5, GPT-3 和 Gopher 的标准数据源。

Common Crawl 在2021年4月的快照有 320TB 的数据。

尽管网络数据丰富，但 Bender et al, 2021 在 2021 年的研究中指出：

•
大规模数据在全球人口中的代表性仍然不均衡。​

•
网络数据过多地代表了来自发达国家的年轻用户。​

•
GPT-2的训练数据基于Reddit，根据皮尤互联网研究的2016年调查，美国Reddit用户中有67%是男性，64%的年龄在18到29岁之间。​

•
维基百科的编者中只有8.8-15%是女性。​

•
网络上的骚扰可能会让某些人群（如跨性别者、神经发育不同的人）产生排斥感。​

•
过滤"不良词汇"可能进一步边缘化某些人群（如LGBT+）。​

因此，理解和记录用于训练大型语言模型的数据集的组成是至关重要的。数据本身可能是有 bias 的。​

WebText & OpenWebText

WebText

WebText数据集被用于训练GPT-2模型

•
Goal: 获取既多样化又高质量的数据集。​

•

Previous work:

◦
Datasets were trained on news, Wikipedia, or fiction.​

◦
Common Crawl contains a lot of junk (gibberish, boilerplate text / 无意义文本和模板文本).​

◦

Trinh & Le, 2018 selected a tiny subset of Common Crawl based on n-gram overlap with the target task.

•
Process for creating WebText:​
◦
爬取至少获得3个赞的所有外链​
◦
Filtered out Wikipedia to be able to evaluate on Wikipedia-based benchmarks.​
◦
End result is 40 GB of text.​

OpenWebText

WebText was not released by OpenAI.

The OpenWebText dataset replicated WebText (in spirit).

•

Extracted all the URLs from the Reddit submissions dataset.

•

Used Facebook’s fastText to filter out non-English.

•
Removed near duplicates.​

•
End result is 38 GB of text.​

Toxicity Analysis

Gehman et al. 2020, the RealToxicityPrompts paper, 分析了这两个数据集后发现。

•
2.1% of OpenWebText has toxicity score >= 50%​

•
4.3% of WebText (from OpenAI) has toxicity score >= 50%​

•
News reliability correlates negatively with（负相关于） toxicity (Spearman 
)​

•

3% of OpenWebText comes from banned or quarantined subreddits, e.g. /r/The_Donald and /r/WhiteRights

Colossal Clean Crawled Corpus (C4)

The Colossal Clean Crawled Corpus (C4) is a larger was created to train the T5 model.​

•
Started with April 2019 snapshot of Common Crawl (1.4 trillion tokens)​

•

Removed “bad words”

•
Removed code (“{“)​

•
langdetect to filter out non-English text​