So-Large-LM-Task04: 大模型的数据
输入“/”快速插入
So-Large-LM-Task04: 大模型的数据
飞书用户6850
1月21日创建
Data / 大模型的数据
我们已经讨论完了大模型的结构,也就是网络,为了让网络获得权重,成为模型,需要训练数据。
Aside.
在机器学习中,训练数据和测试数据通常是相似的,他们来自同一分布(采集后被划分)或者至少是相似的分布。通过在测试集上获取模型的精度,可以确保模型在训练中学到了普适的模式,在测试中也能泛化到未见数据上。
而在 LLM 中,训练数据仅仅是“raw text”,意味着它没有被 label, split,也没有预定义的任务。这使得 LLM 在训练中只会学习原始文本的统计信息,而没有明确的指标或任务,因为 LLM 的测试和评估更多地依赖于人工审查、人类评分和自动评估指标的组合。
Data behind LLM
LLM 是在“raw text”上训练的,为了使其具有很强的能力(语言知识和世界知识),这些 raw text 应该涵盖广泛的领域、类型、语言等。
网络寻找这种文本的最佳(但不是唯一)的场所,Google 的搜索索引就有 100PB(参考值),而深层网络(无法被搜索引擎识别的网页,类似于私域,例如小红书等)的规模比 Google 更大。
此外,大公司的私有数据比公开可用的数据量更大,例如
WalMart
每小时就会产生 2.5PB 的数据!
Common Crawl
是一个非营利组织,它对网络进行爬取并免费提供给公众快照,已成为许多模型,如 T5, GPT-3 和 Gopher 的标准数据源。
Common Crawl 在2021年4月的快照有 320TB 的数据。
尽管网络数据丰富,但
Bender et al, 2021
在 2021 年的研究中指出:
•
大规模数据在全球人口中的代表性仍然不均衡。
•
网络数据过多地代表了来自发达国家的年轻用户。
•
GPT-2的训练数据基于Reddit,根据皮尤互联网研究的2016年调查,美国Reddit用户中有67%是男性,64%的年龄在18到29岁之间。
•
维基百科的编者中只有8.8-15%是女性。
•
网络上的骚扰可能会让某些人群(如跨性别者、神经发育不同的人)产生排斥感。
•
过滤"不良词汇"可能进一步边缘化某些人群(如LGBT+)。
因此,理解和记录用于训练大型语言模型的数据集的组成是至关重要的。数据本身可能是有 bias 的。
WebText & OpenWebText
WebText
WebText数据集被用于训练GPT-2模型
•
Goal: 获取既多样化又高质量的数据集。
•
Previous work:
◦
Datasets were trained on news, Wikipedia, or fiction.
◦
Common Crawl contains a lot of junk (gibberish, boilerplate text / 无意义文本和模板文本).
◦
Trinh & Le, 2018
selected a tiny subset of Common Crawl based on n-gram overlap with the target task.
•
Process for creating WebText:
◦
爬取至少获得3个赞的所有外链
◦
Filtered out Wikipedia to be able to evaluate on Wikipedia-based benchmarks.
◦
End result is 40 GB of text.
OpenWebText
WebText was not released by OpenAI.
The OpenWebText dataset replicated WebText (in spirit).
•
Extracted all the URLs from the
Reddit submissions dataset
.
•
Used Facebook’s
fastText
to filter out non-English.
•
Removed near duplicates.
•
End result is 38 GB of text.
Toxicity Analysis
Gehman et al. 2020
, the RealToxicityPrompts paper, 分析了这两个数据集后发现。
•
2.1% of OpenWebText has toxicity score >= 50%
•
4.3% of WebText (from OpenAI) has toxicity score >= 50%
•
News reliability
correlates negatively with(负相关于)
toxicity (Spearman
)
•
3% of OpenWebText comes from
banned or quarantined subreddits
, e.g.
/r/The_Donald
and
/r/WhiteRights
Colossal Clean Crawled Corpus (C4)
The Colossal Clean Crawled Corpus (C4) is a larger was created to train the T5 model.
•
Started with April 2019 snapshot of Common Crawl (1.4 trillion tokens)
•
Removed
“bad words”
•
Removed code (“{“)
•
langdetect to filter out non-English text