5 гигантских архивов, на которых выросли большие языковые модели

Наткнулся на то, что весь контент Reddit за всю историю доступен бесплатно доступен.

20 лет общения сотен миллионов людей в «сердце интернета» — это всего 3.8 терабайт, если считать только тексты.

Захотелось посмотреть, какие ещё есть такие же мега-архивы:

1/ Common Crawl — почти полный слепок интернета. В сумме больше 9.5 петабайт. петабайт = 1000 терабайт
Ссылка: сайт Common Crawl

2/ Wikipedia — вся энциклопедия со всей историей правок, ~31 ТБ. Только текущие статьи — 25 ГБ.
Ссылка: дампы Wikipedia

3/ The Stack v2 — открытый код с GitHub, 67 ТБ, 600+ языков.
Ссылка: The Stack v2

4/ LAION-5B — 5.8 млрд пар «картинка + описание», на этом росли генераторы изображений. Ссылка: LAION-5B

5/ arXiv — архив научных статей целиком, ~1 ТБ текста.
Ссылка: данные arXiv

Знал только про arXiv, всё остальное для меня оказалось открытием.

Думаю, любая большая языковая модель, созданная с нуля, начиналась именно с таких массивов.

Оставлю ссылки для удобства, в том числе и для себя, хотя, конечно, никогда ими не воспользуюсь 😁