Наткнулся на то, что весь контент Reddit за всю историю доступен бесплатно доступен.
20 лет общения сотен миллионов людей в «сердце интернета» — это всего 3.8 терабайт, если считать только тексты.
Захотелось посмотреть, какие ещё есть такие же мега-архивы:
1/ Common Crawl — почти полный слепок интернета. В сумме больше 9.5 петабайт. петабайт = 1000 терабайт
Ссылка: сайт Common Crawl
2/ Wikipedia — вся энциклопедия со всей историей правок, ~31 ТБ. Только текущие статьи — 25 ГБ.
Ссылка: дампы Wikipedia
3/ The Stack v2 — открытый код с GitHub, 67 ТБ, 600+ языков.
Ссылка: The Stack v2
4/ LAION-5B — 5.8 млрд пар «картинка + описание», на этом росли генераторы изображений. Ссылка: LAION-5B
5/ arXiv — архив научных статей целиком, ~1 ТБ текста.
Ссылка: данные arXiv
Знал только про arXiv, всё остальное для меня оказалось открытием.
Думаю, любая большая языковая модель, созданная с нуля, начиналась именно с таких массивов.
Оставлю ссылки для удобства, в том числе и для себя, хотя, конечно, никогда ими не воспользуюсь 😁