OCR в Hugging Face без своего GPU: одной командой

OCR без настройки: распознаём документы через HF облако

Допустим, к вечеру вам нужно распознать тысячу сканов старинных книг.
Или быстро обработать свежую подборку рассекреченных материалов про НЛО :).
Есть два пути: часами прогонять все это на своем GPU, возиться с драйверами и пайплайном. Либо выбрать более простой вариант.

HuggingFace уже собрали готовый конвейер: репозиторий uv-scripts/ocr с 20 моделями на выбор и запуском одной командой через Jobs.
Вы загружаете датасет, указываете модель, а все остальное выполняется в облаке.
Стоимость: от $0.60 в час на T4.

Что можно выбрать:
Falcon-OCR (0.3B): недорогая оцифровка больших массивов, хорошо справляется с таблицами
GLM-OCR (0.9B): лучший в категории до миллиарда, понимает русский
PaddleOCR-VL-1.5 (0.9B): шесть режимов - текст, таблицы, формулы, графики, spotting, печати
Qianfan-OCR (4.7B): первое место на OmniDocBench, 192 языка
DeepSeek-OCR (4B): пять режимов разрешения на выбор
NuMarkdown-8B (8B): показывает ход рассуждений перед ответом
DoTS.ocr (1.7B): сотня языков из коробки

Как это устроено:
Одна команда hf jobs uv run с флагом железа и ссылкой на скрипт. Модель сама стартует в облаке HF, батчи обрабатываются, а результат возвращается обратно на HF Hub. В исходные колонки добавляется колонка с markdown.

Когда это полезно:
Для любого сценария, где нужно распознать большое количество сканов или PDF.
Не требуется покупать GPU или поднимать инфраструктуру. Загрузили датасет, выбрали модель под задачу и бюджет, и через час получили готовый текст.