Чек-лист DevOps-специалиста, к которому стоит стремиться
Идеальных сотрудников не существует, но этот подробный чек-лист поможет понять, насколько вы близки к такому уровню.
Автоматизация деплоя и процессов
• Автоматический деплой на stage и production запускается по тегу или коммиту
• Поддерживается деплой одной кнопкой через Slack, WebUI или CLI
• Настроен rollback к предыдущей версии деплоя
• Перед деплоем автоматически выполняются проверки кода: линтеры, тесты и поиск секретов
• Перед деплоем используется preflight checklist с валидаторами, approvals и условиями
• Настроен canary deployment или подход blue/green
Проверки и валидации
• Конфигурации YAML, Terraform и Helm проверяются при Pull Request
• CI контролирует отсутствие «drift» между IaC и фактической инфраструктурой
• В коде работает проверка секретов, например через truffleHog или gitleaks
• Для соблюдения стандартов применяется policy-as-code, например OPA или Conftest
Наблюдаемость и логирование
• Подготовлены дашборды с метриками CPU, памяти, latency и ошибок
• При отклонениях от нормы срабатывают автоматические алерты
• Настроена агрегация логов с фильтрацией по сервисам и компонентам
• Подключена трассировка запросов через OpenTelemetry, Jaeger или Zipkin
Безопасность
• Все секреты размещаются в защищенном хранилище, например Vault или AWS Secrets Manager
• Для IAM и доступов применяется принцип Least Privilege
• Security-сканы автоматизированы с помощью Snyk, Trivy или Clair
• Для ключевых операций используются 2FA и audit logs
Developer Experience
• Документация генерируется автоматически, например для API
• Разработчики могут поднимать изолированные окружения через preview environments
• Для локальной разработки подготовлены шаблоны Helm/Compose
• Используются dev-контейнеры или devshell, например на базе Nix или Docker
Управление инфраструктурой
• Вся инфраструктура описана в IaC: Terraform, Pulumi или CloudFormation
• CI настроен для автоматической валидации и применения инфраструктурных изменений
• IaC-код организован модульно, по сервисам или проектам
• Изменения инфраструктуры проходят аудит через Terraform Cloud или Atlantis
Поддержка процессов и стабильности
• После инцидентов регулярно проводятся постмортемы и готовятся RCA-документы
• Есть cron-инвентарь или дашборд со всеми активными джобами
• Проверка сертификатов и сроков их действия автоматизирована
• Ведется понятный on-call график ротации с алертами и логом действий
Коммуникация и документация
• Все пайплайны и инфраструктура описаны в wiki или README
• В Slack или другой платформе есть канал с логами деплоев и событий
• Поддерживается база знаний по инцидентам и FAQ по пайплайнам
• Критические действия, такие как deploy, scale и restart, логируются