DataOps - методология управления жизненным циклом данных, аналог DevOps но для дата пайплайнов.
Основные отличия от DevOps:
DevOps фокусируется на коде приложений:
- CI/CD для деплоя сервисов
- Мониторинг доступности и производительности
- Управление инфраструктурой (IaC)
DataOps фокусируется на потоках данных:
- Версионирование схем данных и пайплайнов
- Валидация качества данных (data quality)
- Мониторинг свежести данных (data freshness)
- Управление метаданными и линией данных (data lineage)
- Оркестрация ETL/ELT процессов
Типичный стек DataOps:
Оркестрация: Airflow, Prefect, Dagster
Версионирование данных: DVC, lakeFS
Качество данных: Great Expectations, dbt tests
Мониторинг: Monte Carlo, Datadog
Хранилище: Snowflake, BigQuery, Delta Lake
Простая аналогия: DevOps доставляет код в продакшн, DataOps доставляет качественные данные в аналитику и ML модели.