Даг в AirFlow для разовой прогрузки данных

Всем добрый день! Я начинающий DE, в мои обязанности также входит контроль запуска тасок в Airflow для проливки данных в корпоративный даталейк и из него. Недавно я столкнулся с необходимостью одноразово считать/проливать какие-то массивные объемы данных (например, при миграции, инициализации исторических данных или тестировании новых ETL-процессов), и быстро осознал, что постоянно добавлять/удалять различные таски в общие ежедневные ДАГи - не круто, поэтому захотел оформить отдельный ДАГ для подобных случаев, чтобы:

  1. Таски можно спокойно залить и не удалять из ДАГа
  2. Из предыдущего пункта следует, что таски не должны самостоятельно перезапускаться даже при триггере всего ДАГа полностью
  3. Таска может быть запущена только самим пользователем (например, через UI)

Сперва я подумал решить данную проблему установкой обычного параметра ДАГа при его запуске - schedule_interval=None, но он не решает проблему перезапуска тасок - при ручном триггере ДАГа они все равно рестартнутся

Прошу помочь советом, как можно решить этот кейс, в какую сторону подумать, может, я пытаюсь изобрести велосипед и итоговое решение уже у меня перед носом, прошу ткнуть в нужном направлении.

Для контекста: в ДАГах использую Spark (через SparkSubmitOperator), Hive-сенсоры, работаю с HDFS, DAG-и управляют как вычислениями, так и проверками качества данных.

(Это мой первый вопрос тут и прошу не бить сильно за излишний текст / его возможную глупость)

Заранее спасибо за ответы!


Ответы (0 шт):