Даг в AirFlow для разовой прогрузки данных
Всем добрый день! Я начинающий DE, в мои обязанности также входит контроль запуска тасок в Airflow для проливки данных в корпоративный даталейк и из него. Недавно я столкнулся с необходимостью одноразово считать/проливать какие-то массивные объемы данных (например, при миграции, инициализации исторических данных или тестировании новых ETL-процессов), и быстро осознал, что постоянно добавлять/удалять различные таски в общие ежедневные ДАГи - не круто, поэтому захотел оформить отдельный ДАГ для подобных случаев, чтобы:
- Таски можно спокойно залить и не удалять из ДАГа
- Из предыдущего пункта следует, что таски не должны самостоятельно перезапускаться даже при триггере всего ДАГа полностью
- Таска может быть запущена только самим пользователем (например, через UI)
Сперва я подумал решить данную проблему установкой обычного параметра ДАГа при его запуске - schedule_interval=None, но он не решает проблему перезапуска тасок - при ручном триггере ДАГа они все равно рестартнутся
Прошу помочь советом, как можно решить этот кейс, в какую сторону подумать, может, я пытаюсь изобрести велосипед и итоговое решение уже у меня перед носом, прошу ткнуть в нужном направлении.
Для контекста: в ДАГах использую Spark (через SparkSubmitOperator), Hive-сенсоры, работаю с HDFS, DAG-и управляют как вычислениями, так и проверками качества данных.
(Это мой первый вопрос тут и прошу не бить сильно за излишний текст / его возможную глупость)
Заранее спасибо за ответы!