Мониторинг качества данных в Airflow
появилась задача мониторить качество поступающих из источников данных в Airflow. Собрались писать своё решение, но интересно есть ли какие-то нативные для Airflow, или стандартизированные инструменты для решения этой задачи которые могут сильно упростить жизнь.
Необходимый минимум заключается в том чтобы отправлять уведомления на почту или в telegram при базовых сценариях ошибок при которых таски не падают: пришла пустая таблица, типы данных до обработки несоответствуют первоначальной схеме но преобразуются, столбцы имеют пропуски там где это не ожидается
Идеально если в будущем к этому можно будет накрутить уведомление об экстремальных выбросах в конкретных метриках, может быть несоответствие регулярным выражениям в конкретных столбцах.
Подскажите в какую сторону копать? Может это можно сделать с помощью самого Airflow или каких-то инструментов Apache?
P.S. Airflow висит на собственном железе внутри докер-контейнера
Ответы (1 шт):
Есть фреймворк для мониторинга качества Greate Expectations Можно попробовать интегрировать, есть примеры