На стороне чего выполняется логика запроса Pandas к Greenplum в Airflow?
Подскажите, пожалуйста:
Есть даг в котором есть таска, которая берёт sql запрос и при помощи
pandas_df1 = pd.read_sql_query(QUERY1, engine, chunksize=500)
получает датафрейм.
Судя по логам airflow, этот запрос убивается чем-то /usr/bin/bash: line 1: 3227 Killed
как раз на моменте выполнения запроса, НО если в самом sql запросе поставить к примеру limit 100, то он выполняется прекрасно. Получается, что как-будто бы проблема в количестве строк, выдаваемых запросом, но есть другие аналогичные запросы, в которых результат по количеству строк намного больше и при этом они прекрасно отрабатывают.
Отсюда и вопрос: на стороне чего выполняется логика запроса в данном случае? На стороне гринплама и пандас уже просто получает готовый результат или какая-то часть логики(или вся) выполняется на стороне пандаса и запрос падает из за этого? Сам по себе запрос в гринпламе отрабатывает нормально.
Как можно отдебажить проблему?
Заранее спасибо!