На стороне чего выполняется логика запроса Pandas к Greenplum в Airflow?

Автор вопроса: Andrew

Подскажите, пожалуйста: Есть даг в котором есть таска, которая берёт sql запрос и при помощи pandas_df1 = pd.read_sql_query(QUERY1, engine, chunksize=500) получает датафрейм. Судя по логам airflow, этот запрос убивается чем-то /usr/bin/bash: line 1: 3227 Killed как раз на моменте выполнения запроса, НО если в самом sql запросе поставить к примеру limit 100, то он выполняется прекрасно. Получается, что как-будто бы проблема в количестве строк, выдаваемых запросом, но есть другие аналогичные запросы, в которых результат по количеству строк намного больше и при этом они прекрасно отрабатывают.

Отсюда и вопрос: на стороне чего выполняется логика запроса в данном случае? На стороне гринплама и пандас уже просто получает готовый результат или какая-то часть логики(или вся) выполняется на стороне пандаса и запрос падает из за этого? Сам по себе запрос в гринпламе отрабатывает нормально.

Как можно отдебажить проблему?

Заранее спасибо!

Источник

БЛОГ НА HUSL

На стороне чего выполняется логика запроса Pandas к Greenplum в Airflow?

Ответы (0 шт):