Работа с данными Greenplum через spark без их копирования
Столкнулась со следующей проблемой: у меня есть проект, который работает на стороне клиента с данными в hadoop (считывает данные и считает какие-то параметры по ним). Хотелось бы с минимальными изменениями в проекте научиться работать с данными, расположенными в Greenplum. При этом я не могу иметь доступа к данным, все расчеты происходят на стороне клиента, причем дублировать данные на hadoop не вариант. Есть ли какая-то возможность стримингово считывать данные с помощью запущенной spark сессии? Или как-то еще. Спасибо за помощь.