Работа с данными Greenplum через spark без их копирования

Автор вопроса: Мария

Столкнулась со следующей проблемой: у меня есть проект, который работает на стороне клиента с данными в hadoop (считывает данные и считает какие-то параметры по ним). Хотелось бы с минимальными изменениями в проекте научиться работать с данными, расположенными в Greenplum. При этом я не могу иметь доступа к данным, все расчеты происходят на стороне клиента, причем дублировать данные на hadoop не вариант. Есть ли какая-то возможность стримингово считывать данные с помощью запущенной spark сессии? Или как-то еще. Спасибо за помощь.

Источник

БЛОГ НА HUSL

Работа с данными Greenplum через spark без их копирования

Ответы (0 шт):