Обработка 5 миллиардов строк данных и вывод в XML

Пришел с интересным вопросом))

На входе есть parquet файлы с данными в объеме 20 млрд. строк Есть виртуалка с 80 гб ОЗУ, 32 xeon ядра

Необходимо сформировать XML-файл с отчетом, в который попадут данные из parquet за определенный диапазон дат (напр. 01.06.2024 - 15.06.2024) и будут сложены в хранилище Ceph по протоколу S3

XML-файл с отчетом, в котором будет 5 млрд. строк должен быть сформирован максимум за 24 часа.

С учетом этих данных, какую технологию лучше использовать?) (Естественно, если речь о parquet, то это HDFS, а значит подходящий вариант Spark, но вдруг есть какой-то стек, который будет предпочтительнее для попадания в заданные условия)

Сейчас есть Spark, исполнители которого валятся при попытке формирования отчета с разбиением на файлики объемом 1 млн. строк. При попытке формирования отчета с разбиением на файлики объемом 50 тыс. строк, Spark на протяжении трех суток пытался сформировать отчет с объемом 500 млн. строк, из которых за трое суток сформировал только 41 файлик с общим объемом в 2 млн. строк

Источник

БЛОГ НА HUSL

Обработка 5 миллиардов строк данных и вывод в XML

Ответы (0 шт):