Обработка 5 миллиардов строк данных и вывод в XML
Пришел с интересным вопросом))
На входе есть parquet файлы с данными в объеме 20 млрд. строк Есть виртуалка с 80 гб ОЗУ, 32 xeon ядра
Необходимо сформировать XML-файл с отчетом, в который попадут данные из parquet за определенный диапазон дат (напр. 01.06.2024 - 15.06.2024) и будут сложены в хранилище Ceph по протоколу S3
XML-файл с отчетом, в котором будет 5 млрд. строк должен быть сформирован максимум за 24 часа.
С учетом этих данных, какую технологию лучше использовать?) (Естественно, если речь о parquet, то это HDFS, а значит подходящий вариант Spark, но вдруг есть какой-то стек, который будет предпочтительнее для попадания в заданные условия)
Сейчас есть Spark, исполнители которого валятся при попытке формирования отчета с разбиением на файлики объемом 1 млн. строк. При попытке формирования отчета с разбиением на файлики объемом 50 тыс. строк, Spark на протяжении трех суток пытался сформировать отчет с объемом 500 млн. строк, из которых за трое суток сформировал только 41 файлик с общим объемом в 2 млн. строк