Удаление тех строк в датафрейме, которые есть в другом датарейме. PySpark
Проблема следующая: есть два датафрейма, в одном около 1050000 строк, в другом 470000. Все те строки, из которых состоит меньший датафрейм, есть в первом. Как мне удалить из первого датафрейма всё то, что есть во втором? Есть столбец DateTime, который включает в себя и дату, и время, то есть любая строка уникальна, Я пытаюсь опираться как-то на него, но вылезает либо ошибка, либо не то что нужно.
Ответы (1 шт):
Автор решения: Alex Ott
→ Ссылка
Просто надо сделать правильный join между датафреймами - в данном случае - left anti join:
df1.join(df2, ["DateTime"],"leftanti")