Как на python сгруппировать данные таблицы, чтобы были учтены дубли?
Есть таблица с данными по рассылкам data: title - тема письма total - аудитория, количество людей, кому отправили это письмо click_to_open - количество людей, которые открыли письмо
Некоторые темы писем дублируются, так как одно и то же письмо отправлялось на разные аудитории. То есть условно:
Письмо_1 - аудитория 100 человек - открыли 10
Письмо_1 - аудитория 300 человек - открыли 50
Письмо_2 - аудитория 100 человек - открыли 30
Я хочу объединить это в одну таблицу, где будет по каждому письму сумма:
Письмо_1 - аудитория 400 человек - открыли 60
Письмо_2 - аудитория 100 человек - открыли 30
Но и при использовании pivot_table, и при groupby почему-то не учитываются те названия, которые задублированы. В исходном файле 600 строк, дублей - 200, уникальных - 400. В сводную таблицу попадают только 400 уникальных, а 200 дублей пропадают( Не понимаю, в чем проблема.
data.groupby('title').agg({'total' :'sum', 'click_to_open':'sum'})