Изменить значения в датафрейме, которые содержат строки определённого формата

Question

Я хочу вычистить свои данные от дубликатов, в столбце одни и те же названия встречаются с кодами и без. Подскажите пожалуйста, как мне исключить из столбца service коды в следующих форматах: "X00.000.000" и "X000.000.000", оставив только названия (пробел после кода также нужно убрать).

import pandas as pd
df = pd.DataFrame([['D45.456.098 Сервисное обслуживание', '01/01/2001'],
                   ['F456.678.789 Ремонт', '02/02/2002'],
                   ['Сервисное обслуживание', '03/03/2003'],
                   ['Ремонт', '04/04/2004']], columns=['service', 'date'])

Я всю голову сломала, помогите мне пожалуйста. Нужно использовать replace и прописывать регулярку через цикл? Или как? Заранее спасибо!

Answer 1

Так прогоните столбец через replace:

df["service"].str.replace("^\w\d{2,3}\.\d{3}\.\d{3}\s+", "", regex=True)

БЛОГ НА HUSL

Изменить значения в датафрейме, которые содержат строки определённого формата

Ответы (1 шт):