Изменить значения в датафрейме, которые содержат строки определённого формата
Я хочу вычистить свои данные от дубликатов, в столбце одни и те же названия встречаются с кодами и без. Подскажите пожалуйста, как мне исключить из столбца service коды в следующих форматах: "X00.000.000" и "X000.000.000", оставив только названия (пробел после кода также нужно убрать).
import pandas as pd
df = pd.DataFrame([['D45.456.098 Сервисное обслуживание', '01/01/2001'],
['F456.678.789 Ремонт', '02/02/2002'],
['Сервисное обслуживание', '03/03/2003'],
['Ремонт', '04/04/2004']], columns=['service', 'date'])
Я всю голову сломала, помогите мне пожалуйста. Нужно использовать replace и прописывать регулярку через цикл? Или как? Заранее спасибо!
Ответы (1 шт):
Автор решения: strawdog
→ Ссылка
Так прогоните столбец через replace:
df["service"].str.replace("^\w\d{2,3}\.\d{3}\.\d{3}\s+", "", regex=True)
