Замена времени с помощью регулярный выражений в Python
Мне нужно заменить все вхождения времени на строку (TBD). Время – это строка вида HH:MM:SS или HH:MM, в которой HH – число от 00 до 23, а MM и SS – число от 00 до 59. Я делаю это следующим образом:
textTests = ['В эту субботу в 15:00:23 состоится. В 27:68:01 она уже точно кончится.',
'Я буду дома примерно в 17:10.',
'Рейс перенесли с 16:30 на 18:00.',
'Мой часы показывают, что сейчас 14:30:10.',
'Встреча состоится 03.10 ровно в 13:00.',
'Я уйду через часа 2, у меня поезд в 19:20.',
'23:45:54 - работает',
'14:47:70 - не работает']
timeCheck = r'([01]\d|2[0-3]):[0-5]\d(:[0-5]\d)?'
i = 0
for test2 in textTests:
i += 1
textFinal = re.sub(timeCheck, '(TBD)', test2)
print(f'Исходный текст {i}: {test2} \nИзмененный текст {i}: {textFinal} \n')
Результат работы следующий:
Исходный текст 1: В эту субботу в 15:00:23 состоится. В 27:68:01 она уже точно кончится.
Измененный текст 1: В эту субботу в (TBD) состоится. В 27:68:01 она уже точно кончится.
Исходный текст 2: Я буду дома примерно в 17:10.
Измененный текст 2: Я буду дома примерно в (TBD).
Исходный текст 3: Рейс перенесли с 16:30 на 18:00.
Измененный текст 3: Рейс перенесли с (TBD) на (TBD).
Исходный текст 4: Мой часы показывают, что сейчас 14:30:10.
Измененный текст 4: Мой часы показывают, что сейчас (TBD).
Исходный текст 5: Встреча состоится 03.10 ровно в 13:00.
Измененный текст 5: Встреча состоится 03.10 ровно в (TBD).
Исходный текст 6: Я уйду через часа 2, у меня поезд в 19:20.
Измененный текст 6: Я уйду через часа 2, у меня поезд в (TBD).
Исходный текст 7: 23:45:54 - работает
Измененный текст 7: (TBD) - работает
Исходный текст 8: 14:47:70 - не работает
Измененный текст 8: (TBD):70 - не работает
Как видите, во всех примерах, кроме последнего, время заменилось правильно. То есть, замена работает корректно во всех случаях, кроме тех, когда часы/минуты заданы "правильно", а секунды нет. Как изменить регулярное выражение, чтобы замена работала корректно и в последнем примере?
Ответы (2 шт):
Можно вот так:
timeCheck = r'(?<!\d:)\b(([01]\d)|(2[0-3])):[0-5]\d(:[0-5]\d)?\b(?!:\d)'
Проверяется, что ни до, ни после нет числа через двоеточие, а также, что первое и последнее число точно двузначное. Ну а внутри соответствует формату времени.
Если я правильно понял проблему, то время с некорректными секундами тоже не должно захватываться: В вашем варианте:
([01]\d|2[0-3]):[0-5]\d(:[0-5]\d)?
Группа секунд является необязательной, поэтому любы не валидные секунды будут пропущены в захвате.
Как можно улучшить выражение.
- Секунды и минуты имеют одинаковые значения, описывать их дважды нет необходимости:
(:[0-5]\d){1,2}
указываем что : и диапазон от 00 до 59 может встретиться один или 2 раза
- Ограничить выбор часа 23:01:01 из строки 123:01:01, для этого понадобится негативные просмотр назад
(?<![:\d])
В котором проверяем что нет символа : или цифры от 0 до 9 перед началом захвата по выражению.
- Исключить проблему описанную в вопросе, когда происходит замена часов и минут при не валидных секундах, для этого используется негативный просмотр вперед
(?![:\d])
Так же ограничиваем попадание под захват текста указанного в примере и еще нескольких случаях, к примеру 23:45:56:12
В таком виде получаем наше регулярное выражение:
(?<![:\d])([01]\d|2[0-3])(:[0-5]\d){1,2}(?![:\d])
Пример работы: regex101.com