Замена времени с помощью регулярный выражений в Python

Мне нужно заменить все вхождения времени на строку (TBD). Время – это строка вида HH:MM:SS или HH:MM, в которой HH – число от 00 до 23, а MM и SS – число от 00 до 59. Я делаю это следующим образом:

textTests = ['В эту субботу в 15:00:23 состоится. В 27:68:01 она уже точно кончится.',
             'Я буду дома примерно в 17:10.',
             'Рейс перенесли с 16:30 на 18:00.',
             'Мой часы показывают, что сейчас 14:30:10.',
             'Встреча состоится 03.10 ровно в 13:00.',
             'Я уйду через часа 2, у меня поезд в 19:20.',
             '23:45:54 - работает',
             '14:47:70 - не работает']

timeCheck = r'([01]\d|2[0-3]):[0-5]\d(:[0-5]\d)?'
i = 0
for test2 in textTests:
    i += 1
    textFinal = re.sub(timeCheck, '(TBD)', test2)
    print(f'Исходный текст {i}: {test2} \nИзмененный текст {i}: {textFinal} \n')

Результат работы следующий:

Исходный текст 1: В эту субботу в 15:00:23 состоится. В 27:68:01 она уже точно кончится.
Измененный текст 1: В эту субботу в (TBD) состоится. В 27:68:01 она уже точно кончится.

Исходный текст 2: Я буду дома примерно в 17:10.
Измененный текст 2: Я буду дома примерно в (TBD).

Исходный текст 3: Рейс перенесли с 16:30 на 18:00.
Измененный текст 3: Рейс перенесли с (TBD) на (TBD).

Исходный текст 4: Мой часы показывают, что сейчас 14:30:10.
Измененный текст 4: Мой часы показывают, что сейчас (TBD).

Исходный текст 5: Встреча состоится 03.10 ровно в 13:00.
Измененный текст 5: Встреча состоится 03.10 ровно в (TBD).

Исходный текст 6: Я уйду через часа 2, у меня поезд в 19:20.
Измененный текст 6: Я уйду через часа 2, у меня поезд в (TBD).

Исходный текст 7: 23:45:54 - работает
Измененный текст 7: (TBD) - работает

Исходный текст 8: 14:47:70 - не работает
Измененный текст 8: (TBD):70 - не работает

Как видите, во всех примерах, кроме последнего, время заменилось правильно. То есть, замена работает корректно во всех случаях, кроме тех, когда часы/минуты заданы "правильно", а секунды нет. Как изменить регулярное выражение, чтобы замена работала корректно и в последнем примере?


Ответы (2 шт):

Автор решения: GrAnd

Можно вот так:

timeCheck = r'(?<!\d:)\b(([01]\d)|(2[0-3])):[0-5]\d(:[0-5]\d)?\b(?!:\d)'

Проверяется, что ни до, ни после нет числа через двоеточие, а также, что первое и последнее число точно двузначное. Ну а внутри соответствует формату времени.

→ Ссылка
Автор решения: ipatev_nn

Если я правильно понял проблему, то время с некорректными секундами тоже не должно захватываться: В вашем варианте:

([01]\d|2[0-3]):[0-5]\d(:[0-5]\d)?

Группа секунд является необязательной, поэтому любы не валидные секунды будут пропущены в захвате.

Как можно улучшить выражение.

  • Секунды и минуты имеют одинаковые значения, описывать их дважды нет необходимости:
(:[0-5]\d){1,2}

указываем что : и диапазон от 00 до 59 может встретиться один или 2 раза

  • Ограничить выбор часа 23:01:01 из строки 123:01:01, для этого понадобится негативные просмотр назад
(?<![:\d])

В котором проверяем что нет символа : или цифры от 0 до 9 перед началом захвата по выражению.

  • Исключить проблему описанную в вопросе, когда происходит замена часов и минут при не валидных секундах, для этого используется негативный просмотр вперед
(?![:\d])

Так же ограничиваем попадание под захват текста указанного в примере и еще нескольких случаях, к примеру 23:45:56:12

В таком виде получаем наше регулярное выражение:

(?<![:\d])([01]\d|2[0-3])(:[0-5]\d){1,2}(?![:\d])

Пример работы: regex101.com

→ Ссылка