Проблема с парсингом даты и времени

Question

С помощью BS4 парсю страницу стока для отзывов, нужно дату вытащить, а там такая строка

<cat-brand-ugc-date date="2022-08-08T01:20:56+03:00" source="flamp" url="//ufa.flamp.ru/firm/avto_klub_avtosalon-70000001041311670/otzyv-7810115">
<a href="//ufa.flamp.ru/firm/avto_klub_avtosalon-70000001041311670/otzyv-7810115" title="Сегодня в 3:20" class="ugc-date link link--grey t-text t-text--small">
Сегодня в 3:20
</a>

Люди добрые подскажите как можно вытащить дату в нормальном формате, а не сегодня в 3:20.

Остальные данные из отзыва доставал таким образом

'initials': item.find('a', class_='link name t-text t-text--bold').get_text(' ', strip=True)

Answer 1

import bs4, datetime

text = '''
<cat-brand-ugc-date date="2022-08-08T01:20:56+03:00" source="flamp" url="//ufa.flamp.ru/firm/avto_klub_avtosalon-70000001041311670/otzyv-7810115">
<a href="//ufa.flamp.ru/firm/avto_klub_avtosalon-70000001041311670/otzyv-7810115" title="Сегодня в 3:20" class="ugc-date link link--grey t-text t-text--small">
Сегодня в 3:20
</a>
'''

soup = bs4.BeautifulSoup(text)
cat = soup.find('cat-brand-ugc-date')
date = cat.get('date')  # 2022-08-08T01:20:56+03:00

d = datetime.datetime.strptime(date, "%Y-%m-%dT%H:%M:%S%z")
d = d.strftime("%d-%m-%y %H:%M:%S")
print(d)  # 08-08-22 01:20:56

БЛОГ НА HUSL

Проблема с парсингом даты и времени

Ответы (1 шт):