python. Очистка строки от гиперссылок и тэгов

Дана строка вида:

<img src="картинка.png" /><br />
<br />
15 апреля 1999 года Вася полностью <a href="ссылка1" rel="nofollow noopener noreferrer">приостановил</a> 
все функции создания колбасы для деревни, включая подписку premium colbas. <br /> 
<a href="ссылка2">Читать дальше &rarr;</a>

Необходимо удалить все теги и гиперссылки из текста, оставив только содержание. Должно получится:

15 апреля 1999 года Вася полностью приостановил все функции создания колбасы для деревни, включая подписку premium colbas. Читать дальше

Подскажите, в какую сторону двигаться, для того, чтобы определять теги и промежуточную в них информацию для её удаления, или, например, изъятия самой ссылки внутри тэга (допустим изъятие "ссылка2" под текстом "читать дальше")


Ответы (1 шт):

Автор решения: Namerek
import re
from html import unescape


text = """<img src="картинка.png" /><br />
<br />
15 апреля 1999 года Вася полностью <a href="ссылка1" rel="nofollow noopener noreferrer">приостановил</a> 
все функции создания колбасы для деревни, включая подписку premium colbas. <br /> 
<a href="ссылка2">Читать дальше &rarr;</a>"""


t = unescape(re.sub(r'<.+?>', '',  re.sub(r'<a.+?>(.+?)</a>', r'\1', text)).strip())
print(t)

Output

15 апреля 1999 года Вася полностью приостановил 
все функции создания колбасы для деревни, включая подписку premium colbas.  
Читать дальше →
→ Ссылка