python. Очистка строки от гиперссылок и тэгов
Дана строка вида:
<img src="картинка.png" /><br />
<br />
15 апреля 1999 года Вася полностью <a href="ссылка1" rel="nofollow noopener noreferrer">приостановил</a>
все функции создания колбасы для деревни, включая подписку premium colbas. <br />
<a href="ссылка2">Читать дальше →</a>
Необходимо удалить все теги и гиперссылки из текста, оставив только содержание. Должно получится:
15 апреля 1999 года Вася полностью приостановил все функции создания колбасы для деревни, включая подписку premium colbas. Читать дальше
Подскажите, в какую сторону двигаться, для того, чтобы определять теги и промежуточную в них информацию для её удаления, или, например, изъятия самой ссылки внутри тэга (допустим изъятие "ссылка2" под текстом "читать дальше")
Ответы (1 шт):
Автор решения: Namerek
→ Ссылка
import re
from html import unescape
text = """<img src="картинка.png" /><br />
<br />
15 апреля 1999 года Вася полностью <a href="ссылка1" rel="nofollow noopener noreferrer">приостановил</a>
все функции создания колбасы для деревни, включая подписку premium colbas. <br />
<a href="ссылка2">Читать дальше →</a>"""
t = unescape(re.sub(r'<.+?>', '', re.sub(r'<a.+?>(.+?)</a>', r'\1', text)).strip())
print(t)
Output
15 апреля 1999 года Вася полностью приостановил
все функции создания колбасы для деревни, включая подписку premium colbas.
Читать дальше →