Python, BS, очистка текста от html тегов, кроме нужных
Парсим html
description = soup.find('div', {'id': 'content_description'})
Получаем текст в виде чего то такого:
<p class="abc">Lorem ipsum odor amet, <span class="qwq">consectetuer</span> adipiscing elit. Laoreet vitae tempus magnis donec ipsum felis est.</p>
<ul class="assd">
<li>123</li>
<li>123</li>
<li>123</li>
<li>123</li>
</ul>
<div>Lorem ipsum odor amet, consectetuer adipiscing elit. Laoreet vitae tempus magnis donec ipsum felis est. Parturient nulla et platea curabitur class maecenas.</div>
<table>
....
</table>
Задача удалить все теги кроме p, ul, li, убрав стили. div заменить на p, table убрать полностью вместе с содержимым. Т.е. получить такое:
<p>Lorem ipsum odor amet, consectetuer adipiscing elit. Laoreet vitae tempus magnis donec ipsum felis est.</p>
<ul>
<li>123</li>
<li>123</li>
<li>123</li>
<li>123</li>
</ul>
<p>Lorem ipsum odor amet, consectetuer adipiscing elit. Laoreet vitae tempus magnis donec ipsum felis est. Parturient nulla et platea curabitur class maecenas.</p>
Возможно?