Python, BS, очистка текста от html тегов, кроме нужных

Question

Парсим html

description = soup.find('div', {'id': 'content_description'})

Получаем текст в виде чего то такого:

<p class="abc">Lorem ipsum odor amet, <span class="qwq">consectetuer</span> adipiscing elit. Laoreet vitae tempus magnis donec ipsum felis est.</p>

<ul class="assd">
    <li>123</li>
    <li>123</li>
    <li>123</li>
    <li>123</li>
</ul>

<div>Lorem ipsum odor amet, consectetuer adipiscing elit. Laoreet vitae tempus magnis donec ipsum felis est. Parturient nulla et platea curabitur class maecenas.</div>

<table>
....
</table>

Задача удалить все теги кроме p, ul, li, убрав стили. div заменить на p, table убрать полностью вместе с содержимым. Т.е. получить такое:

<p>Lorem ipsum odor amet, consectetuer adipiscing elit. Laoreet vitae tempus magnis donec ipsum felis est.</p>

<ul>
    <li>123</li>
    <li>123</li>
    <li>123</li>
    <li>123</li>
</ul>

<p>Lorem ipsum odor amet, consectetuer adipiscing elit. Laoreet vitae tempus magnis donec ipsum felis est. Parturient nulla et platea curabitur class maecenas.</p>

Возможно?

БЛОГ НА HUSL

Python, BS, очистка текста от html тегов, кроме нужных

Ответы (0 шт):