Python: как удалить html-теги с помощью парсера xml?

Question

У меня есть несколько файлов с такими html-тегами. Мне нужно удалить все теги, кроме последнего <p class="something">I love Prince</p>. Как я могу сделать это с помощью XML Parser?

<p class="mb-40px"></g></svg>               </a>
            </li>

        </ul>
    </div>

                </div>
                 
                </div>
                 
                </div>
            </div>
            
        </div>

                <div class="comment-form-fields"></div>
    <p class="something">I love Prince</p>

Answer 1

import re
html_raw = """
<p class="mb-40px"></g></svg>               </a>
            </li>

        </ul>
    </div>

                </div>
                 
                </div>
                 
                </div>
            </div>
            
        </div>

                <div class="comment-form-fields"></div>
    <p class="something">I love Prince</p>
"""

print(
    re.findall(
        r'<p class="something">.*?</p>',
        html_raw
    )
)
print(
    re.findall(
        r'(?<=<p class="something">).*?(?=</p>)',
        html_raw
    )
)
# ['<p class="something">I love Prince</p>']
# ['I love Prince']

БЛОГ НА HUSL

Python: как удалить html-теги с помощью парсера xml?

Ответы (1 шт):