Что делать, если xmltojson крашится, найдя title="text"?

Question

Пытаюсь понять, как можно обойти ошибку.
Парсинг страницы, получаю пригодный для xmltojson outer html страницы.
Обычно оно прокатывает - парсит в пригодный для дальнейшего json.loads() формат.

Но столкнулся с внезапной проблемой - на странице встретился подобный код:

<h1 class="the_class"><a href="/the_link.html" title="The title is <So important>">And some text here</a></h1>

Внимание на title:

title="The title is <So important>"

Узрев в title столь любимые им <...> он старательно крашнулся с сообщением, что мой xml not well-formed (invalid token): line 1, column 67.

Возможно ли как то обойти такое без выпиливания title?

PS Пробую написать более-менее универсальный regex чтобы выпилить title если в нем есть <...>: r'title=".*<.*>.*"' вроде неплохо работает, хмм.

БЛОГ НА HUSL

Что делать, если xmltojson крашится, найдя title="text"?

Ответы (0 шт):