Что делать, если xmltojson крашится, найдя title="text"?
Пытаюсь понять, как можно обойти ошибку.
Парсинг страницы, получаю пригодный для xmltojson outer html страницы.
Обычно оно прокатывает - парсит в пригодный для дальнейшего json.loads() формат.
Но столкнулся с внезапной проблемой - на странице встретился подобный код:
<h1 class="the_class"><a href="/the_link.html" title="The title is <So important>">And some text here</a></h1>
Внимание на title:
title="The title is <So important>"
Узрев в title столь любимые им <...> он старательно крашнулся с сообщением, что мой xml not well-formed (invalid token): line 1, column 67.
Возможно ли как то обойти такое без выпиливания title?
PS Пробую написать более-менее универсальный regex чтобы выпилить title если в нем есть <...>: r'title=".*<.*>.*"' вроде неплохо работает, хмм.