Парсинг вложенных html таблиц с помощью регулярок
Есть вложенные таблицы, пример:
код код код <table>text text text text text <table>text222 text2222 text2222 text222 </table>text text </table> код код код
Вопрос. нужно составить регулярное выражение, чтобы в его границы попал "внутренняя" таблица.
Моих знаний хватило только на такое: <table[^<>]*?>.+?(?<=/table>) Оно не подходит, тк захватывает оба открывающих тэга Прошу помощи!
Ответы (2 шт):
If you use a BeautifulSoup you can use: sibling_soup.b.next_sibling or sibling_soup.c.previous_sibling Documentation:https://www.crummy.com/software/BeautifulSoup/bs4/doc/
Нужно выбрать парный тег table, при условии, что внутри нет открывающего тега table. Можно использовать как ретроспективную, так и опережающую проверку (негативную). Последнее лучше поддерживается браузерами:
<table[^<>]*?>(?:.(?!<table[^<>]*?>))*?<\/table>