Как вытащить информацию из строки после определенной фразы?
есть строка:
<div class="book"><div class="full_version_flag">полная версия</div><img alt="Мастер и Маргарита" class="lazy-img" data-src="https://avidreaders.ru/pics/8/8/388.jpg"
Мне необходимо вытащить из нее текст, который стоит в кавычках после alt=. Текст должен быть без кавычек
Ответы (1 шт):
Автор решения: Zhihar
→ Ссылка
вариант 1:
воспользоваться регулярными выражениями, например:
\balt\s*=\s*"([^"]+)"\B|\balt\s*=\s*'([^']+)'\B
тут надо уточнить спецсимволы начала и конца слова - в питоне это может быть не \b и \B (я не помню просто уже)
есть еще одна проблема - такая регулярка экранирование не отловит, т.е. с
alt = "текст\"текст"
будут проблемы, но регулярно можно и дошлифовать, я думаю
вариант 2:
нужен парсер тегов и тогда можно будет распарсить строку в дерево тегов, пройтись по дереву и поискать в тегах свойство alt