Найти повторяющуюся ссылку из html при помощи BeautifulSoup
есть тег вида:
<a href="https://mysite.com/mylink" rel="noopener" target="_blank">https://mysite.com/mylink</a>
как при помощи BeautifulSoup
(или есть что то лучше?) найти и присвоить переменной myvar
только одну ссылку https://mysite.com/mylink
(обе ссылки идентичны)?
Ответы (1 шт):
Автор решения: Komdosh
→ Ссылка
Можно вытащить значение href
из тега.
Можно вытащить текст тега (но это менее предпочтительный вариант так как может быть вложенность)
from bs4 import BeautifulSoup
htmlText = """<a href="https://mysite.com/mylink" rel="noopener" target="_blank">https://mysite.com/mylink</a>""" # Здесь ваш HTML текст, можете загрузить страницу с помощью requests
soup = BeautifulSoup(htmlText, 'html.parser')
aTags = soup.findAll('a')
for tag in aTags:
href = tag.attrs.get('href', 'Not found')
# text = tag.text # вытащить текст внутри тэга
print(href) # Напечатает значение href аттрибута или 'Not found' если его не будет