Найти повторяющуюся ссылку из html при помощи BeautifulSoup

есть тег вида:

<a href="https://mysite.com/mylink" rel="noopener" target="_blank">https://mysite.com/mylink</a>

как при помощи BeautifulSoup (или есть что то лучше?) найти и присвоить переменной myvar только одну ссылку https://mysite.com/mylink (обе ссылки идентичны)?


Ответы (1 шт):

Автор решения: Komdosh

Можно вытащить значение href из тега.

Можно вытащить текст тега (но это менее предпочтительный вариант так как может быть вложенность)

from bs4 import BeautifulSoup

htmlText = """<a href="https://mysite.com/mylink" rel="noopener" target="_blank">https://mysite.com/mylink</a>""" # Здесь ваш HTML текст, можете загрузить страницу с помощью requests

soup = BeautifulSoup(htmlText, 'html.parser')
aTags = soup.findAll('a')

for tag in aTags:
  href = tag.attrs.get('href', 'Not found')
  # text = tag.text # вытащить текст внутри тэга
  print(href) # Напечатает значение href аттрибута или 'Not found' если его не будет
→ Ссылка