Найти повторяющуюся ссылку из html при помощи BeautifulSoup

Question

есть тег вида:

<a href="https://mysite.com/mylink" rel="noopener" target="_blank">https://mysite.com/mylink</a>

как при помощи BeautifulSoup (или есть что то лучше?) найти и присвоить переменной myvar только одну ссылку https://mysite.com/mylink (обе ссылки идентичны)?

Answer 1

Можно вытащить значение href из тега.

Можно вытащить текст тега (но это менее предпочтительный вариант так как может быть вложенность)

from bs4 import BeautifulSoup

htmlText = """<a href="https://mysite.com/mylink" rel="noopener" target="_blank">https://mysite.com/mylink</a>""" # Здесь ваш HTML текст, можете загрузить страницу с помощью requests

soup = BeautifulSoup(htmlText, 'html.parser')
aTags = soup.findAll('a')

for tag in aTags:
  href = tag.attrs.get('href', 'Not found')
  # text = tag.text # вытащить текст внутри тэга
  print(href) # Напечатает значение href аттрибута или 'Not found' если его не будет

БЛОГ НА HUSL

Найти повторяющуюся ссылку из html при помощи BeautifulSoup

Ответы (1 шт):