Как спарсить все ссылки с sitemap.xml? Python
Есть карта сайта: https://www.stussy.com/sitemap_products_1.xml?from=4103557054560&to=6660699586656 Мне нужно спарсить все ссылки на товары. Каким способом лучше сделать?
Ответы (1 шт):
Автор решения: Sergey
→ Ссылка
Надо просто явно указать тип документа:
import requests
from bs4 import BeautifulSoup
url = 'https://www.stussy.com/sitemap_products_1.xml?from=4103557054560&to=6660699586656'
response = requests.get(url)
soup = BeautifulSoup(response.text, "xml")
loc_list = soup.find_all('loc')
for loc in loc_list:
print(f"{loc.text}")