Обнуляется html файл с кодом сайта, когда в него заходишь в браузере. Python
- Мне нужна полная копия страницы для дальнейшего парсинга, но при открытии html файла сама страница держится всего пару секунд, как это обойти
- Как обойти ошибку 403 при get запросе этого сайта https://www.vseinstrumenti.ru
Код:
from bs4 import BeautifulSoup
import requests
from fake_useragent import UserAgent
url= "https://www.sdvor.com/tmn/category/perforatory-6114"
UserAgent().chrome
req = requests.get(url, headers={'User-Agent': UserAgent().chrome})
scrap = req.text
print(scrap)
Изначально сохранялся пустой файл, но потом добавил в след строку encoding="utf-8-sig и информация файла стала держаться пару секунд
with open("index.html", "w", encoding="utf-8-sig") as file:
file.write(scrap)
soup = BeautifulSoup (scrap, "lxml")
print(soup)
Ответы (1 шт):
Автор решения: Сергей Ш
→ Ссылка
from bs4 import BeautifulSoup
import requests
from fake_useragent import UserAgent
url = "https://www.sdvor.com/tmn/category/perforatory-6114"
req = requests.get(url, headers={'User-Agent': UserAgent().chrome})
print(req)
# Response [200]
soup = BeautifulSoup(req.text, "lxml")
print(soup.find('a', class_="product-name").text)
# Перфоратор Makita HR2470
Есть доступ к исходникам сайта, можно вытянут нужную инфу.