Не получается получить ответ от веб-сайта sportmaster.ru

Question

Пытаюсь получить экзмепляр страницы sportmaster.ru следующим образом:

user_agent_val = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:47.0) Gecko/20100101 Firefox/47.0'
url = 'https://www.sportmaster.ru/product/29192860299/'
session = requests.Session()
response = session.get(url, headers={'User-Agent': user_agent_val})
print(response)

Но возвращается код 401 Unauthorized. Может нужно передавать какие-нибудь дополнительные параметры для аутентификации. Подскажите, пожалуйста, что можно сделать.

При запросе получаю ответ: <Response [401]>

Answer 1

Первый инструмент, который имеет смысл освоить, работая с парсерами сайтов - wget (ну, или curl, это кому как). И первое, что нужно сделать в этой ситуации - посмотреть какие HTTP-заголовки отдаются:

$ wget -S "https://www.sportmaster.ru/product/29192860299/"
...
HTTP/1.1 401 Unauthorized
Server: QRATOR
...

Очевидно, там используется Qrator, в том числе и для защиты от парсеров. Как его обойти - вопрос творческий и однозначного ответа не имеет :-) Но очевидно, что одного юзерагента мало, может, с куками повозиться имеет смысл, с заголовками типа Accept, Connection или ещё с чем-нибудь...

БЛОГ НА HUSL

Не получается получить ответ от веб-сайта sportmaster.ru

Ответы (1 шт):