Python requests - запрос на сайт с блокировкой "машинных" запросов
Всем привет! У меня есть необходимость запарсить на Python содержимое этого сайта. Ранее справлялся с этим вопросом самостоятельно без каких-либо проблем, однако сейчас нужна помощь.
При использовании requests.Session() с компьютера все отлично работает, но когда тот же самый код запускаю на Heroku - ничего не получается и html-структуру сайта получить не удается. В чем причина такого странного поведения запроса и как нужно правильно составить запрос, чтобы все работало корректно?
Код моего запроса:
with requests.Session() as session:
self.r = session.get(self.LINK_FOR_REQUEST, headers=HEADERS, cookies=COOKIES)
Константа self.LINK_FOR_REQUEST равна ссылке на указанный сайт.
Переменная HEADERS типа dict получается из парсинга файла headers.txt:
accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9
accept-encoding: gzip, deflate, br
accept-language: ru-RU,ru;q=0.9,en-US;q=0.8,en;q=0.7
referer: https://mo.ranepa.ru/
sec-ch-ua: ".Not/A)Brand";v="99", "Google Chrome";v="103", "Chromium";v="103"
sec-ch-ua-mobile: ?0
sec-ch-ua-platform: "Windows"
sec-fetch-dest: document
sec-fetch-mode: navigate
sec-fetch-site: same-origin
sec-fetch-user: ?1
upgrade-insecure-requests: 1
user-agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36
X-Hash-Validate: TT=RT&DC=DAC&AC=ZYL&AM=2018-01&AD=09&RM=2018-01&RD=10&FL=on&PA=1&PT=&PC=&PI=&CC=&CD=
x-csrftoken: NG97PVrI2orqk2UvBXyFB9GpHCNGHHFbbrRJogqbwFCEgTNoLsD383orPnQrq4wb
X-Requested-With: XMLHttpRequest
Переменная COOKIES типа dict получается из парсинга файла cookies.txt (часть cookie скрыл из за наличия личных данных). Парсингу подвергаю только две последних колонки:
# Netscape HTTP Cookie File
# http://curl.haxx.se/rfc/cookie_spec.html
# This is a generated file! Do not edit.
.ranepa.ru TRUE / TRUE 1689435968 _ym_uid 1657899968264128086
.ranepa.ru TRUE / TRUE 1689435968 _ym_d 1657899968
.ranepa.ru TRUE / FALSE 1690200471 BITRIX_SM_GUEST_ID 35410353
.ranepa.ru TRUE / FALSE 1690200467 BITRIX_SM_LAST_ADV 5
mo.ranepa.ru FALSE / FALSE 1688169600 BITRIX_SM_TIME_ZONE -180
mo.ranepa.ru FALSE / FALSE 1973365361 BX_USER_ID 03c9b7b266c892bcb29680b5a8f934ca
www.ranepa.ru FALSE / FALSE 1688169600 BITRIX_SM_TIME_ZONE -180