Как сделать на python ежесекундный web-scrapping публичных данных, обновляемых на целевой странице с помощью js?

Всем здравствуйте!

Как можно это сделать без перспективы залететь в бан? Парсить нужно в течение суток, недель, месяцев.

Целевой сайт - достаточно серьезный, поэтому, я думаю, что использование VPN там не прокатит.

Сначала рассматривал вариант в tor прописать дополнительно 4 порта и он будет подставлять разные ip при каждом заходе на сайт. Но я думаю, что при ежесекундном скраппинге - 4 порта - это очень мало. Кроме того, нашел отзывы, что ip tor бывают забанены, да и работает он медленновато.

Использовать задержки в несколько сеунд с различным интервалом - не вариант. Данные нужно именно получать в режиме реального времени.

Подскажите, пожалуйста, у кого какие есть идеи. Буду благодарен за любую наводку!

P.S.: сайт не является SPA

Источник

Ответы (1 шт):

Автор решения: Sergey

Насколько мне известно, основной информацией, по которой сервер выявляет кандидатов на бан, является следующее:

Частота одинаковых запросов
IP
Данные о клиенте (браузере)

По первому пункту всё достаточно индивидуально. По второму - купите несколько десятков прокси IP (например тут: https://proxy6.net/) и при создании объекта браузера используйте параметр proxy=... По третьему пункту используйте модуль UserAgent - он попытается вас замаскировать.

→ Ссылка

БЛОГ НА HUSL

Как сделать на python ежесекундный web-scrapping публичных данных, обновляемых на целевой странице с помощью js?

Ответы (1 шт):