Как сделать на python ежесекундный web-scrapping публичных данных, обновляемых на целевой странице с помощью js?
Всем здравствуйте!
Как можно это сделать без перспективы залететь в бан? Парсить нужно в течение суток, недель, месяцев.
Целевой сайт - достаточно серьезный, поэтому, я думаю, что использование VPN там не прокатит.
Сначала рассматривал вариант в tor прописать дополнительно 4 порта и он будет подставлять разные ip при каждом заходе на сайт. Но я думаю, что при ежесекундном скраппинге - 4 порта - это очень мало. Кроме того, нашел отзывы, что ip tor бывают забанены, да и работает он медленновато.
Использовать задержки в несколько сеунд с различным интервалом - не вариант. Данные нужно именно получать в режиме реального времени.
Подскажите, пожалуйста, у кого какие есть идеи. Буду благодарен за любую наводку!
P.S.: сайт не является SPA
Ответы (1 шт):
Насколько мне известно, основной информацией, по которой сервер выявляет кандидатов на бан, является следующее:
- Частота одинаковых запросов
- IP
- Данные о клиенте (браузере)
По первому пункту всё достаточно индивидуально. По второму - купите несколько десятков прокси IP (например тут: https://proxy6.net/) и при создании объекта браузера используйте параметр proxy=... По третьему пункту используйте модуль UserAgent - он попытается вас замаскировать.