Веб скраппинг с каптчей
Пытаюсь получить результат с сайта 2ip.io, задача узнать, есть ли сайт в реестре РКН. На сайте есть ввод каптчи. Скрипт получает её url, а дальше пользователь вводит её вручную. В общем, так выглядит моя попытка:
import requests
from bs4 import BeautifulSoup
url = f'https://2ip.io/rkn-blacklist/'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:107.0) Gecko/20100101 Firefox/107.0',
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,*/*;q=0.8',
'Content-Type': 'application/x-www-form-urlencoded',
'Connection': 'keep-alive'
}
session = requests.session()
response = session.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
cap_url = soup.find("img", {"id": "capchaHolder"}).get('src')
print(cap_url)
cap_solve = input('Капча с урла: ')
#domain_name = input('Сайт: ')
files = {
'url': (None, 'https://google.com'),
'turingCode': (None, cap_solve),
}
ban = session.post(url, files=files, cookies=session.cookies)
with open("asd.html", "w", encoding='utf-8') as file:
file.write(ban.text)
Сохраняю в файл, чтобы быстро посмотреть результат, а он всегда таков:
