2 скрипта по отдельности работают, а в комбинации - нет
Написал для себя скрипт парсить с proz.com глоссарии для перевода. Пару дней назад работал нормально, но сегодня возникла проблема.
Когда запускаю скрипт, который скачивает список глоссариев для языковой пары, все нормально работает. https://www.proz.com/glossary-translations/english-to-russian-translations
Когда запускаю скрипт на скачивание одного глоссария, все тоже нормально работает - скрипт обращается непосредственно на страницу глоссария и постранично перебирает его, скачивая.
Когда же я запускаю комбинированный скрипт, который перебирает список глоссариев (п. 1), а потом заходит по каждой ссылке и скачивает очередной глоссарий (п.2), то вот здесь и возникает проблема:
urllib.error.HTTPError: HTTP Error 404: Not Found
Причем этот неработающий комбинированный скрипт состоит из двух рабочих простых скриптов. Подстановка User Agent не помогает:
response = Request(url, headers = {'User-Agent': ' Mozilla/5.0 (Windows NT 6.1; WOW64; rv:12.0) Gecko/20100101 Firefox/12.0'})
Это мой первый опыт программирования, поэтому заранее прошу прощения за неточности описания и неполную, возможно, информацию. Если нужно что-то уточнить, я дополню.
def main(): #анализ списка глоссариев
webpage = get_html(enter_link())
Здесь все еще нормально, а при выполнении следующей функции возникает ошибка:
def get_html(url):
response = Request(url, headers = {'User-Agent': ' Mozilla/5.0 (Windows NT 6.1; WOW64; rv:12.0) Gecko/20100101 Firefox/12.0'}) #на этой строке ошибка
webpage = urlopen(response).read()
enter_link() - это просто хранилище ссылки на страницу со списком глоссариев:
def enter_link:
eee = 'https://www.proz.com/glossary-translations/english-to-russian-translations/'
return eee
Еще хотел бы добавить, что несколько дней назад этот скрипт нормально работал, проблемы возникли только вчера. Поэтому не думаю, что проблема в коде. Я склонен считать, что что-то подкрутили на сайте. Ранее у меня уже была подобная ситуация. Первый вариант скрипта нормально работал, пока на сайте не сделали проверку user-agent. Я добавил строку с его подменой. Теперь - новое ограничение. Что это - куки, проверка интервалов прохода скрипта по страницам или что-то иное?
Ответы (2 шт):
Ошибка 404 указывает, что страница не найдена. Возможно допустили ошибку при соединении скриптов. Желательно на код ваш посмотреть, чтобы не гадать
Всё оказалось прозаичнее некуда - в конце ссылки затесался слэш. Sad but true
Прошу прощения за потраченное время