Правило noindex
https://developers.google.com/search/docs/crawling-indexing/block-indexing?hl=ru
Не понимаю, собираюсь выставить тег на запрет индексирование страницы. На страницы которые отдают 404 ошибку.
К примеру в robots.txt, прописано
User-agent: *
Disallow: */page/*
Если на странице '/page/' выставить тег
<meta name="robots" content="noindex">
Следуя
Внимание! Чтобы правило noindex работало, файл robots.txt не должен блокировать поисковому роботу доступ к странице. В противном случае поисковый робот не сможет обработать ее код и не обнаружит правило noindex. В результате контент с такой страницы по-прежнему будет появляться в результатах поиска, например если на нее ссылаются другие ресурсы.
То есть, я тут смотрю по статистике сканирования в гугл консоле, ищу страницы которые отдают 404 код. Каждую страницу прописываю запрет на обход в файле robots и чтобы избавиться от этой волокиты. Решаю выставить в html документе, запрет на индексирование. Как только выставлю тег, все страницы что запретил robots, снова попадут в поиск?
У меня количество загруженных страниц 8000 в гугл консоле из них 400 проиндексированные, остальные это мусор. Пытаюсь выровнять количество загруженных с проиндексированными. Чтобы робот лишний раз не обходил...
Не понимаю, как правильно делать. Страницы отдают 404, они очень долго удаляются. Роботы их постоянно обходят, запрет в robots должен спасти это и в дальнейшем роботы не станут их сканировать и забудут про них...
Ответы (1 шт):
Алгоритм действий со страницами 404:
в
robots.txt
прописываете:User-agent: * Disallow: /404
noindex
не трогаете вообще - он тут не нужен.идете в GSC, и все страницы 404 удаляете через функцию "удаление".
Не забывайте чистить карту сайта.
Если страница имеет вес (внешние ссылки, соц. сигналы), а вы грохнули на ней контент, ставим с нее 301 на схожую по тематике - все остальное делаем как написано выше.
Если к яше сайт подключен, то также удаляете страницы из поиска.