Правило noindex

Question

https://developers.google.com/search/docs/crawling-indexing/block-indexing?hl=ru

Не понимаю, собираюсь выставить тег на запрет индексирование страницы. На страницы которые отдают 404 ошибку.

К примеру в robots.txt, прописано

User-agent: *
Disallow: */page/*

Если на странице '/page/' выставить тег

<meta name="robots" content="noindex">

Следуя

Внимание! Чтобы правило noindex работало, файл robots.txt не должен блокировать поисковому роботу доступ к странице. В противном случае поисковый робот не сможет обработать ее код и не обнаружит правило noindex. В результате контент с такой страницы по-прежнему будет появляться в результатах поиска, например если на нее ссылаются другие ресурсы.

То есть, я тут смотрю по статистике сканирования в гугл консоле, ищу страницы которые отдают 404 код. Каждую страницу прописываю запрет на обход в файле robots и чтобы избавиться от этой волокиты. Решаю выставить в html документе, запрет на индексирование. Как только выставлю тег, все страницы что запретил robots, снова попадут в поиск?

У меня количество загруженных страниц 8000 в гугл консоле из них 400 проиндексированные, остальные это мусор. Пытаюсь выровнять количество загруженных с проиндексированными. Чтобы робот лишний раз не обходил...

Не понимаю, как правильно делать. Страницы отдают 404, они очень долго удаляются. Роботы их постоянно обходят, запрет в robots должен спасти это и в дальнейшем роботы не станут их сканировать и забудут про них...

Answer 1

Алгоритм действий со страницами 404:

в robots.txt прописываете:
```
User-agent: * 
Disallow: /404
```
noindex не трогаете вообще - он тут не нужен.
идете в GSC, и все страницы 404 удаляете через функцию "удаление".
Не забывайте чистить карту сайта.

Если страница имеет вес (внешние ссылки, соц. сигналы), а вы грохнули на ней контент, ставим с нее 301 на схожую по тематике - все остальное делаем как написано выше.

Если к яше сайт подключен, то также удаляете страницы из поиска.

БЛОГ НА HUSL

Правило noindex

Ответы (1 шт):