Как работает индексация сайта поисковыми роботами?

Сделал сайт с новостными статьями, суть в том что все статьи выводятся на одной странице путем прокрутки вверх или вниз. Сможет ли поисковой робот буть то Яндекс или Гугл правильно индексировать мои статьи если я например специально для него выведу последние 100 статей в структурированный данных, чтобы не переходя на другие страницы он их проиндексировал и все (в каждой записи также хранится полная ссылка на статью чтобы робот ее запомнил для возможности вывода в поисковой системе)

Главный вопрос, правильно ли я продумал функционал для того чтобы роботы индексировали статьи не переходя по ссылкам на сайте. Так как все статьи выводятся динамически на одной странице.

Ну и также я сделал robots.txt и schema.xml

Если кому нужен конкретный код, могу предоставить. Заранее спасибо за ответ.


Ответы (1 шт):

Автор решения: Alexander Semikashev

Для этих целей был придуман Sitemap

В файле Sitemap содержится информация о том, как организован контент на сайте (например, веб-страницы, видео и прочие ресурсы). Она помогает Google и другим поисковым системам более точно индексировать ваши материалы. К примеру, в файле Sitemap можно указать, какие разделы сайта наиболее важны, и сообщить дополнительную информацию о них (когда страница последний раз обновлялась, существуют ли ее версии на других языках и т. д.).

То есть вам необходимо сделать на сайте sitemap.xml, где вы перечислите все страницы вашего сайта, чтобы поисковой бот понимал что есть на сайте и что индексировать. Примерно так выглядит

<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
    <url>
        <loc>http://www.site.ru/</loc>
        <lastmod>2018-10-03</lastmod>
        <changefreq>monthly</changefreq>
        <priority>1.0</priority>
    </url>
    <url>
        <loc>http://www.site.ru/page-1.html</loc>
        <lastmod>2018-10-03</lastmod>
        <changefreq>monthly</changefreq>
        <priority>0.9</priority>
    </url>
    <url>
        <loc>http://www.site.ru/page-2.html</loc>
        <lastmod>2018-10-03</lastmod>
        <changefreq>monthly</changefreq>
        <priority>0.9</priority>
    </url>
    ...
    <url>
        <loc>http://www.site.ru/page-N.html</loc>
        <lastmod>2018-10-03</lastmod>
        <changefreq>monthly</changefreq>
        <priority>0.9</priority>
    </url>
</urlset>
→ Ссылка