Обсудим ваш проект?

Когда и как нужно закрывать сайт от индексации?


Просмотров:
502
Время на прочтение:
Статья обновлена:
27 Июля 2020
Информация о статье
Просмотров: 502
Время на прочтение:
Статья обновлена: 27.07.2020
Дарья Иванова, редактор
Наталья Штанюк, руководитель отдела SEO-продвижения
Дарья Иванова, редактор
Наталья Штанюк, руководитель отдела SEO-продвижения

При индексации сайта, роботы поисковых систем сканируют данные сайта и после многоступенчатой обработки добавляют их в специальную базу для последующего ранжирования в выдаче. Но в некоторых ситуациях требуется закрыть сайт от индексации целиком, либо его отдельные страницы. Разберем детальнее эти случаи, а также способы скрытия ресурса от поисковых краулеров.

Что нужно закрывать от индексации?

В поисковой выдаче должны присутствовать исключительно целевые страницы, решающие задачи сайта. Что нужно закрывать от индексации в обязательном порядке:

  • Страницы, являющиеся бесполезными для посетителей. В зависимости от используемой CMS таких страниц может быть большое количество. К ним относятся:
    • Контент административной части сайта.
    • Персональная информация пользователей, в том числе ее часть из профилей (актуально для блогов и форумов).
    • Дублированный контент. Некоторые CMS могут повторять данные в разных частях сайта (например, архивы и категории).
    • Формы регистрации, заказа, корзины.
    • Потерявшая актуальность информация.
    • Страницы печати.
    • RSS лента.
    • Медиа-контент шаблона.
    • Страницы поиска и т.д.
  • Если сайт находится на стадии разработки, страницы могут содержать нерелевантный контент, в таком случае ресурс нуждается в запрете на индексацию.
  • Информация, используемая определенным кругом лиц. Например, корпоративные ресурсы, предназначенные для взаимодействия между сотрудниками.
  • Аффилиаты.

Способы закрытия сайта от индексации

Закрыть сайт или страницы от посещения поисковых краулеров, можно следующими способами:

  • Через файл robots.txt, с помощью специальных директив.
  • Используя мета-теги в HTML-коде отдельной страницы.
  • В файле .htaccess.
  • При помощи плагинов, если сайт построен на готовой CMS.

Через robots.txt

Robots.txt – файл, который поисковые краулеры посещают в первую очередь перед началом индексации сайта. В нем прописываются директивы – правила для роботов.

Robots.txt должен соответствовать следующим требованиям:

  • Быть правильно названным – robots.txt.
  • Размер не должен превышать 500 КБ.
  • Находиться строго в корне сайта.
  • При проверке ссылки URL-сайта/robots.txt, должен возвращаться ответ 200.

Директивы для robots.txt:

  • User-agent * – боты поисковиков, на которых распространяются директивы.
  • Disallow – закрывает от индексации указанные страницы, либо весь сайт.
  • Allow – индексация открыта для указанных разделов, либо всего сайта.
  • Clean-param – с помощью данной директивы закрывают от индексации параметры URL адреса.
  • Sitemap – абсолютный адрес расположения карты сайта (sitemap).
  • Crawl-delay – диапазон времени, в который робот Яндекса заканчивает загрузку текущей страницы и приступает к загрузке следующей. Измеряется в секундах.

Полный запрет сайта на индексацию в robots.txt

Запретить индексировать сайт можно как для всех роботов поисковой системы, так и для отдельно взятых. Например, чтобы закрыть весь сайт от Яндекс бота, который сканирует изображения, достаточно прописать следующий код:

User-agent: YandexImages 
Disallow: /  

Закрыть индексацию для всех роботов:

User-agent: * 
Disallow: / 

Закрыть для всех, кроме указанного (в данном случае для ботов Яндекса индексация доступна):

User-agent: * 
Disallow: / 
User-agent: Yandex 
Allow: / 

Работа с отдельными страницами и разделами сайта

Для запрета индексации одной страницы, достаточно прописать ее URL-адрес (домен не указывается) в директиве роботса:

User-agent: *
Disallow: /registration.html

Закрытие раздела или категории:

User-agent: *
Disallow: /category/  

Также можно закрыть все, кроме указанной категории:

User-agent: *
Disallow: /
Allow: /category

Закрытие всей категории, кроме указанной подкатегории (в примере подкатегория – main):

User-agent: *
Disallow: /uslugi
Allow: /uslugi/main 

Скрытие от индексирования прочих данных

По типу файлов:

User-agent: *
Disallow: /*.png

По такому же принципу скрываются скриптовые файлы:

User-agent: *
Disallow: /scripts/*.ajax 

Директории:

User-agent: *
Disallow: /portfolio/ 

Всю директорию, за исключением указанного файла:

User-agent: *
Disallow: /portfolio/
Allow: avatar.png 

UTM-метки:

User-agent: *
Disallow: *utm=

Запрет на индексацию через HTML-код

Кроме файла robots.txt, запретить индексировать страницу можно с помощью мета-тегов в блоке <head> в HTML-коде.

Директивы:

  • Noindex – контент страницы, кроме ссылок, закрыт от индексации.
  • Nofollow – контент сканировать разрешается, но ссылки не индексируются.
  • Index – индексирование содержимого разрешено.
  • Follow – ссылки индексировать разрешено.
  • All – все содержимое страницы подлежит индексации.

Разрешается открывать/закрывать индексацию для отдельно взятого поисковика:

  • Yandex – обозначает всех роботов Яндекса.
  • Googlebot – аналогично для Google.

Пример мета-тега, который запрещает индексировать страницу, на которой он размещен:

<html>
    <head>
        <meta name="robots" content="noindex, nofollow" />
    </head>
    <body>...</body>
</html>

Директивы для определенных роботов:

Для краулера Google:
<meta name="googlebot" content="noindex, nofollow"/>
Для Яндекса:
<meta name="yandex" content="none"/>

Запрет на уровне сервера

Бывают ситуации, когда поисковики не реагируют на прочие запреты и продолжают индексировать закрытые данные. В таком случае, рекомендуется попробовать ограничить посещение отдельных краулеров на уровне сервера. Делается это следующим кодом, который следует добавить в файл .htaccess (находится в корневой папке сайта):

SetEnvIfNoCase User-Agent "^Googlebot" search_bot	# для Google
SetEnvIfNoCase User-Agent "^Yandex" search_bot	# для Яндекса

Закрытие сайта от индексации на Wordpress

В готовых CMS для сайтов присутствуют страницы, и даже целые директории, попадание в индекс которых крайне нежелательно. Этот нюанс также относится к популярнейшей CMS Wordpress.

Весь сайт через админку

Закрыть весь сайт от краулеров можно через админку: «Настройки – Чтение». Отметить пункт «Попросить поисковые системы не индексировать сайт», после чего система сама отредактирует robots.txt нужным образом.

Закрытие сайта через панель в WordPress «Настройки – Чтение»
Закрытие сайта через панель в WordPress «Настройки – Чтение»

Отдельные страницы с помощью плагина Yoast SEO

Установив и активировав плагин Yoast SEO, можно закрыть от индексации как весь ресурс, так и отдельно взятые страницы или записи. Сам плагин является мощным комбайном, помогающим в SEO-продвижении сайта.

Для того, чтобы запретить поисковым ботам индексировать определенную страницу или запись:

  • Открываем ее для редактирования и пролистываем вниз до окна плагина.
  • На вкладке «Дополнительно» настраиваются режимы индексации (полный ее запрет, закрытие всех ссылок – nofollow).

Закрытие от индексации с  помощью плагина Yoast SEO
Закрытие от индексации с помощью плагина Yoast SEO

Настройка индексации через Yoast SEO
Настройка индексации через Yoast SEO

Запретить индексировать отдельные страницы или директории для Wordpress можно также через файл robots.txt. Применяются аналогичные директивы, перечисленные выше. Хочется отметить, что готовые CMS системы требуют отдельного подхода к редактированию robots.txt, т.к. в этом случае требуется закрывать различные служебные директории: страницы рассылок, админки, шаблоны и многое другое. Если этого не сделать, то в поисковой выдаче могут появиться нежелательные материалы, а это негативно отразится на ранжировании всего сайта.

Как узнать, закрыт ли сайт от индексации?

Чтобы проверить закрыт ли сайт или отдельная страница от индексации существует множество способов, рассмотрим самые простые и удобные из них.

Через Яндекс.Вебмастер

Для проверки возможности индексации страницы, необходимо пройти верификацию в Яндексе, зайти в Вебмастер, в правом верхнем углу найти «Инструменты - Проверка ответа сервера».

Проверка индексации страницы через  Яндекс.Вебмастер
Проверка индексации страницы через Яндекс.Вебмастер

На открывшейся странице вставляем URL интересующей страницы. Если страница не допущена к индексации, то появится соответствующее уведомление.

Пример уведомления о запрете индексации страницы
Пример уведомления о запрете индексации страницы


Таким образом можно проверить корректность работы robots.txt или плагинов для CMS.

Через Google Search Console

Зайдите в Google Search Console, выберите «Проверка URL» и вставьте адрес вашего сайта или отдельной страницы.

Проверка индексации через Google Search Console
Проверка индексации через Google Search Console

С помощью операторов в поисковике

Если сайт проиндексирован Яндексом, то вбив в его поисковую строку специальный оператор + URL интересующего сайта/страницы, можно понять проиндексирован он или нет (для сайта отобразится количество проиндексированных страниц).

Проверка индексации сайта в Яндексе с помощью специального оператора
Проверка индексации сайта в Яндексе с помощью специального оператора

Проверка индексации отдельной страницы
Проверка индексации отдельной страницы

С помощью такого же оператора проверяем индексацию в Google. 

Плагины для браузера

Отличным плагином для проверки индексации страницы в поисковиках, является RDS-bar. Он показывает множество SEO показателей сайта, в том числе статус индексации текущей страницы в основных поисковиках.

Плагин RDS-bar
Плагин RDS-bar

Итак, мы рассмотрели основные ситуации, когда сайт или его отдельные страницы должны быть закрыты от индексации, рассказали как это сделать и проверить, надеемся наша статья была вам полезной.


Продвинем ваш сайт!
Помогли более 1000 сайтам получить высокие позиции и качественный трафик из Яндекс и Google. Подходим комплексно: аналитика, SEO-оптимизация, контент, ссылки, юзабилити. Над каждым проектом работает от 6 до 10 специалистов. Работаем по любой схеме — абонентская плата / оплата за позиции / оплата за трафик / оплата за лиды.

1 место SEO для e-commerce RatingRuneta.ru

1 место
SEO для e-commerce
RatingRuneta.ru

9 место в Топ-100 SEO-компаний России

9 место
В топ-100 SEO-
компаний России

11 место в топ-100 SEO-агентств Рунета

11 место
В топ-100 SEO-
агентств Рунета

Золотая сотня
Российского Digital

в топ-10 в SEO глазами клиентов 2014, 2016, 2017

В ТОП-10
«SEO глазами клиентов»