г. Москва, ул. Борисовская, д.1
Войти
Логин
Пароль
Зарегистрироваться
После регистрации на сайте вам будет доступно отслеживание состояния заказов, личный кабинет и другие новые возможности
Заказать звонок

Как скрыть страницы из выдачи и для чего это нужно

В процессе индексирования сайта специальные боты считывают его веб-страницы и вносят их в базы данных. Так в системах «Яндекс» и Google появляется вся информация о ресурсах — от текстов до изображений и видеоматериалов. Благодаря корректному индексированию интернет-пользователи оперативно находят сайт в выдаче.

Из статьи вы узнаете об особенностях процесса и о том, какие страницы необходимо открывать для поисковиков или, наоборот, прятать от них.

Цель ограничения индексации

Владелец ресурса старается сделать так, чтобы на его сайт пришло как можно больше пользователей. Для этого поисковые боты должны предоставить посетителям релевантные их запросам данные. Значит, нужно проиндексировать страницы, которые привлекут целевую аудиторию. А также будут отвечать требованиям агрегаторов.

Однако индексацию некоторых страниц нужно запрещать по причине:

  1. Неуникальности контента. Поисковым системам важно, чтобы содержимое страниц, которое они вносят в базу данных, было уникальным. Иначе первоисточник окажется в приоритете, а ресурс с плагиатом не продвинется в выдаче.
  2. Ограниченности краулингового бюджета. У любого сайта есть лимит на сканирование страниц для индексирования. Иными словами, индивидуальный краулинговый бюджет. Для лучшего продвижения в выдаче необходимо убрать лишние страницы.

Что следует скрыть от поисковиков

Ограничьте индексацию «сырого» сайта, чтобы поисковые системы не смогли зафиксировать некорректную информацию. Если веб-ресурс уже работает, исключите из выдачи следующие страницы:

  • PDF

На сайтах можно встретить документы, которые имеют прямое отношение к содержимому некоторых страниц, например, тексты о политике конфиденциальности. Необходимо контролировать их ранжирование. Заголовки PDF-файлов, которые поднимаются выше страниц по такому запросу, следует закрывать с помощью robots.txt. Так пользователи получат доступ к более релевантным сведениям.

  • Страницы в разработке

Если индексировать недоработанные страницы, позиции веб-ресурса снизятся. Показывайте поисковым ботам только оптимизированное уникальное содержимое. Для выполнения настроек лучше использовать robots.txt.

Страницы в разработке

  • Зеркала сайта

После того, как создадите копию сайта, укажите корректное зеркало с помощью 301 редиректа. Благодаря этому «Яндекс» и Google отличат оригинал веб-ресурса от его копии. Кроме того, исходный сайт останется на прежних позициях.

Если заменить оригинал копией, обнулятся и возраст, и репутация ресурса.

  • Страницы для печати

Некоторые сайты обладают дополнительными возможностями. Например, имеют функцию печати страниц. Такие версии создаются через дублирование. В результате поисковые системы считают приоритетными копии, а не оригиналы.

Для предупреждения подобных ситуаций следует отключить индексирование страниц для печати с помощью AJAX или файла robots.txt. Или использовать мета-тег <meta name="robots" content="noindex, follow"/>.

  • Лид-формы и прочее

Обязательными атрибутами многих современных сайтов являются личный кабинет, форма обратной связи и корзина. Все это — главная часть структуры веб-ресурса. Однако они бесполезны для поисковых систем, поэтому их следует скрывать.

  • Служебные страницы

Они не содержат важную информацию для пользователей. Такие страницы нужны администратору сайта.

  • Персональные данные клиентов

Ключевой задачей владельца веб-ресурса является защита личной информации пользователей. Необходимо закрыть от индексации сведения о платежах, контакты и другие данные, которые можно использовать для идентификации человека.

  • Страницы с результатами поиска

Они нужны только посетителям сайта. Такие страницы содержат неуникальную информацию. Следовательно, не представляют интерес для поисковиков.

  • Страницы сортировки

Они, как и предыдущие, нужны только пользователям. Поисковики негативно относятся к страницам сортировки, которые частично дублируют контент.

А вот без пагинации не будет работать ни один крупный сайт. Разобраться со значением порядковой нумерации страниц поможет пример с папирусными свитками. Зачастую чтение этих длинных листов вызывало затруднение, так как в них не было глав, а только сплошной текст. Веб-ресурсы без пагинации являются современным аналогом древних свитков.

Благодаря порядковой нумерации большие объемы данных разделяются на страницы и делают сайт удобным для пользователей. Задачей владельца ресурса является настройка атрибутов rel="canonical", rel="prev" и rel="next". Для этого нужно зайти в Google Search Console, открыть «Параметры URL» и указать критерии для разделения страниц.

Кроме того, необходимо закрывать от индексации лендинги для контекстной рекламы. И страницы, которые содержат результаты внутреннего поиска и UTM-метки.

Страницы сортировки

Что следует открыть для индексации

Случается, владельцы веб-ресурсов прячут от поисковиков важный контент. Во избежание подобных ситуаций откройте ботам:

  1. Копии страниц, которые часто пользователи видят при работе с каталогом. Не стоит отключать индексацию дублей без предварительной оценки объема трафика. Следует настроить 301 редиректы с малоизвестных страниц на популярные и удалить неэффективные.
  2. Страницы смарт-фильтра, которые способствуют увеличению трафика за счет НЧ-запросов. Нужно убедиться в правильности настроек sitemap.xml, мета-тегов и ошибок 404.

Если соблюдать эти простые рекомендации, веб-ресурс значительно продвинется в выдаче.

Способы закрытия страниц от поисковых систем

Спрятать страницы от индексирования можно с помощью:

файла robots.txt;
HTML-кода;
работы на сервере;
административной панели;
специализированных сервисов.

Работа с файлом robots.txt

Анализ ресурса поисковые системы начинают именно с этого файла. Он «подсказывает» ботам, какие страницы следует добавить в индекс или пропустить.

Robots.txt находится в корневой папке сайта. Если файл отсутствует, его нужно создать с помощью текстового редактора, а затем добавить в нужную директорию.

На сайте, который разработан на «1С-Битрикс», robots.txt формируется автоматически в панели администратора. Для изменения файла следует зайти в раздел «Маркетинг», открыть «Поисковую оптимизацию» и выбрать «Настройку robots.txt».

Там будет две строки:

User-agent: *
Disallow: /

После удаления остальных правил поисковики не смогут анализировать и добавлять в базу данных сведения с ресурса.

Способы запрета индексации для «Яндекса»

Замените атрибут в первой строке:

User-agent: Yandex;
Disallow: /.

Для оценки корректности настроек следует открыть «Яндекс.Вебмастер», загрузить robots.txt и пройти по ссылке https://webmaster.yandex.ru/tools/robotstxt/. После открытия поля для проверки URL необходимо вставить несколько ссылок на страницы сайта и нажать «Проверить». Если страницы закрылись от ботов «Яндекса», то напротив ссылок появится надпись «Запрещено правилом /*?*».

Способы запрета индексации для Google

Замените атрибут в первой строке:

User-agent: Googlebot
Disallow: /

Затем нужно зайти в Google Search Console и убедиться, что напротив ссылок на закрытые страницы появилась надпись «Заблокировано по строке».

Способы запрета индексации для остальных поисковиков

Каждая система использует своих роботов с уникальными названиями, которые вносятся в robots.txt:

Slurp —Yahoo;
SputnikBot — «Спутник»;
MSNBot — Microsoft Network Search.

Способы закрытия для ботов отдельных страниц

Чтобы поисковики не увидели страницы со служебной информацией — панель администратора, корзину, старые акции — воспользуйтесь командой «Запрет индексации».

Конкретная страница

User-agent: *
Disallow: /contact.html

Один раздел

User-agent: *
Disallow: /catalog/

Веб-ресурс полностью (кроме конкретного раздела)

User-agent: *
Disallow: / Allow: /catalog

Раздел полностью (кроме подраздела)

User-agent: *
Disallow: /product
Allow: /product/auto

Внутренний поиск

User-agent: *
Disallow: /search

Админ-панель

User-agent: *
Disallow: /admin


Способы закрытия других данных

Robots.txt полностью или выборочно закроет от поисковиков всю информацию — от файлов, папок и скриптов до UTM-меток и изображений.

Файлы определенного типа

User-agent: *
Disallow: /*.jpg

Папки

User-agent: *
Disallow: /images/

Папка полностью (кроме одного файла)

User-agent: *
Disallow: /images/
Allow: file.jpg

Скрипты

User-agent: *
Disallow: /plugins/*.js

UTM-метки

User-agent: *
Disallow: *utm=

UTM-метки для ботов «Яндекса»

Clean-Param: utm_source&utm_medium&utm_campaign


Способы запрета индексации картинок

Для этого необходимо прописать директивы:

User-Agent: *
Disallow: *.png
Disallow: *.jpg
Disallow: *.gif

Как запретить индексацию поддомена

У большинства поддоменов есть собственные robots.txt, которые находятся в корневой папке. В файле следует прописать:

User-agent: *
Disallow: /

Использование HTML-кода

Для запрета индексации можно применить мета-теги в блоке <head>. Используйте атрибут content, который необходим для:

разрешения индексации страницы;
полного запрета индексирования страницы за исключением ссылок;
разрешения индексации ссылок;
включения индексирования всей страницы за исключением ссылок;
разрешения индексации всей страницы.

Для указания бота следует изменить атрибут name — Yandex и Googlebot для «Яндекса» и Google соответственно.

Запрет индексации страницы вместе с ссылками для Google выглядит следующим образом:

<html>
<head>
<meta name="googlebot" content="noindex, nofollow" />
</head>
<body>...</body>
</html>.

При этом лучше обойтись без использования тега Meta Refresh. Несмотря на то, что он запрещает индексирование для Google, использовать его не рекомендуется.

Особенности работы на сервере

Случается, поисковые системы пренебрегают запретом на индексацию. В таких ситуациях следует провести некоторые работы на сервере и скрыть информацию. Для этого необходимо найти в корневой директории файл .htaccess и добавить коды:

для Google — SetEnvIfNoCase User-Agent "^Googlebot" search_bot;
для «Яндекса» — SetEnvIfNoCase User-Agent "^Yandex" search_bot.

Через административную панель

С отключением индексации сайтов, которые создаются на движке WordPress, проблем нет.

Способы полного закрытия веб-ресурса

Порядок действий следующий: зайти в административную панель, через левое меню открыть «Настройки», выбрать «Чтение» и поставить галочку напротив «Попросить поисковые системы не индексировать сайт». Далее сохранить изменения, чтобы у CMS получилось автоматически откорректировать robots.txt.

Способы закрытия отдельных страниц

Порядок действий следующий: установить плагин Yoast SEO, открыть страницу для редактирования, прокрутить ее вниз и в «Дополнительно» прописать «Нет».

Помощь специализированных сервисов

Для скрытия конкретной страницы необходимо зайти в Google Search Console, открыть «Индекс Google» и удалить ненужный URL. Запрет на индексирование начнет работать через некоторое время.

Для «Яндекс.Вебмастера» порядок действий следующий. Сначала необходимо убедиться в корректности составления robots.txt. Для этого следует открыть «Результаты анализа robots.txt» и найти список директив, которые будут учитываться при индексировании. Чтобы проверить конкретные страницы, следует указать их адреса в поле «Список URL». Также можно оценить изменения robots.txt и скачать нужную версию.

Если будете выполнять рекомендации, при настройке индексирования у вас не возникнет проблем.

Популярные категории



Назад к списку