В процессе индексирования сайта специальные боты считывают его веб-страницы и вносят их в базы данных. Так в системах «Яндекс» и Google появляется вся информация о ресурсах — от текстов до изображений и видеоматериалов. Благодаря корректному индексированию интернет-пользователи оперативно находят сайт в выдаче.
Из статьи вы узнаете об особенностях процесса и о том, какие страницы необходимо открывать для поисковиков или, наоборот, прятать от них.
Владелец ресурса старается сделать так, чтобы на его сайт пришло как можно больше пользователей. Для этого поисковые боты должны предоставить посетителям релевантные их запросам данные. Значит, нужно проиндексировать страницы, которые привлекут целевую аудиторию. А также будут отвечать требованиям агрегаторов.
Однако индексацию некоторых страниц нужно запрещать по причине:
Ограничьте индексацию «сырого» сайта, чтобы поисковые системы не смогли зафиксировать некорректную информацию. Если веб-ресурс уже работает, исключите из выдачи следующие страницы:
На сайтах можно встретить документы, которые имеют прямое отношение к содержимому некоторых страниц, например, тексты о политике конфиденциальности. Необходимо контролировать их ранжирование. Заголовки PDF-файлов, которые поднимаются выше страниц по такому запросу, следует закрывать с помощью robots.txt. Так пользователи получат доступ к более релевантным сведениям.
Если индексировать недоработанные страницы, позиции веб-ресурса снизятся. Показывайте поисковым ботам только оптимизированное уникальное содержимое. Для выполнения настроек лучше использовать robots.txt.
После того, как создадите копию сайта, укажите корректное зеркало с помощью 301 редиректа. Благодаря этому «Яндекс» и Google отличат оригинал веб-ресурса от его копии. Кроме того, исходный сайт останется на прежних позициях.
Если заменить оригинал копией, обнулятся и возраст, и репутация ресурса.
Некоторые сайты обладают дополнительными возможностями. Например, имеют функцию печати страниц. Такие версии создаются через дублирование. В результате поисковые системы считают приоритетными копии, а не оригиналы.
Для предупреждения подобных ситуаций следует отключить индексирование страниц для печати с помощью AJAX или файла robots.txt. Или использовать мета-тег <meta name="robots" content="noindex, follow"/>.
Обязательными атрибутами многих современных сайтов являются личный кабинет, форма обратной связи и корзина. Все это — главная часть структуры веб-ресурса. Однако они бесполезны для поисковых систем, поэтому их следует скрывать.
Они не содержат важную информацию для пользователей. Такие страницы нужны администратору сайта.
Ключевой задачей владельца веб-ресурса является защита личной информации пользователей. Необходимо закрыть от индексации сведения о платежах, контакты и другие данные, которые можно использовать для идентификации человека.
Они нужны только посетителям сайта. Такие страницы содержат неуникальную информацию. Следовательно, не представляют интерес для поисковиков.
Они, как и предыдущие, нужны только пользователям. Поисковики негативно относятся к страницам сортировки, которые частично дублируют контент.
А вот без пагинации не будет работать ни один крупный сайт. Разобраться со значением порядковой нумерации страниц поможет пример с папирусными свитками. Зачастую чтение этих длинных листов вызывало затруднение, так как в них не было глав, а только сплошной текст. Веб-ресурсы без пагинации являются современным аналогом древних свитков.
Благодаря порядковой нумерации большие объемы данных разделяются на страницы и делают сайт удобным для пользователей. Задачей владельца ресурса является настройка атрибутов rel="canonical", rel="prev" и rel="next". Для этого нужно зайти в Google Search Console, открыть «Параметры URL» и указать критерии для разделения страниц.
Кроме того, необходимо закрывать от индексации лендинги для контекстной рекламы. И страницы, которые содержат результаты внутреннего поиска и UTM-метки.
Случается, владельцы веб-ресурсов прячут от поисковиков важный контент. Во избежание подобных ситуаций откройте ботам:
Если соблюдать эти простые рекомендации, веб-ресурс значительно продвинется в выдаче.
Спрятать страницы от индексирования можно с помощью:
Анализ ресурса поисковые системы начинают именно с этого файла. Он «подсказывает» ботам, какие страницы следует добавить в индекс или пропустить.
Robots.txt находится в корневой папке сайта. Если файл отсутствует, его нужно создать с помощью текстового редактора, а затем добавить в нужную директорию.
На сайте, который разработан на «1С-Битрикс», robots.txt формируется автоматически в панели администратора. Для изменения файла следует зайти в раздел «Маркетинг», открыть «Поисковую оптимизацию» и выбрать «Настройку robots.txt».
Там будет две строки:
После удаления остальных правил поисковики не смогут анализировать и добавлять в базу данных сведения с ресурса.
Замените атрибут в первой строке:
Для оценки корректности настроек следует открыть «Яндекс.Вебмастер», загрузить robots.txt и пройти по ссылке https://webmaster.yandex.ru/tools/robotstxt/. После открытия поля для проверки URL необходимо вставить несколько ссылок на страницы сайта и нажать «Проверить». Если страницы закрылись от ботов «Яндекса», то напротив ссылок появится надпись «Запрещено правилом /*?*».
Замените атрибут в первой строке:
Затем нужно зайти в Google Search Console и убедиться, что напротив ссылок на закрытые страницы появилась надпись «Заблокировано по строке».
Каждая система использует своих роботов с уникальными названиями, которые вносятся в robots.txt:
Чтобы поисковики не увидели страницы со служебной информацией — панель администратора, корзину, старые акции — воспользуйтесь командой «Запрет индексации».
Конкретная страница |
User-agent: * |
Один раздел |
User-agent: * |
Веб-ресурс полностью (кроме конкретного раздела) |
User-agent: * |
Раздел полностью (кроме подраздела) |
User-agent: * |
Внутренний поиск |
User-agent: * |
Админ-панель |
User-agent: * |
Robots.txt полностью или выборочно закроет от поисковиков всю информацию — от файлов, папок и скриптов до UTM-меток и изображений.
Файлы определенного типа |
User-agent: * |
Папки |
User-agent: * |
Папка полностью (кроме одного файла) |
User-agent: * |
Скрипты |
User-agent: * |
UTM-метки |
User-agent: * |
UTM-метки для ботов «Яндекса» |
Clean-Param: utm_source&utm_medium&utm_campaign |
Для этого необходимо прописать директивы:
У большинства поддоменов есть собственные robots.txt, которые находятся в корневой папке. В файле следует прописать:
Для запрета индексации можно применить мета-теги в блоке <head>. Используйте атрибут content, который необходим для:
Для указания бота следует изменить атрибут name — Yandex и Googlebot для «Яндекса» и Google соответственно.
Запрет индексации страницы вместе с ссылками для Google выглядит следующим образом:
При этом лучше обойтись без использования тега Meta Refresh. Несмотря на то, что он запрещает индексирование для Google, использовать его не рекомендуется.
Случается, поисковые системы пренебрегают запретом на индексацию. В таких ситуациях следует провести некоторые работы на сервере и скрыть информацию. Для этого необходимо найти в корневой директории файл .htaccess и добавить коды:
С отключением индексации сайтов, которые создаются на движке WordPress, проблем нет.
Порядок действий следующий: зайти в административную панель, через левое меню открыть «Настройки», выбрать «Чтение» и поставить галочку напротив «Попросить поисковые системы не индексировать сайт». Далее сохранить изменения, чтобы у CMS получилось автоматически откорректировать robots.txt.
Порядок действий следующий: установить плагин Yoast SEO, открыть страницу для редактирования, прокрутить ее вниз и в «Дополнительно» прописать «Нет».
Для скрытия конкретной страницы необходимо зайти в Google Search Console, открыть «Индекс Google» и удалить ненужный URL. Запрет на индексирование начнет работать через некоторое время.
Для «Яндекс.Вебмастера» порядок действий следующий. Сначала необходимо убедиться в корректности составления robots.txt. Для этого следует открыть «Результаты анализа robots.txt» и найти список директив, которые будут учитываться при индексировании. Чтобы проверить конкретные страницы, следует указать их адреса в поле «Список URL». Также можно оценить изменения robots.txt и скачать нужную версию.
Если будете выполнять рекомендации, при настройке индексирования у вас не возникнет проблем.