Как убрать дубли страниц сайта из поисковой выдачи

Содержание

Почему и каким образом дубли страниц осложняют SEO-продвижение
Виды дублей
Способы обнаружения дублей веб-страниц
Удаление дублей страниц
Развернуть

Веб-страницы являются дублями, если их содержимое отчасти или полностью совпадает. Наличие подобных копий негативно сказывается на трафике сайта. В этой статье мы рассмотрим методы решения данной проблемы.

Почему и каким образом дубли страниц осложняют SEO-продвижение

Дублирование страниц мешает поисковой системе определить, какую из них нужно отобразить в результатах выдачи по релевантным запросам. Это приводит к снижению позиций сайта в ранжировании или его полной блокировке. Поэтому специалисты в области SEO советуют проверять веб-ресурсы на наличие копий.

Проиллюстрируем данную проблему на простом примере. На изображении ниже присутствуют три яблока.

Дубли веб-страниц

Фрукты на картинке абсолютно одинаковые. Все они подходят под запрос «красное яблоко», и выделить среди них вариант, который лучше остальных соответствует этому определению, крайне затруднительно. Аналогичные сложности возникают и у поисковых систем при наличии на сайте схожих или полностью идентичных страниц.

Присутствие на ресурсе дублей приводит к следующим проблемам:

Падает релевантность главной страницы продвижения. Также снижаются ее позиции по ключам.

Поисковые системы изменяют страницу для показа в выдаче. Это тоже приводит к колебаниям позиции по ключевым словам.

Если копий много, то площадка попадет под фильтры «Яндекса» и Google.

Виды дублей

Дубли бывают двух типов: частичные и полные. Последний вид представляет собой страницу, которую поисковые системы находят по различным адресам.

Причины появления полных дублей:

Разработчики не указали главное зеркало. Эта ошибка встречается довольно часто. В результате адрес сайта может появляться в поиске как с www, так и без него, с http или https.

Повлияли особенности CMS или действия программиста. Как пример, основная страница может быть доступна со слешем в конце URL и без него, с дополнительным словом start, php и т. д.

В индекс попали страницы с динамическими адресами. Обычно это происходит при использовании фильтров для сортировки и сравнения товаров.

Дубли создали сами движки CMS. Подобное происходит в WordPress, OpenCart, MODX и прочих системах. Например, Joomla автоматически отображает часть страниц с разными URL — mysite.ru/catalog/30 и mysite.ru/catalog/30-article.html и т. п.

Сессии отслеживали через специальные идентификаторы. Последние также могут индексироваться и создавать дубли.

К адресам страниц добавили UTM-метки. Их применяют для отслеживания эффективности рекламных кампаний. Хотя страницы с UTM-метками не должны индексироваться, но в действительности они часто попадаются в результатах поиска.

Полные дубли относительно легко найти и удалить. С частичными копиями страниц ситуация иная. Разберем причины их возникновения.

Пагинация страниц

Пагинация упрощает навигацию по сайту, но усложняет продвижение ресурса в поисковых системах.

Дубли в пагинации

Каждая страница становится копией главной. При этом зачастую повторяются их метаданные и SEO-текст. Например, основной адрес — https://mysite.ru/women/clothes, но у страницы пагинации он выглядит так: https://mysite.ru/women/clothes/?page=2. В итоге URL у них разный, а содержимое почти идентичное.

Блоки с новостями, популярными статьями и комментариями

Чтобы посетители проводили на сайте больше времени, им предлагают заметки об актуальных событиях, топовые публикации и интересные высказывания других читателей. Заголовки с частью содержимого таких материалов обычно размещают рядом с основным контентом — справа, слева или снизу. Важно, чтобы эти фрагменты не индексировались, иначе поисковик примет разные страницы с одинаковым наполнением за дубликаты.

Дубли в футере

На картинке видно, что в футере сайта находятся три блока: с новостями, свежими материалами и последними отзывами. Их содержимое также есть в соответствующих разделах портала. При этом контент повторяется на основной странице, что приводит к частичному дублированию.

Версии страниц для печати

Некоторые страницы сайта имеют два варианта — обычный и для печати. Второй формат отличается от основного адресом и отсутствием ряда строк в коде, так как ему не нужна значительная часть функций.

Разница между обычной страницей и версией для печати видна по их URL: https://my-site.ru/page и https://my-site.ru/page?print.

Технология AJAX

При создании сайтов с применением технологии AJAX иногда возникают HTML-слепки. Они не вредят продвижению, если страницы подобных ресурсов индексируются верно. В ином случае поисковые боты выходят именно на слепки. Тогда одна страница будет индексироваться по двум адресам — главному и HTML-копии.

Чтобы найти слепок, необходимо в основном URL заменить «!#» на код «?_escaped_fragment_=».

Проблема частичных дублей состоит в том, что они не вызывают резкую потерю позиций сайта в выдаче, а незаметно ухудшают продвижение ресурса.

Способы обнаружения дублей веб-страниц

Искать дубликаты можно вручную или при помощи специальных инструментов — программ или онлайн-сервисов.

Ручной метод

Для поиска копий страниц можно использовать команду site. Ее необходимо ввести в адресную строку браузера, а после нее добавить домен и фрагмент текста контента. В итоге поисковик Google выдаст все совпадения.

Ручной поиск дублей

На изображении видно, что в адресную строку добавили команду site, а за ней — самое начало статьи. В результате поисковик показал, что текст основной страницы частично повторяется на главной.

Специальные программы

Существуют различные сервисы для поиска дубликатов, например, бесплатная программа Xenu Link Sleuth. Еще есть такой софт, как Screaming Frog, который стоит 259 долларов в год. Доступна и его бесплатная версия, она с ограничениями по функционалу, но пригодна для решения большинства задач.

Поиск дублей через сервисы

«Яндекс.Вебмастер» и Google Search Console

Чтобы найти дубликаты через Google Search Console, необходимо проверить разделы «Предупреждения» и «Покрытие». Там есть информация о страницах, которые поисковик определяет как проблемные.

В «Яндекс.Вебмастере» сведения о дублях содержатся в разделе «Индексирование». Для проверки нужно перейти в «Страницы в поиске» и спуститься ниже. Затем справа необходимо выбрать формат файла (CSV или XLS), скачать его и открыть документ. Все дубликаты в строке «Статус» будут с пометкой DUPLICATE.

Файл с дубликатами из «Яндекс.Вебмастер»

Удаление дублей страниц

Удалить дубликаты можно с помощью различных приемов.

Noindex и nofollow

Наиболее простой способ — закрыть страницу от индексации. Для этого необходимо вписать метатег <meta name="robots" content="noindex,nofollow"/> в шапку HTML-документа, между элементами кода <head> и </head>. В результате поисковики не будут добавлять сведения о странице в базу данных и также станут игнорировать ссылки на ней.

Важно помнить, что в случае применения метатега нельзя блокировать индексацию через robots.txt.

Robots.txt

Запретить индексацию дублей можно в robots.txt через директиву Disallow. Необходимо будет добавить в файл следующий код:

User-agent: *
Disallow: /dublictate.html
Host: mysite.ru

Запрет индексации дублей в Robots.txt

Этот метод зачастую применяют для служебных страниц. К нему также прибегают, если запрет через Disallow не срабатывает.

Canonical

Данный метатег информирует поисковых роботов о том, что страница является дубликатом. Также он указывает на ее оригинал. Для этого нужно поместить код <link rel="canonical" href="адрес основной страницы"; между тегами <head> и </head>.

Удаление дубликатов со страниц с пагинацией

На сайтах с большими каталогами часто возникают дубли.

К примеру, вот как выглядит первая страница.

Страница каталога

На второй и остальных частях каталога дублируется содержимое и теги <title> и <description>.

Дубль страницы каталога

Необходимо настроить отображение текста так, чтобы он присутствовал только на первой странице. Еще нужно исключить повторы <title> и <description>. Каждый раздел должен иметь уникальные теги. Кроме того, важно проверить, чтобы в адресах страниц пагинации не было динамических параметров.

Заключение

Важно понимать, что представляют собой дубликаты страниц сайта. Ведь они серьезно ухудшают позиции ресурса в выдаче и могут привести к его попаданию под фильтры поисковых систем. Чтобы избежать проблем с SEO-продвижением, необходимо своевременно выявлять и убирать дубли страниц с помощью методов, которые мы описали в этой статье.