Справочники, инструменты, документация

Найдены страницы дубли с GET параметрами — как исправить

Дубли страниц могут приводить к потери позиций в поисковой выдаче и снижать скорость индексации. Стоит понимать, что у поискового робота есть определенный лимит запросов к домену в день. Поэтому существует вероятность того, что он потратит все лимиты на сканирование мусорных страниц и не доберется до страниц с уникальным контентом.

О наличии проблемы с дублированным контентом свидетельствует сообщение в панели Вебмастера: «Найдены страницы дубли с GET параметрами». В своем сообщении Яндекс информирует вебмастера о том, что на некоторых страницах сайта размещен одинаковый контент, различающийся только GET параметрами.

Что такое get-параметры на сайте

GET параметры в URL – это динамические параметры, позволяющие изменить контент страницы. В URL они находятся после ? и разделяются &. GET-параметры используются при работе фильтров в интернет-магазине, при работе поиска и сортировки на сайте или настройке меток коллтрекинга.

Примеры url с гет-параметрами:

  • https://site.ru/catalog/monitory?sort=price (get-параметр после ? - sort, его значение =price - сортировка по цене).
  • https://site.ru/catalog/search?q=lukoil (get-параметр после ? - q, его значение =lukoil - результаты поиска по слову «lukoil» на сайту).

Как избавиться от ошибки - Найдены страницы дубли с GET-параметрами

Самый простой и эффективный способ избавиться от дублей с разными get-параметрами - добавить правило Clean-param или Disallow в файл robots.txt.

Если в поиске есть дублированные страницы из-за гет-параметров, Яндекс предлагает воспользоваться правилом Clean-param в robots.txt (правило действительно только для Яндекс, Google его не воспринимает).

В результате использования Clean-param поисковый робот Яндекса объединяет сигналы с дублированных страниц на основной. После того, как краулер узнает обо всех произошедших изменениях, страницы с не имеющими значение гет-параметрами исчезнут из поисковой выдачи.

Как использовать Clean-param

Для понимания того, как используется Clean-param, стоит привести простой пример. Существуют дубли страницы со следующими гет-параметрами:

http://mysite.ru/cat/auto/nissan/?sort=pop&order=asc
http://mysite.ru/cat/auto/nissan/?sort=price&order=asc
http://mysite.ru/cat/auto/nissan/?sort=price&order=desc

Чтобы в результатах поиска учитывалась только основная страница http://mysite.ru/cat/auto/nissan/, нужно задать правило Clean-param в файле robots.txt:

User-agent: Yandex
Clean-param: sort&order /cat/auto/nissan/
  • sort&order – это динамические параметры, не требующие учета;
  • /cat/auto/nissan/ - это префикс использования директивы, обозначающий, что не следует учитывать указанные параметры для страниц, которые начинаются с /cat/auto/nissan/.

Как использовать Disallow

Избавиться от страниц-дублей с GET-параметрами можно, используя директиву Disallow. Для примера возьмем те же страницы-дубли:

http://mysite.ru/cat/auto/nissan/?sort=pop&order=asc
http://mysite.ru/cat/auto/nissan/?sort=price&order=asc
http://mysite.ru/cat/auto/nissan/?sort=price&order=desc

Чтобы в результатах поиска учитывалась только основная страница http://mysite.ru/cat/auto/nissan/, нужно задать правило в файле robots.txt:

User-agent: *
Disallow: *?sort=
Disallow: *&order=

*?sort= , *&order= – это динамические параметры. Страницы, содержащие такие параметры индексироваться не будут.

Также можно закрыть от индексации ВСЕ Get-параметры одним правилом?

User-agent: *
Disallow: *?

Будьте осторожны! Используйте директиву Disallow очень внимательно, чтобы случайно не закрыть от индексации нужные страницы (например, не используйте правило, если карточки товара или категории в обязательном порядке содержат get-параметр в url).

Учитывая, что Яндекс.Вебмастер считает данную проблему критичной, ее рекомеедуется устранять.