О наличии проблемы с дублированным контентом свидетельствует сообщение в панели Вебмастера: «Найдены страницы дубли с GET параметрами»
. В своем сообщении Яндекс информирует вебмастера о том, что на некоторых страницах сайта размещен одинаковый контент, различающийся только GET параметрами.
GET параметры в URL – это динамические параметры, позволяющие изменить контент страницы. В URL они находятся после ?
и разделяются &
. GET-параметры используются при работе фильтров в интернет-магазине, при работе поиска и сортировки на сайте или настройке меток коллтрекинга.
Примеры url с гет-параметрами:
https://site.ru/catalog/monitory?sort=price
(get-параметр после ? - sort, его значение =price - сортировка по цене).https://site.ru/catalog/search?q=lukoil
(get-параметр после ? - q, его значение =lukoil - результаты поиска по слову «lukoil» на сайту).Если в поиске есть дублированные страницы из-за гет-параметров, Яндекс предлагает воспользоваться правилом Clean-param в robots.txt (правило действительно только для Яндекс, Google его не воспринимает).
В результате использования Clean-param поисковый робот Яндекса объединяет сигналы с дублированных страниц на основной. После того, как краулер узнает обо всех произошедших изменениях, страницы с не имеющими значение гет-параметрами исчезнут из поисковой выдачи.
Для понимания того, как используется Clean-param, стоит привести простой пример. Существуют дубли страницы со следующими гет-параметрами:
http://mysite.ru/cat/auto/nissan/?sort=pop&order=asc
http://mysite.ru/cat/auto/nissan/?sort=price&order=asc
http://mysite.ru/cat/auto/nissan/?sort=price&order=desc
Чтобы в результатах поиска учитывалась только основная страница http://mysite.ru/cat/auto/nissan/
, нужно задать правило Clean-param в файле robots.txt:
User-agent: Yandex
Clean-param: sort&order /cat/auto/nissan/
sort&order
– это динамические параметры, не требующие учета;/cat/auto/nissan/
- это префикс использования директивы, обозначающий, что не следует учитывать указанные параметры для страниц, которые начинаются с /cat/auto/nissan/
.Избавиться от страниц-дублей с GET-параметрами можно, используя директиву Disallow. Для примера возьмем те же страницы-дубли:
http://mysite.ru/cat/auto/nissan/?sort=pop&order=asc
http://mysite.ru/cat/auto/nissan/?sort=price&order=asc
http://mysite.ru/cat/auto/nissan/?sort=price&order=desc
Чтобы в результатах поиска учитывалась только основная страница http://mysite.ru/cat/auto/nissan/
, нужно задать правило в файле robots.txt:
User-agent: *
Disallow: *?sort=
Disallow: *&order=
*?sort=
, *&order=
– это динамические параметры. Страницы, содержащие такие параметры индексироваться не будут.
Также можно закрыть от индексации ВСЕ Get-параметры одним правилом?
User-agent: *
Disallow: *?
Будьте осторожны! Используйте директиву Disallow очень внимательно, чтобы случайно не закрыть от индексации нужные страницы (например, не используйте правило, если карточки товара или категории в обязательном порядке содержат get-параметр в url).
Учитывая, что Яндекс.Вебмастер считает данную проблему критичной, ее рекомеедуется устранять.