• SEO »
  • Битрикс дубли страниц при пагинации. Поиск, удаление дублей контента на сайте, интернет-магазине

Битрикс дубли страниц при пагинации. Поиск, удаление дублей контента на сайте, интернет-магазине

Добрый день! Сегодня расскажу об одной проблеме, которая может на корню убить ваш сайт — это поисковый мусор — дубли страниц, который генерируют современные очень хорошие CMS. Остановимся на примере 1C-Bitrix. Отличный вариант для интернет-магазина, проработанная структура, простой импорт/экспорт товаров, авторизация через соцсети, генерация карты сайта и много других полезных плюшек предлагает нам эта CMS.

Кстати, дубли страниц – это документы с одинаковым контентом, которые располагаются по URL адресам.

Стандартные robots.txt 1C-Bitrix призван закрыть служебные папки и запретить поисковым роботам индексировать и выглядит следующим образом:

Стандартный robots.txt для bitrix

User-agent: *
Disallow: /bitrix/
Disallow: /search/
Disallow: /auth/
Disallow: /auth.php
Disallow: /*?print=
Disallow: /*&print=
Disallow: /*register=yes
Disallow: /*forgot_password=yes
Disallow: /*change_password=yes
Disallow: /*login=yes
Disallow: /*logout=yes
Disallow: /*auth=yes
Disallow: /*backurl=*
Disallow: /*BACKURL=*
Disallow: /*back_url=*
Disallow: /*BACK_URL=*
Disallow: /*back_url_admin=*
Disallow: /temp_index.php
Disallow: /access.log
Disallow: /include/
Disallow: /upload/
Disallow: /cgi-bin/
Disallow: /login/
Host: www.site.ru
Sitemap: http://www.site.ru/sitemap.xml

Если у вас нет опыта в SEO и вы не знаете, что надо сюда добавлять, то я рекомендую воспользоваться инструментом Google Webmaster Tools. Для этого необходимо добавить сайт в Google Webmaster и перейти на вкладку Сканирование->Параметры URL.
В моем примере можно увидеть таблицу из 16 параметров URL, которые поисковику как то нужно обрабатывать.
dubli-stranic

Поиск дублей страниц интернет-магазина

Рассмотрим первый параметр auth_service_id. Количество отслеживаемых URL = 46 327. Это значит, что 46 327 страниц вашего интернет-магазина могут попасть или не попасть в индекс. Давайте посмотрим, за что отвечает этот параметр. Я сделал так: вводим поисковый запрос в Google «auth_service_id site:domain.ru», где domain.ru адрес нашего сайта.
poisk-udalenie-dublei
На скриншоте можно увидеть, что Google проиндексировал порядка 4000 страниц, которые являются полными дублями товаров интернет-магазина с параметром ?auth_service_id=Twitter.

При аналогичной проверке параметра count нашлась еще одна тысяча дублей. Проверив остальные параметры также обнаружил тысячи дублей товаров в индексе Google и Яндекс.

Как удалить дубли страниц из Google и Яндекс

После того как мы обнаружили наши дубли, нам необходимо от них избавиться, удалить. Понятно, что постраничное удаление дублей через сервисы Google и Яндекс Удаление URL не вариант, поэтому будем править robots.txt сайта.

Удаление дублей с помощью robots.txt

Опираясь на вышестоящий пример, в robots.txt необходимо добавить следующие строки:

Disallow: /*?auth_service_id
Disallow: /*?count

Есть еще одно средство для исправления ситуации — это атрибут rel=canonical, который рекомендуется применять на страницах пагинации.

То есть мы явно указали поисковикам, что страницы с параметрами auth_service_id и count не должны индексироваться.

Что дает удаление дублей страниц сайта

  • Во-первых, это снизит нагрузку на поискового паука и ваш сайт будет индексироваться (обновляться) лучше, чаще и глубже.
  • Во-вторых, это поможет избежать утечки ссылочного веса страниц, что положительно скажется на PR.
  • В-третьих, это избавить сайт от страниц с одинаковым контентом, тегом title и description. Напомню, что наличие таких страниц является грубой ошибкой оптимизации и может ухудшить видимость сайта в выдаче поисковых систем.
  • И наконец, вы сможете точно понять сколько товаров интернет-магазина либо просто содержательных страниц сайта проиндексировано, а сколько нет.

В данной статье я рассмотрел дубли, которые генерирует CMS 1C-Birtix, есть еще много других систем и они так же не отличаются своей дружелюбностью к SEO, поэтому любите Google Webmaster Tools и вкладку Сканирование->Параметры URL :)

This entry was posted in SEO

Оставить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *