Добрый день! Сегодня расскажу об одной проблеме, которая может на корню убить ваш сайт — это поисковый мусор — дубли страниц, который генерируют современные очень хорошие CMS. Остановимся на примере 1C-Bitrix. Отличный вариант для интернет-магазина, проработанная структура, простой импорт/экспорт товаров, авторизация через соцсети, генерация карты сайта и много других полезных плюшек предлагает нам эта CMS.
Кстати, дубли страниц – это документы с одинаковым контентом, которые располагаются по URL адресам.
Стандартные robots.txt 1C-Bitrix призван закрыть служебные папки и запретить поисковым роботам индексировать и выглядит следующим образом:
Стандартный robots.txt для bitrix
User-agent: *
Disallow: /bitrix/
Disallow: /search/
Disallow: /auth/
Disallow: /auth.php
Disallow: /*?print=
Disallow: /*&print=
Disallow: /*register=yes
Disallow: /*forgot_password=yes
Disallow: /*change_password=yes
Disallow: /*login=yes
Disallow: /*logout=yes
Disallow: /*auth=yes
Disallow: /*backurl=*
Disallow: /*BACKURL=*
Disallow: /*back_url=*
Disallow: /*BACK_URL=*
Disallow: /*back_url_admin=*
Disallow: /temp_index.php
Disallow: /access.log
Disallow: /include/
Disallow: /upload/
Disallow: /cgi-bin/
Disallow: /login/
Host: www.site.ru
Sitemap: http://www.site.ru/sitemap.xml
Если у вас нет опыта в SEO и вы не знаете, что надо сюда добавлять, то я рекомендую воспользоваться инструментом Google Webmaster Tools. Для этого необходимо добавить сайт в Google Webmaster и перейти на вкладку Сканирование->Параметры URL.
В моем примере можно увидеть таблицу из 16 параметров URL, которые поисковику как то нужно обрабатывать.
Поиск дублей страниц интернет-магазина
Рассмотрим первый параметр auth_service_id. Количество отслеживаемых URL = 46 327. Это значит, что 46 327 страниц вашего интернет-магазина могут попасть или не попасть в индекс. Давайте посмотрим, за что отвечает этот параметр. Я сделал так: вводим поисковый запрос в Google «auth_service_id site:domain.ru», где domain.ru адрес нашего сайта.
На скриншоте можно увидеть, что Google проиндексировал порядка 4000 страниц, которые являются полными дублями товаров интернет-магазина с параметром ?auth_service_id=Twitter.
При аналогичной проверке параметра count нашлась еще одна тысяча дублей. Проверив остальные параметры также обнаружил тысячи дублей товаров в индексе Google и Яндекс.
Как удалить дубли страниц из Google и Яндекс
После того как мы обнаружили наши дубли, нам необходимо от них избавиться, удалить. Понятно, что постраничное удаление дублей через сервисы Google и Яндекс Удаление URL не вариант, поэтому будем править robots.txt сайта.
Удаление дублей с помощью robots.txt
Опираясь на вышестоящий пример, в robots.txt необходимо добавить следующие строки:
Disallow: /*?auth_service_id
Disallow: /*?count
Есть еще одно средство для исправления ситуации — это атрибут rel=canonical, который рекомендуется применять на страницах пагинации.
То есть мы явно указали поисковикам, что страницы с параметрами auth_service_id и count не должны индексироваться.
Что дает удаление дублей страниц сайта
- Во-первых, это снизит нагрузку на поискового паука и ваш сайт будет индексироваться (обновляться) лучше, чаще и глубже.
- Во-вторых, это поможет избежать утечки ссылочного веса страниц, что положительно скажется на PR.
- В-третьих, это избавить сайт от страниц с одинаковым контентом, тегом title и description. Напомню, что наличие таких страниц является грубой ошибкой оптимизации и может ухудшить видимость сайта в выдаче поисковых систем.
- И наконец, вы сможете точно понять сколько товаров интернет-магазина либо просто содержательных страниц сайта проиндексировано, а сколько нет.
В данной статье я рассмотрел дубли, которые генерирует CMS 1C-Birtix, есть еще много других систем и они так же не отличаются своей дружелюбностью к SEO, поэтому любите Google Webmaster Tools и вкладку Сканирование->Параметры URL