• Главная

Онлайн генератор файла robots.txt для сайта. Продвижение сайта при помощи роботов


что это значит, как ускорить процесс

Тематический трафик – альтернативный подход в продвижении бизнеса

Узнай первым о новых статьях в нашем блоге

Индексация сайта — это процесс поиска, сбора, обработки и добавления сведений о сайте в базу данных поисковых систем.

Больше видео на нашем канале - изучайте интернет-маркетинг с SEMANTICA

Индексация сайта значит, что робот поисковой системы посещает ресурс и его страницы, изучает контент и заносит его в базу данных.Впоследствии эта информация выдается по ключевым запросам. То есть, пользователи сети вводят в строку поиска запрос и получают на него ответ в виде списка проиндексированных страниц.

Если говорить простым языком, получится приблизительно так: весь интернет — это огромная библиотека. В любой уважающей себя библиотеке есть каталог, который облегчает поиск нужной информации. В середине 90-х годов прошлого века, вся индексация сводилась к такой каталогизации. Роботы находили на сайтах ключевые слова и формировали из них базу данных.

Сегодня боты собирают и анализируют информацию по нескольким параметрам (ошибки, уникальность, полезность, доступность и проч.) прежде, чем внести ее в индекс поисковой системы.

Алгоритмы работы поисковых роботов постоянно обновляются и становятся все сложнее. Базы данных содержат огромное количество информации, несмотря на это поиск нужных сведений не занимает много времени. Это и есть пример качественной индексации.

Если сайт не прошел индексацию, то информация до пользователей может и не дойти.

Как индексирует сайты Гугл и Яндекс

Яндекс и Гугл, пожалуй, самые популярные поисковики в России. Чтобы поисковые системы проиндексировали сайт, о нем нужно сообщить. Сделать это можно двумя способами:

  1. Добавить сайт на индексацию при помощи ссылок на других ресурсах в интернете — этот способ считается оптимальным, так как страницы, найденные таким путем, робот считает полезными и их индексирование проходит быстрее, от 12 часов до двух недель.
  2. Отправить сайт на индексацию путем заполнения специальной формы поисковой системы вручную с использованием сервисов Яндекс.Вебмастер, Google Webmaster Tools, Bing Webmaster Tools и др.

Второй способ медленнее, сайт встает в очередь и индексируется в течение двух недель или больше.

В среднем, новые сайты и страницы проходят индексацию за 1–2 недели.

Считается, что Гугл индексирует сайты быстрее. Это происходит потому, что поисковая система Google индексирует все страницы — и полезные, и неполезные. Однако в ранжирование попадает только качественный контент.

Яндекс работает медленнее, но индексирует полезные материалы и сразу исключает из поиска все мусорные страницы.

Индексирование сайта происходит так:

  • поисковый робот находит портал и изучает его содержимое;
  • полученная информация заносится в базу данных;
  • примерно через две недели материал, успешно прошедший индексацию, появится в выдаче по запросу.

Есть 3 способа проверки индексации сайта и его страниц в Гугл и Яндексе:

  1. при помощи инструментов для вебмастеров — google.com/webmasters или webmaster.yandex.ru;
  2. при помощи ввода специальных команд в поисковую строку, команда для Яндекс будет выглядеть так: host: имя сайта+домен первого уровня; а для Гугл — site: имя сайта+домен;
  3. с помощью специальных автоматических сервисов.

Проверяем индексацию

Это можно сделать используя:

  1. операторы поисковых систем - смотрим в справке или тут;
  2. услуги специальных сервисов, например rds бар;
  3. Яндекс вебмастер;
  4. Google вебмастер.

Как ускорить индексацию сайта

От того, насколько быстро роботы проведут индексирование, зависит скорость появления нового материала в поисковой выдаче, тем быстрее на сайт придет целевая аудитория.

Для ускорения индексации поисковыми системами нужно соблюсти несколько рекомендаций.

  1. Добавить сайт в поисковую систему.
  2. Регулярно наполнять проект уникальным и полезным контентом.
  3. Навигация по сайту должна быть удобной, доступ на страницы не длиннее, чем в 3 клика от главной.
  4. Размещать ресурс на быстром и надежном хостинге.
  5. Правильно настроить robots.txt: устранить ненужные запреты, закрыть от индексации служебные страницы.
  6. Проверить на наличие ошибок, количество ключевых слов.
  7. Сделать внутреннюю перелинковку (ссылки на другие страницы).
  8. Разместить ссылки на статьи в социальных сетях, социальных закладках.
  9. Создать карту сайта, можно даже две, — для посетителей и для роботов.

Как закрыть сайт от индексации

Закрыть сайт от индексации — запретить поисковым роботам доступ к сайту, к некоторым его страницам, части текста или изображению. Обычно это делается для того, чтобы скрыть от публичного доступа секретную информацию, технические страницы, сайты на уровне разработки, дублированные страницы и т. п.

Сделать это можно несколькими способами:

  • При помощи robots.txt можно запретить индексацию сайта или страницы. Для этого в корне веб-сайта создается текстовый документ, в котором прописываются правила для роботов поисковых систем. Эти правила состоят из двух частей: первая часть (User-agent) указывает на адресата, а вторая (Disallow) запрещает индексацию какого-либо объекта.Например, запрет индексации всего сайта для всех поисковых ботов выглядит так:

    User-agent: *

Disallow: /

  • При помощи мета-тега robots, что считается наиболее правильным для закрытия одной страницы от индексирования. При помощи тегов noindex и nofollow можно запретить роботам любых поисковых систем индексировать сайт, страницу или часть текста.

Запись для запрета индексации всего документа будет выглядеть так:

<meta name="robots" content="noindex, nofollow"/>

Можно создать запрет для конкретного робота:

<meta name="googlebot" content="noindex, nofollow"/>

На что влияет индексация при продвижении

Благодаря индексации сайты попадают в поисковую систему. Чем чаще обновляется контент, тем быстрее это происходит, так как боты чаще приходят на сайт. Это приводит к более высокой позиции при выдаче на запрос.

Индексация сайта в поисковых системах дает приток посетителей и способствует развитию проекта.

Кроме контента, роботы оценивают посещаемость и поведение посетителей. На основании этих факторов они делают выводы о полезности ресурса, чаще посещают сайт, что поднимает на более высокую позицию в поисковой выдаче. Следовательно, трафик снова увеличивается.

Индексация — это важный процесс для продвижения проектов. Чтобы индексирование прошло успешно, поисковые роботы должны убедиться в полезности информации.

Алгоритмы, по которым работают поисковые машины, постоянно меняются и усложняются. Цель индексации — внесение информации в базу данных поисковых систем.

semantica.in

Как уменьшить нагрузку на сервер от поисковых роботов

Как уменьшить нагрузку на сервер, создаваемую поисковыми роботами

Индексация в поисковиках - важная часть продвижения (раскрутки) сайта. По мере развития сайта увеличивается его посещаемость, увеличивается также и количество поисковых роботов (сокращенно - ботов), посещающих сайт, чтобы проиндексировать новые или изменившиеся страницы сайта и добавить в свою базу данных. Это хорошо для владельцев сайтов, т.к. хорошая индексация в поисковиках в результате повышает посещаемость сайта. Но это может также стать причиной проблем с хостером. Почему? Объясняем. Если на вашем сайте 5 страниц, то индексация проходит быстро и безболезненно. А если сотни или тысячи? Если посмотреть статистику сайтов наших пользователей, видно, что большинство сайтов в сутки посещают более тысячи роботов. То есть, нагрузку на сервер создают не только пользователи (которых может быть и не много у недавно созданного сайта), но и роботы.

Но не все поисковые роботы одинаково полезны. Известны случая "атак" сайтов роботами, которые зачем-то считывают главную страницу каждые несколько секунд. Нередко жалуются на робота Yahoo - индексирует часто и помногу, а для продвижения сайта (с русскоязычным контентом, предназназченным для жителей определенного города) он может быть совершенно неинтересен, т.к. от него нет целевых посетителей. Помимо роботов известных поисковых систем сайт посещают "левые" боты, среди которых много сборщиков e-mail для спама. Главная проблема состоит в том, что все эти визитеры создают трафик, а главное - бесполезную нагрузку на сервер, из-за которой Ваш аккаунт на хостинге может быть закрыт.

Не так давно сайт, расположенный на нашем хостинге, был заблокирован за нагрузку на сервер. Создавали ее спам-роботы, которые постоянно пытались добавить комментарии в формы на сайте. Формы были защищены "капчей", и добавить комментарий роботам не удавалось. Тем не менее попытки их добавить создавали нагрузку.

При продвижении сайта очень полезно анализировать, как и что индексируют поисковые системы, а также с какой периодичностью, тогда прогнозирование будет более точным, после внесения каких-либо изменений на сайт. На многих сайтах, особенно если они созданы c помощью различных CMS, присутствует информация, которую вовсе не обязательно индексировать. Хороший пример - форумы. Не всем понятно, каким образом небольшой форум с несколько сотнями посетителей в сутки вдруг начинает создавать не 2%, а 30-60% серверной нагрузки. Однако причина этого явления проста. В отличии от обычного посетителя, поисковый бот способен просмотреть 10.000-20.000 страниц за несколько часов своего посещения. Это на несколько порядков выше, чем нагрузка на сервер от реального посетителя. Запрет индексации отдельных частей сайта избавит ваш сайт (и наш сервер хостинга) от излишней нагрузки. Мы настоятельно рекомендуем выполнять хоть частичный запрет индексации динамических частей сайта (форумы, доски объявлений и т.п.).

Существует несколько способов снизить бесполезную нагрузку от поисковых ботов.

Способ 1. Файл robots.txt

Файл robots.txt - файл, в котором содержатся указания для поисковых систем. Это обычный текстовый файл с командами, оформленными особым образом. Он размещается в корневой папке вашего сайта. Подробнее - wikipedia.org/wiki/Robots.txt

Пустой файл robots.txt предполагает разрешение на индексирование всего сайта, точно так же происходит, если поисковый робот увидел ошибки в файле.

Директива User-agent указывает, на то какому именно роботу относятся нижеследующие предписания. У каждого поискового бота есть свое уникальное имя. Список наиболее часто встречаемых поисковых роботов, самых известных поисковиков:

  • Google (www.google.com) - Googlebot
  • Yahoo! (www.yahoo.com) - Slurp (или Yahoo! Slurp)
  • MSN (www.msn.com) - MSNBot
  • AOL (www.aol.com) - Slurp
  • Live (www.live.com) - MSNBot
  • Ask (www.ask.com) - Teoma
  • Alexa (www.alexa.com) - ia_archiver
  • AltaVista (www.altavista.com) - Scooter
  • Lycos (www.lycos.com) - Lycos
  • Яндекс (www.ya.ru) - Yandex
  • Мэйл.ру (mail.ru) - Mail.Ru
  • Рамблер (www.rambler.ru) - StackRambler
  • Aport (www.aport.ru) - Aport
  • Вебальта (www.webalta.ru) - WebAlta (WebAlta Crawler/2.0)

У крупных поисковых систем имеются также отдельные боты для индексирования новостей, картинок, блогов и т.д., что позволяет производить еще более тонкую настройку.

Директива "User-agent: *" адресована всем ботам, зашедшим на Ваш сайт.

Disallow - понятная всем без исключения ботам команда, запрещающая индексировать ту или иную директорию сайта (файл, группу файлов). Директива Allow - разрешает индексирования сайта (каталога).

Параметры команды Disallow задаются в виде масок. Несколько простейших примеров:

  1. Допустим, на сайте имеется форум, который размещен в директории phpbb. Следующие директивы запрещают индексацию форума для всех поисковиков: User-Agent: * Disallow: /phpbb
  2. Следующий код для файла robots.txt запрещает роботу Yahoo индексировать сайт: User-Agent: Slurp Disallow:
  3. Можно использовать связку Allow-Disallow для включения в индекс контента в закрытых для индексации каталогах. В следующем примере, будет открыта для индексации лишь одна директория "forindex" из всех, что находятся в папке "img": User-agent: * Disallow: /img/ Allow: /img/forindex/
  4. Параметр Crawl-delay указывает поисковому роботу чтобы он загружал страницы вашего сайта с интервалом не менее 10 секунд, другими словами просто выдерживал паузу во время индексации страниц вашего сайта. И ваш сайт спокойно индексируется в пределах допустимой нагрузки. Вы можете менять интервал по своему усмотрению, делая его больше или меньше. User-agent: * Crawl-delay: 10

С рекомендуемыми robots.txt вы всегда можете ознакомиться на сайтах разработчиков своей CMS, а также на форумах пользователей этих CMS. Можно также забить в Гугле поисковый запрос "снизить нагрузку" и посмотреть результаты.

Мы (как хостер) рекомендуем для всех без исключения ботов запретить индексацию фидов, трекбеков, комментариев, поисковых запросов, архивов, страниц с выборками по тегам. Так же следует запретить индексацию папок с плагинами и темами, страниц регистрации. В общем, желательно оставить для индексации только сами посты - пусть поисковики по ним ходят. Это полезно также тем, что исключается появление в поисковой выдаче дублей - путей, ведущему к одному и тому же посту. В итоге нагрузка от поисковых ботов может снизится почти вдвое.

Способ 2. Мета тег robots

Мета тег robots - управляет индексацией конкретной web-страницы.

    Примеры: meta name="robots" content="index, follow" - индексируется данная страница, робот идёт по ссылкам с этой страницы. meta name="robots" content="noindex, follow" - страница не индексируется, но робот идет дальше по ссылкам. meta name="robots" content="index, nofollow" - страница индексируется, но робот не идёт по ссылкам на другие страницы, т.е. он их не индексирует. meta name="robots" content="noindex, nofollow" - страница не индексируется, робот по ссылкам не идёт. Если поместить такой код на все страницы сайта - он не проиндексируется. meta name="robots" content="none" - идентичное последнему. Страница не индексируется.
Способ 3. Файл .htaccess

Не всегда и не все роботы читают файл robots.txt, не всегда и не все выполняют прописанные там запреты. В этом случае можно блокировать ботов на уровне сервера, даже не давать доступ к сайту. Делать это можно как при помощи юзерагента, так и при помощи IP.

    Пример: В последнее время участились случаи, когда у сайтов на CMS Joomla резко возрастает нагрузка на CPU сервера. Ее создают автоматические подборщики пароля к административному разделу CMS. Поэтому в каталоге /administrator/ обязательно должен быть файл .htaccess в котором должна быть запись вида: Allow from 31.24.208.11 Deny from all где вместо 31.24.208.11 должен быть IP-адрес, с которого администрируется сайт. Строк "Allow from ..." может быть несколько с разными IP-адресами. Deny from all - обязательно одна и последняя.

Естественно, нужно быть уверенным в том, что вы заблокируете только ненужные элементы. Руководство пользователя по .htaccess...

Анализируя лог-файлы сайта, ведение которых можно включить в Панели управления хостингом (см. рисунок), и собирая свою статистику, вы сможете не только снизить нагрузку, но и убрать с сайта нежелательные элементы, которые собирают и потом спамят роботы.

Подробнее о разных типах журнальных файлов (лог-файлов) можно прочитать в FAQ...

www.ho.ua

Раскрутка сайта robot.txt

Что такое robots.txt?

Robots.txt – это специальным образом оформленный текстовый файл, находящийся в корне сайта, в котором содержатся директивы, следуя которым поисковая система может понять стратегию индексирования информации на вашем сайте.

Структура robots.txt:

Файл состоит из полей. Структура полей такова: сначала идёт информация о том, какой поисковик должен следовать указаниям в директиве (строка содержит User-Agent поискового бота или *, как рекомендация для всех поисковых систем), далее идёт поле Disallow, в котором указывается название объекта, который необходимо скрыть от индексирования.

Раздел рекомендаций между инструкциями для одной поисковой системы распознаётся от раздела рекомендаций для другой поисковой системы пустой строкой, а раздел, в свою очередь, формируется полем User-Agent. В одном разделе может быть сразу несколько полей User-Agent, начинающихся с новой строки.

Стандарт robots.txt поддерживает комментарии. Всё, что начинается от символа # до конца строки, является комментарием.

Строки файла robots.txt являются регистрозависимыми (primer.html и Primer.html - разные файлы).

Следует заметить любопытный факт, что файл robots.txt создавался и создаётся с основной целью – запрета индексации, следовательно, и все поля, в нём прописанные, явно указывают на запрет индексации частей сайта. Однако поисковые системы постепенно вводят поле Allow, которое всегда должно стоять раньше директивы Disallow, но пока официально оно не признано, хоть и используется некоторыми поисковыми системами (Например, "Яндексом", Google иBing).

Некоторые поисковые системы используют собственные "информационные" директивы.  В Bing Live и "Яндексе" через robots.txt реализована установка значения скорости индексации документа. Делается это так:

User-agent: MSNbotCrawl-delay: n где n - величина задержки в секундах перед индексированием очередной страницы.

User-agent: YandexCrawl-delay: n где n - величина задержки в секундах перед индексированием очередной страницы.

В начале 2009 года в поисковой системе "Яндекс" введена директива Clean-param, при помощи которой веб-мастер может указать, как индексировать динамические параметры, которые не влияют на содержание страницы. Это могут быть различные идентификаторы сессий, пользователей и т. д., что увеличивает эффективность индексации страницы. (Ознакомиться с ней можно здесь).

Пример одного из составленных файлов robots.txt:

User-agent: *Disallow: /User-agent: GooglebotDisallow: /text/

Это важно знать:

1) Файл robots.txt должен находиться только в корневой директории сайта, только тогда он будет учитываться поисковыми системами.

2) Называть файл необходимо robots.txt, Robots.txt будет уже ошибкой.

3) На каждой строке должно быть поле Disallow, запрещающее индексацию только одного объекта. Если нужно запретить несколько директорий или файлов, то для этого пишем поле Disallow на каждой новой строке. В записи должно быть хотя бы одно поле Disallow. Также не забудьте про поле User-Agent - оно не должно быть пустым (либо *, либо имя робота). Если используется директива Allow, то она всегда должна стоять раньше Disallow.

4) Запомните простые комбинации:

Disallow: - разрешение индексировать всё содержимое сайта,Disallow: / - запрет на индексацию всего сайта.Disallow: /name – запрет на индексацию любых файлов и директорий, которые называются или имеют в своём названии name.Disallow: /name/ - запрет на индексацию директории name.Disallow: showthread.php#если параметр используется в нескольких скриптах: www.site1.ru/forum/showthread.php?s=681498b9648949605&t=8243 www.site1.ru/forum/index.php?s=1e71c4427317a117a&t=8243 #robots.txt будет содержать: User-agent: Yandex Disallow: Clean-param: s /forum/index.php Clean-param: s /forum/showthread.php

  • Директивы robots.txt, которые не упомянуты в данном описании, робот Яндекса не поддерживает. Необходимо помнить, что результат использования расширений формата robots.txt может отличаться от результата без них, а именно: User-agent: Yandex Allow: / Disallow: / # без расширений все запрещалось так как 'Allow: /' игнорировалось, # с поддержкой расширений все разрешается User-agent: Yandex Disallow: /private*html # без расширений запрещалось '/private*html', # а с поддержкой расширений и '/private*html', # и '/private/test.html', и '/private/html/test.aspx' и т.п. User-agent: Yandex Disallow: /private$ # без расширений запрещалось '/private$' и '/private$test' и т.п., # а с поддержкой расширений только '/private' User-agent: * Disallow: / User-agent: Yandex Allow: / # без расширений из-за отсутствия перевода строки, # 'User-agent: Yandex' было бы проигнорировано и # результатом стало бы 'Disallow: /', но робот Яндекса # выделяет записи по наличию в строке 'User-agent:', # результат для робота Яндекса в данном случае 'Allow: /' User-agent: * Disallow: / # комментарий1... # комментарий2... # комментарий3... User-agent: Yandex Allow: / # аналогично предыдущему примеру (см. выше) Примеры использования расширенного формата robots.txt: User-agent: Yandex Allow: /archive Disallow: / # разрешает все, что содержит '/archive', остальное запрещено User-agent: Yandex Allow: /obsolete/privateprivate/ # запрещает все подпути содержащие # '/private/', но Allow выше отменяет # часть запрета Disallow: page/), но недавно я его убрал, понадеясь на Canonical, о котором писал выше.

    А вообще, единственно правильного файла для WordPress, наверное, не существует. Можно, кончено же, реализовать в нем любые предпосылки, но кто сказал, что они будут правильными. Вариантов идеальных robots.txt в сети много.

    Приведу две крайности:

    1. Тут можно найти мегафайлище с подробными пояснениями (символом # отделяются комментарии, которые в реальном файле лучше будет удалить): User-agent: * # общие правила для роботов, кроме Яндекса и Google, # т.к. для них правила ниже Disallow: /cgi-bin # папка на хостинге Disallow: /? # все параметры запроса на главной Disallow: /wp- # все файлы WP: /wp-json/, /wp-includes, /wp-content/plugins Disallow: /wp/ # если есть подкаталог /wp/, где установлена CMS (если нет, # правило можно удалить) Disallow: *?s= # поиск Disallow: *&s= # поиск Disallow: /search/ # поиск Disallow: /author/ # архив автора Disallow: /users/ # архив авторов Disallow: */trackback # трекбеки, уведомления в комментариях о появлении открытой # ссылки на статью Disallow: */feed # все фиды Disallow: */rss # rss фид Disallow: */embed # все встраивания Disallow: */wlwmanifest.xml # xml-файл манифеста Windows Live Writer (если не используете, # правило можно удалить) Disallow: /xmlrpc.php # файл WordPress API Disallow: *utm= # ссылки с utm-метками Disallow: *openstat= # ссылки с метками openstat Allow: */uploads # открываем папку с файлами uploads User-agent: GoogleBot # правила для Google (комментарии не дублирую) Disallow: /cgi-bin Disallow: /? Disallow: /wp- Disallow: /wp/ Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */rss Disallow: */embed Disallow: */wlwmanifest.xml Disallow: /xmlrpc.php Disallow: *utm= Disallow: *openstat= Allow: */uploads Allow: - для приоритета) Allow: - для приоритета) Allow: /wp-*.png # картинки в плагинах, cache папке и т.д. Allow: /wp-*.jpg # картинки в плагинах, cache папке и т.д. Allow: /wp-*.jpeg # картинки в плагинах, cache папке и т.д. Allow: /wp-*.gif # картинки в плагинах, cache папке и т.д. Allow: /wp-admin/admin-ajax.php # используется плагинами, чтобы не блокировать JS и CSS User-agent: Yandex # правила для Яндекса (комментарии не дублирую) Disallow: /cgi-bin Disallow: /? Disallow: /wp- Disallow: /wp/ Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */rss Disallow: */embed Disallow: */wlwmanifest.xml Disallow: /xmlrpc.php Allow: */uploads Allow: *.css Allow: /wp-*.png Allow: /wp-*.jpg Allow: /wp-*.jpeg Allow: /wp-*.gif Allow: /wp-admin/admin-ajax.php Clean-Param: utm_source&utm_medium&utm_campaign # Яндекс рекомендует не закрывать # от индексирования, а удалять параметры меток, # Google такие правила не поддерживает Clean-Param: openstat # аналогично # Укажите один или несколько файлов Sitemap (дублировать для каждого User-agent # не нужно). Google XML Sitemap создает 2 карты сайта, как в примере ниже. Sitemap: http://site.ru/sitemap.xml Sitemap: http://site.ru/sitemap.xml.gz # Укажите главное зеркало сайта, как в примере ниже (с WWW / без WWW, если HTTPS # то пишем протокол, если нужно указать порт, указываем). Команду Host понимает # Яндекс и Mail.RU, Google не учитывает. Host: www.site.ru
    2. А вот тут можно взять на вооружение пример минимализма: User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php Host: https://site.ru Sitemap: https://site.ru/sitemap.xml

    Истина, наверное, лежит где-то посредине. Еще не забудьте прописать мета-тег Robots для «лишних» страниц, например, с помощью чудесного плагина — All in One SEO Pack. Он же поможет и Canonical настроить.

    Правильный robots.txt для Joomla

    Рекомендованный файл для Джумлы 3 выглядит так (живет он в файле robots.txt.dist корневой папки движка):

    User-agent: * Disallow: /administrator/ Disallow: /bin/ Disallow: /cache/ Disallow: /cli/ Disallow: /components/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /layouts/ Disallow: /libraries/ Disallow: /logs/ Disallow: /modules/ Disallow: /plugins/ Disallow: /tmp/

    В принципе, здесь практически все учтено и работает он хорошо. Единственное, в него следует добавить отдельное правило User-agent: Yandex для вставки директивы Host, определяющей главное зеркало для Яндекса, а так же указать путь к файлу Sitemap.

    Поэтому в окончательном виде правильный robots для Joomla, по-моему мнению, должен выглядеть так:

    User-agent: Yandex Disallow: /administrator/ Disallow: /cache/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /modules/ Disallow: /plugins/ Disallow: /tmp/ Disallow: /layouts/ Disallow: /cli/ Disallow: /bin/ Disallow: /logs/ Disallow: /components/ Disallow: /component/ Disallow: /component/tags* Disallow: /*mailto/ Disallow: /*.pdf Disallow: /*% Disallow: /index.php Host: vash_sait.ru (или www.vash_sait.ru) User-agent: * Allow: /*.css?*$ Allow: /*.js?*$ Allow: /*.jpg?*$ Allow: /*.png?*$ Disallow: /administrator/ Disallow: /cache/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /modules/ Disallow: /plugins/ Disallow: /tmp/ Disallow: /layouts/ Disallow: /cli/ Disallow: /bin/ Disallow: /logs/ Disallow: /components/ Disallow: /component/ Disallow: /*mailto/ Disallow: /*.pdf Disallow: /*% Disallow: /index.php Sitemap: http://путь к вашей карте XML формата

    Да, еще обратите внимание, что во втором варианте есть директивы Allow, разрешающие индексацию стилей, скриптов и картинок. Написано это специально для Гугла, ибо его Googlebot иногда ругается, что в роботсе запрещена индексация этих файлов, например, из папки с используемой темой оформления. Даже грозится за это понижать в ранжировании.

    Поэтому заранее все это дело разрешаем индексировать с помощью Allow. То же самое, кстати, и в примере файла для Вордпресс было.

    Удачи вам! До скорых встреч на страницах блога KtoNaNovenkogo.ru

    Твитнуть

    Поделиться

    Плюсануть

    Поделиться

    Отправить

    Класснуть

    Линкануть

    Запинить

    Подборки по теме:

    Рубрика: Инструменты вебмастера, Как самому раскрутить сайт

    ktonanovenkogo.ru

    Онлайн генератор файла robots.txt для сайта

    Настройки индексации для следующих ботов:

    Таймаут между переходами робота по страницам:

    1 секунда5 секунд10 секунд60 секунд

    Запрет индексации разделов, страниц (каждый раздел или страница с новой строки):

    Готовый robots.txt:

    Сохраните данные в файл «robots.txt» и скопируйте в корневую папку сайта.

    Данный сервис позволяет в упрощенном порядке автоматически сгенерировать файл для своего сайта. Файл robot.txt необходим для правильной индексации поисковыми системами (Google, Yandex и прочими). При помощи этого файла можно задать поисковым роботам ряд ограничений: закрыть (Disallow) или открыть (Allow)  страницу от индексации, показать основной хост (директива Host), показать адрес карты сайта (файл Sitemap.xml) и многое другое. Например, закрывается страница сайта с админ-панелью, также можно исключить (Disallow) из поисковой выдачи дублирующие страницы своего сайта. Это позволит увеличить доверие сервисов к новому или старому интернет ресурсу.

    Директива User-agent позволяет указывать, к какому из поисковых сервисов будет предназначена нижеприведенная настройка. С помощью этой функции в robot.txt можно полностью разрешить (запретить) индексирование всего контента своего сайта.

    Сервис генерации файла Robot.txt.

    Онлайн помощник для начинающих WEB-мастеров поможет быстро создать файл необходимой конфигурации для дальнейшего размещения в корневой папке каталога своего сайта. Онлайн генератор файла robot.txt с необходимыми параметрами для нового интернет ресурса создаётся за считанные секунды, достаточно только ввести необходимые данные в разделы формы.

    Директивная функция Crawl-delay позволяет указывать поисковым службам частоту входа на страницы сайта. Цифровой показатель, прописанный здесь, позволит указывать интервал времени в секундах. Эта директива нужна для интернет ресурсов имеющих большое количество страниц, а так же данная директива поможет снизить нагрузку на хостинг или сервер.

    owlweb.ru


    Смотрите также