Robots meta noindex это: Метатег robots и заголовок X-Robots-Tag. Как использовать. |

Posted:

Янв 6, 2023

Comments:

Robots meta noindex это: Метатег robots и заголовок X-Robots-Tag. Как использовать.

Содержание

Полное руководство по Robots.txt и метатегу Noindex

2022-11-04

Файл Robots.txt и мета-тег Noindex важны для SEO-продвижения. Они информируют Google, какие именно страницы необходимо сканировать, а какие – индексировать (отображать в результатах поиска).

С помощью этих средств можно ограничить содержимое сайта, доступное для индексации.

Что такое файл Robots.txt?
- Чем полезен файл Robots.txt?
- Как создать файл Robots.txt?
- Директивы для сканирования поисковыми системами
- Правильное использование универсальных символов
Что такое Noindex?
Как применять метатег Noindex?
- Метатег «robots»
- X-Robots-Tag
- Блокировка индексации через YoastSEO
Лучшие примеры использования
Добавляем Noindex в Robots. txt
Заблокированная страница все равно может быть проиндексирована, если кто-то на нее ссылается
Заключение

Robots.txt – это файл, который указывает поисковым роботам (например, Googlebot и Bingbot), какие страницы сайта не должны сканироваться.

Файл robots.txt сообщает роботам системам, какие страницы могут быть просканированы. Но не может контролировать их поведение и скорость сканирования сайта. Этот файл, по сути, представляет собой набор инструкций для поисковых роботов о том, к каким частям сайта доступ ограничен.

Но не все поисковые системы выполняют директивы файла robots.txt. Если у вас остались вопросы насчет robots.txt, ознакомьтесь с часто задаваемыми вопросами о роботах.

По умолчанию файл robots.txt выглядит следующим образом:

Можно создать свой собственный файл robots.txt в любом редакторе, который поддерживает формат .txt. С его помощью можно заблокировать второстепенные веб-страницы сайта. Файл robots.txt – это способ сэкономить лимиты, которые могут пойти на сканирование других разделов сайта.

User-Agent: определяет поискового робота, для которого будут применяться ограничения в сканировании URL-адресов. Например, Googlebot, Bingbot, Ask, Yahoo.

Disallow: определяет адреса страниц, которые запрещены для сканирования.

Allow: только Googlebot придерживается этой директивы. Она разрешает анализировать страницу, несмотря на то, что сканирование родительской веб-страницы запрещено.

Sitemap: указывает путь к файлу sitemap сайта.

В файле robots.txt символ (*) используется для обозначения любой последовательности символов.

Директива для всех типов поисковых роботов:

User-agent:*

Также символ * можно использовать, чтобы запретить все URL-адреса кроме родительской страницы.

User-agent:*

Disallow: /authors/*

Disallow: /categories/*

Это означает, что все URL-адреса дочерних страниц авторов и страниц категорий заблокированы за исключением главных страниц этих разделов.

Ниже приведен пример правильного файла robots. txt:

User-agent:*
Disallow: /testing-page/
Disallow: /account/
Disallow: /checkout/
Disallow: /cart/
Disallow: /products/page/*
Disallow: /wp/wp-admin/
Allow: /wp/wp-admin/admin-ajax.php
 
Sitemap: yourdomainhere.com/sitemap.xml

После того, как отредактируете файл robots.txt, разместите его в корневой директории сайта. Благодаря этому поисковый робот увидит файл robots.txt сразу после захода на сайт.

Noindex – это метатег, который запрещает поисковым системам индексировать страницу.

Существует три способа добавления Noindex на страницы:

Разместите приведенный ниже код в раздел <head> страницы:

<meta name=”robots” content=”noindex”>

Он сообщает всем типам поисковых роботов об условиях индексации страницы. Если нужно запретить индексацию страницы только для определенного робота, поместите его название в значение атрибута name.

Чтобы запретить индексацию страницы для Googlebot:

<meta name=”googlebot” content=”noindex”>

Чтобы запретить индексацию страницы для Bingbot:

<meta name=”bingbot” content=”noindex”>

Также можно разрешить или запретить роботам переход по ссылкам, размещенным на странице.

Чтобы разрешить переход по ссылкам на странице:

<meta name=”robots” content=”noindex,follow”>

Чтобы запретить поисковым роботам сканировать ссылки на странице:

<meta name=”robots” content=”noindex,nofollow”>

x-robots-tag позволяет управлять индексацией страницы через HTTP-заголовок. Этот тег также указывает поисковым системам не отображать определенные типы файлов в результатах поиска. Например, изображения и другие медиа-файлы.

Для этого у вас должен быть доступ к файлу .htaccess. Директивы в метатеге «robots» также применимы к x-robots-tag.

Плагин YoastSEO в WordPress автоматически генерирует приведенный выше код. Для этого на странице записи перейдите в интерфейсе YoastSEO в настройки публикации, щелкнув по значку шестеренки. Затем в опции «Разрешить поисковым системам показывать эту публикацию в результатах поиска?» выберите «Нет».

Также можно задать тег noindex для страниц категорий. Для этого зайдите в плагин Yoast, в «Вид поиска». Если в разделе «Показать категории в результатах поиска» выбрать «Нет», тег noindex будет размещен на всех страницах категорий.

Чтобы проиндексированная страница была удалена из результатов поиска, убедитесь, что она не заблокирована в файле robots.txt. И только потом добавляйте тег noindex. Иначе Googlebot не сможет увидеть тег на странице. Если заблокировать страницу без тега noindex, она все равно будет отображаться в результатах поиска:

Добавление директивы sitemap в файл robots.txt технически не требуется, но считается хорошей практикой.
После обновления файла robots.txt рекомендуется проверить, не заблокированы ли важные страницы. Это можно сделать с помощью txt Tester в Google Search Console.
Используйте инструмент проверки URL-адреса в Google Search Console, чтобы увидеть статус индексации страницы.
Также можно проверить, проиндексировал ли Google ненужные страницы. Это можно сделать с помощью отчета в Google Search Console. Еще одной альтернативой может быть использование оператора «site». Это команда Google, которая отображает все страницы сайта, доступные в результатах поиска.

В последнее время в SEO-сообществе было много недоразумений по поводу использования noindex в robots.txt. Но представители Google много раз говорили, что поисковая система не поддерживают данный метатег. И все же многие люди настаивают на том, что он все еще работает. Но лучше избегать его использования.

Заблокированные через robots.txt страницы, не могут быть проиндексированы, даже если кто-то на них ссылается.

Чтобы быть уверенным, что страница без контента случайно не появится в результатах поиска, Джон Мюллер рекомендует размещать на этих веб-страницах noindex даже после того, как вы заблокировали их в robots.txt.

Использование файла robots.txt улучшает не только SEO, но и пользовательский опыт. Для этого реализуйте приведенные выше практики.

Ангелина Писанюкавтор-переводчик статьи «The Complete Guide to Robots.txt and Noindex Meta Tag»

Руководство по метатегам Robots и X-robots-tag

Перед вами дополненный (конечно же, выполненный с любовью) перевод статьи Robots Meta Tag & X-Robots-Tag: Everything You Need to Know c блога Ahrefs. Дополненный, потому что в оригинальном материале «Яндекс» упоминается лишь вскользь, а в главе про HTTP-заголовки затрагивается только сервер Apache. Мы дополнили текст информацией по метатегам «Яндекса», а в части про X-Robots-Tag привели примеры для сервера Nginx. Так что этот перевод актуален для наиболее популярных для России поисковых систем и веб-серверов. Круто, правда?

Приятного чтения!

Направить поисковые системы таким образом, чтобы они сканировали и индексировали ваш сайт именно так, как вы того хотите, порой может быть непросто. Хоть robots.txt и управляет доступностью вашего контента для ботов поисковых систем, он не указывает краулерам на то, стоит индексировать страницы или нет.

Для этой цели существуют метатеги robots и HTTP-заголовок X-Robots-Tag.

Давайте проясним одну вещь с самого начала: вы не можете управлять индексацией через robots.txt. Распространенное заблуждение — считать иначе.

Правило noindex в robots.txt официально никогда не поддерживалось Google. 2 июля 2019 года Google опубликовал новость, в которой описал нерелевантные и неподдерживаемые директивы файла robots.txt. С 1 сентября 2019 года такие правила, как noindex в robots.txt, официально не поддерживаются.

Из этого руководства вы узнаете:

что такое метатег robots;

почему robots важен для поисковой оптимизации;

каковы значения и атрибуты метатега robots;

как внедрить robots;

что такое X-Robots-Tag;

как внедрить X-Robots-Tag;

когда нужно использовать метатег robots, а когда — X-Robots-Tag;

как избежать ошибок индексации и деиндексации.

Что такое метатег robots

Это фрагмент HTML-кода, который указывает поисковым системам, как сканировать и индексировать определенную страницу. Robots помещают в контейнер <head> кода веб-страницы, и выглядит это следующим образом:

<meta name="robots" content="noindex" />

Почему метатег robots важен для SEO

Метатег robots обычно используется для того, чтобы предотвратить появление страниц в выдаче поисковых систем. Хотя у него есть и другие возможности применения, но об этом позже.

Есть несколько типов контента, который вы, вероятно, хотели бы закрыть от индексации поисковыми системами. В первую очередь это:

страницы, ценность которых крайне мала для пользователей или отсутствует вовсе;

страницы на стадии разработки;

страницы администратора или из серии «спасибо за покупку!»;

внутренние поисковые результаты;

лендинги для PPC;

страницы с информацией о грядущих распродажах, конкурсах или запуске нового продукта;

дублированный контент. Не забывайте настраивать тег canonical для того, чтобы предоставить поисковым системам наилучшую версию для индексации.

В общем, чем больше ваш веб-сайт, тем больше вам придется поработать над управлением краулинговой доступностью и индексацией. Еще вы наверняка хотели бы, чтобы Google и другие поисковые системы сканировали и индексировали ваш сайт с максимально возможной эффективностью. Да? Для этого нужно правильно комбинировать директивы со страницы, robots.txt и sitemap.

Какие значения и атрибуты есть у метатега robots

Метатег robots содержит два атрибута: name и content.

Следует указывать значения для каждого из этих атрибутов. Их нельзя оставлять пустыми. Давайте разберемся, что к чему.

Атрибут name и значения user-agent

Атрибут name уточняет, для какого именно бота-краулера предназначены следующие после него инструкции. Это значение также известно как user-agent (UA), или «агент пользователя». Ваш UA отражает то, какой браузер вы используете для просмотра страницы, но вот у Google UA будет, например, Googlebot или Googlebot-image.

Значения user-agent, robots, относится только к ботам поисковых систем. Цитата из официального руководства Google:

Тег <meta name="robots" content="noindex" /> и соответствующая директива применяются только к роботам поисковых систем. Чтобы заблокировать доступ другим поисковым роботам, включая AdsBot-Google, возможно, потребуется добавить отдельные директивы для каждого из них, например <meta name="AdsBot-Google" content="noindex" />.

Вы можете добавить столько метатегов для различных роботов, сколько вам нужно. Например, если вы не хотите, чтобы картинки с вашего сайта появлялись в поисковой выдаче Google и Bing, то добавьте в шапку следующие метатеги:

<meta name="googlebot-image" content="noindex" />
<meta name="MSNBot-Media" content="noindex" />

Примечание: оба атрибута — name и content — нечувствительны к регистру. То есть абсолютно не важно, напишите ли вы их с большой буквы или вообще ЗаБоРчИкОм.

Атрибут content и директивы сканирования и индексирования

Атрибут content содержит инструкции по поводу того, как следует сканировать и индексировать контент вашей страницы. Если никакие метатеги не указаны или указаны с ошибками, и бот их не распознал, то краулеры расценят гнетущую тишину их отсутствия как «да», т. е. index и follow. В таком случае страница будет проиндексирована и попадет в поисковую выдачу, а все исходящие ссылки будут учтены. Если только ссылки непосредственно не завернуты в тег rel=»nofollow» .

Ниже приведены поддерживаемые значения атрибута content.

all

Значение по умолчанию для index, follow. Вы спросите: зачем оно вообще нужно, если без этой директивы будет равным образом то же самое? И будете чертовски правы. Нет абсолютно никакого смысла ее использовать. Вообще.

<meta name="robots" content="all" />

noindex

Указывает ПС на то, что данную страницу индексировать не нужно. Соответственно, в SERP она не попадет.

<meta name="robots" content="noindex" />

nofollow

Краулеры не будут переходить по ссылкам на странице, но следует заметить, что URL страниц все равно могут быть просканированы и проиндексированы, в особенности если на них ведут внешние ссылки.

<meta name="robots" content="nofollow" />

none

Комбинация noindex и nofollow как кофе «два в одном». Google и Yandex поддерживают данную директиву, а вот, например, Bing — нет.

<meta name="robots" content="none" />

noarchive

Предотвращает показ кешированной версии страницы в поисковой выдаче.

<meta name="robots" content="noarchive" />

notranslate

Говорит Google о том, что ему не следует предлагать перевод страницы в SERP. «Яндексом» не поддерживается.

<meta name="robots" content="notranslate" />

noimageindex

Запрещает Google индексировать картинки на странице. «Яндексом» не поддерживается.

<meta name="robots" content="noimageindex" />

unavailadle_after

Указывает Google на то, что страницу нужно исключить из поисковой выдачи после указанной даты или времени. В целом это отложенная директива noindex с таймером. Бомба деиндексации с часовым механизмом, если изволите. Дата и время должны быть указаны в формате RFC 850. Если время и дата указаны не будут, то директива будет проигнорирована. «Яндекс» ее тоже не знает.

<meta name="robots" content="unavailable_after: Sunday, 01-Sep-19 12:34:56 GMT" />

nosnippet

Отключает все текстовые и видеосниппеты в SERP. Кроме того, работает и как директива noarchive. «Яндексом» не поддерживается.

<meta name="robots" content="nosnippet" />

Важное примечание

С октября 2019 года Google предлагает более гибкие варианты управления отображением сниппетов в поисковой выдаче. Сделано это в рамках модернизации авторского права в Евросоюзе. Франция стала первой страной, которая приняла новые законы вместе со своим обновленным законом об авторском праве.

Новое законодательство хоть и введено только в Евросоюзе, но затрагивает владельцев сайтов повсеместно. Почему? Потому что Google больше не показывает сниппеты вашего сайта во Франции (пока только там), если вы не внедрили на страницы новые robots-метатеги.

Мы описали каждый из нововведенных тегов ниже. Но вкратце: если вы ищете быстрое решение для исправления сложившейся ситуации, то просто добавьте следующий фрагмент HTML-кода на каждую страницу сайта. Код укажет Google на то, что вы не хотите никаких ограничений по отображению сниппетов. Поговорим об этом более подробно далее, а пока вот:

<meta name="robots" content=”max-snippet:-1, max-image-preview:large, max-video-preview:-1" />

Заметьте, что если вы используете Yoast SEO, этот фрагмент кода уже добавлен на все ваши страницы, при условии, что они не отмечены директивами noindex или nosnippet.

Нижеуказанные директивы не поддерживаются ПС «Яндекс».

max-snippet

Уточняет, какое максимальное количество символов Google следует показывать в своих текстовых сниппетах. Значение «0» отключит отображение текстовых сниппетов, а значение «-1» укажет на то, что верхней границы нет.

Вот пример тега, указывающего предел в 160 символов (стандартная длина meta description):

<meta name="robots" content="max-snippet:160" />

max-image-preview

Сообщает Google, какого размера картинку он может использовать при отображении сниппета и может ли вообще. Есть три опции:

none — картинки в сниппете не будет вовсе;

standart — в сниппете появится (если появится) картинка обыкновенного размера;

large — может быть показана картинка максимального разрешения из тех, что могут влезть в сниппет.

<meta name="robots" content="max-image-preview:large" />

max-video-preview

Устанавливает максимальную продолжительность видеосниппета в секундах. Аналогично текстовому сниппету значение «0» выключит опцию показа видео, значение «-1» укажет, что верхней границы по продолжительности видео не существует.

Например, вот этот тег скажет Google, что максимально возможная продолжительность видео в сниппете — 15 секунд:

<meta name="robots" content="max-video-preview:15" />

noyaca

Запрещает «Яндексу» формировать автоматическое описание с использованием данных, взятых из «Яндекс.Каталога». Для Google не поддерживается.

Примечание относительно использования HTML-атрибута data-nosnippet

Вместе с новыми директивами по метатегу robots, представленными в октябре 2019 года, Google также ввел новый HTML-атрибут data-nosnippet. Атрибут можно использовать для того, чтобы «заворачивать» в него фрагменты текста, который вы не хотели бы видеть в качестве сниппета.

Новый атрибут может быть применен для элементов <div>, <span> и <section>. Data-nosnippet — логический атрибут, то есть он корректно функционирует со значениями или без них.

Вот два примера:

<p>Фрагмент этого текста может быть показан в сниппете <span data-nosnippet>за исключением этой части.</span></p>
<div data-nosnippet>Этот текст не появится в сниппете.</div><div data-nosnippet="true">И этот тоже.</div>

Использование вышеуказанных директив

В большинстве случаев при поисковой оптимизации редко возникает необходимость выходить за рамки использования директив noindex и nofollow, но нелишним будет знать, что есть и другие опции.

Вот таблица для сравнения поддержки различными ПС упомянутых ранее директив.

Директива	Google	«Яндекс»	Bing
all	✅	✅	❌
noindex	✅	✅	✅
nofollow	✅	✅	✅
none	✅	✅	❌
noarchive	✅	✅	✅
nosnippet	✅	❌	✅
max-snippet	✅	❌	❌
max-snippet-preview	✅	❌	❌
max-video-preview	✅	❌	❌
notranslate	✅	❌	❌
noimageindex	✅	❌	❌
unavailable_after:	✅	❌	❌
noyaca	❌	✅	❌
index\|follow\|archive	✅	✅	✅

Вы можете сочетать различные директивы.

И вот здесь очень внимательно

Если директивы конфликтуют друг с другом (например, noindex и index), то Google отдаст приоритет запрещающей, а «Яндекс» — разрешающей директиве. То есть боты Google истолкуют такой конфликт директив в пользу noindex, а боты «Яндекса» — в пользу index.

Примечание: директивы, касающиеся сниппетов, могут быть переопределены в пользу структурированных данных, позволяющих Google использовать любую информацию в аннотации микроразметки. Если вы хотите, чтобы Google не показывал сниппеты, то измените аннотацию соответствующим образом и убедитесь, что у вас нет никаких лицензионных соглашений с ПС, таких как Google News Publisher Agreement, по которому поисковая система может вытягивать контент с ваших страниц.

Как настроить метатеги robots

Теперь, когда мы разобрались, как выглядят и что делают все директивы этого метатега, настало время приступить к их внедрению на ваш сайт.

Как уже упоминалось выше, метатегам robots самое место в head-секции кода страницы. Все, в принципе, понятно, если вы редактируете код вашего сайта через разные HTML-редакторы или даже блокнот. Но что делать, если вы используете CMS (Content Management System, в пер. — «система управления контентом») со всякими SEO-плагинами? Давайте остановимся на самом популярном из них.

Внедрение метатегов в WordPress с использованием плагина Yoast SEO

Тут все просто: переходите в раздел Advanced и настраивайте метатеги robots в соответствии с вашими потребностями. Вот такие настройки, к примеру, внедрят на вашу страницу директивы noindex, nofollow:

Строка meta robots advanced дает вам возможность внедрять отличные от noindex и nofollow директивы, такие как max-snippet, noimageindex и так далее.

Еще один вариант — применить нужные директивы сразу по всему сайту: открывайте Yoast, переходите в раздел Search Appearance. Там вы можете указать нужные вам метатеги robots на все страницы или на выборочные, на архивы и структуры сайта.

Примечание: Yoast — вовсе не единственный способ управления вашим метатегами в CMS WordPress. Есть альтернативные SEO-плагины со сходным функционалом.

Что такое X-Robots-Tag

Метатеги robots замечательно подходят для того, чтобы закрывать ваши HTML-страницы от индексирования, но что делать, если, например, вы хотите закрыть от индексирования файлы типа изображений или PDF-документов? Здесь в игру вступает X-Robots-Tag.

X-Robots-Tag — HTTP-заголовок, но, в отличие от метатега robots, он находится не на странице, а непосредственно в файле конфигурации сервера. Это позволяет ему сообщать ботам поисковых систем инструкции по индексации страницы даже без загрузки содержимого самой страницы. Потенциальная польза состоит в экономии краулингового бюджета, так как боты ПС будут тратить меньше времени на интерпретацию ответа страницы, если она, например, будет закрыта от индексации на уровне ответа веб-сервера.

Вот как выглядит X-Robots-Tag:

Чтобы проверить HTTP-заголовок страницы, нужно приложить чуть больше усилий, чем требуется на проверку метатега robots. Например, можно воспользоваться «дедовским» методом и проверить через Developer Tools или же установить расширение на браузер по типу Live HTTP Headers.

Последнее расширение мониторит весь HTTP-трафик, который ваш браузер отправляет (запрашивает) и получает (принимает ответы веб-серверов). Live HTTP Headers работает, так сказать, в прямом эфире, так что его нужно включать до захода на интересующий сайт, а уже потом смотреть составленные логи. Выглядит все это следующим образом:

Как правильно внедрить X-Robots-Tag

Конфигурация установки в целом зависит от типа используемого вами сервера и того, какие страницы вы хотите закрыть от индексирования.

Строчка искомого кода для веб-сервера Apache будет выглядеть так:

Header set X-Robots-Tag «noindex»

Для nginx — так:

add_header X-Robots-Tag «noindex, noarchive, nosnippet»;

Наиболее практичным способом управления HTTP-заголовками будет их добавление в главный конфигурационный файл сервера. Для Apache обычно это httpd.conf или файлы .htaccess (именно там, кстати, лежат все ваши редиректы). Для nginx это будет или nginx.conf, где лежат общие конфигурации всего сервера, или файлы конфигурации отдельных сайтов, которые, как правило, находятся по адресу etc/nginx/sites-available.

X-Robots-Tag оперирует теми же директивами и значениями атрибутов, что и метатег robots. Это из хороших новостей. Из тех, что не очень: даже малюсенькая ошибочка в синтаксисе может положить ваш сайт, причем целиком. Так что два совета:

при каких-либо сомнениях в собственных силах, лучше доверьте внедрение X-Robots-Tag тем, кто уже имеет подобный опыт;

не забывайте про бекапы — они ваши лучшие друзья.

Подсказка: если вы используете CDN (Content Delivery Network), поддерживающий бессерверную архитектуру приложений для Edge SEO, вы можете изменить как метатеги роботов, так и X-Robots-теги на пограничном сервере, не внося изменений в кодовую базу.

Когда использовать метатеги robots, а когда — X-Robots-tag

Да, внедрение метатегов robots хоть и выглядит более простым и понятным, но зачастую их применение ограничено. Рассмотрим три примера.

Файлы, отличные от HTML

Ситуация: нужно впихнуть невпихуемое.

Фишка в том, что у вас не получится внедрить фрагмент HTML-кода в изображения или, например, в PDF-документы. В таком случае X-Robots-Tag — безальтернативное решение.

Вот такой фрагмент кода задаст HTTP-заголовок со значением noindex для всех PDF-документов на сайте для сервера Apache:

Header set X-Robots-Tag «noindex»

А такой — для nginx:

location ~* \.pdf$ {
add_header X-Robots-Tag «noindex»;
}

Масштабирование директив

Если есть необходимость закрыть от индексации целый домен (поддомен), директорию (поддиректорию), страницы с определенными параметрами или что-то другое, что требует массового редактирования, ответ будет один: используйте X-Robots-Tag. Можно, конечно, и через метатеги, но так будет проще. Правда.

Изменения заголовка HTTP можно сопоставить с URL-адресами и именами файлов с помощью различных регулярных выражений. Массовое редактирование в HTML с использованием функции поиска и замены, как правило, требует больше времени и вычислительных мощностей.

Трафик с поисковых систем, отличных от Google

Google поддерживает оба способа — и robots, и X-Robots-Tag. «Яндекс» хоть и с отставанием, но в конце концов научился понимать X-Robots-Tag и успешно его поддерживает. Но, например, чешский поисковик Seznam поддерживает только метатеги robots, так что пытаться закрыть сканирование и индексирование через HTTP-заголовок не стоит. Поисковик просто не поймет вас. Придется работать с HTML-версткой.

Как избежать ошибок доступности краулинга и деиндексирования страниц

Вам, естественно, нужно показать пользователям все ваши страницы с полезным контентом, избежать дублированного контента, всевозможных проблем и не допустить попадания определенных страниц в индекс. А если у вас немаленький сайт с тысячами страниц, то приходится переживать еще и за краулинговый бюджет. Это вообще отдельный разговор.

Давайте пробежимся по распространенным ошибкам, которые допускают люди в отношении директив для роботов.

Ошибка 1. Внедрение noindex-директив для страниц, закрытых через robots.txt

Официальные инструкции основных поисковых систем гласят:

«Яндекс»Google

Никогда не закрывайте через disallow в robots.txt те страницы, которые вы пытаетесь удалить из индекса. Краулеры поисковых систем просто не будут переобходить такие страницы и, следовательно, не увидят изменения в noindex-директивах.

Если вас не покидает чувство, что вы уже совершили подобную ошибку в прошлом, то не помешает выяснить истину через Ahrefs Site Audit. Смотрите на страницы, отмеченные ошибкой noindex page receives organic traffic («закрытые от индексации страницы, на которые идет органический трафик»).

Если на ваши страницы с директивой noindex идет органический трафик, то очевидно, что они все еще в индексе, и вполне вероятно, что робот их не просканировал из-за запрета в robots. txt. Проверьте и исправьте, если это так.

Ошибка 2. Плохие навыки работы с sitemap.xml

Если вы пытаетесь удалить контент из индекса, используя метатеги robots или X-Robots-Tag, то не стоит удалять их из вашей карты сайта до момента их деиндексации. В противном случае переобход этих страниц может занять у Google больше времени.

— …ускоряет ли процесс деиндексации отправка Sitemap.xml с URL, отмеченным как noindex?

— В принципе все, что вы внесете в sitemap.xml, будет рассмотрено быстрее.

Для того чтобы потенциально ускорить деиндексацию ваших страниц, установите дату последнего изменения вашей карты сайта на дату добавления тега noindex. Это спровоцирует переобход и переиндексацию.

Еще один трюк, который вы можете проделать, — загрузить sitemap. xml с датой последней модификации, совпадающей с датой, когда вы отметили страницу 404, чтобы вызвать переобход.

Джон Мюллер говорит здесь про страницы с ошибкой 404, но можно полагать, что это высказывание справедливо и для директив noindex.

Важное замечание

Не оставляйте страницы, отмеченные директивой noindex, в карте сайта на долгое время. Как только они выпадут из индекса, удаляйте их.

Если вы переживаете, что старый, успешно деиндексированный контент по каким-то причинам все еще может быть в индексе, проверьте наличие ошибок noindex page sitemap в Ahrefs Site Audit.

Ошибка 3. Оставлять директивы noindex на страницах, которые уже не находятся на стадии разработки

Закрывать от сканирования и индексации все, что находится на стадии разработки, — это нормальная, хорошая практика. Тем не менее, иногда продукт выходит на следующую стадию с директивами noindex или закрытым через robots. txt доступом к нему. Органического трафика в таком случае вы не дождетесь.

Более того, иногда падение органического трафика может протекать незамеченным на фоне миграции сайта через 301-редиректы. Если новые адреса страниц содержат директивы noindex, или в robots.txt прописано правило disallow, то вы будете получать органический трафик через старые URL, пока они будут в индексе. Их деиндексация поисковой системой может затянуться на несколько недель.

Чтобы предотвратить подобные ошибки в будущем, стоит добавить в чек-лист разработчиков пункт о необходимости удалять правила disallow в robots.txt и директивы noindex перед отправкой в продакшен.

Ошибка 4. Добавление «секретных» URL в robots.txt вместо запрета их индексации

Разработчики часто стараются спрятать страницы о грядущих промоакциях, скидках или запуске нового продукта через правило disallow в файле robots.txt. Работает это так себе, потому что кто угодно может открыть такой файл, и, как следствие, информация зачастую сливается в интернет.

Не запрещайте их в robots.txt, а закрывайте индексацию через метатеги или HTTP-заголовки.

Заключение

Правильное понимание и правильное управление сканированием и индексацией вашего сайта крайне важны для поисковой оптимизации. Техническое SEO может быть довольно запутанным и на первый взгляд сложным, но метатегов robots уж точно бояться не стоит. Надеемся, что теперь вы готовы применять их на практике!

мета-роботов Тег | Как использовать тег Meta Robots для SEO

WooRank
SEO-руководства
Как использовать тег Meta Robots для SEO

Вы можете использовать метатег robots, чтобы контролировать, где и как роботы Google и других поисковых систем перемещаются по вашему веб-сайту и передают ссылочный вес со страницы на страницу. Если это звучит знакомо для другого текстового файла на вашем веб-сайте, следите за обновлениями…

В этом руководстве мы рассмотрим

Что такое метатег robots и почему он важен
Как вы используете метатег robots для SEO
Преимущества использования метатега robots

Что такое метатег Robots и имеет ли он значение?

Метатег robots — это HTML-тег, который идет в теге заголовка страницы и содержит инструкции для ботов. Как и файл robots.txt, он сообщает поисковым роботам, разрешено ли им индексировать страницу.

Чтобы найти метатег robots на странице, просто щелкните правой кнопкой мыши веб-страницу, выберите «Просмотреть исходный код», а затем выполните поиск для «роботов». Это будет выглядеть примерно так:

В этом примере верхняя строка применяется ко всем ботам поисковых систем, а следующие 4 строки относятся к определенным пользовательским агентам. В этом конкретном примере метатег robots говорит поисковым системам не индексировать страницу. Однако боты могут свободно переходить по ссылкам, которые они находят на странице.

Метатег robots имеет значение, поскольку он добавляет дополнительный уровень защиты к файлу robots.txt. Когда сканер переходит по внешней ссылке и попадает на одну из ваших страниц, он все еще может сканировать и индексировать эту страницу, потому что он не видел файл robots.txt.

Метатег robots препятствует сканированию и индексированию.

Чем мета-роботы отличаются от файла robots.txt?

Мета-тег robots применяется только на страницу, содержащую тег. Файлы robots.txt применяются ко всему вашему веб-сайту.

Как работает метатег robots?

Как видите, тег состоит из двух частей: name="" и content="" .

Прочтите руководство по сканерам поисковых систем и сканированию, чтобы узнать больше о том, как они работают.

Часть имени указывает пользовательский агент бота, которого вы инструктируете, точно так же, как строка пользовательского агента в файле robots.txt. В отличие от robots.txt, вы не используете подстановочный знак для включения всех ботов. Для этого вы просто пишете «роботы».

Отсюда и название метатега robots.

Во второй части, content="" , вы говорите ботам, что делать.

Какие существуют значения метатегов robots?

В поле content в теге robots можно добавить множество различных значений. Каждое из этих значений делает что-то свое:

Индекс: Приказывает поисковым системам проиндексировать страницу. На первый взгляд это может показаться бессмысленным, поскольку «Индекс» используется по умолчанию, но может быть полезно, если вы хотите, чтобы только определенная группа поисковых систем индексировала страницу.
NoIndex: Указывает поисковым системам не индексировать страницу, чтобы она не отображалась в результатах поиска.
NoImageIndex: Указывает поисковым системам не индексировать изображения на странице. Однако, если кто-то добавит это изображение где-нибудь еще в Интернете, Google все равно проиндексирует его и покажет в результатах поиска изображений.
Нет: Это работает как ярлык для «noindex, nofollow». Он говорит поисковым системам игнорировать страницу и делать вид, что никогда ее не видел.
Follow: Сообщает поисковым системам переходить по ссылкам, которые они находят на странице. Как и в случае с «Индексом», это статус по умолчанию, когда бот не находит применимый к нему метатег robots.
NoFollow: Указывает поисковым системам вообще не переходить ни по каким ссылкам на странице. Вы также можете добавить это значение к отдельной ссылке.
NoArchive: Указывает поисковым системам не показывать кэшированные копии страницы.
NoCache: То же, что и «NoArchive», за исключением использования MSN/Live.
NoSnippet: Запрещает поисковым системам отображать фрагмент этой страницы в результатах поиска. Это также предотвращает их кеширование страницы.
NoTranslate: Указывает поисковым системам не предлагать переведенные версии страницы в результатах поиска.
Unavailable_after: Указывает поисковым системам не отображать страницу в результатах поиска после определенной даты.
NoYDir: Указывает поисковой системе не использовать Yahoo! Описание страницы каталога в поисковом сниппете.
NoODP: Запрещает поисковым системам использовать описание страницы из DMOZ в фрагменте поиска. ODP — это сообщество, которое управляет и поддерживает каталог DMOZ.

Последние два значения — NoYDir и NoODP — сегодня не используются. Ни Yahoo! Каталог или DMOZ больше не существуют. Тем не менее, вы все еще можете видеть их в Интернете.

Немного усложняет ситуацию тот факт, что не все поисковые системы поддерживают все значения. Итак, вот удобная таблица, которая разбивает это на части:

Какие значения распознаются какими поисковыми системами?
Значение	Гугл	Бинг	Яндекс
индекс	Да	Да	Да
без индекса	Да	Да	Да
нет	Да	Сомнение	Да
индекс индекса изображения	Да	№	№
следовать	Да	Сомнение	Да
nofollow	Да	Да	Да
без архива/кэша	Да	Да	Да
сниппет	Да	№	№
без перевода	Да	№	№
недоступен_после	Да	№	№
ноодп	№	№	№
нойдир	№	№	№

Используя запятые, вы можете создавать метатеги с несколькими директивами вместо создания одного тега для каждой директивы. На самом деле, вы будете видеть это довольно часто, так как многие метатеги robots используют значения «noindex, nofollow»:

Как использовать метатеги Robots для SEO?

Обеспечение того, чтобы определенные страницы с низкой ценностью не попадали в индекс Google и результаты поиска, является такой же частью SEO, как и попадание страниц в результаты поиска. Отсутствие индексации страниц с низкой ценностью может помочь повысить так называемый «сканируемый спрос» вашего сайта, что может помочь вашему сайту сканироваться чаще.

Meta robots также добавляет дополнительный уровень защиты для страниц, которые вы заблокировали с помощью файла robots.txt. Эти страницы все еще могут быть проиндексированы, если Google попадет на них по внешней обратной ссылке. Отсутствие индексации страницы предотвратит это.

Использование метатега robots для предотвращения индексации страницы и перехода по ссылкам выглядит следующим образом:

Значения noindex и nofollow являются двумя наиболее часто используемыми значениями в метатеге robots. Однако другие значения, перечисленные выше, также имеют ценность для SEO:

NoImageIndex: Указывает поисковым системам не сканировать изображения на странице.
Нет: Это эквивалентно использованию «noindex, nofollow», объединенных в одно значение. Поисковые роботы не будут индексировать страницу или переходить по каким-либо ссылкам.
NoArchive: Запретить поисковым системам показывать кешированную версию вашей страницы. Убедитесь, что люди всегда видят последнюю версию вашего контента. MSN/Live использует «NoCache» вместо «NoArchive».
NoSnippet: Это останавливает поисковые системы от отображения фрагмента вашего сайта в результатах поиска и от показа кэшированной версии страницы.

Если весь смысл SEO заключается в попадании страниц в результаты поиска, то как же мета-роботы страницы помогают SEO?

Предотвращает индексирование и отображение личных файлов или папок в результатах поиска. Обычно рекомендуется вообще не публиковать этот контент на вашем сайте или защищать его паролем. Однако, если по какой-то причине вам нужно разместить его на своем сайте, метатег robots не позволит ему попасть в Google.
Помогает поисковым системам более эффективно сканировать ваш сайт. У поисковых роботов ограниченный краулинговый бюджет, поэтому теоретически они могут тратить все свое время на сканирование страниц, рейтинг которых вам не особо важен, игнорируя самые важные из них. Блокировка индексации этих неважных файлов поможет поисковым роботам перейти на более ценные страницы.
Если у вас есть страница, которая приобрела много ссылок, но вы не хотите, чтобы она индексировалась, используйте директиву follow, чтобы передать эту массу ссылок на другие страницы вашего сайта.

Хотя никогда не рекомендуется публиковать конфиденциальную информацию на вашем веб-сайте, иногда это происходит. Блокировка этих URL-адресов через robots. txt говорит всем, кто читает его, что им следует взглянуть на эти страницы. Добавление «noindex» в метатег robots не позволит этой странице попасть в результаты поиска, не указав ее там, где кто-то может ее найти.

Самая важная часть использования метатега robots — убедиться, что вы используете его правильно. Нередки случаи, когда весь сайт деиндексируется из-за того, что кто-то случайно добавил тег robots noindex ко всему сайту. Поэтому понимание того, как работает метатег robots, абсолютно необходимо для SEO.

Последние руководства

Когда использовать NOINDEX или robots.txt?

Документация AIOSEO

Документация, справочные материалы и учебные пособия для AIOSEO

Уведомление: Для этого элемента нет устаревшей документации, поэтому вы видите текущую документацию.

Один из вопросов, который нам чаще всего задают, заключается в том, в чем разница между метатегом NOINDEX robots и файлом robots.txt, и когда каждый из них следует использовать. В этой статье рассматривается этот вопрос.

В этой статье

The NoIndex Robots Meta Meta
Файл robots.txt
Разница между noindex и robots.txt
дальнейшее чтение

предотвратить появление контента в результатах поиска. Метатег NOINDEX появляется в исходном коде вашего контента и указывает поисковой системе не включать этот контент в результаты поиска.

Метатег NOINDEX robots выглядит следующим образом в исходном коде вашей страницы:

Файл robots.txt

Файл robots.txt сообщает поисковым системам, где их поисковые роботы могут и не могут посещать веб-сайт. Он включает в себя директивы «Разрешить» и «Запретить», которые указывают поисковой системе, какие каталоги и файлы следует сканировать, а какие нет.

Однако это не мешает вашему контенту появляться в результатах поиска.

Примером использования файла robots.txt является указание поисковым системам не сканировать каталог «/cgi-bin/», который может существовать на вашем сервере, поскольку в этом каталоге нет ничего полезного для поисковые системы.

По умолчанию robots.txt для WordPress выглядит так:

 User-agent: *
Запретить: /wp-admin/
Разрешить: /wp-admin/admin-ajax.php

Разница между NOINDEX и robots.txt

Разница между ними следующая:

Файл robots.txt используется для указания поисковой системе какие каталоги и файлы он должен сканировать. Это не мешает контенту индексироваться и отображаться в результатах поиска.
Метатег роботов NOINDEX указывает поисковым системам не включать контент в результаты поиска, а если контент уже был проиндексирован ранее, то они должны полностью удалить этот контент. Это не мешает поисковым системам сканировать контент.

Самая большая разница для понимания заключается в том, что если вы хотите, чтобы поисковые системы не включали контент в результаты поиска, то вы ДОЛЖНЫ использовать тег NOINDEX и ДОЛЖНЫ разрешать поисковым системам сканировать контент. Если поисковые системы НЕ МОГУТ сканировать контент, то они НЕ МОГУТ видеть метатег NOINDEX и, следовательно, НЕ МОГУТ исключить контент из результатов поиска.

Итак, если вы хотите, чтобы содержимое не попадало в результаты поиска, используйте NOINDEX. Если вы хотите, чтобы поисковые системы не сканировали каталог на вашем сервере, потому что он не содержит ничего, что им нужно видеть, используйте директиву «Disallow» в файле robots.txt.

Вы можете найти документацию по использованию функции NOINDEX в All-in-One SEO в нашей статье «Отображение или скрытие вашего контента в результатах поиска» здесь.

Вы можете найти документацию по использованию функции Robots.txt в All-in-One SEO в нашей статье об использовании инструмента Robots.txt в All-in-One SEO здесь.

Дополнительная литература

Как Google использует метатег NOINDEX robots
Как Google использует robots.txt

Уведомление: В настоящее время вы просматриваете устаревшую документацию.

Один из вопросов, который нам чаще всего задают, заключается в том, в чем разница между метатегом NOINDEX robots и файлом robots. txt, и когда каждый из них следует использовать. В этой статье рассматривается этот вопрос.

Метатег роботов NOINDEX

Тег NOINDEX используется для предотвращения появления содержимого в результатах поиска. Метатег NOINDEX появляется в исходном коде вашего контента и указывает поисковой системе не включать этот контент в результаты поиска.

Метатег NOINDEX robots выглядит следующим образом в исходном коде вашей страницы:

Файл robots.txt

Файл robots.txt сообщает поисковым системам, где их поисковые роботы могут и не могут посещать веб-сайт. Он включает директивы «Разрешить» и «Запретить», которые указывают поисковой системе, какие каталоги и файлы следует или не следует сканировать.

Однако это не мешает вашему контенту появляться в результатах поиска.

По умолчанию robots.txt для WordPress выглядит так:

 User-agent: *
Запретить: /wp-admin/
Разрешить: /wp-admin/admin-ajax.php

Разница между NOINDEX и robots.txt

Разница между ними следующая:

Файл robots.txt используется для указания поисковой системе какие каталоги и файлы он должен сканировать. Это не мешает контенту индексироваться и отображаться в результатах поиска.
Метатег роботов NOINDEX указывает поисковым системам не включать контент в результаты поиска, а если контент уже был проиндексирован ранее, то они должны полностью удалить этот контент. Это не мешает поисковым системам сканировать контент.

Самая большая разница, которую нужно понять, заключается в том, что если вы хотите, чтобы поисковые системы не включали контент в результаты поиска, то вы ДОЛЖНЫ использовать тег NOINDEX и ДОЛЖНЫ разрешать поисковым системам сканировать контент. Если поисковые системы НЕ МОГУТ сканировать контент, то они НЕ МОГУТ видеть метатег NOINDEX и, следовательно, НЕ МОГУТ исключить контент из результатов поиска.

This entry was posted in Популярное

Posted:

Comments: