Запретить индексацию страницы: Как запретить индексирование сайта или страниц

Как запретить индексирование сайта или страниц

Скрыть содержимое сайта от индексирования можно с помощью файла robots.txt, HTML-разметки или авторизации на сайте.

  1. Запретить индексирование сайта, раздела или страницы
  2. Запретить индексирование части текста страницы
  3. Скрыть от индексирования ссылку на странице

Если какие-то страницы или разделы сайта не должны индексироваться (например, со служебной или конфиденциальной информацией), ограничьте доступ к ним следующими способами:

  • В файле robots.txt укажите директиву Disallow.

  • В HTML-коде страниц сайта укажите метатег robots с директивой noindex или none. Подробнее см. в разделе Метатег robots и HTTP-заголовок X-Robots-Tag.

  • Используйте авторизацию на сайте. Рекомендуем этот способ, чтобы скрыть от индексирования главную страницу сайта. Если главная страница запрещена в файле robots.txt, но на нее ведут ссылки с других сайтов, страница может попасть в результаты поиска.

    Примечание. Чтобы неавторизованные пользователи не попадали на закрытые страницы, настройте для таких страниц HTTP-код ответа сервера 404 Not Found, 403 Forbidden или 410 Gone.

Скрыть от индексирования часть текста можно несколькими способами:

  • В HTML-код страницы добавьте элемент noindex. Например:

    <noindex>текст, индексирование которого нужно запретить</noindex>

    Элемент не чувствителен к вложенности — может находиться в любом месте HTML-кода страницы. Если на странице отсутствует закрывающий тег, скрытым считается весь контент страницы. Не создавайте множественную вложенность тегов noindex — разметка будет учитываться только до первого закрывающего тега.

    При необходимости сделать код сайта валидным возможно использование тега в следующем формате:

    <!--noindex-->текст, индексирование которого нужно запретить<!--/noindex-->
  • В HTML-код страницы добавьте элемент noscript. Например:

    <noscript>текст, индексирование которого нужно запретить</noscript>

    Элемент noscript, как и noindex, запрещает индексирование, но при этом скрывает содержимое сайта от пользователя, если его браузер поддерживает технологию JavaScript.

    Примечание. JavaScript поддерживают все популярные браузеры, если эта функция не отключена пользователем специально.

    Посмотреть отчет о наличии JavaScript можно в Яндекс Метрике .

Рекомендуем использовать атрибут rel. Разные значения атрибута указывают на тип ссылки, что помогает поисковой системе лучше распознавать содержимое сайта.

  • rel=»ugc». Используйте, если на вашем сайте есть форум или возможность оставить отзыв и вы не уверены в качестве ссылок, которые оставляют посетители.

  • rel=»sponsored». Используйте, если ссылка носит рекламный характер, указывает на рекламное место или размещение в рамках партнерской программы с другим сайтом.

  • rel=»nofollow». Указывайте, чтобы робот не проходил по ссылке, не зависимо от ее типа.

Можно комбинировать несколько значений. Пример:

<a href="url" rel="nofollow,sponsored">текст ссылки</a>
или
<a href="url" rel="nofollow sponsored">текст ссылки</a>

Значения атрибута rel воспринимаются роботом как рекомендация не принимать ссылку во внимание.

Чтобы скрыть от индексирования все ссылки на странице, укажите в HTML-коде страницы метатег robots с директивой nofollow. Робот не перейдет по ссылкам при обходе сайта, но может узнать о них из других источников. Например, на других страницах или сайтах.

При использовании любого из перечисленных указаний ссылка может быть обработана роботом и отобразиться в Вебмастере как внутренняя или внешняя. Само отображение или отсутствие ссылки в Вебмастере не указывает на то, что поисковые алгоритмы учитывают ее.

Как полностью скрыть сайт от индексации?

#Оптимизация сайта
#Индексация

#7

Ноябрь’17

18

Ноябрь’17

18

Про то, как закрыть от индексации отдельную страницу и для чего это нужно мы уже писали. Но могут возникнуть случаи, когда от индексации надо закрыть весь сайт или зеркало, что проблематичнее. Существует несколько способов. О них мы сегодня и расскажем.

Существует несколько способов закрыть сайт от индексации.

Запрет в файле robots.txt

Файл robots.txt отвечает за индексацию сайта поисковыми роботами. Найти его можно в корневой папке сайта. Если же его не существует, то его необходимо создать в любом текстовом редакторе и перенести в нужную директорию. В  файле должны находиться всего лишь две строчки:


User-agent: *

Disallow: /

Остальные правила должны быть удалены.

Этот метод самый простой для скрытия сайта от индексации.

С помощью мета-тега robots

Прописав в шаблоне страниц сайта следующее правило <meta name=»robots» content=»noindex, nofollow»/> или <meta name=»robots» content=»none»/> в теге <head>, вы запретите его индексацию.

Как закрыть зеркало сайта от индексации

Зеркало — точная копия сайта, доступная по другому домену. Т.е. два разных домена настроены на одну и ту же папку с сайтом. Цели создания зеркал могут быть разные, но в любом случае мы получаем полную копию сайта, которую рекомендуется закрыть от индексации.

Сделать это стандартными способами невозможно, т.к. по адресам domen1.ru/robots.txt и domen2.ru/robots.txt открывается один и тот же файл robots.txt с одинаковым содержанием. В таком случае необходимо провести специальные настройки на сервере, которые позволят одному из доменов отдавать запрещающий robots.txt.

Похожее

Оптимизация сайта
Индексация

Атрибут rel=canonical

Оптимизация сайта
Индексация

Индексация ссылок

Оптимизация сайта
Индексация

#133

Атрибут rel=canonical

Май’23

13290

23

Оптимизация сайта
Индексация

#119

Индексация ссылок

Апрель’19

5000

30

Оптимизация сайта
Индексация

#111

Описание и настройка директивы Clean-param

Апрель’19

10620

24

Оптимизация сайта
Индексация

#104

Как привлечь быстроробота Яндекс

Февраль’19

2439

21

Оптимизация сайта
Индексация

#94

Проверка индекса сайта. Как найти мусорные или недостающие страницы

Декабрь’18

10593

28

Оптимизация сайта
Индексация

#86

Как закрыть ссылки и текст от поисковых систем

Ноябрь’18

6954

22

Оптимизация сайта
Индексация

#82

Почему Яндекс удаляет страницы из поиска

Ноябрь’18

3572

19

Оптимизация сайта
Индексация

#60

Правильная индексация страниц пагинации

Февраль’18

9042

19

Оптимизация сайта
Индексация

#47

Как узнать дату индексации страницы

Ноябрь’17

8604

19

Оптимизация сайта
Индексация

#46

Какие страницы надо закрывать от индексации

Ноябрь’17

11695

19

Оптимизация сайта
Индексация

#38

Как удалить страницу из индекса Яндекса и Google

Ноябрь’17

15584

20

Оптимизация сайта
Индексация

#37

Как добавить страницу в поиск Яндекса и Google

Апрель’17

21698

19

Оптимизация сайта
Индексация

#2

Как проверить индексацию сайта в поисковых системах

Ноябрь’17

18985

27

Оптимизация сайта
Индексация

#1

Как ускорить индексацию сайта

Ноябрь’17

7500

29

Индексирование поиска блоков с помощью noindex | Центр поиска Google | Документация

noindex — это набор правил с
тег или заголовок ответа HTTP и используется для предотвращения индексации контента поисковыми системами, которые
поддерживают правило noindex , например Google. Когда робот Googlebot сканирует эту страницу и
извлекает тег или заголовок, Google полностью удалит эту страницу из результатов поиска Google,
независимо от того, ссылаются ли на него другие сайты.

Важно : Чтобы правило noindex было эффективным, страница
или ресурс не должен быть заблокирован файлом robots.txt, и он должен быть в противном случае
доступным для поискового робота. Если страница заблокирована
robots.txt или сканер не сможет получить доступ к странице, сканер никогда не увидит
noindex правило, и страница все еще может отображаться в результатах поиска, например
если на него ссылаются другие страницы.

Использование noindex полезен, если у вас нет root-доступа к вашему серверу, так как
позволяет контролировать доступ к вашему сайту на постраничной основе.

Есть два способа реализовать noindex : как тег и
как заголовок ответа HTTP. Они имеют тот же эффект; выбрать метод, который больше
удобно для вашего сайта и соответствует типу контента. Указание
правило noindex в файле robots.txt не поддерживается Google.

Вы также можете комбинировать правило noindex с другими правилами, управляющими индексацией. Для
Например, вы можете объединить подсказку nofollow с правилом noindex :
.

<мета> тег

Чтобы запретить индексацию всеми поисковыми системами , которые поддерживают правило noindex
странице вашего сайта, разместите следующие тег в
раздел вашей страницы:

 

Чтобы запретить только поисковым роботам Google индексировать страницу:

 

Имейте в виду, что некоторые поисковые системы могут интерпретировать
noindex правила разные. В результате возможно, что ваша страница может
по-прежнему появляются в результатах других поисковых систем.

Узнайте больше о теге noindex .

Если вы используете CMS, например Wix, WordPress или Blogger , возможно, вы не сможете редактировать
ваш HTML напрямую, или вы можете предпочесть этого не делать. Вместо этого ваша CMS может иметь поисковую систему.
страницу настроек или какой-либо другой механизм, сообщающий поисковым системам о мета-тегах .

Если вы хотите добавить на свой веб-сайт метатег , выполните поиск инструкций.
о модификации вашей страницы на вашей CMS (например,
найдите «wix добавить метатеги»).

Вместо тега вы можете вернуть X-Robots-Tag
Заголовок HTTP со значением noindex или none в вашем ответе.
Заголовок ответа можно использовать для ресурсов, отличных от HTML, таких как PDF-файлы, видеофайлы и изображения.
файлы. Вот пример HTTP-ответа с X-Robots-Tag 9.0004 заголовок
указание поисковым системам не индексировать страницу:

HTTP/1.1 200 ОК
(...)
  X-Robots-Tag: noindex 
(...) 

Узнайте больше о заголовке ответа noindex .

Отладка

noindex проблемы

Нам нужно просканировать вашу страницу, чтобы увидеть тега и заголовки HTTP. Если
страница по-прежнему отображается в результатах, возможно, это связано с тем, что мы не сканировали страницу с
вы добавили noindex правило. В зависимости от важности страницы на
Интернет, роботу Googlebot может потребоваться несколько месяцев, чтобы повторно посетить страницу. Вы можете запросить, чтобы Google
пересканировать страницу с помощью
Инструмент проверки URL.

Если вам нужно быстро удалить страницу вашего сайта из результатов поиска Google, см.
документация об увольнении.

Другая причина также может заключаться в том, что файл robots.txt блокирует URL-адрес из сети Google.
сканеры, поэтому они не могут видеть тег. Чтобы разблокировать свою страницу от Google, вы должны
отредактируйте файл robots.txt.
Вы можете редактировать и тестировать файл robots.txt с помощью
robots.txt Тестер
инструмент.

Наконец, убедитесь, что правило noindex видно Googlebot. Чтобы проверить, если ваш
noindex реализация правильная, используйте
Инструмент проверки URL
чтобы увидеть HTML-код, полученный роботом Googlebot при сканировании страницы.
Вы также можете использовать
Отчет об индексации страниц
в Search Console, чтобы отслеживать страницы вашего сайта, с которых робот Googlebot извлек
noindex правило.

Правильное предотвращение индексации вашего сайта • Yoast

Мы уже говорили это когда-то, но повторим: нас не перестает удивлять, что до сих пор есть люди, использующие только файлы robots.txt , чтобы предотвратить индексацию своего сайта в Google или Bing. В результате их сайт все равно отображается в поисковых системах. Знаете, почему это продолжает удивлять нас? Потому что robots.txt на самом деле не делает последнего, хотя и предотвращает индексацию вашего сайта. Позвольте мне объяснить, как это работает, в этом посте.

Чтобы узнать больше о robots.txt, прочитайте robots.txt: полное руководство. Или найдите рекомендации по работе с robots.txt в WordPress.

Существует разница между индексацией и включением в список Google

Прежде чем мы продолжим объяснять, нам нужно сначала рассмотреть некоторые термины: содержимое страницы на сервер поисковика, тем самым добавляя его в свой «индекс».

  • Рейтинг / Листинг / Отображение
    Отображение сайта на страницах результатов поиска (также известных как SERP).
  • Подробнее: Что такое индексация в отношении Google? »

    Таким образом, в то время как наиболее распространенный процесс идет от индексации к листингу, сайт не обязательно должен быть проиндексирован , чтобы попасть в список. Если ссылка указывает на страницу, домен или что-то еще, Google переходит по этой ссылке. Если файл robots.txt в этом домене препятствует индексированию этой страницы поисковой системой, он все равно будет отображать URL-адрес в результатах, если сможет получить данные из других переменных, на которые, возможно, стоит обратить внимание.

    В прежние времена это мог быть DMOZ или каталог Yahoo, но я могу представить, как Google использует, например, данные о вашем бизнесе в наши дни или старые данные из этих проектов. Больше сайтов резюмируют ваш сайт, правильно.

    Теперь, если приведенное выше объяснение не имеет смысла, посмотрите это видеообъяснение бывшего сотрудника Google Мэтта Каттса из 2009 года:

    Если у вас есть причины запретить индексирование вашего веб-сайта, добавьте этот запрос на конкретную страницу, которую вы хотите блокировать, как говорит Мэтт, все еще правильный путь.

    Но вам нужно сообщить Google об этом метатеге robots. Итак, если вы хотите эффективно скрыть страницы от поисковых систем, вам нужно их индексировать до .0136 эти страницы. Хотя это может показаться противоречивым. Есть два способа сделать это.

    ваше периодическое напоминание о том, что поисковые роботы, подчиняющиеся robotstxt, не увидят директиву noindex на странице, если эта страница запрещена для сканирования.

    по запросу https://t.co/i7ouMoqNT6, на который ответил @patrickstox pic.twitter.com/98NLF2twz1

    — Гэри 鯨理/경리 Illyes (@methode) 25 марта 2021 г.

    Запретить размещение вашей страницы добавление метатега robots

    Первый способ предотвратить размещение вашей страницы – использовать метатеги robots. У нас есть исчерпывающее руководство по метатегам роботов , которое является более подробным, но в основном сводится к добавлению этого тега на вашу страницу:

    Если вы используете Yoast SEO, это очень просто! Нет необходимости добавлять код самостоятельно. Узнайте, как добавить тег noindex с помощью Yoast SEO, здесь.

    Проблема с таким тегом заключается в том, что вы должны добавлять его на каждую страницу.

    Управление метатегами robots упрощено в Yoast SEO

    Чтобы немного упростить процесс добавления метатега robots на каждую страницу вашего сайта, поисковые системы придумали HTTP-заголовок X-Robots-Tag. Это позволяет указать заголовок HTTP с именем 9.0187 X-Robots-Tag и установите значение, аналогичное значению мета-тегов robots. Самое классное в этом то, что вы можете сделать это для всего сайта. Если ваш сайт работает на Apache и включен mod_headers (обычно это так), вы можете добавить следующую строку в файл .htaccess :

    Заголовок set X-Robots-Tag "noindex, nofollow"

    И это приведет к тому, что весь сайт может быть проиндексирован . Но никогда не будет отображаться в результатах поиска.

    Итак, избавьтесь от этого файла robots.txt с помощью Disallow: / в его.

    This entry was posted in Популярное