Переобход страниц яндекс: Как переиндексировать сайт — Вебмастер. Справка

Содержание

Отправление страницы сайта на переобход. Руководство разработчика

Отправляет URL на переобход.

  1. Формат запроса
  2. Формат ответа
  3. Коды ответа

В теле запроса передайте URL страницы, которую нужно переобойти.

POST https://api.webmaster.yandex.net/v4/user/{ Тип: int64. ID пользователя. Необходим для вызова любых ресурсов API Яндекс Вебмастера. Чтобы получить его, используйте метод GET /v4/user."}}">}/hosts/{Тип: host id (string). ID сайта. Чтобы получить его, используйте метод GET /v4/user/{user-id}/hosts."}}">}/recrawl/queue
user-id Тип: int64. ID пользователя. Необходим для вызова любых ресурсов API Яндекс Вебмастера. Чтобы получить его, используйте метод GET /v4/user.
host-idТип: host id (string). ID сайта. Чтобы получить его, используйте метод GET /v4/user/{user-id}/hosts.
{
  "url": "http://example. com"
}
<Data>
    <Описание

URL страницы, отправляемой на переобход.

"}}">>http://example.com</url> </Data>
ПараметрОписание
urlURL страницы, отправляемой на переобход.
{
  "task_id": "c7fe80c0-36e3-11e6-8b2d-df96aa592c0a",
  "quota_remainder": 1
}
<Data>  
  <Обязательный

Да

Тип

\n UUID\n

Описание

ID задачи на переобход.

"}}">>c7fe80c0-36e3-11e6-8b2d-df96aa592c0a</task_id> <Обязательный

Да

Тип

int32\n

Описание

Остаток суточной квоты.

"}}">>1</quota_remainder> </Data>
ИмяОбязательныйТипОписание
task_idДа UUIDID задачи на переобход.
quota_remainderДаint32Остаток суточной квоты.

Чтобы посмотреть структуру ответа подробнее, нажмите на причину.

КодПричинаОписание
202ACCEPTED
400INVALID_URL

Передан неправильный URL.

{
  "error_code": "INVALID_URL",
  "error_message": "some string"
}
<Data>
  <Описание

Код ошибки.

"}}">>INVALID_URL</error_code> <Описание

Сообщение об ошибке.

"}}">>some string</error_message> </Data>
403

INVALID_USER_ID

ID пользователя, выдавшего токен, отличается от указанного в запросе. В примерах ниже {user_id} указан правильный uid владельца OAuth-токена.

{
  "error_code": "INVALID_USER_ID",
  "available_user_id": 1,
  "error_message": "Invalid user id. {user_id} should be used."
}
 html#errors__403" data-code-language="xml"><Data>
    <Описание

Код ошибки.

"}}">>INVALID_USER_ID</error_code> <Описание

ID пользователя, от имени которого разрешен доступ.

"}}">>1</available_user_id> <Описание

Сообщение об ошибке.

"}}">>Invalid user id. {user_id} should be used.</error_message> </Data>
404HOST_NOT_VERIFIED

Не подтверждены права на управление сайтом.

{
  "error_code": "HOST_NOT_VERIFIED",
  "host_id": "http:ya.ru:80",
  "error_message": "some string"
}
<Data>
  <Описание

Код ошибки.

"}}">>HOST_NOT_VERIFIED</error_code> <Описание

ID запрошенного сайта.

"}}">>http:ya.ru:80</host_id> <Описание

Сообщение об ошибке.

"}}">>some string</error_message> </Data>
409URL_ALREADY_ADDED

URL уже добавлен в переобход.

{
  "error_code": "URL_ALREADY_ADDED",
  "error_message": "some string"
}
<Data>
  <Описание

Код ошибки.

"}}">>URL_ALREADY_ADDED</error_code> <Описание

Сообщение об ошибке.

"}}">>some string</error_message> </Data>
429QUOTA_EXCEEDED

Суточная квота запросов исчерпана.

{
  "error_code": "QUOTA_EXCEEDED",
  "daily_quota": 1,
  "exceeded_until": "2016-01-01T00:00:00,000+0300",
  "error_message": "some string"
}
<Data>
  <error_code>QUOTA_EXCEEDED</error_code>  
  <daily_quota>1</daily_quota>  
  <exceeded_until>2016-01-01T00:00:00,000+0300</exceeded_until>  
  <error_message>some string</error_message>
</Data>

Была ли статья полезна?

Ускорение при переобходе страниц в Яндекс вебмастере: возможность настройки

Для того чтобы новость, пост в блоге или заполненная карточка с товаром начала работать и приносить трафик, необходимо, чтобы она была проиндексирована поисковыми системами (ПС) и попала в выдачу.

Для ускорения этого процесса и существует функция переобхода. Это как отправить напоминание роботу о том, что с ресурсом все в порядке и пора бы пустить его в работу.

Чем может быть вызвана необходимость переобхода

Этот инструмент применяется, когда в проекте появились какие-то изменения:

  • на сайте появилась новая статья, пост, новость;
  • обновились или добавились карточки в интернет-магазине;
  • возникли технические ошибки (робот не смог обойти).

Причины медленной индексации

Это могут быть проблемы с дублями, ошибками (например, 404), неправильными ссылками. Также ресурс может быть закрыт от индексации для ПС. А еще проект может пострадать, если вы давно не выкладывали новый материал. Уделите внимание структуре сайта: когда от главной до последней страницы требуется более пяти кликов, это стопорит обход краулерами.

Как запустить в Yandex.webmaster

Решить эту проблему можно, запустив ручной переобход в Яндекс.Вебмастер.

Последовательная переиндексация

  1. Переходим в раздел «Индексирование» -> «Переобход страниц»  
  2. В появившемся поле добавляем адреса, которые нужно проиндексировать и нажимаем «Отправить» В день можно отправлять не более двадцати страниц.
  3. Смотрим статус (в случае успеха напротив адреса должно быть «Робот обошел». 

Переобход по Sitemap

Чтобы не возиться с каждой страницей отдельно, в случае если у вас большой сайт и имеется Sitemap, можно запустить переобход сразу всех адресов.

Важно! Страницы, которые отсутствуют в карте сайта, проиндексированы не будут.

  1. Открываем вкладку «Индексирование» -> «Файлы Sitemap». 
  2. Нажимаем кнопку, выделенную на скрине, и ждем, пока краулер перепроверит ресурс. 

Процедуру можно проводить не чаще раза в месяц, переобход занимает до семи дней.

Что делать, если появился статус «Ошибка»

После отправки ресурса на переиндексацию в графе «Статус» можно увидеть, что адрес находится в очереди или что переобход совершен — «Робот обошел». Однако бывает и такое, что выходит ошибка: краулер не смог посетить страницу. В этом случае необходимо проверить, доступна ли она.

Открываем в Яндекс.Вебмастер вкладку «Проверка ответа сервера», добавляем в поле «Опрашиваемый URL» пропущенный адрес и нажимаем «Проверить».  

Если все в порядке и страница доступна для робота, отправьте ее на переобход повторно. В противном случае устраняем ошибку (инструмент проверки подскажет, какую) и переходим к переиндексации.

Функция отслеживания статуса

Чтобы вовремя узнать о наличии ошибки и устранить ее, полезно воспользоваться отслеживанием. Для этого нажимаем на кнопку «Отслеживать» и настраиваем уведомления. 

Зависимость ранжирования от переобхода в Яндексе и Гугле

Напрямую переобход на позицию сайта в поисковой выдаче не влияет. Однако чем быстрее ресурс с качественным уникальным контентом, обросший хорошей ссылочной массой, будет проиндексирован, тем быстрее он попадет в ТОП.

Считается, что, если есть хороший Sitemap, то нет особых причин прибегать к инструменту переиндексации. В то же время, если вы столкнулись с ошибками страниц или попали под санкции или фильтры ПС и после устранения проблем хочется, чтобы качественный контент побыстрее был просмотрен краулерами и пользователи смогли увидеть его.

В таких случаях имеет смысл воспользоваться переобходом. А также это помогает избежать сложностей с авторским правом (если страница вора вашего уникального контента будет проиндексирована быстрее, то вы можете попасть под фильтры как человек, выложивший неуникальную статью или описание товара).

А вы пользуетесь инструментом переобхода? Делитесь опытом в комментариях!

Как разместить свой сайт в поисковых системах [Google, Bing, Yahoo, Yandex, DuckDuckGo, Baidu]

Можно с уверенностью предположить, что если у вас есть сайт, вам нужен органический трафик на ваши страницы. Сегодня большинство поисковых систем автоматически индексируют веб-сайты, но все же может быть полезно отправить им свой веб-сайт.

Это гарантирует, что поисковые системы смогут найти и проиндексировать ваш веб-сайт, чтобы он отображался в результатах поиска по релевантным ключевым словам. Вы можете отправить свой сайт вручную или с помощью различных инструментов и плагинов для веб-мастеров.

В этом руководстве я покажу вам, как лучше всего представить свой веб-сайт в поисковых системах, включая Google, Bing, Yandex, Yahoo, Duck Duck Go и Baidu.

Нужно ли продвигать ваш сайт в поисковых системах?

Размещение вашего веб-сайта в поисковых системах сегодня не является абсолютной необходимостью, но это может ускорить поисковые запросы в Интернете. За исключением проблем на вашем веб-сайте, он, вероятно, будет автоматически проиндексирован поисковыми системами после публикации URL-адреса.

Однако время, необходимое для того, чтобы ваша страница была успешно проиндексирована и появилась в результатах поиска, может зависеть от авторитетности вашего веб-сайта, частоты сканирования и элементов на странице. Запрос на индексацию вашего веб-сайта может сократить эту задержку и сделать так, чтобы потенциальным клиентам было легче находить ваш контент.

Также рекомендуется периодически повторно отправлять обновленные версии ваших веб-страниц по мере того, как вы пересматриваете или добавляете новую информацию и разделы. Кроме того, отправка XML-карты сайта в Google и другие поисковые системы поможет им точно понять структуру вашего веб-сайта.

Например, вот страница, для которой я запросил повторную индексацию после реализации предложений Surfer по оптимизации контента. В течение нескольких недель обновленная страница перешла от позиции в середине двадцатых к неуклонному восхождению в поисковой выдаче, чтобы достичь 6-й позиции на момент написания этой статьи.

Как разместить свой сайт в поисковых системах?

Чтобы отправить свой веб-сайт на индексацию, вам понадобится карта сайта в формате XML. Карта сайта — это дорожная карта вашего веб-сайта, которая объясняет взаимосвязь между всеми страницами вашего сайта и местами, где их можно найти. Поисковые системы используют файлы карты сайта, чтобы быстрее и эффективнее индексировать ваш контент.

XML-карты сайта также могут помочь уведомлять Google и другие поисковые системы о новом контенте и обновлениях на вашем веб-сайте, а также помогают поисковым роботам с картой вашего веб-сайта для облегчения навигации.

Большинство систем управления контентом автоматически создают файл карты сайта для вашего веб-сайта, поэтому вам не нужно его создавать. Обычно карту сайта вашего веб-сайта можно найти по одному из этих URL-адресов.

  • yourwebsite.com/ sitemap.xml
  • yourwebsite.com/ sitemap_index.xml

При вводе одного из них в строке поиска должна появиться страница, которая выглядит следующим образом.

Если вы не найдете карту сайта своего веб-сайта ни по одному из этих URL-адресов, попробуйте файл robots.txt по адресу

  • yoursite.com/ robots.txt

Большинство веб-сайтов указывают местоположение своей карты сайта в файл robots.txt. Например, файл robots.txt от BBC показывает несколько карт сайта для разных регионов.

Если вы по-прежнему не можете найти работающий URL-адрес карты сайта, вам необходимо создать XML-карту сайта, прежде чем отправлять веб-сайты. Мы начнем с Google, так как он доминирует на рынке с оценкой 9.Срез 2% среди популярных поисковых систем.

1. Как отправить свой веб-сайт в Google

Перед отправкой карты сайта вам необходимо интегрировать и проверить свой веб-сайт в Google Search Console.

Мы настоятельно рекомендуем сначала установить Google Search Console на свой веб-сайт, поскольку это значительно упростит добавление инструментов Bing для веб-мастеров и отправку вашего веб-сайта в Bing и Yahoo.

Выполните следующие действия, если ваша учетная запись GSC уже настроена.

  1. Войдите в Google Search Console
  2. Выберите вкладку Sitemaps на левой панели
  3. Введите URL-адрес вашей карты сайта и нажмите Отправить

Выполнив эти действия, вы отправите весь свой веб-сайт в Google.

Отправка URL определенной веб-страницы в Google

Рекомендуется периодически обновлять существующий контент и повторно публиковать обновленные страницы. Когда вы это сделаете, запросите повторное сканирование страницы, так как это потенциально улучшит ее рейтинг.

Чтобы запросить индексирование определенной страницы, вставьте ее URL-адрес в инструмент проверки URL-адресов в Google Search Console.

Если страница была проиндексирована, вы увидите зеленый индикатор, подтверждающий ее статус индексации.

Однако, если страница не была проиндексирована, вы увидите неактивное предупреждение. Нажмите Request Indexing , чтобы вручную отправить страницу в Google для сканирования и индексации.

Это поможет поисковому роботу Google быстрее обнаружить ваш контент и начать показывать его в результатах поиска.

2. Как отправить свой веб-сайт в Новости Google

Самое важное, что вам нужно сделать, чтобы ваши страницы отображались в Новостях Google, — это следовать их политике содержания. Хотя Новости Google отличаются от поисковой системы, вам больше не нужно вручную отправлять свой веб-сайт для рассмотрения в их ленте.

Однако регистрация через Publisher Center может предоставить такие преимущества, как брендинг, монетизация и управление размещением. Вот как отправить свой веб-сайт в Новости Google.

  1. Войдите в Google Publisher Center
  2. Добавьте свой домен или URL-адрес
  3. Нажмите Добавить

Вам ответят на несколько простых вопросов, а затем попросят подтвердить ваш URL. Поскольку вы уже добавили GSC на свой веб-сайт на предыдущих шагах, выберите Подтвердить в Google Search Console для быстрого метода.

Нажмите Публикация на Последнее окно под названием Статус публикации до того, как URL-адрес вашего веб-сайта будет отправлен на проверку. Этот процесс может занять несколько недель после отправки веб-сайта, но если ваш контент соответствует политике Новостей Google, ваши страницы появятся в Новостях Google.

3.

Как отправить свой веб-сайт в Bing

Bing имеет самую большую долю рынка после Google, и его инструмент для веб-мастеров предлагает несколько идей, которые Google Search Console предпочитает не раскрывать. Вам нужно будет правильно настроить Bing для веб-мастеров на своем веб-сайте, прежде чем вы сможете отправлять веб-сайты в поисковый индекс Bing.

Вы можете импортировать свой веб-сайт в Bing одним щелчком мыши, если у вас уже настроена Google Search Console. Перейдите к инструментам для веб-мастеров Bing и войдите в систему.

Вам будет предложено два способа добавить свой веб-сайт. Выберите опцию Google Search Console и следуйте простым шагам, чтобы добавить свой веб-сайт в Bing Webmaster.

После успешной интеграции с Bing остальная часть процесса аналогична отправке веб-сайтов в Google. Выполните следующие действия, чтобы представить свой веб-сайт в результатах поиска Bing.

  1. Войдите в инструменты веб-мастера Bing
  2. Выберите вкладку Sitemaps на левой панели
  3. Введите URL-адрес вашей карты сайта и нажмите Submit

движок, вам не нужно делать отдельную отправку веб-сайта в Yahoo, если вы установили инструменты Bing для веб-мастеров.

К сожалению, Yahoo не предоставляет услугу отправки веб-сайтов или инструмент для индексации.

5.Как добавить свой сайт в Яндекс

Следующий по величине кусок рынка поисковых систем принадлежит Яндексу. Их доля на рынке может показаться ничтожной по сравнению с другими поисковыми системами, но помните, мы говорим о миллионах пользователей в Интернете. Небольшой процент может стоить представить ваш сайт.

Как вы уже знаете, вам сначала нужно настроить Яндекс Вебмастер на своем веб-сайте. Войдите в Яндекс Вебмастер и введите HTTPS-версию вашего домена. Затем вы получите три варианта подтверждения своего домена, аналогичные тем, которые вы получили от Google Search Console.

Вы можете выполнить шаги, описанные здесь, чтобы подтвердить Яндекс Вебмастер на своем веб-сайте.

После подтверждения доступа к домену выполните следующие действия, чтобы отправить свой сайт на Яндекс.

  1. Войдите в инструменты Яндекса для веб-мастеров
  2. Выберите вкладку Индексирование на левой панели, затем Файлы карты сайта
  3. Введите URL-адрес вашей карты сайта и нажмите Добавить

6.

Как отправить свой веб-сайт в Baidu

Baidu — самая популярная поисковая система в Китае, похожая на Google по своим функциям и услугам. Из-за того, что Baidu доминирует на рынке поисковых систем в густонаселенной стране, рассмотрите возможность добавления своего веб-сайта с помощью инструментов для веб-мастеров Baidu.

Однако, поскольку инструкции Baidu в основном написаны на китайском языке и требуют подтверждения по SMS, лучше всего следовать приведенным здесь инструкциям.

7.Как отправить свой веб-сайт в DuckDuckGo

В отличие от других поисковых систем, DuckDuckGo не предлагает инструментов для отправки URL-адресов и автоматически проиндексирует ваш веб-сайт, поэтому вам не нужно отправлять свой веб-сайт вручную. Вместо этого поисковая система полагается на различные источники информации для создания результатов поиска.

Как проверить, проиндексирован ли ваш веб-сайт

Самый надежный способ проверить, проиндексировал ли Google весь ваш веб-сайт, — это проверить Google Search Console. В отчете Страницы в разделе Индексирование на левой панели отображаются две категории: Не индексировано и Индексировано.

Проиндексировано страниц, которые могут отображаться в результатах поиска, а Не проиндексировано страниц были найдены, но не проиндексированы.

Выбор обеих категорий покажет временную шкалу их обнаружения поисковыми роботами Google.

Если вы хотите проверить, была ли проиндексирована конкретная страница, вставьте URL-адрес в инструмент проверки URL-адресов Search Console и нажмите Введите .

Зеленое уведомление сообщит вам о том, что страница была проиндексирована, но если вы получите четкое предупреждение серого цвета, щелкните параметр Запросить индексирование , чтобы Google проиндексировал отправку URL.

Вы также можете проверить, проиндексированы ли страницы вашего сайта, введя » site: yourwebsite. com » в строке поиска Google. Этот метод не на 100% надежен, но может помочь, если вы торопитесь.

Чтобы узнать, был ли проиндексирован ваш сайт, отправленный в Bing, перейдите на Инструменты Bing для веб-мастеров и выберите на левой панели инструмент Site Explorer . Затем в раскрывающемся фильтре выберите Индексированные URL-адреса .

Вставьте URL-адрес в инструмент проверки URL-адресов, чтобы проверить отдельные страницы, индексированные инструментами Bing для веб-мастеров.

Как исправить проблемы с индексацией страниц

Если вам нужна помощь в индексировании вашего сайта, перейдите к отчету Page indexing , который мы видели ранее в Google Search Console, перейдя к > Indexing > Pages.

Прокрутите график до раздела с надписью Почему страницы не индексируются. Вы найдете список всех ваших непроиндексированных страниц, сгруппированных по их причинам. Нажмите на любую строку, чтобы увидеть URL-адреса, затронутые этой ошибкой индексирования.

Вот некоторые из наиболее распространенных причин непроиндексированных страниц в Search Console.

  • Ошибка перенаправления > Компания Google столкнулась с одной из следующих проблем; слишком длинная цепочка перенаправления, цикл перенаправления, URL-адрес перенаправления, превышающий максимальную длину URL-адреса, или пустой URL-адрес в цепочке перенаправления.
  • Ошибка сервера (5xx) > При запросе страницы ваш сервер обнаружил ошибку уровня 500.
  • URL-адрес, заблокированный robots.txt > Если вы не хотите, чтобы Google индексировал страницу, используйте для этой страницы явную директиву noindex, а не полагайтесь на заблокированный доступ через файл robots.txt вашего сайта.
  • URL-адрес с пометкой «noindex» > Директива «noindex» на этой странице предотвратила ее сканирование Google. Если вы хотите, чтобы эта страница отображалась в результатах поиска, удалите директиву noindex.
  • Дублировать без выбранной пользователем канонической версии > Компания Google определила, что эта страница содержит дублированный контент, и вместо этого проиндексировала то, что, по его мнению, является канонической версией.
  • Просканировано — в настоящее время не проиндексировано > Google просканировал эту страницу, но не проиндексировал ее. Неясно, будет ли URL-адрес проиндексирован и когда, а повторная отправка URL-адреса не поможет ускорить процесс.

Если ваши отдельные страницы не отображаются в результатах поиска, перейдите к инструменту проверки URL-адресов Google Search Console и вставьте URL-адрес. Затем нажмите клавишу Enter на клавиатуре.

Откройте раздел отчета Страница индексируется , чтобы получить дополнительные сведения о том, почему страница не индексируется. Например, эта страница не индексируется из-за ошибки перенаправления. Я могу исправить это, а затем запросить переиндексацию страницы.

Нужны ли услуги представления поисковой системы?

Вам абсолютно не нужно внешнее агентство для размещения вашего сайта в поисковых системах. Вам нужно только сгенерировать файл XML и отправить карту сайта в инструмент для веб-мастеров. Отправка вашего сайта в поисковые системы — довольно простой процесс.

И поэтому игнорируйте любые службы отправки веб-сайтов, которые утверждают, что автоматически отправляют веб-сайты во множество различных поисковых систем и каталогов одновременно. Они не принесут вам никакой пользы, и вы даже можете рисковать политиками Google.

Размещение вашего веб-сайта в поисковых системах является хорошей практикой поисковой оптимизации, но это не гарантирует автоматически органического трафика на ваши страницы. Вместо этого вам нужно будет следовать надежной контент-стратегии, которая поможет вашим страницам занять более высокое место в поисковых системах и направит трафик на ваши сообщения в блоге.

Заключение

Размещение вашего веб-сайта относительно просто и во многом аналогично для большинства поисковых систем. Фактически, основные поисковые системы, такие как Google, Yahoo! и Bing, не требуют, чтобы вы отправляли свои веб-сайты на индексацию. Однако предоставление XML-карты сайта, которая включает информацию о содержании вашего веб-сайта и архитектуре страницы, будет оценена поисковыми системами и может помочь вам повысить эффективность поиска.

веб-приложение — Нужно ли блокировать Яндекс Бота?

спросил

Изменено
3 года назад

Просмотрено
44к раз

У меня есть веб-приложение, к которому паук Яндекса пытается получить доступ несколько раз. После этих поисков пауков осталось несколько российских IP-адресов, которые также пытались получить доступ к серверной части, и им не удалось получить доступ.

Заблокировать Яндекс или предпринять другие действия?

Обновление:

Паук Яндекса посещает внутренний URL примерно раз в 2-3 дня. Мы не выпускали какие-либо внутренние URL-адреса во внешнем интерфейсе.

« back-end » означает:
интерфейс веб-приложения позволяет нашему администратору управлять приложением

  • веб-приложение
  • бот

8

Стоит ли заблокировать яндекс

Почему?
Во-первых, если бот является законным ботом поисковой системы (и ничем иным), они вас не взломают. Если нет, блокировка агента пользователя не поможет, они просто будут использовать другой.
Если ваш пароль правильный, fail2ban настроен, программное обеспечение обновлено и т. д., просто дайте им попробовать. Если нет, вам нужно это исправить, независимо от ботов Яндекса.

Чтобы убедиться, что проблема действительно в Яндексе, попробуйте запретить его в robots. txt и посмотреть, остановится ли он.
Нет => не Яндекс.

(Несколько недель назад настроил новый веб-сервер. Через час после выхода в сеть, у которого еще не было даже домена, «гуглбот» начал пробовать SQL-инъекции для несуществующего WordPress. никаких других HTTP-запросов, но я не заблокировал Google из-за этого.)

4

Наряду с согласием с ответом @deviantfan и конкретно с этим пунктом

Во-первых, если бот является законным ботом поисковой системы (и ничем иным), они вас не взломают. Если нет, блокировка агента пользователя не поможет, они просто будут использовать другой.

Я хотел бы отметить, что как Яндекс , так и другие боты поисковых систем в целом могут намеренно не хотеть получить доступ к вашему серверу. Помните, что боты сканируют сайты, переходя по ссылкам, так что представьте, если бы злоумышленники поместили некоторые URL-адреса вашего бэкэнда на страницы какого-то другого веб-сайта, а поисковая система просто проиндексировала бы эти страницы и теперь пытается перейти по ссылкам оттуда. Таким образом, это будет выглядеть так, как будто поисковая система пытается получить доступ к вашему бэкенду, но она просто сканирует сеть: она не знает, что это ваш бэкэнд.

Подобное может произойти случайно. Допустим, пользователь, не разбирающийся в технологиях, опубликовал URL-адрес на каком-то форуме, который доступен только тогда, когда вы вошли в систему — при сканировании поисковая система попытается перейти по этим ссылкам, и вы в конечном итоге увидите журналы, как я предполагаю, что вы это сделали.

ОБНОВЛЕНИЕ: Я думаю, вы можете установить в своем правиле robots.txt, чтобы запретить yandex доступ к определенным URL-адресам. Кстати, вам лучше определить конкретное правило его именем, я не уверен, но может случиться так, что яндексбот может игнорировать User-agent: * , так что вы можете сделать что-то вроде этого (в соответствии с вашими бэкенд-адресами)

 User-agent: Яндекс
Запретить: /admin/*
 

Таким образом, вы запретите ему пытаться получить доступ к внутренним URL-адресам, соответствующим этому шаблону, но в то же время он (yandexbot) сможет свободно сканировать другие страницы вашего сайта.

0

Не стоит блокировать легитимного бота Яндекса, но вы можете убедиться, что это действительно легитимный бот, а не кто-то, кто просто использует User-Agent Яндекса.

From: https://yandex.com/support/webmaster/robot-workings/check-yandex-robots.xml

  • Определите IP-адрес рассматриваемого агента пользователя, используя журналы вашего сервера. Все роботы Яндекса представлены заданным агентом пользователя.
  • Используйте обратный поиск DNS полученного IP-адреса, чтобы определить имя домена хоста.
  • Определив имя хоста, вы можете проверить, принадлежит ли оно Яндексу. Все роботы Яндекса имеют имена, оканчивающиеся на «yandex.ru», «yandex.net» или «yandex.com». Если имя хоста имеет другое окончание, робот не принадлежит Яндексу.
  • Наконец, убедитесь, что имя указано правильно. Используйте прямой поиск DNS, чтобы получить IP-адрес, соответствующий имени хоста. Он должен совпадать с IP-адресом, используемым при обратном поиске DNS. Если IP-адреса не совпадают, это означает, что имя хоста является поддельным.

Практически все крупные поисковые системы предоставляют аналогичные способы проверки User-Agent. Это работает потому, что кто-то может подделать обратный поиск DNS, но не прямой DNS этого поддельного адреса.

Хотя я согласен с ответом @deviantfan, я хотел бы добавить, что, поскольку ваш первоначальный вопрос звучит как путь в ад, я видел, как кто-то падал несколько лет назад, даже если вы попытаетесь полностью заблокировать паука, а не просто сказав, чтобы он ушел через robots.txt (что вы, вероятно, должны сделать для частей администратора в любом случае), вы закончите бесконечной игрой в придурки, в которой вы не сможете выиграть.

Несколько лет назад кто-то на другом сайте, о котором я читал, разглагольствовал о том, что Google/Microsoft/Yandex/и т. д. все «DDoSing» его веб-сайт. Судя по всему, сайт был «частным, и только несколько его друзей должны иметь доступ, и он не должен отображаться ни в каких поисковых системах». Однако очевидно, что по крайней мере один из его пользователей размещал ссылки на внутренние местоположения, которые находили различные веб-пауки. (В отличие от того, что они просто знают о www.whatever.tld из записей DNS.)

Человек, запустивший его, решил, что иметь файл robots.txt таким образом, чтобы пауки, нашедшие ссылки на него, просто читали файл и уходили, было неприемлемо. Им нужно было навсегда игнорировать его сайт и никогда больше к нему не прикасаться ни при каких обстоятельствах. (Он так и не дал разумного объяснения, почему это был единственный приемлемый вариант. Очевидно, что-то делали с теми, кто размещал ссылки на внутренние местоположения на его сайте, которые находили пауки, или просто требовал аутентификации, чтобы боты просто сбрасывались на страница входа без содержания.)

Вместо этого он просто начал заносить в черный список все IP-адреса веб-пауков, чтобы любые попытки запроса, которые они делали, истекали без ответа. Сделав это, он обнаружил, что вместо того, чтобы перейти по одной ссылке, чтобы получить файл robots.

This entry was posted in Популярное