Содержание
Поиск информации в Интернет. Web-индексы. Web-каталоги.
1 Теория поиска информации
Большинство современных молодых людей имеют мобильные телефоны, подавляющее большинство из них не знает, как работает сеть мобильной связи.
Поисковыми системами можно пользоваться так же, как мобильными телефонами – освоив нехитрые элементы управления ими, научившись нажимать нужные кнопочки. Для того чтобы уметь пользоваться поисковой машиной (или поисковой системой), не обязательно понимать, как она работает, и тем более знать ее внутреннее устройство.
Однако ситуация здесь примерно такая же, как с автомобилем: на нем можно ездить, умея лишь заправлять его, управлять им и зная правила дорожного движения. Но тот, кто хочет чувствовать себя за рулем уверенно и при необходимости самостоятельно устранять мелкие неисправности, должен знать устройство автомобиля, названия и принципы функционирования хотя бы важнейших узлов. Поэтому далее мы будем говорить об устройстве поисковых машин и основных терминах, которые приступающий к поиску информации в интернет пользователь должен знать так же хорошо, как автомобилист термины «карбюратор» и «зажигание».
Как работают поисковые машины Поисковая машина (для краткости ее часто называют просто поисковик) представляет собой комплект программ, в основе которого лежат следующие пять:
1 Spider («паук») – программа, которая загружает в поисковую машину Web-страницы. Работает аналогично браузеру, установленному на компьютере пользователя, но ничего не отображает ни на каком экране. Если вы хотите иметь представление о том, что именно загружает в поисковую систему «паук», откройте какую-нибудь Web-страницу и выберите в меню Вид браузера пункт Просмотр HTML (или «исходного») кода.
2 Crawler («червяк», или «путешествующий паук») – программа, способная найти на Web-странице все ссылки на другие страницы. Ее задача определить, куда дальше должен ползти «паук», руководствуясь ссылками или заранее заданным списком адресов.
3 Indexer (индексатор) – программа, которая «разбирает» страницу на составные части и анализирует их. Вычленяются и анализируютсязаголовки Web-страниц, заголовки документов, ссылки, текст документов, отдельно – текст, выделенный полужирным шрифтом, курсивом и т. д.
4 Database (база данных) – хранилище всех данных, которые поисковая система загружает и анализирует. Требует огромных ресурсов как для хранения, так и для последующей обработки.
5 Search Engine Results Engine (система выдачи результатов поиска) решает, какие страницы удовлетворяют запросу пользователя и в какой степени. Именно с этой частью поисковой системы «общается» пользователь.
Первые две программы, работающие «в связке», часто называют поисковый робот (а иногда – НТТР-робот).
Как видите, поисковая машина, получив запрос на поиск, не отправляется в длительное путешествие по «Всемирной паутине, как полагают некоторые пользователи, а анализирует лишь ту информацию, которую собрала ранее. С одной стороны, это позволяет резко повысить скорость обработки запроса на поиск. С другой, ограничивает область поиска внутренними ресурсами поисковой системы, которые, во-первых, ограниченны (ни одна поисковая машина не в состоянии загрузить в свою базу данных информацию со всех узлов Сети), во-вторых, уже в какой-то степени устарели. Ситуация в интернет изменяется очень быстро. Если «паук» с целью обновления информации об уже проиндексированных однажды Web-страницах «заползает» на них раз в два месяца, пользователь рискует получить в результатах запроса ссылку на уже несуществующую Web-страницу.
Процесс загрузки из Сети информации и предварительного анализа ее поисковой машиной называется индексация, а сама база данных поисковой машины, в которой хранится собранная информация, – индекс.
Глубина индексации может быть разной. Полные тексты документов, размещенных на странице, в базу данных копируют не все поисковые роботы – некоторые ограничиваются лишь заголовками. Когда пользователь формирует запрос на поиск, поисковая машина просматривает свою базу данных и выдает перечень Web-страниц, содержащих слова, введенные пользователем в поле ввода (их часто называют ключевые слова). Таких страниц может быть очень много. Задача поисковой машины – отобрать те из них, которые в наибольшей степени отвечают запросу пользователя (т. е. релевантны ему) и указать ссылки на них в числе первых.
Индекс и индексация сайта: что это такое?
Оглавление
Что такое индексация
Зачем индекс поисковым системам
Скорость индексации страниц
Как проверить индексацию в «Яндексе» и Google
org/ListItem»>
Как ускорить индексацию
Индекс поисковых систем – специальная база данных, в которую заносится информация, собираемая поисковыми роботами со страниц сайтов. При этом учитывается текстовое наполнение, внутренние и внешние ссылки, графические и некоторые другие объекты. Когда пользователь задает запрос поисковой системе, происходит обращение к базе данных. После этого выполняется ранжирование по релевантности – формирование списка сайтов по мере убывания их значимости.
Что такое индексация
Процесс добавления роботами собранной информации в базу называется индексацией. Затем данные определенным образом обрабатываются и создается индекс – выжимка из документов. Процесс заполнения индекса осуществляется одним из двух способов: вручную или автоматически. В первом случае владелец ресурса должен самостоятельно добавить URL веб-ресурса в специальную форму, которая есть у «Яндекса», Google и других поисковых систем. Во втором робот сам находит сайт, планомерно переходя по внешним ссылкам с других площадок или сканируя файл-карту sitemap.xml.
Первые попытки индексировать веб-ресурсы были сделаны еще в середине 90-х годов прошлого столетия. Тогда база данных была похожа на обычный предметный указатель, в котором содержались ключевые слова, найденные роботами на посещенных ими сайтах. Почти за 30 лет этот алгоритм был значительно усовершенствован и усложнен. Например, сегодня информация перед попаданием в индекс обрабатывается по сложнейшим вычислительным алгоритмам с привлечением искусственного интеллекта.
Зачем индекс поисковым системам
Индексация страниц сайта – неотъемлемая часть работы поисковых систем (не только Google и «Яндекса», но и всех остальных). База, полученная в процессе сканирования веб-ресурсов, используется для формирования релевантной выдачи. Основные роботы поисковых систем:
- основной – сканирует весь контент на сайте и его отдельных страницах;
- быстрый – индексирует только новую информацию, которая была добавлена после очередного обновления.
Также существуют роботы для индексации rss-ленты, картинок и др.
При первом посещении в базу попадают все новые сайты, если они подходят под требования поисковой системы. Во время повторного визита информация лишь дополняется деталями.
Скорость индексации страниц
Чем быстрее происходит добавление страницы в индекс, тем лучше для веб-ресурса. Однако поисковые роботы не могут выполнять такой большой объем работы так же часто, как обновляется наполнение сайтов. Индексация в «Яндекс» в среднем занимает одну-две недели, а в Google – несколько дней. С целью ускорения индексации ресурсов, для которых очень важно быстрое попадание информации в базу (новостные порталы и т. д.), применяется специальный робот, посещающий такие сайты от одного до нескольких раз в день.
Как проверить индексацию в «Яндексе» и Google
Воспользоваться информацией из панели веб-мастеров. В списке сервисов Google откройте Search Console, а затем перейдите в раздел «Индекс Google». Нужная информация будет находиться в блоке «Статус индексирования». В «Яндекс.Вебмастер» необходимо перейти по следующей цепочке: «Индексирование сайта» — «Страницы в поиске». Еще один вариант: «Индексирование сайта» — «История» — «Страницы в поиске».
Задать поиск по сайту с использованием специальных операторов. Для этого используйте запрос с конструкцией «site:», указав далее адрес вашего ресурса в полном формате. Так вы узнаете количество проиндексированных страниц. Серьезные расхождения в значениях (до 80 %), полученных в разных поисковых системах, говорят о наличии проблем (например, веб-ресурс может находиться под фильтром).
Установить специальные плагины и букмарклеты. Это небольшие дополнения для браузера, которые позволяют выполнить проверку индексации страниц сайта. Одним из самых популярных среди них является RDS Bar.
Как ускорить индексацию
На скорость индексации сайта прямо влияют несколько факторов:
- отсутствие ошибок, замедляющих процесс сбора информации поисковым роботом;
- авторитетность ресурса;
- частота обновления контента на сайте;
- частота добавления нового контента на сайт;
- уровень вложенности страниц;
- корректно заполненный файл sitemap. xml;
- ограничения в robots.txt.
Чтобы ускорить индексацию сайта, выполните ряд правил:
- выберите быстрый и надежный хостинг;
- настройте robots.txt, установив правила индексации и сняв ненужные запреты;
- избавьтесь от дублей и ошибок в коде страниц;
- создайте карту сайта sitemap.xml и сохраните файл в корневой папке;
- по возможности организуйте навигацию таким образом, чтобы все страницы были в 3 кликах от главной;
- добавьте ресурс в панели веб-мастеров «Яндекса» и Google;
- сделайте внутреннюю перелинковку страниц;
- зарегистрируйте сайт в авторитетных рейтингах;
- регулярно обновляйте контент.
Дополнительно рекомендуем оценить объем flash-элементов с точки зрения их влияния на продвижение. Наличие визуальных объектов этого типа значительно снижает долю поискового трафика, так как не дает роботам выполнить индексацию в полной мере. Также не желательно размещения ключевой информации в PDF-файлах, сохраненных определенным образом (сканироваться может только текстовое содержимое документа).
Индексация Интернета | Американское общество индексирования
Навигация
Индексирование в стиле Back-of-the-Book
Индексируемые сайты
Метаданные и веб-индексирование
Индексирование предметного дерева
Технологии поисковых систем
Индексирование Интернета — непростая задача, и для удовлетворения информационных потребностей веб-пользователей развиваются три различных вида индексирования: традиционный стиль жестко закодированных индексных ссылок на веб-сайте, предметный деревья просмотренных сайтов и поисковые системы. Члены ASI, интересующиеся этой специализированной областью индексирования, могут присоединиться к SIG по индексированию цифровых публикаций ASI.
Некоторые организации видят, что включение указателей на их веб-сайты так же важно, как и включение указателей в книги и онлайн-руководства. Мы видели некоторые хорошие и некоторые плохие, некоторые сгенерированные компьютером, некоторые явно не созданные профессиональными индексаторами, а некоторые профессионально подготовленные. В любом случае следует похвалить всех владельцев сайтов за осознание необходимости индекса. Мы хотели бы поделиться с вами некоторыми интересными индексами и информацией о том, как работает индексирование в поисковых системах. Посмотрите и посмотрите, какую ценность добавляют эти индексы! Этот список будет время от времени меняться, поэтому не забудьте добавить в закладки, распечатать, загрузить или сохранить другими способами те, к которым, как вы думаете, вы вернетесь позже.
Веб-индексирование в стиле Back-of-the-Book
Многие веб-сайты предоставляют функцию поиска по сайту. Хотя это, безусловно, лучше, чем ничего, пользователи сталкиваются с теми же проблемами в этом сценарии, что и при поиске в других полнотекстовых базах данных. Основная проблема, конечно же, в релевантности найденных в поиске предметов. Например, на сайте издателя программного обеспечения поиск продукта под названием Home Office приводит к получению всех документов со словом «офис», потому что в конце каждой страницы есть слово «дом». Если есть индекс сайта, вы можете перейти прямо в раздел «H» и найти одну релевантную страницу, тем самым сэкономив время для других проектов. Индекс не только отсеет такие нерелевантные элементы, но и подзаголовки многих релевантных подзаголовков дадут пользователям подсказку о том, какие из них с большей вероятностью ответят на их вопросы.
Эти выбранные сайты представляют собой просто набор сайтов с интересными индексами, с которыми нам довелось столкнуться. Описания написаны теми, кто представляет предложение сайта. Перечисленные здесь сайты предназначены только для образовательных целей. Американское общество индексирования не поддерживает информационное содержание этих сайтов.
ПРИМЕЧАНИЕ ПО ПРЕДСТАВЛЕНИЯМ: мы приветствуем любые предложения от пользователей о сайтах для добавления. Предлагаемые URL-адреса должны сопровождаться (1) инструкциями о том, как перейти к индексу с главной страницы сайта, и (2) описанием полезного или необычного в индексе. Пожалуйста, помните, что мы хотим показать фактические индексы, а не просто набор ссылок, относящихся к определенной теме.
проиндексированных сайтов
- BC Гидро
- Чтобы перейти к указателю сайта, прокрутите до нижней части домашней страницы и щелкните ссылку «Указатель сайта». Этот алфавитный указатель с гиперссылками отображает удобную для пользователя типографику и макет.
- История Рочестера Индекс
- Это периодический указатель с гиперссылками на статьи, включая несколько гиперссылок по некоторым темам.
- UNIXhelp для пользователей
- Это интерактивное руководство содержит как индекс для просмотра, так и индекс для поиска по ключевым словам. Выберите «Ручной указатель» в меню на главной странице.
- Бюро переписи населения США
- Чтобы перейти к индексу, нажмите «Индекс от А до Я» на главной странице.
Метаданные и веб-индексирование
Тег META в HTML использовался с целью дать поисковым системам подсказки о содержании веб-страницы. Злоупотребление META-тегами со стороны веб-мастеров, которые пытаются искусственно повысить релевантность страницы, наполняя META-теги терминами, не связанными с фактическим содержанием страницы, приобрело угрожающие масштабы. Большинство коммерческих поисковых систем в настоящее время придают очень мало значения тексту, найденному в тегах META.
В ответ на это появились движения по стандартизации содержимого тегов META. Корпорации и правительственные органы, имеющие множество веб-сайтов, часто создают общедоступные порталы для своего веб-контента. Они могут улучшить результаты поиска для пользователей за счет осторожного использования структурированных мета-тегов, чтобы направлять свои поисковые системы на сайте. Индексаторы могут применить свои навыки анализа для создания этих структурированных тегов. Вот ссылки о метаданных, метатегах и индексации веб-страниц.
- Цифровая система идентификации объектов
- Цифровой идентификатор объекта (DOI) — это система для идентификации и обмена интеллектуальной собственностью в цифровой среде. Он обеспечивает основу для управления интеллектуальным контентом, для связи клиентов с поставщиками контента, для облегчения электронной коммерции и обеспечения автоматического управления авторскими правами для всех типов носителей. Использование DOI делает управление интеллектуальной собственностью в сетевой среде намного проще и удобнее, а также позволяет создавать автоматизированные услуги и транзакции для электронной коммерции.
- Инициатива по метаданным Dublin Core
- Инициатива по метаданным Dublin Core — это открытый форум, занимающийся разработкой интероперабельных стандартов онлайн-метаданных, которые поддерживают широкий спектр целей и бизнес-моделей. Деятельность DCMI включает в себя рабочие группы, основанные на консенсусе, глобальные семинары, конференции, взаимодействие по стандартам и образовательные мероприятия, направленные на широкое распространение стандартов и практик метаданных.
- Как использовать метатеги
- В этой статье SearchEngine Watch 2007 года объясняются метатеги, включая их ограничения.
- Служба поиска правительственной информации США (GILS)
- Цель Глобальной службы поиска информации — облегчить людям поиск всей необходимой им информации. GILS — это открытый стандарт для поиска основных информационных описаний. Такие описания могут быть вставлены в веб-документы с помощью таких инструментов, как TagGen, сгенерированы из баз данных с помощью таких инструментов, как MetaStar и Microsoft Access; или отредактированные каталогизаторами и просто сохраненные как документы. Основанный на стандарте поиска ISO 23950, GILS включает в себя наиболее часто понимаемые понятия, с помощью которых люди во всем мире находят источники информации в библиотеках, — такие понятия, как название, автор, издатель, дата и место.
Тематическое дерево и индексы проверенных сайтов
Некоторые инструменты веб-поиска просматривают каждый сайт человеческими глазами и мозгом, чтобы решить, какие категории и ключевые слова подходят сайту, а затем индексируют его соответствующим образом. Примером может служить Yahoo, где толпы людей создают индекс для Интернета, который также доступен для поиска с помощью поисковой системы.
Технологии поисковых систем
Подавляющее большинство индексаций в Интернете выполняется автоматически, с высоким уровнем поиска и низкой степенью релевантности. Большинство индексаторов считают, что уровень точности, предоставляемый большинством поисковых систем, просто не так хорош, как настоящая индексация. Но по мере того, как технологии поисковых систем становятся все более изощренными, мы должны увидеть некоторые изменения в уровне разочарования людей, использующих эти инструменты. Большинство поисковых систем на самом деле выполняют поиск по индексу — списку терминов, которые роботы возвращают из своих путешествий. Индексы можно манипулировать или создавать для использования этими механизмами, особенно во внутренней сети, путем осторожного использования тега META. Это область, которую индексаторы должны исследовать и понимать, чтобы мы могли индексировать для этих движков.
Search Engine Watch
Советы по поиску в Интернете, список всех основных поисковых систем и мета-поисковых систем, безопасный для детей поиск, тесты и рейтинги поисковых систем, технологии поисковых систем и новости. Также содержит текущий выпуск электронного журнала о новостях и технологиях поисковых систем; подписчики могут искать в архиве прошлых выпусков.
indexing — Computer Science Wiki
From Computer Science Wiki
Перейти к навигацииПерейти к поиску
Web Science [1]
Индексирование — это процесс, с помощью которого поисковые системы упорядочивают информацию перед поиском, чтобы обеспечить сверхбыстрые ответы на запросы. [2]
Поисковый индекс — это совокупность структурированных данных, на которые ссылается поисковая система при поиске результатов, релевантных конкретному запросу. Индексы являются важной частью любой поисковой системы, поскольку они должны быть адаптированы к конкретному методу поиска информации алгоритма поисковой системы. Таким образом, алгоритм и индекс неразрывно связаны друг с другом. Индекс также может использоваться как глагол (индексация), относящийся к процессу сбора неструктурированных данных веб-сайта в структурированном формате, адаптированном для алгоритма поисковой системы.
Один из способов представить себе индексы — рассмотреть следующую аналогию между поисковой инфраструктурой и офисной файловой системой. Представьте, что вы передаете стажеру стопку из тысяч листов бумаги (документов) и говорите ему упорядочить эти листы бумаги в картотеке (каталоге), чтобы помочь компании более эффективно находить информацию. Стажер сначала должен будет разобрать бумаги и получить представление обо всей информации, содержащейся в них, затем им нужно будет определиться с системой их размещения в картотеке, а затем, наконец, им нужно будет решить, что наиболее эффективный способ поиска и выбора из файлов, когда они находятся в кабинете. В этом примере процесс организации и хранения документов соответствует процессу индексации контента веб-сайта, а метод поиска среди этих организованных файлов и поиска наиболее релевантных файлов соответствует алгоритму поиска. [3]
Индексация поисковой системой собирает, анализирует и сохраняет данные для обеспечения быстрого и точного поиска информации. Дизайн индекса включает междисциплинарные концепции из лингвистики, когнитивной психологии, математики, информатики и информатики. Альтернативное название процесса в контексте поисковых систем, предназначенных для поиска веб-страниц в Интернете, — веб-индексирование. [4]
Поисковые системы индексируют веб-сайты, чтобы как можно быстрее отвечать на поисковые запросы актуальной информацией. По этой причине он хранит информацию об индексированных веб-страницах, например. ключевое слово, заголовок или описания в базе данных. Таким образом, поисковые системы могут быстро идентифицировать страницы, релевантные поисковому запросу.
Индексирование имеет дополнительную цель — придать странице определенный вес, как описано в алгоритмах поиска. Таким образом, результаты поиска могут ранжироваться после индексации. [5]
Когда вы просматриваете страницу результатов поиска, вы просматриваете результаты своего поискового запроса в веб-индексе для этой поисковой системы.
Это изображение используется с разрешения Stone Temple [6]
Содержимое
- 1 Видео
- 2 Граница знаний
- 3 стандарта
- 4 Каталожные номера
- Попробуйте это, чтобы лучше понять это: https://www.youtube.com/watch?v=SW_gfeug9hM
- Это также подходит: https://www.youtube.com/watch?v=K5qOuoj_dwA
График знаний
Стандарты[править]
Эти стандарты взяты из Руководства IB Computer Science Subject Guide [7]
- Описание целей веб-индексации в поисковых системах.
Ссылки[править]
- ↑ http://www.flaticon.com/
- ↑ https://www.deepcrawl.