Поисковая система это информатика: Что такое поисковая система?

Содержание

Поисковые системы

Содержание статьи:

  • Что такое поисковые системы и как они работают

  • Типы поисковых систем по способу работы

    • Индексные поисковые системы

    • Каталоговые системы поиска

    • Метапоисковые системы

    • Специализированные поисковые системы
  • Типы поисковых систем по области поиска

  • Советы по эффективному поиску информации

  • Язык запросов

    • Основные возможности языка запросов поисковой системы Google и Yandex
  • Особенности работы с поисковыми системами

  • Рекомендации по безопасному использованию поисковых систем

Что такое поисковые системы и как они работают

Поисковая система – это программно-аппаратный комплекс, который предназначен для осуществления поиска в сети Интернет. Он помогает пользователям быстро найти необходимые сведения, реагируя на запрос пользователя выдачей списка ссылок на источники информации. Достаточно набрать в строке поиска интересующий вопрос или фразу, нажать на кнопку «Поиск» или «Search», и через несколько секунд поисковая система выдаст необходимую информацию.

Поисковые системы классифицируют по способу работы и по области использования. По данным LiveInternet.ru, в 2012 году 53,8% российских пользователей предпочитали Яндекс, 34,2% – Google 9,4% – Поиск Mail. ru и 1,2% – Rambler . 

Каждая поисковая система имеет собственный алгоритм поиска, который определенным образом анализирует релевантность сайтов, чтобы выдать результат, наиболее соответствующий запросу пользователя.



Типы поисковых систем по способу работы

Индексные поисковые системы собирают информацию в Интернете автоматически, с помощью специальных программ-роботов, посещающих веб-страницы. Они осуществляют всесторонний поиск по ключевым словам. Примерами таких поисковых систем являются Google, AltaVista, HotBot, Яндекс.

Индексная поисковая система состоит из трех основных компонентов:

Агент (паук или кроулер)

Агент – это специальная программа, которая запускается на сервере поисковой системы с целью посещения веб-страниц. Когда агент находит новую страницу, удовлетворяющую алгоритму поисковой системы, он индексирует ее, то есть добавляет в базу данных поисковой системы. Посещать страницы агенту помогает система гиперссылок, благодаря которой программа может бесконечно переходить с одной страницы на другую.

База данных поисковой системы

В ней хранятся все найденные и обработанные документы (индексы). Индекс позволяет быстро совершать поиск и обычно состоит из списка ключевых слов и информации о них (позиции в тексте, веса и др.). База регулярно обновляется, и именно из последнего ее обновления выдаются результаты для поставленного запроса. Частота обновления базы данных – критически важный параметр любой поисковой системы. Чем чаще происходит ее обновление, тем качественнее поисковая система.

Поисковый механизм

Поисковый механизм – интерфейс для взаимодействия пользователя и базы данных, то есть та самая программа, с которой мы непосредственно имеем дело.



Индексные поисковые системы работают по одному общему принципу. Сначала агент начинает сканирование сети с определенного адреса. На сервере создаются индексированные копии документов, своего рода вспомогательные файлы. Затем сохраненные документы просматриваются, определяются гиперссылки с этих страниц, по ним осуществляется переход на новые страницы. После сохранения копий найденных документов весь процесс повторяется. Все веб-страницы, проиндексированные поисковой системой, попадают в базу данных, что позволяет пользователю, формирующему запрос на поиск необходимой информации, мгновенно получить ссылки на нее.



Каталоговые системы поиска содержат тематически структурированный каталог серверов и чаще всего пополняются вручную модераторами. Эти системы устроены так же, как тематический каталог обычной библиотеки. Ссылки в них хранятся по теме категорий. Начав с основной страницы каталога, нужно выбрать ссылку, обозначающую главную категорию, а затем на последующих страницах указывать подкатегории до тех пор, пока не будут достигнуты ссылки на конкретные страницы. Каталог обычно имеет тематическую разбивку на подкаталоги, те в свою очередь могут подразделяться на более мелкие поддиректории и т. д. Ярким примером каталога является система Yahoo.

Индексные поисковые системы и поисковые каталоги отличаются так же, как содержание и алфавитный указатель в книге. Задача и содержания, и алфавитного указателя – помочь найти в книге нужный раздел. Содержание – это пример каталогизации. Алфавитный указатель – пример индексации. Читатель находит в указателе нужный термин и получает номер страницы, на которой он встречается.



Метапоисковые системы –это системы, которые используют для поиска базы данных других поисковых систем. Они посылают запрос одновременно на несколько поисковых систем, каталогов и иногда в так называемую невидимую (скрытую) паутину – хранилище онлайн-информации, не считанной традиционными поисковыми системами. Собрав результаты, метапоисковая система удаляет дублированные ссылки и в соответствии со своим алгоритмом объединяет результаты в общем списке. Примером такой системы может служить российское решение Nigma , использующее для поиска Google , Yahoo , Апорт и Яндекс.



Специализированные поисковые системы, в отличие от поисковых систем общего назначения, которые ищут любую интересующую информацию, ищут информацию определенного вида, например, изображения, книги, организации, людей, то есть работают в какой-то конкретной области. Примерами таких систем могут служить moresoft.ru для поиска программ и файлов, bukinist.agava.ru для поиска книг и других электронных текстов, kinopoisk . ru для поиска информации о фильмах, Яндекс.Маркет для поиска описаний и цен товаров, представленных в Интернет-магазинах, drivers. ru для поиска драйверов, wink.com для поиска людей.



Типы поисковых систем по области поиска

По области поиска поисковые системы можно разделить на глобальные и локальные

Глобальные предназначены для поиска информации по всей сети Интернет либо по значительной ее части, а локальные – по какой-либо части Сети, например, по одному или нескольким сайтам, либо по локальной сети. Часто локальные поисковые системы собирают информацию в пределах одного национального домена, как, например, yandex.ru .

Также существуют локальные поисковые машины, которые можно установить себе на компьютер, например Copernic Desktop Search для Microsoft Windows, Spotlight для  Mac OS X, Tracker для Linux . Они значительно облегчают жизнь тех пользователей, которые хранят огромные архивы нерассортированных файлов.



Советы по эффективному поиску информации

Алгоритм создания эффективного запроса выглядит следующим образом:

  • Сформулируйте задачу поиска. Для получения необходимой информации, в первую очередь, нужно понять, на какой именно вопрос вы ищете ответ.
  • Ограничьте область поиска. Выдача результатов может различаться в зависимости от региона, поэтому нужно добавить в запрос тот город, регион или страну, результаты по которым вас интересуют.
  • Подберите ключевые слова, то есть слова и фразы, относящиеся к теме поиска. Ключевые слова делят на высоко-, средне- и низкочастотные, это зависит от частоты запроса и определяется на основе статистики поисковой системы.
  • Сформируйте запрос. Важные слова поместите в начало запроса, для более эффективного поиска используйте язык запросов.



Язык запросов

Поисковые системы – это разумный инструмент, использующий язык запросов, то есть определенные команды и символы в строке поиска, которые помогают быстрее найти нужную информацию.

Основные возможности языка запросов поисковой системы Google и Yandex

Если вам необходимо найти слово или фразу в точно таком виде, как вы вводите, без всяких изменений форм и порядка слов, то заключите свой поисковый запрос в кавычки. Это часто бывает удобно для поиска фильма по его названию, текста песни по строчке или отрывка из книги.

Если вам необходимо исключить из результатов поиска в Google все страницы, содержащие определенное слово, то поставьте перед этим словом в запросе знак минус (). Например, если ввести в строку поиска «вирус –компьютерный», то система выдаст документы, в которых не встречается ключевое слово «компьютерный». В Яндексе же подобная операция производится с помощью символа тильда (~), поставленного в запросе перед словом, которое нужно исключить из поиска.

Оператор site: в Google позволяет осуществлять поиск на конкретном сайте. Например, если набрать в строке поиска Google «поступление site:www.msu.ru», то система будет искать информацию о поступлении именно на сайте МГУ. В Яндексе подобная операция осуществляется с помощью оператора host:

Символом звездочка (*) можно заменять в запросе неизвестные слова. Например, «буря * небо кроет».

Оператор define: в Google позволяет искать определения слова, указанного в запросе.

В обычном режиме Google старается найти страницы, содержащие все указанные слова. Если же вставить между словами оператор OR (заглавными буквами), то система покажет страницы, включающие в себя как минимум одно из этих слов. Например,купить квартиру в Москве OR Подмосковье. В Яндексе же подобная операция производится с помощью символа прямой слэш (|), поставленного между словами запроса, например;билеты Лондон | Париж;.

Чтобы получить в выдаче Google диапазон чисел «от и до», нужно между ними поставить две точки, например, «снять квартиру $1000..$1500».

Язык запросов поддерживают многие поисковые системы. Перед их использованием рекомендуется посмотреть описание в разделе помощи сайта конкретной поисковой системы, которую планируется использовать.



Особенности работы с поисковыми системами

Использование поисковых систем может стать причиной проникновения на компьютер пользователя вредоносной программы. Выдавая результаты по запросам пользователей, поисковые системы могут выдавать адреса зараженных сайтов.

Также нужно иметь в виду, что поисковые системы выдают лишь ссылки на релевантные сайты, но не отвечают за достоверность информации, которая на этих сайтах содержится. Задача поисковых систем – максимально быстро и точно ответить на запрос, поэтому не стоит безоговорочно доверять всей информации, которая находится по выдаваемым ссылкам. Сайты, полученные при поиске, могут содержать некорректную или откровенно ложную информацию, которая может ввести в заблуждение пользователя, ведь далеко не все источники, скорее меньшая их часть, пишутся и проверяются действительно компетентными людьми. Например, информацию на таком популярном ресурсе как Википедия размещают все желающие, следствием чего является высокий процент ошибок в статьях. Рекомендуется крайне осторожно выбирать источники для школьных, студенческих и научных работ, да и вообще перепроверять любую информацию, особенно из совершенно незнакомой области.



Рекомендации по безопасному использованию поисковых систем

  • Старайтесь внимательно относиться к сайтам, выдаваемым поисковой системой, поскольку они могут содержать вирусы. Соблюдайте меры предосторожности: не стоить заходить на сомнительные сайты, особенно если антивирус предупреждает о нежелательности такого действия.
  • Обязательно используйте и регулярно обновляйте антивирусные средства защиты – программы, позволяющие обнаруживать и удалять вредоносные программы, восстанавливать зараженные файлы, а также предотвращать проникновение вирусов на устройство.
  • Проверяйте достоверность информации, полученной из Интернета. Самый простой способ – сравнить хотя бы несколько источников, которые не дублируют друг друга.
  • Время от времени проверяйте, какую информацию выдают поисковые системы, когда вы пытаетесь найти в них сведения о себе. Это поможет вам узнать, нет ли в Сети ваших личных данных, которые вы предпочли бы не делать общеизвестными, и в случае необходимости вовремя подать жалобу руководству соответствующих сайтов.

Интернет-портал «Безопасность пользователей в сети Интернет»
[email protected]
https://safe-surf.ru

структуры, функция, характеристики. Что нужно знать о поисковиках для успешного продвижения сайтов?

Поисковые системы (ПС) уже давно являются обязательной частью интернета и нашей повседневной жизни. Сегодня они громадные и сложнейшие механизмы, которые представляют собой не только инструмент для нахождения любой необходимой информации, но и довольно увлекательные сферы для бизнеса.

 


Многие пользователи поиска никогда не думали о принципах их работы, о способах обработки пользовательских запросов, о том, как построены и функционируют данные системы. Данный материал поможет людям, которые занимаются оптимизацией и продвижение своих сайтов, понять устройство и основные функции поисковых машин.

Функции и понятие ПС

Поисковая система – это аппаратно-программный комплекс, который предназначен для осуществления функции поиска в интернете, и реагирующий на пользовательский запрос который обычно задают в виде какой-либо текстовой фразы (или точнее поискового запроса), выдачей ссылочного списка на информационные источники, осуществляющейся по релевантности. Самые распространенные и крупные системы поиска: Google, Bing, Yahoo, Baidu. В Рунете – Яндекс, Mail.Ru, Рамблер.

Рассмотрим поподробнее само значение запроса для поиска, взяв для примера систему Яндекс.

Запрос обязан быть сформулирован пользователем в полном соответствии с предметом его поиска, максимально просто и кратко. К примеру, мы желаем найти информацию в данном поисковике: «как выбрать автомобиль для себя». Чтобы сделать это, открываем главную страницу и вводим запрос для поиска «как выбрать авто». Потом наши функции сводятся к тому, чтобы зайти по предоставленным ссылкам на информационные источники в сети.


 


Но даже действуя таким образом, можно и не получить необходимую нам информацию. Если мы получили подобный отрицательный результат, нужно просто переформировать свой запрос, или же в базе поиска действительно нет никакой полезной информации по данному виду запроса (такое вполне возможно при заданных «узких» параметров запроса, как, к примеру, «как выбрать автомобиль в Туле»).

Самая основная задача каждой поисковой системы – доставить людям именно тот вид информации, который им нужен. Приучить же пользователей создавать «правильный» вид запросов к поисковым системам, то есть фразы, которые будут соответствовать их принципам работы, практически, невозможно.

Именно поэтому специалисты-разработчики поисковиков делают такие принципы и алгоритмы их работы, которые бы давали пользователям находить интересующие их сведения. Это означает, что система, должна «думать» так же, как мыслит человек при поиске необходимой информации в интернете.

Когда он вводит свой запрос в поисковую машину, он желает найти то, что ему надо, как можно проще и быстрее. Получив результат, пользователь составляет свою оценку работе системы, руководствуясь несколькими критериями. Получилось ли у него найти нужную информацию? Если нет, то сколько раз ему пришлось переформатировать текст запроса, чтобы найти ее? Насколько актуальная информация была им получена? Как быстро поисковая система обработала его запрос? Насколько удобно были предоставлены поисковые результаты? Был ли нужный результат первым, или находился на 30-ом месте? Сколько «мусора» (ненужной информации) было найдено вместе с полезными сведениями? Найдется ли актуальная для него информация, при использовании ПС, через неделю, либо через месяц?


Для того чтобы получить правильные ответы на подобные вопросы, разработчики поиска постоянно улучшают принципы ранжирования и его алгоритмы, добавляют им новые возможности и функции и любыми средствами пытаются сделать быстрее работу системы.

Основные характеристики поисковых систем


Обозначим главные характеристики поиска:

Полнота.


Полнота является одной из главнейших характеристик поиска, она представляет собой отношение цифры найденных по запросу информационных документов к их общему числу в интернете, относящихся к данному запросу. Например, в сети есть 100 страниц имеющих словосочетание «как выбрать авто», а по такому же запросу было отобрано всего 60 из общего количества, то в данном случае полнота поиска составит 0,6. Понятно, что чем полнее сам поиск, тем больше вероятность, что пользователь найдет именно тот документ, который ему необходим, конечно, если он вообще существует.

Точность.


Еще одна основная функция поисковой системы – точность. Она определяет степень соответствия запросу пользователя найденных страниц в Сети. К примеру, если по ключевой фразе «как выбрать автомобиль» найдется сотня документов, в половине из них содержится данное словосочетание, а в остальных просто есть в наличии такие слова (как грамотно выбрать автомагнитолу, и установить ее в автомобиль»), то поисковая точность равна 50/100 = 0,5.

Чем поиск точнее, тем скорее пользователь найдет необходимую ему информацию, тем меньше разнообразного «мусора» будет встречаться среди результатов, тем меньше найденных документов будут не соответствовать смыслу запроса.

Актуальность.


Это значимая составляющая поиска, которую характеризует время, проходящее с момента опубликования информации в интернете до занесения ее в индексную базу поисковика.

К примеру, на следующий день после возникновения информации о выходе нового iPad, множество пользователей обратилась к поиску с соответствующими видами запросов. В большинстве случаев информация об этой новости уже доступна в поиске, хотя времени с момента ее появления прошло очень мало. Это происходит благодаря наличию у крупных поисковых систем «быстрой базы», которая обновляется несколько раз за день.

Скорость поиска.


Такая функция как скорость поиска теснейшим образом связана с так называемой «устойчивостью к нагрузкам». Ежесекундно к поиску обращается огромное количество людей, подобная загруженность требует значительного сокращения времени для обработки одного запроса. Тут интересы, как поисковой системы, так и пользователя целиком совпадают: посетитель хочет получить результаты как можно быстрее, а поисковая система должна отработать его запрос тоже максимально быстро, чтобы не притормозить обработку последующих запросов.

Наглядность.


Наглядное представление результатов является важнейшим элементом удобства поиска. По множеству запросов поисковая система находит тысячи, а в некоторых случаях и миллионы разных документов. Вследствие нечеткости составления ключевых фраз для поиска или его не точности, даже самые первые результаты запроса не всегда имеют только нужные сведения.

Это значит, что человеку часто приходится осуществлять собственный поиск среди предоставленных результатов. Разнообразные компоненты страниц выдачи ПС помогают ориентироваться в поисковых результатах.

История развития поисковых систем


Когда интернет только начал развиваться, число его постоянных пользователей было небольшим, и объем информации для доступа был сравнительно невеликим. В основном доступ к этой сети имели лишь специалисты научно-исследовательских сфер. В то время, задача нахождения информации не была столь актуальна как сейчас.

Одним из самых первых методов организации широкого доступа к ресурсам информации стало создание каталогов сайтов, причем ссылки на них начали группировать по тематике. Таким первым проектом стал ресурс Yahoo.com, который открылся весной 1994-ого года. Впоследствии когда количество сайтов в Yahoo-каталоге существенно увеличилось, была добавлена опция поиска необходимых сведений по каталогу. Это еще не было в полной мере поисковой системой, так как область такого поиска была ограничена только сайтами, входящими в данный каталог, а не абсолютно всеми ресурсами в интернете. Каталоги ссылок весьма широко использовались раньше, однако в настоящее время, практически в полной мере утратили свою популярность.

Ведь даже сегодняшние, громадные по своим объемам каталоги имеют информацию о незначительно части сайтов в интернете. Самым известным и большим каталогом в мире был DMOZ (прекратил работу 14 марта 2017 года) имеет информацию о пяти миллионах сайтов, когда база Google содержит информацию о более чем 25 миллиардов страниц.

 


Самой первой настоящей поисковой системой стала WebCrawler, возникшая еще в 1994-ом году.

В следующем году появились AltaVista и Lycos. Причем первая была лидером по поиску информации очень длительное время.

 


В 1997-ом году Сергей Брин вместе с Ларри Пейджем создал машину поисковую Google как исследовательский проект в Стэндфордском университете. Сегодня именно Google, самая востребованная и популярная поисковая система в мире.


В сентябре 1997-ом году была анонсирована (официально) ПС Yandex, которая в настоящий момент является самой популярной системой поиска в Рунете.

Доля поисковых систем


По данным на апрель 2020 года, доли поисковых систем в мире распределены следующим образом:

  • Google — 70,83 %;
  • Bing — 12,61 %;
  • Baidu — 11,83 %;
  • Yahoo! — 2,30 %;
  • Яндекс — 1,41 %;
  • DuckDuckGo — 0,42 %;


По данным на апрель 2020 года, доли поисковых систем в Рунете (данные сервиса Яндекс.Радар):

  • Яндекс — 59,10%
  • Google — 38,85%
  • Поиск.Mail.ru — 1,18%
  • Rambler — 0,07%
  • Остальные — 0,80%


Принципы работы поисковой системы


В России главной системой поиска является Яндекс, затем Google, а потом Поиск@Mail.ru. Все большие системы поиска имеют свою структуру, которая весьма отличается от других. Но все-таки можно выделить общие для всех поисковиков основные элементы.

Модуль индексирования.


Данный компонент состоит из трех программ-роботов:

Spider (по англ. паук) – программа которая предназначена для того чтобы скачивать веб-страницы. «Паук» скачивает определенную страницу, одновременно извлекая из нее все ссылки. Скачивается код html практически с каждой страницы. Для этого роботы используют HTTP-протоколы.


«Паук» функционирует следующим образом. Робот передает запрос на сервер “get/path/document” и иные команды запроса HTTP. В ответ программа-робот получает поток текста, который содержит информацию служебного вида и, естественно, сам документ.

Извлекаются все ссылки из тэгов. Вместе с ними обрабатывают редиректы. Любая скачанная страница сохраняется в таком формате:

  • URL скаченной страницы;
  • дата, когда осуществлялось скачивание страницы;
  • заголовок http-ответа сервера;
  • html-код, «тела» страницы.

Crawler («путешествующий» паук). Данная программа автоматически заходит на все ссылки, которые найдены на странице, а также выделяет их. Его задача – определиться, куда в дальнейшем должен заходить паук, основываясь на этих ссылках или исходя из заданного списка адресов.

Crawler, исследуя найденные ссылки, ищет новые документы, еще не ставшие известными поисковой системе.

Indexer (робот-индексатор) – это программа, анализирующая страницы, которые скачали пауки.


Индексатор полностью разбирает страницу на составные элементы и проводит их анализ, применяя свои морфологические и лексические виды алгоритмов.

Анализ проводится над разнообразными частями страницы, такими как заголовки, текст, ссылки, стилевые и структурные особенности, теги html и др.

Таким образом, модуль индексирования дает возможность проходить по ссылкам заданного количества ресурсов, скачивать страницы, извлекать ссылочную массу на новые страницы из полученных документов и делать подробный их анализ.

База данных

База данных (или индекс поисковика) — комплекс хранения данных, массив информации в котором сохраняются определенным образом переделанные параметры каждого обработанного модулем индексации и скачанного документа.

Поисковый сервер


Это самый важный элемент всей системы, потому что от алгоритмов, лежащих в основе ее функциональности, прямо зависит скорость и, конечно же, качество поиска.

Поисковый сервер работает следующим образом:

  • Запрос, который идет от пользователя подвергается морфологическому анализу. Информационное окружение любого документа, имеющегося в базе, генерируется (оно и будет в дальнейшем отображаться как сниппет, т.е. информационное поле текста соответствующего данному запросу).
  • Полученные данные передают как входные параметры специализированному модулю ранжирования. Они обрабатываются по всем документам, и в итоге для каждого такого документа рассчитывается свой рейтинг, который характеризует релевантность такого документа запросу пользователя, и иных составляющих.
  • В зависимости от условий заданных пользователем этот рейтинг вполне может быть подкорректирован дополнительными.
  • Затем генерируется сам сниппет, т.е. для любого найденного документа из соответствующей таблицы извлекают заголовок, аннотацию, наиболее отвечающую запросу, и ссылка на этот документ, при этом найденные словоформы и слова подсвечивают.
  • Результаты полученного поиска передаются осуществившему его человеку в виде страницы, на которую выдают поисковые результаты (SERP).


Все эти элементы тесно связаны между собой и функционируют, взаимодействуя, образовывая отчетливый, но достаточно непростой механизм функционирования ПС, требующий громадных затрат ресурсов.

Простая компьютерная наука в основе поисковых систем — The Eepy

Категории

Информатика

Поиск — невероятно сложная задача, но основа проста.


В компьютерных науках нас всегда беспокоит n, количество операций, которое наш код должен выполнить для того, сколько данных у нас есть.

Один из подходов к поиску состоит в том, чтобы просто просмотреть все по порядку: просмотреть каждое слово на странице и посмотреть, соответствует ли оно тому, что вы ищете. В этом случае ваше время выполнения будет linear , потому что для каждого n или слова, которое мы должны посмотреть, программа будет работать на единицу медленнее.

Если бы программа делала это для этой статьи и искала, например, слово «рыба», это не было бы большой проблемой, потому что наши n относительно малы.

Теперь, если вам нужно искать каждое слово в Интернете, это будет большой проблемой, потому что в Интернете много слов. У Google очень быстрые компьютеры, но они никак не могут сделать это за 0,7 секунды.


Спасительный перевернутый указатель

Этот перевернутый указатель не позволяет искать каждое слово в Интернете, но это отличный способ упорядочить их, чтобы их было легче найти. Это позволяет нам выполнить только одну операцию (ну, обычно) для выполнения этого поиска.

Итак, как это осуществить?

Волшебный соус хеш-таблиц .

Хитрости, чтобы добраться до O(1)

Хэш-таблицы содержат два важных элемента: сегментов и хеш-функции .

Эти сегменты обычно представляют собой массив. Хеш-функция может быть чем-то вроде этой задачи, но для простоты введения давайте представим, что она просто подсчитывает буквы в слове.

Наша хеш-таблица организует слова в пронумерованные сегменты (массив) на основе номера, присвоенного хеш-функцией. Итак, если наша хеш-функция посмотрит на слово red , она скажет: «Положи это в ведро три!».

Это означает, что когда мы захотим найти его снова, нам просто нужно выполнить ту же операцию с тем же словом.

Этот метод хэширования делает поиск в хеш-таблицах очень быстрым! Неважно, сколько у вас элементов. Каждый раз, когда вы что-то ищете, это займет примерно одинаковое количество времени.

Сравните этот метод с другими методами поиска, когда вам, возможно, придется смотреть на каждый элемент, пока вы не найдете то, что ищете (линейный поиск).

Недостаток в том, что требуется больше предварительной работы и больше места для хранения таблицы.

Это иллюстрирует компромисс, на который нам как программистам часто приходится идти: использовать больше места или работать дольше. В случае поисковой системы скорость важнее всего.

Что такое перевернутый индекс?

Инвертированный индекс представляет собой хэш-таблицу из пар ключ-значение . Это означает, что хеш-таблица сообщает вам, где найти ключ , а ключ знает, где найти значение .

В инвертированном индексе ключ — это слово, которое мы ищем, а значение — это список индексов, где мы видели это слово раньше. Он позволяет вам искать слово, и вам нужно выполнить всего одну операцию, чтобы сообщить вам, где он нашел это слово во всем Интернете.

Например:

 Одна рыба две рыбы красная рыба синяя рыба 

Если сопоставить каждому слову индекс («Один» находится в индексе 0, «рыба» в индексе 1 и т. д.), инвертированный индекс слов в этом предложении будет выглядеть так:

 Один: [0], 
рыба: [1, 3, 5, 7],
два: [2],
красный: [4],
синий: [ 6]

Если я хочу знать, где найти слово рыба , я могу просто найти его в обратном индексе и увидеть, что оно появляется под индексами 1, 3, 5 и 7.

Поскольку это находится в хеш-таблице, мы можем найти слово везде, где оно появляется почти мгновенно.


Давайте посмотрим на код

Благодаря словарям Python делает это несколько проще. Словари, по сути, представляют собой хэш-таблицы внутри, поэтому мы можем добавлять методы для создания инвертированного индекса.

Если вы храните много данных, вы хотели бы сделать это по-другому, но это работает в качестве примера.

Наша поисковая система просматривает только отдельные слова и сообщает вам, где их найти в наборе файлов.

Google, например, может выполнять более сложные операции (PageRank), чтобы выяснить, насколько результат соответствует вашему запросу.


Сноска о веб-сканировании

Чтобы сделать эту информацию доступной для поиска, вам нужно просмотреть и проиндексировать ее всю. Для этого поисковые системы используют поисковые роботы (также иногда называемые пауками), чтобы просмотреть все ссылки и проиндексировать все на каждой веб-странице.

Дайте мне знать, если вы хотите увидеть вторую часть о пауках!

Что такое поисковая система?

Обновлено: 11.10.2021, автор: Computer Hope

Поисковая система — это программное обеспечение, доступ к которому осуществляется через Интернет и которое выполняет поиск в базе данных информации в соответствии с запросом пользователя. Механизм предоставляет список результатов, которые лучше всего соответствуют тому, что пытается найти пользователь. Сегодня в Интернете доступно множество различных поисковых систем, каждая из которых имеет свои возможности и особенности. Первой когда-либо разработанной поисковой системой считается Archie, которая использовалась для поиска FTP-файлов, а первой текстовой поисковой системой считается Veronica. В настоящее время самой популярной и известной поисковой системой является Google. Другие популярные поисковые системы включают AOL, Ask.com, Baidu, Bing, DuckDuckGo и Yahoo.

  • Как получить доступ к поисковой системе.
  • Как получить доступ к поисковой системе веб-сайта?
  • Как работает поисковая система.
  • Все ли поисковые системы дают одинаковые результаты?
  • Какая поисковая система самая лучшая?
  • Связанная информация.

Как получить доступ к поисковой системе

Для пользователей доступ к поисковой системе осуществляется через браузер на их компьютере, смартфоне, планшете или другом устройстве. Сегодня в большинстве новых браузеров используется омнибокс — текстовое поле в верхней части браузера. Омнибокс позволяет пользователям вводить URL-адрес или поисковый запрос. Вы также можете посетить домашнюю страницу одной из основных поисковых систем, чтобы выполнить поиск.

  • Как найти информацию в Интернете.

Как получить доступ к поисковой системе веб-сайта?

Поисковая система для веб-сайта находится вверху или сбоку каждой страницы на хорошо спроектированном веб-сайте. Например, на Computer Hope наш поиск находится вверху и внизу каждой страницы. Использование поисковой системы веб-сайта показывает результаты только этого веб-сайта, а не всего Интернета. Кроме того, некоторые компании могут иметь дополнительные функции, облегчающие поиск. В нашем случае мы используем специальную технологию под названием Hopebot, которая помогает направлять посетителей с помощью нашего поиска.

  • Как создать поиск для вашей веб-страницы или блога.

Примечание

Некоторые небольшие сайты с небольшим количеством контента также могут не иметь функции поиска.

Как работает поисковая система

Поскольку большие поисковые системы содержат миллионы, а иногда и миллиарды страниц, многие поисковые системы отображают результаты в зависимости от их важности. Эта важность обычно определяется с использованием различных алгоритмов.

Как показано, источник всех данных поисковой системы собирается с помощью поискового робота или поискового робота, который посещает каждую страницу в Интернете и собирает информацию о ней.

После обхода страницы содержащиеся на ней данные обрабатываются и индексируются. Часто это может включать следующие шаги.

  • Удалить стоп-слова.
  • Запишите оставшиеся слова на странице и частоту их появления.
  • Запись ссылок на другие страницы.
  • Запишите информацию обо всех изображениях, аудио и встроенных медиафайлах на странице.

Собранные данные используются для ранжирования каждой страницы. Затем эти рейтинги определяют, какие страницы показывать в результатах поиска и в каком порядке.

Наконец, после обработки данные разбиваются на файлы, вставляются в базу данных или загружаются в память, откуда к ним осуществляется доступ при выполнении поиска.

Все ли поисковые системы дают одинаковые результаты?

Не обязательно. Поисковые системы используют проприетарные алгоритмы для индексации и корреляции данных, поэтому у каждой поисковой системы свой подход к поиску того, что вы пытаетесь найти. Его результаты могут основываться на том, где вы находитесь, что еще вы искали и какие результаты предпочли другие пользователи, ищущие то же самое. Каждая поисковая система уникально взвешивает их и предлагает вам разные результаты.

Какая поисковая система самая лучшая?

Нет ни одной поисковой системы лучше всех остальных. Многие могут возразить, что поисковая система Google лучшая, и она самая популярная и известная. Он настолько популярен, что люди часто используют его в качестве глагола, когда говорят кому-то искать свой вопрос.

Поисковая система Microsoft Bing также популярна и используется многими людьми. Bing отлично справляется с поиском информации и отвечает на вопросы. Bing также обеспечивает поиск в Windows 10 и поисковой системе Yahoo.

This entry was posted in Популярное