Морфологический поиск это: Морфологический поиск / Хабр

Морфологический поиск / Хабр

tot_ra

Чулан

Точный поиск, реализуемый в базах данных это очень хорошо, когда дело касается точных фраз. Но что делать, когда среди документов есть Киевская карта но нету Карты Киева? В дело включаются языковые фильтры.Во-первых уже на лексическом уровне становится сложно оперировать с монолитным блоком текста что-бы учитывать всевозможные перестановки слов и расстояния между ними. Во-вторых, чем глубже копать в язык, тем ясней становится то, что семантический web — невероятно сложная планка для автоматических анализаторов и генераторов каких-то образов и моделей, что уж говорить про то что-бы написать RDF вручную.Морфология изучает изменение формы объектов в разных областях науки (ботанике например). Поэтому есть два пути — либо

учитывать все формы при поиске, либо вырезать корень слова и искать

только по нему. Последний способ называется stemming, отличается

быстротой, простотой и не нуждается в словарях. Именно его используют Битрикс и MS Sharepoint, Sphinx. Проблемы возникают со словами где корень изменчив (бег-бежать, расти-прирост, лев-львица). Я не буду рассказывать про стемминг, посмотрите как это реализовано php с русской морфологией. Меня больше интересуют словари. Национальный корпус русского языка приводит примерно какие характеристики могут иметься у любого слова. Теперь мы плавно подходим к пониманию того что нам необходима современная морфологическая база слов (RMU, AOT), прототип для семантической сети.

Индексация и поиск

Идея — в использовании базы данных (Postgre) с таблицами морф (все возможные слова) и связанных с ним лексем (корней и аффиксов). При индексации документа происходит:

  • Разбивка документа на слова
  • Нормализация — каждое слово связывается с морфой если такая есть
  • Если морф нет, то в будующем вручную они добавляются в словарь благодаря регистрации частоты упоминания тех или иных слов

При поиске происходит аналогичный процесс — каждое слово запроса нормализуется если оно есть среди лексем и по связям «запрос-лексема-морфа-документ» получается список документов. Для ускорения словаря можно загрузить всю таблицу сразу в оперативку (надавно услышал от Жени про облегчённую БД — hsqldb)

Высшие уровни языка

Как быть с релевантностью? Учтение расстояние слов или их последовательности — дело уже синтаксического уровня. Синтаксическая индексация подразумевает разбиение на предложения и создание связей между словами, которые используются в одном предложении. Можно в дополнение учитывать в качестве какой части речи выступает лексема. В базе данных это выглядит как очередная таблица со связями между лексемами и при поиске проверяется например присутсвие нескольких слов в одном предложении.Уровень семантический должен уже учитывать типы отношений между словами (синонимы/антонимы, меронимы=партоним/холонимы, гипонимы/гипермимы), т.е. в идеале на запрос «дети Бонапарта» нашлись бы документы типа «отец Валевского — Наполеон».Но самая главная задача высших уровней это разбор омонимии, т.е. многозначности как корней (ключ, лук) так и ударения (засЫпал/засыпАл, пАрить/парИть). На данный момент и google и yandex учитывают спряжения слов, но какой именно смысл вы имели ввиду не переспрашивают. Читайте также:

  • Стемминг Портера для русского языка
  • Использование стемминга в Раблере
  • Куча ссылок по лингвистическим ресурсам
  • Словари+софт в своём непонятном формате на aot.ru

Парочка говорящих кошек явно показывает что язык возникает там где рождается общение.  P.S. К сожалению аналога Wordnet’а в рунете я не нашёл (только упоминания про «Ариадну» на основе словаря Зализняка). Никто не подумывал об этом?

+Оригинал

Теги:

  • поиск
  • search
  • google
  • yandex
  • морфология
  • искусственный интеллек

Хабы:

  • Чулан

Всего голосов 22: ↑20 и ↓2 +18

Просмотры

5.9K

Комментарии
11

Артём Курапов
@tot_ra

Пользователь

Комментарии
Комментарии 11

Что такое Морфологический поиск (стемминг)

1. ОПРЕДЕЛЕНИЕ ТЕРМИНОВ

1.1. В настоящей Политике конфиденциальности используются следующие термины:

1.1.1. «Администрация сайта» – уполномоченные сотрудники на управления сайтом, действующие от имени ООО
«Третий Путь», которые организуют и (или) осуществляет обработку персональных данных, а также определяет цели
обработки персональных данных, состав персональных данных, подлежащих обработке, действия (операции),
совершаемые с персональными данными.

1.1.2. «Персональные данные» — любая информация, относящаяся прямо или косвенно к определяемому физическому
лицу (субъекту персональных данных).

1.1.3. «Обработка персональных данных» — любое действие (операция) или совокупность действий (операций),
совершаемых с использованием средств автоматизации или без использования таких средств с персональными
данными, включая сбор, запись, систематизацию, накопление, хранение, уточнение (обновление, изменение),
извлечение, использование, передачу (распространение, предоставление, доступ), обезличивание, блокирование,
удаление, уничтожение персональных данных.

1.1.4. «Конфиденциальность персональных данных» — обязательное для соблюдения Организацией или иным
получившим доступ к персональным данным лицом требование не допускать их распространения без согласия субъекта
персональных данных или наличия иного законного основания.

1.1.5. «Пользователь сайта (далее Пользователь)» – лицо, имеющее доступ к Сайту, посредством сети Интернет и
использующее Сайт Организации.

1.1.6. «IP-адрес» — уникальный сетевой адрес узла в компьютерной сети, построенной по протоколу IP.

1.1.7. «Cookies» — небольшой фрагмент данных, отправленный веб-сервером и хранимый на компьютере
пользователя, который веб-клиент или веб-браузер каждый раз пересылает веб-серверу в HTTP-запросе при попытке
открыть страницу соответствующего сайта.

2. ОБЩИЕ ПОЛОЖЕНИЯ

2.1. Порядок ввода в действие и изменения Политики конфиденциальности:

2.1.1. Настоящая Политика конфиденциальности (далее – Политика конфиденциальности) вступает в силу с момента
его утверждения приказом Руководителей Организации и действует бессрочно, до замены его новой Политикой
конфиденциальности.

2.1.2. Изменения в Политику конфиденциальности вносятся на основании Приказов Руководителей Организации.

2.1.3. Политика конфиденциальности персональных данных действует в отношении информации, которую ООО «Третий
Путь» (далее – Организация) являясь владельцем сайтов, находящихся по адресам: 3put.ru, а также их поддоменах
(далее – Сайт и/или Сайты), может получить от Пользователя Сайта при заполнении Пользователем любой формы на
Сайте Организации. Администрация сайта не контролирует и не несет ответственность за сайты третьих лиц, на
которые Пользователь может перейти по ссылкам, доступным на Сайтах.

2.1.4. Администрация сайта не проверяет достоверность персональных данных, предоставляемых Пользователем.

2.2. Порядок получения согласия на обработку персональных данных и их обработки:

2.2.1. Заполнение любой формы Пользователем на Сайте означает дачу Организации согласия на обработку его
персональных данных и с настоящей Политикой конфиденциальности и условиями обработки персональных данных
Пользователя, так как заполнение формы на Сайте Пользователем означает конклюдентное действие Пользователя,
выражающее его волю и согласие на обработку его персональных данных.

2.2.2. В случае несогласия с условиями Политики конфиденциальности и отзывом согласия на обработку
персональных данных Пользователь должен направить на адрес эл. почты и/или на почтовый адрес Организации
заявление об отзыве согласия на обработку персональных данных.

2.2.3. Согласие Пользователя на использование его персональных данных может храниться в Организации в
бумажном и/или электронном виде.

2.2.4. Согласие Пользователя на обработку персональных данных действует в течение 5 лет с даты поступления
персональных данных в Организацию. По истечении указанного срока действие согласия считается продленным на
каждые следующие пять лет при отсутствии сведений о его отзыве.

2.2.5. Обработка персональных данных Пользователя без их согласия осуществляется в следующих случаях:

  • Персональные данные являются общедоступными.
  • По требованию полномочных государственных органов в случаях, предусмотренных федеральным законом.
  • Обработка персональных данных осуществляется для статистических целей при условии обязательного
    обезличивания персональных данных.
  • В иных случаях, предусмотренных законом.

2.2.6. Кроме персональных данных при посещении Сайта собираются данные, не являющиеся персональными, так как
их сбор происходит автоматически веб-сервером, на котором расположен сайт, средствами CMS (системы управления
сайтом), скриптами сторонних организаций, установленными на сайте. К данным, собираемым автоматически,
относятся: IP адрес и страна его регистрации, имя домена, с которого Пользователь осуществил перехода на сайты
организации, переходы посетителей с одной страницы сайта на другую, информация, которую браузер Посетителя
предоставляет добровольно при посещении сайта, cookies (куки), фиксируются посещения, иные данные, собираемые
счетчиками аналитики сторонних организаций, установленными на сайте. Эти данные носят неперсонифицированный
характер и направлены на улучшение обслуживания Пользователя, улучшения удобства использования сайта, анализа
посещаемости. Эти данные собираются автоматически, отправку этих данных Пользователь может запретить, отключив
cookies (куки) в браузере, в котором открывается сайт.

2.2.7. Порядок обработки персональных данных:

К обработке персональных данных Пользователей могут иметь доступ только сотрудники Организации, допущенные к
работе с персональными данными Пользователей и подписавшие соглашение о неразглашении персональных данных
Пользователей.
Перечень сотрудников Организации, имеющих доступ к персональным данным Пользователей, определяется приказом
Руководителей Организации.
Обработка персональных данных Пользователей может осуществляться исключительно в целях установленных настоящей
политикой и при условии соблюдения законов и иных нормативных правовых актов Российской Федерации.

3. ПРЕДМЕТ ПОЛИТИКИ КОНФИДЕНЦИАЛЬНОСТИ

3.1. Настоящая Политика конфиденциальности устанавливает обязательства Администрации сайта по неразглашению и
обеспечению режима защиты конфиденциальности персональных данных, которые Пользователь предоставляет при
заполнении любой формы на Сайте.

3.2. Персональные данные, разрешённые к обработке в рамках настоящей Политики конфиденциальности,
предоставляются Пользователем путём заполнения регистрационной формы на Сайте и включают в себя следующую
информацию:

3.2.1. фамилию, имя, отчество Пользователя.

3.2.2. контактный телефон Пользователя.

3.2.3. адрес электронной почты (e-mail).

3.3. Любая иная персональная информация неоговоренная выше подлежит надежному хранению и нераспространению,
за исключением случаев, предусмотренных п. 2.5. настоящей Политики конфиденциальности.

4. ЦЕЛИ СБОРА ПЕРСОНАЛЬНОЙ ИНФОРМАЦИИ ПОЛЬЗОВАТЕЛЯ

4.1. Персональные данные Пользователя Администрация сайта может использовать в целях:

4. 1.1. Установления с Пользователем обратной связи, включая направление уведомлений, запросов, касающихся
использования Сайта, оказания услуг, обработка запросов и заявок от Пользователя.

4.1.2. Осуществления рекламной деятельности с согласия Пользователя.

4.1.3. Регистрации Пользователя на Сайтах Организации для получения индивидуальных сервисов и услуг.

4.1.4. Совершения иных сделок, не запрещенных законодательством, а также комплекс действий с персональными
данными, необходимых для исполнения данных сделок.

5. СПОСОБЫ И СРОКИ ОБРАБОТКИ ПЕРСОНАЛЬНОЙ ИНФОРМАЦИИ

5.1. Обработка персональных данных Пользователя осуществляется без ограничения срока, любым законным
способом, в том числе в информационных системах персональных данных с использованием средств автоматизации или
без использования таких средств.

5.2. При утрате или разглашении персональных данных Администрация сайта информирует Пользователя об утрате
или разглашении персональных данных.

5.3. Администрация сайта принимает необходимые организационные и технические меры для защиты персональной
информации Пользователя от неправомерного или случайного доступа, уничтожения, изменения, блокирования,
копирования, распространения, а также от иных неправомерных действий третьих лиц.

6. ОБЯЗАТЕЛЬСТВА СТОРОН

6.1. Пользователь обязан:

6.1.1. Предоставить информацию о персональных данных, необходимую для пользования Сайтом.

6.1.2. Обновить, дополнить предоставленную информацию о персональных данных в случае изменения данной
информации.

6.2. Администрация сайта обязана:

6.2.1. Использовать полученную информацию исключительно для целей, указанных в п. 4 настоящей Политики
конфиденциальности.

6.2.2. Обеспечить хранение конфиденциальной информации в тайне, не разглашать без предварительного
письменного разрешения Пользователя, а также не осуществлять продажу, обмен, опубликование, либо разглашение
иными возможными способами переданных персональных данных Пользователя, за исключением случаев, указанных в п.
2.5. настоящей Политики Конфиденциальности.

6.2.3. Принимать меры предосторожности для защиты конфиденциальности персональных данных Пользователя
согласно порядку, обычно используемого для защиты такого рода информации в существующем деловом обороте.

6.2.4. Осуществить блокирование и/или удаления персональных данных, относящихся к соответствующему
Пользователю, с момента обращения или запроса Пользователя или его законного представителя либо
уполномоченного органа по защите прав субъектов персональных.

7. ОТВЕТСТВЕННОСТЬ СТОРОН

7.1. Администрация сайта, не исполнившая свои обязательства, несёт ответственность в соответствии с
действующим законодательством Российской Федерации, за исключением случаев, предусмотренных п.2.5. и 7.2.
настоящей Политики

Конфиденциальности.

7.2. В случае утраты или разглашения Конфиденциальной информации Администрация сайта не несёт
ответственность, если данная конфиденциальная информация:

7. 2.1. Стала публичным достоянием до её утраты или разглашения.

7.2.2. Была получена от третьей стороны до момента её получения Администрацией сайта.

7.2.3. Была разглашена с согласия Пользователя.

8. РАЗРЕШЕНИЕ СПОРОВ

8.1. До обращения в суд с иском по спорам, возникающим из отношений между Пользователем сайта и
Администрацией сайта, обязательным является предъявление претензии (письменного предложения о добровольном
урегулировании спора).

8.2. Получатель претензии в течение 30 календарных дней со дня получения претензии, письменно уведомляет
заявителя претензии о результатах рассмотрения претензии.

8.3. При не достижении соглашения спор будет передан на рассмотрение в судебный орган в соответствии с
действующим законодательством Российской Федерации.

8.4. К настоящей Политике конфиденциальности и отношениям между Пользователем и Администрацией сайта
применяется действующее законодательство Российской Федерации.

9. ДОПОЛНИТЕЛЬНЫЕ УСЛОВИЯ

9.1. Администрация сайта вправе вносить изменения в настоящую Политику конфиденциальности без согласия
Пользователя.

9.2. Новая Политика конфиденциальности вступает в силу с момента ее размещения на Сайте, если иное не
предусмотрено новой редакцией Политики конфиденциальности.

9.3. Действующая Политика конфиденциальности размещена на страницах сайтов находящихся по адресам: 3put.ru, а
также на их поддоменах.

Морфологический поиск

Logos Bible Software Wiki > Содержание >

Wiki: TOC, VTOC, Home
Форум: Home, General

Видео
Морфологический поиск в обратном межлинере

См. Также
Новая справка поиска для логотипов 10
Старый поиск
Коды морфологии
 Logos Morphologies
 Таблица морфологии
 Как вводить текст на греческом и иврите

Обновлено для Logos 10

Содержание страницы

  • Что такое морфологический поиск?
  • Как выполнить морфологический поиск?
  • Запуск поиска морфинга из ресурса

Что такое морфологический поиск?

Вы можете использовать Morph Search для поиска в ресурсах с морфологическими тегами на греческом, иврите, арамейском или сирийском языке по грамматическим особенностям
слова. Например, вы можете найти все места, где глагол γινώσκω (знать) встречается в пассивном залоге.

Как выполнить морфологический поиск?

Панель поиска морфинга
  1. Откройте панель поиска, щелкнув значок увеличительного стекла на панели инструментов Logos.

  2. Выберите Morph в качестве типа поиска, если он еще не выбран.
    • нажмите на Еще если не видно
  3. Щелкните там, где написано «Все ресурсы», и выберите ресурс с морфологической маркировкой (Библия или что-то другое) или коллекцию. В дополнение к исходным языковым ресурсам вы также можете выполнять поиск морфинга в Reverse Interlinears. Список ресурсов морфинга будет отличаться в зависимости от того, что у вас есть в вашей библиотеке, но в целом он будет выглядеть примерно так (вам нужно прокрутить Коллекции и Серии, чтобы увидеть этот список.)

    • Различные ресурсы в Логотипы используют разные методы морфологической маркировки, поэтому при выборе ресурса вы также выбираете конкретную морфологию. Если вы выберете коллекцию или несколько ресурсов, вы можете использовать несколько морфологий, и результат вашего поиска будет не ясен. Поэтому лучше всего выбрать один ресурс, который вы больше всего хотите найти. Когда вы лучше поймете, ваши коллекции могут быть ограничены ресурсами с одинаковой морфологией.
      Наиболее часто используемые:
      • Логос Греческий для греческих ресурсов РИ и Лексхэм, включая Септуагинту (предпочтительная морфа Логоса)
      • Логос Иврит для ресурсов РИ и Лексхэма иврит (предпочтительная морфа Логоса)
      • Andersen-Forbes иврит/арамейский для AFAT
      • WIVU иврит/арамейский для ресурсов BHS/WIVU
      • Вестминстерский иврит/арамейский для ресурсов BHW.
  4. При необходимости выберите диапазон ссылок, которым вы хотите ограничить поиск. Нажмите там, где написано «Все проходы» (или что-то еще, что было выбрано там ранее), чтобы открыть список. Затем выберите один из общих разделов или сохраненный диапазон, который вы создали ранее, или список проходов, или введите определенный диапазон в поле «Исходный диапазон».
  5. Если хотите, выберите, какими полями поиска вы хотите ограничить поиск, щелкнув «Все тексты морфинга», чтобы открыть список, и установив соответствующие флажки. Этот список также зависит от того, какой ресурс вы выбрали.
Условия поиска
  • Лемма

    • Введите или вставьте условие поиска и выберите точную форму слова из предложенных совпадений, отображаемых в раскрывающемся списке по мере ввода. Те, что с глянцем, — это леммы. Логос добавит соответствующий префикс (лемма. x :, греческий:, иврит: и т. д.) к форме выбранного вами слова.
      Если у вас есть лемма, вы можете ввести префикс лемма:
  • Сочетание этих терминов
    • Сначала введите лемму, а затем морфологический термин, например lemma:ἀγάπη@NG , которая найдет формы родительного падежа «любовь».
      Обратите внимание, что здесь используется формат @NG , который можно использовать сам по себе.
После поиска
  • Как и в случае других типов поиска, вы можете просмотреть результаты в виде Отрывки или Стихи , как Выровненный или в Анализ вид.
  • Если поиск морфинга был выполнен в представлении Passages/Verses , вы можете сравнить результаты в разных версиях, нажав Добавить версии или Несколько ресурсов . Вы можете ввести/выбрать несколько ресурсов, что полезно для поиска по греческим или ивритским ресурсам, поскольку обратные подстрочники позволяют выделить перевод результата.
  • Если ресурсом, который вы искали, была Библия, вы можете нажать кнопку Charts , чтобы увидеть график того, как эти результаты распределяются по Библии.
  • Если вы считаете этот поиск полезным и хотите пометить все результаты поиска в своем ресурсе особым выделением, вы можете нажать Сохранить как визуальный фильтр в меню панели.

Запуск поиска Morph из ресурса

Вы также можете выполнить поиск морфинга внутри ресурса, будь то исходный языковой ресурс или обратный подстрочный:

  1. Щелкните правой кнопкой мыши слово
  2. Выберите лемму или ее морфологию в контекстном меню.
  3. С другой стороны, выберите соответствующую опцию Поиск , чтобы начать Поиск морфинга.

Что такое морфологический анализ? | Определение из TechTarget

От

  • Участник TechTarget

Морфологический анализ — это процесс изучения возможных решений не поддающихся количественной оценке сложных проблем, включающих множество факторов. Корень слова «морфология» происходит от греческого слова «morphe» — форма.

Морфологический анализ берет задачу со многими известными решениями и разбивает их на самые основные элементы или формы, чтобы лучше их понять.

Морфологический анализ используется в решении общих задач, лингвистике и биологии. Во многих областях обучения морфология способствует более четкому обучению учителей, помогая учащимся понять проблемы и их решения.

Для общего решения проблем морфологический анализ обеспечивает формализованную структуру, помогающую изучить проблему и возможные решения. Элементы проблемы и ее решения расположены в матрице, чтобы помочь устранить нелогичные решения.

В биологии изучение форм помогает понять мутации, адаптацию и эволюцию. Изучение особенностей и строения организмов помогает нам понять организмы и их место в большей окружающей среде.

В лингвистике слова разбиваются на мельчайшие смысловые единицы: морфемы. Морфемы иногда сами могут быть словами, как в случае свободных морфем, которые могут стоять сами по себе. Другие морфемы могут добавлять значение, но сами по себе не являются словами; связанные морфемы должны использоваться вместе с другой морфемой, чтобы составить слово. Кошки, например, это двухморфемное слово. Его основа, кошка, является свободной морфемой, а его суффикс ans, обозначающий множественное число, является связанной морфемой.

Как научная школа морфология является детищем астрофизика Фрица Цвикки. Цвикки разработал методологию для решения неколичественных задач, которые имеют множество очевидных решений. Чтобы задачи подходили для морфологического анализа, они обычно невыразимы в числах. Другие проблемы лучше решать с помощью более традиционного метода декомпозиции, когда сложность разбивается на части, а тривиальные элементы игнорируются для создания упрощенной проблемы и решения.

Последнее обновление: июль 2019 г.


Продолжить чтение О морфологическом анализе

  • Четыре шага, чтобы стать лидером в решении ИТ-задач
  • Схема решения проблем
  • Методы мышления: Морфологический анализ
  • Могут ли методы решения проблем способствовать изменениям и успеху ИТ-организации?
тень IT

Shadow IT — это аппаратное или программное обеспечение на предприятии, которое не поддерживается центральным ИТ-отделом организации.

Сеть


  • DHCP (протокол динамической конфигурации хоста)

    DHCP (Dynamic Host Configuration Protocol) — это протокол управления сетью, используемый для динамического назначения IP-адреса любому …


  • облачная сеть радиодоступа (C-RAN)

    Облачная сеть радиодоступа (C-RAN) — это централизованная архитектура на основе облачных вычислений для сетей радиодоступа.


  • потоковая телеметрия сети

    Потоковая сетевая телеметрия — это служба сбора данных в режиме реального времени, в которой сетевые устройства, такие как маршрутизаторы, коммутаторы и …

Безопасность


  • кража учетных данных

    Кража учетных данных — это тип киберпреступления, связанный с кражей удостоверения личности жертвы.


  • суверенная идентичность

    Самостоятельная суверенная идентификация (SSI) — это модель управления цифровой идентификацией, в которой отдельные лица или предприятия владеют единолично . ..


  • Сертифицированный специалист по безопасности информационных систем (CISSP)
    Сертифицированный специалист по безопасности информационных систем

    (CISSP) — это сертификат информационной безопасности, разработанный …

ИТ-директор


  • рассказывание историй о данных

    Рассказывание историй о данных — это процесс перевода анализа данных в понятные термины с целью повлиять на деловое решение…


  • оншорный аутсорсинг (внутренний аутсорсинг)

    Оншорный аутсорсинг, также известный как внутренний аутсорсинг, представляет собой получение услуг от кого-то вне компании, но в пределах …


  • FMEA (анализ видов и последствий отказов)

    FMEA (анализ видов и последствий отказов) представляет собой пошаговый подход к сбору сведений о возможных точках отказа в …

HRSoftware


  • самообслуживание сотрудников (ESS)

    Самообслуживание сотрудников (ESS) — это широко используемая технология управления персоналом, которая позволяет сотрудникам выполнять множество связанных с работой . ..


  • платформа обучения (LXP)

    Платформа обучения (LXP) — это управляемая искусственным интеллектом платформа взаимного обучения, предоставляемая с использованием программного обеспечения как услуги (…


  • Поиск талантов

    Привлечение талантов — это стратегический процесс, который работодатели используют для анализа своих долгосрочных потребностей в талантах в контексте бизнеса …

Отдел обслуживания клиентов


  • виртуальный помощник (помощник ИИ)

    Виртуальный помощник, также называемый помощником ИИ или цифровым помощником, представляет собой прикладную программу, которая понимает естественный язык …


  • жизненный цикл клиента

    В управлении взаимоотношениями с клиентами (CRM) жизненный цикл клиента — это термин, используемый для описания последовательности шагов, которые проходит клиент.

    This entry was posted in Семантическое ядро