-

Модель семантического поиска на базе тезауруса

1 2 0 Federal Research Center Computer Science and Control of the Russian Academy of Sciences , Moscow , Russia 1 Lomonosov Moscow State University 2 Vladimir Serebryakov

191 196

This article presents a model of semantic search, based on the thesaurus. The key points of using the model are described. The main features of the thesaurus, the methods of their application in other search systems, and also features of our approach are presented.

Семантическим поиском, как правило, называется процесс поиска документов по их содержанию. Нетрудно увидеть, что понятие семантического поиска недостаточно формально определено [7]. В частности, понятие содержания или смысла является многозначным.

Существуют различные подходы к реализации семантического поиска. Как правило, выделяют следующие классы моделей семантического поиска: • Поиск, основанный на структурированных SPARQL запросах к базе знаний в формате OWL/RDF. • Поиск, основанный аннотировании документа индексацией аннотаций. на с семантическом последующей • Полнотекстовый поиск, использующий словари синонимов для индексации документов и расширения запросов. • Всевозможные гибридные решения.

Далее предложена модель семантического поиска, являющаяся гибридным вариантом, так как содержит элементы семантического аннотирования и полнотекстового поиска. В предыдущей работе [2] Труды XIX Международной конференции «Аналитика и управление данными в областях с интенсивным использованием данных» (DAMDID/ RCDL’2017), Москва, Россия, 10–13 октября 2017 года отображающей пару («запрос», «L-тег») в действительное число от 0 до 1. Функция схожести должна рассчитываться во время выполнения запроса, поэтому должна выполняться достаточно быстро. Комбинация функции схожести и функции семантики характеризует релевантность запроса документу.

Каждый L-тег описывает некоторую информационную потребность. Различные реализации функций семантики и схожести отличаются друг от друга различным пониманием информационной потребности, различным способом оценки схожести информационных потребностей и удовлетворения информационной потребности. Ниже с помощью понятия контекста будут описаны способы реализации функции семантики и функции схожести.

Если в качестве L-тегов рассматривать предложения или абзацы в тексте, то представленная модель позволяет существенно уменьшить поисковый индекс за счет игнорирования L-тегов с достаточно малым значением функции семантики.

Использование модели позволяет применять единые механизмы поиска в случае индексирования не только текстов, но и семантических аннотаций, привязанных к этим текстам, так как семантическую аннотацию можно представить как L-тег или набор L-тегов. Модель семантического поиска в том виде, в котором она была описана ранее, является достаточно общей и не регламентирует, как именно должны быть определены функции семантики и схожести. В настоящей работе предложены уточнения модели семантического поиска для случаев, когда имеется достаточно хороший тезаурус. 2 Применение тезаурусов 2.1 Термины и понятия

К тезаурусам могут быть отнесены достаточно разные словари и лингвистические ресурсы [6]: • Идеографический словарь, основное назначение которого – помощь в подборе близких по смыслу слов при написании текста. • Информационно-поисковый тезаурус описывает отношения между терминами предметной области. • Тезаурус типа WordNet описывает отношения между лексическими значениями естественного языка. • Ассоциативный тезаурус, описывающий ассоциации людей или совместную встречаемость слов в тексте, рассчитанную автоматически.

Как правило, тезаурусы оперируют двумя сущностями: термином и понятием. Под термином понимается слово или словосочетание, имеющее некоторое смысловое значение. Особенностью естественного языка является то, что одно и то же смысловое значение может быть передано различными терминами. В тезаурусах смысловое значение принято называть понятием, а набор терминов, которые передают это смысловое значение, – синсетом.

Для естественного языка также характерно, что один и тот же термин в разных контекстах характеризует разные понятия. Хороший тезаурус в рамках сферы своего применения должен определять всевозможные понятия термина, а также предоставлять информацию о том, как определить понятие, которое термин характеризует в некотором контексте.

Под тезаурусом мы будем понимать словарь, оперирующий понятиями, которые характеризуются синонимическими рядами (синсетами) и имеют между собой семантические связи, как вертикальные, так и горизонтальные. Далее мы более подробно рассмотрим информационно-поисковый тезаурус и WordNet. 2.2 Информационно-поисковый тезаурус Информационно-поисковые тезаурусы создавались для описания различных предметных областей и использовались для ручной разметки документов и запросов. Основная идея использования такого рода тезауруса заключалась в определении применяемой терминологии для использования в запросах и индексации документов. Впоследствии эксперименты показали, что эффективность полнотекстового индексирования сравнима с эффективностью поиска, использующего ручное индексирование по [5], [6]. С учетом трудоемкости ручного индексирования оно все чаще заменялось полнотекстовым поиском.

Казалось бы, что информационно-поисковые тезаурусы могут быть полезными в семантическом поиске, но есть две основные проблемы: • Ориентированность на узкую предметную область не позволяет описать всевозможные значения того или иного термина в целом. В свою очередь документы зачастую могут охватывать различные предметные области, а у пользователей могут быть различные потребности. Поэтому для наиболее полного описания документа может понадобиться несколько тезаурусов, часть понятий которых может пересекаться. В этом случае мы сталкиваемся с проблемой интеграции тезаурусов. • Более важной проблемой является то, что такие тезаурусы создавались для людей, а не для машин. Поэтому они могут не содержать полного списка синонимов в синсетах, так как подразумевается, что человек догадается, в каком случае нужно привязывать понятие.

Эксперименты по автоматическому индексированию документов и запросов на базе информационно-поисковых тезаурусов не привели к их практическому использованию для автоматической обработки текстов [6].

Таким образом, информационно-поисковые тезаурусы не могут быть использованы явным образом для задачи семантического поиска. 2.3 WordNet выделение понятия в тексте с разрешением неоднозначности. Эту проблему пытались устранить введением доменов для большинства понятий, где домен характеризует предметную область понятия множество понятий , обозначенных термином некоторый порог. так, чтобы терминов и множество поисковых запросов , где – множество понятий, которые могут обозначать термин . Будем исходить из того, что мы должны выбрать понятие, контекст которого максимально похож на абзац , тогда в качестве понятия, обозначаемого термином , следует выбирать , такое, что: ( , )= ⁡ max ∈ ( , )⁡.

Из-за многозначности может получиться так, что вектор абзаца похож на контексты сразу нескольких понятий. В этом случае предложенный алгоритм может быть улучшен.

Мы можем привязать к термину не одно понятие, а несколько, с условием, что контекст каждого привязанного понятия близок к вектору абзаца как минимум на % от близости контекста понятия к вектору абзаца , где – 3.3 Выделение понятий в поисковом запросе Особенностью выделения понятия в поисковом запросе является то, что поисковый запрос в отличие от абзаца имеет намного меньше терминов. Часто поисковый запрос представляет собой последовательность из нескольких терминов, вот почему приведенный выше способ выделения понятий невозможно применить для поисковых запросов.

Определение 3.5.

Пусть даны множество терминов и множество поисковых запросов , где запрос ∈ Вектором действительных запроса является набором терминов из .

чисел будем

называть размерности вектор | |, компоненты которого соответствуют терминам из и равны 0 или 1, если термин включен в или нет, соответственно.

Пусть из запроса каким-то образом было выделено множество понятий . Тогда мы можем дать определение контексту запроса.

Определение 3.6.

Пусть даны множество , для каждого термина ∈ ; , в которые включен термин ; , описывающих понятие . определить

множество выделено понятие . запрос ∈ является набором терминов из множества . Контекстом запроса будем называть вектор

= ( ∑⁡∈⁡ )/| |⁡. Если пользователь регулярно использует поисковую систему, работая со своими избранными предметными областями, то у нас есть информация о его интересах, и мы могли бы ее использовать. Исходя из предположения, что контекст пользователя может быть определен через историю его запросов, можно дать следующее определение. • • ⁡ . ненулевых компонент. Для обнуления наиболее слабых компонент вектора контекста существуют следующие варианты:

ограничение минимального значения ненулевой компоненты; ненулевых компонент.

ограничение максимального количества Определение 3.8. Семантическим ядром запроса у пользователя будем называть вектор = ⁡ + Выше мы предположили, что множество понятий для запроса

уже выделено, но не описали процесс выделения понятий из запроса. Далее мы исходим из предположения о том, что понятия, выделяемые из запроса, зависят как от запроса, так и от контекста пользователя. Для выделения понятий из запроса можно воспользоваться алгоритмом выделения понятия абзаца из раздела 3.2. В этом случае вместо вектора абзаца нужно использовать семантическое ядро запроса . 4 Уточнение модели поиска

Использование тезауруса позволяет привязывать понятия как к текстам документов, так и к поисковым запросам. контексты считать, что эта функция задана на основе иерархии понятий в тезаурусе, используемом для поиска. Рассмотрим поисковый запрос ∈ и абзац ∈ . Считаем, что в запросе выделены понятия , а в абзаце выделены понятия . Функция схожести

L-тегов должна определять, насколько пересекается смысл, передаваемый Lтегами. Исходя из предположения, что в абзаце и запросе выделены все значимые понятия, а понятия L-тега полностью передают его смысл, можно для запроса и абзаца определить функцию схожести ⁡

( , )= ∑1∈ ∑1∈ 2∈ max ( 1, 2) 2| |

⁡ 4.3 Расчет релевантности 2∈ max ( 1, 2) 2| | + Пусть даны множество запросов и множество абзацев . Рассмотрим запрос ∈ и абзац ∈ . Для расчета релевантности необходимо учитывать: • • ( , )– функция семантики.

( , )– функция схожести. Сначала с помощью функции семантики отбираются похожие на запрос абзацы . Далее набор сортируется на основе значений функции семантики должна и функции

схожести. Релевантность быть больше, если значение функции семантики или схожести больше.

Функция семантики и функция схожести могут быть неравномерно распределены. В этом случае абзацы, которые больше похожи на свои документы, могут получить необоснованное преимущество перед другими абзацами. Чтобы неравномерность функции изменению семантики не приводила к сильному сортировки, можно воспользоваться следующим подходом:

cортируем по значениям функции схожести, для каждого ∈ получаем порядковый номер в отсортированном наборе

сортируем по значениям функции семантики, для каждого ∈ получаем порядковый номер в отсортированном наборе ( , ); ( , ); релевантность может быть оценена как сумма ( , )и ( , ). или произведение 5 Применение

Рассмотрим поисковый запрос “Java”. О чем пользователь думал, когда задавал этот запрос? Он мог думать о следующем:

Java – это язык программирования.

Java – это остров. • •

Java – это кофе. понятия, абзаца, документа, запроса и пользователя. Были описаны алгоритмы для выделения контекстов с использованием большого корпуса текстов, наиболее полного тезауруса. Была уточнена модель семантического поиска, введенная ранее. Предложены способы оценки функций семантики и схожести с помощью различных контекстов, связей понятий из тезауруса. Была введена, но недостаточно формализована, функция близости понятий. Предполагается ее формализация в дальнейших работах. Кроме того, планируется: • Описать особенности индексирования математических текстов. архитектуре, Благодарности Литература

Работа выполнена при финансовой поддержке РФФИ (проект 17- 07-00214). [1] Fellbaum , C. : WordNet. Blackwell Publishing Ltd,

( 1998 ) [2] Malakhov , D. , Sidorenko , Y. , Ataeva , O. ,

DAMDID/RCDL 2016 . Communications in

Computer and Information Science, 706 . Springer,

Cham ( 2017 ) [3] Magnini , B. , Strapparava , C. : Experiments in Word

of the ACL-2000 Workshop on Word Senses and

Linguistics , pp. 27 - 33 ( 2000 ) [4] Miller , G.A. , Fellbaum , C. , Tengi , R.: WordNet.

Cambridge, Princeton University ( 2006 ) [5] Salton , G. , McGill , M.J. : Introduction to Modern

Information

Retrieval ( 1986 ) [6] Лукашевич, Н .В.: Тезаурусы в задачах

цифровая библиотека In: RCDL 2014. сс. 21-25