NLPub: каталог и сообщество русских лингвистических ресурсов © Дмитрий Усталов Институт математики и механики им. Н.Н. Красовского УрО РАН Екатеринбург dau@imm.uran.ru Несмотря на ценность и очевидную как научную, Аннотация так и коммерческую значимость исследований и Разрозненность сведений о существующих разработок в области обработки естественного языка, сегодня наблюдаются следующие проблемы: инструментах и ресурсах для автоматической обработки русского языка • отсутствие доступного качественного является большой проблемой, сильно инструментария и вспомогательных утилит для затрудняющей быстрый старт научных и обработки текста, для распознавания речи, и т.д.; практических работ, тормозя развитие всего • нехватка доступных информационных направления. Наличие ресурсов: машиночитаемых словарей, тезаурусов, специализированного каталога размеченных корпусов текстов, банков данных; лингвистических ресурсов позволит решить • дефицит сведений об экспертах, тематических эту проблему хотя бы частично. В данной мероприятиях и образовательных программах в работе представлен каталог и сообщество регионах. NLPub, проведено сравнение с Указанные проблемы делают особенно аналогичными проектами, описан актуальной задачу сбора, систематизации и используемый подход к сбору и распространения сведений о доступных средствах и представлению данных, ресурсах для обработки русского языка. продемонстрирована классификация Цель проекта NLPub1 заключается в разделов, кратко изложен опыт, предоставлении на некоммерческой основе каталога полученный с момента основания проекта, электронных материалов, направленного на и обозначены планы на ближайшее удовлетворение информационных потребностей будущее. пользователей, исследователей и разработчиков в области компьютерной лингвистики. Проект NLPub 1 Введение появился и развивается за счет личных средств автора и не имеет аффилированности со сторонними Словари и тезаурусы, корпусы текстов и банки организациями. данных, а также другие информационные ресурсы, имеют огромную ценность в области обработки естественного языка. Это обусловлено спецификой 2 Аналогичные работы фундаментальных и прикладных задач Среди подобных русскоязычных ресурсов можно компьютерной лингвистики, нередко решаемых при отметить [1]: помощи разнообразных статистических методов. • Портал знаний о компьютерной лингвистике2, За последние годы популярность технологий созданный в Институте систем информатики автоматической обработки естественного языка им. А.П. Ершова СО РАН, г. Новосибирск; заметно выросла благодаря таким продуктам, как • Лингвистика в России: ресурсы для Apple Siri, Wolfram|Alpha, Google Voice, и др. исследователей3, созданный в Московском Возник закономерный общественный интерес, государственном университете им. однако разрозненность русскоязычных М.В. Ломоносова, г. Москва; лингвистических ресурсов затрудняет быстрый старт новых проектов в данной области. • Каталог лингвистических программ и ресурсов в Cети4, созданный в Русской виртуальной библиотеке, г. Москва; Труды 16-й Всероссийской научной конференции • Математическая и компьютерная «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» — RCDL-2014, лингвистика5, созданный в Санкт-Петербургском Дубна, Россия, 13–16 октября 2014 г. государственном университете, далее — mathlingvo. 56 2.1 «Портал знаний о компьютерной обработки естественного языка; коллекции лингвистике» ресурсов; словари и тезаурусы. Развитием каталога занимается его Портал знаний по компьютерной лингвистике единственный составитель, внося достаточно редкие существует с 2006 г. и призван обеспечить дополнения, правки и изменения. Последнее систематизацию и интеграцию знаний и обновление каталога зафиксировано в 2013 г. информационных ресурсов по компьютерной лингвистике в единое информационное 2.4 «Математическая и компьютерная пространство, а также содержательный доступ к лингвистика» интегрированным знаниям и ресурсам. На портале представлены знания об основных mathlingvo — проект кафедры информационных разделах компьютерной лингвистики, о ее предмете систем в искусстве и гуманитарных науках Санкт- и объектах исследования, используемых в ней Петербургского государственного университета, моделях и методах, разработанных в рамках созданный в начале 2012 г. и посвященный компьютерной лингвистики технологиях, системах, математической и компьютерной лингвистике в программных продуктах и лингвистических России. ресурсах (словарях, корпусах и лингвистических баз Проект представляет собой коллективный блог данных), а также информация об ученых, под руководством представителей кафедры, в сообществах, организациях, включенных в процесс котором уделено внимание перечням тематических исследования по компьютерной лингвистики и о конференций, периодических изданий, вакансиям. выполняемых проектах в этой области. Также является представительством различных По всей видимости, развитие портала инициатив, таких как OpenCorpora6. остановилось в 2012 г. Лента новостей mathlingvo обновляется регулярно и поддерживает добавление новых записей от любого 2.2 «Лингвистика в России: участника на условиях предварительной модерации, ресурсы для исследователей» однако проект является в большей степени новостным ресурсом и не предоставляет собой Научно-образовательный портал «Лингвистика в каталог как таковой. России: ресурсы для исследователей» создан также в 2006 г. по инициативе Научно-исследовательского вычислительного центра МГУ им. М.В. Ломоносова 3 NLPub: каталог и сообщество и Казанского государственного университета им. NLPub — это каталог лингвистических В.И. Ульянова-Ленина и имеет раздел, ресурсов для обработки русского языка, посвященный компьютерной лингвистике. основанный на принципах краудсорсинга. День Задачей портала является создание рождения проекта отмечается первого октября инфраструктуры для поддержки сообществ 2012 г., когда NLPub был представлен широкой исследователей и преподавателей для общественности на «Хабрахабре» [2]. информирования и открытого обсуждения научных и образовательных задач российской лингвистики, Каталог. Каталог построен на базе MediaWiki — интеграция лингвистического сообщества программного обеспечения, лежащего в основе Российской Федерации. На портале собран каталог «Википедии» и «Викисловаря» (рис. 1). Основное ссылок на различные российские проекты в области отличие NLPub от аналогичных ресурсов, компьютерной лингвистики. заключается в открытости: любой желающий может По всей видимости, развитие портала внести свои изменения по хорошо известным остановилось в 2007 г. принципам «Википедии». Благодаря открытости и децентрализованности, материалы NLPub 2.3 «Каталог лингвистических программ поддерживаются в актуальном, корректном и и ресурсов в Cети» доступном состоянии с меньшими трудозатратами и большей заинтересованностью участников. Данный каталог включает в себя описание Прототипом каталога послужил проект ACLWiki7, программ, связанных с анализом текстов и созданный Ассоциацией по компьютерной вычислительной лингвистикой, а также лингвистике. соответствующих ресурсов, доступных в Интернете. Упор при составлении каталога делался на Сообщество. Важно отметить, что NLPub — это не бесплатные программы, доступные для загрузки. только краудсорсинговый каталог лингвистических Однако также описаны некоторые сетевые и ресурсов, но и сообщество, представленное вокруг коммерческие версии программ. Тематически этого каталога, вопрос-ответного сервиса NLPub каталог разбит на следующие разделы: программы Q&A8 на базе открытого движка Discourse, и Twitter- анализа и лингвистической обработки текстов; аккаунта @nlpub. Также на NLPub расположена и программы преобразования текстов; поддерживается документация проекта создания психолингвистические программы; генераторы открытого электронного тезауруса русского языка текстов и «говорящие» программы; системы Yet Another RussNet9. 57 Рис. 1: Главная страница http://nlpub.ru/ Такими ресурсами являются, в частности, словарь 4 Организация каталога Абрамова и YARN. Каталог организован преимущественно в Методы и алгоритмы. Небольшое собрание табличном виде и, в отличие от онтологического достаточно важных методов и алгоритмов подхода [3], представляет собой обработки естественного языка, записанное в виде квазиструктурированные данные в формате более псевдокода с кратким описанием особенностей и привычной вики-разметки. Это упрощает характеристик. Для некоторых алгоритмов пополнение и улучшение каталога со стороны существуют выделенные страницы, например про человека. Таблицы содержат наиболее ценную алгоритм удаленной интерполяции и об алгоритме информацию об отдельно взятом объекте. Витерби. Например, для программного продукта в таблице приводится информация о кратком назначении, Образование. Перечень тематических кафедр, поддерживаемых языках и условиях использования, вузов, курсов и программ переподготовки, полезных а для организации — год основания и ключевые как начинающим, так и опытным исследователям и лингвистические продукты. разработчикам в области обработки естественного языка. Инструменты и утилиты. Различные инструменты Мероприятия. Список тематических мероприятий и обработки естественного языка (более 140 конференций, посвященных обработке естественного наименований), распознавания речи (более 20 языка и компьютерной лингвистике, где можно наименований), утилиты для работы с языковыми представить и обсудить результаты своей работы. моделями и обработки банков данных. Для Существуют выделенные страницы для ряда некоторых инструментов существуют выделенные конференций, например для конференции АИСТ. страницы с подробным описанием и инструкцией по применению. Такими инструментами являются, в Организации. Раздел, полезный при поиске работы частности, Greeb и TreeTagger. и при анализе российского рынка решений по обработке естественного языка. Включает в себя Ресурсы. Под ресурсом понимаются данные и их достаточно полный список основных игроков на производные, используемые в процессе обработки отечественном рынке NLP-продуктов. естественного языка: корпусы текстов (более 5 наименований), тезаурусы и словари (более 20 Литература. Список литературы, полезной для наименований), банки данных. Для некоторых изучения и закрепления знаний об обработке ресурсов существуют выделенные страницы с естественного языка и компьютерной лингвистике. подробным описанием и перечнем особенностей. Включает ссылки как на учебные пособия, так и на методические указания. 58 Рис. 2: Данные «Яндекс.Метрики» о посещаемости NLPub с 27 мая 2013 г. по 25 мая 2014 г. Эксперты. Экспериментальный раздел, в котором В настоящий момент сообщество находится на любой желающий может указать область своей достаточно ранней стадии своего развития, однако экспертизы и контактную информацию для уже сегодня на NLPub Q&A можно получить ответы выполнения какой-либо совместной работы или на достаточно острые и нетривиальные консультирования. тематические вопросы. Темы дипломов. Экспериментальный раздел, в котором любой желающий может указать 6 Заключение проблемную область, достойную разработки в Анализ поисковых запросов и опрос аудитории рамках студенческой или кандидатской работы, и NLPub показывает заинтересованность в отдельных оставить свои координаты для связи. статьях, посвященных конкретным инструментам, методам и алгоритмам. Эта информация обобщена 5 Полученный опыт на специальной странице http://nlpub.ru/TODO. Первые месяцы существования NLPub были Выделяется три направления предстоящей работы: сопряжены с борьбой против активных спам-ботов, • общие статьи об основных разделах специализирующихся на проектах, основанных на автоматической обработки естественного языка: MediaWiki. Проблему удалось решить полностью графематический, морфологический, благодаря одновременному принятию трех мер: синтаксический анализ, информационный поиск, введению капчи на основе reCAPTCHA при сходство документов, машинный перевод, создании учетной записи, подключению черного извлечение ключевых слов, автоматическое списка спамерских IP-адресов, а также реферирование, анализ тональности, и др.; обязательным подтверждением адреса электронной • статьи о популярных моделях, методах и почты для получения участником возможности алгоритмах: векторные модели (tf-idf, «мешок слов», вносить правки в статьи. косинусная мера близости), теоретико-графовые Данные «Яндекс.Метрики10» доступны публично модели, n-граммные модели, общие методы и свидетельствуют о постепенном росте алгоритмического обучения, используемые в посещаемости NLPub за прошедший год (рис. 2). лингвистике (перцептрон, наивный Байесовский Это связано с тем, что по мере создания новых классификатор, EM-алгоритм), и др.; страниц и внесения новых сведений страницы • обучающие статьи о важном или слабо становятся более ценными как с точки зрения документированном программном обеспечении: читателей, так и с точки зрения поисковых машин. «Томита-парсер», FreeLing, Stanford NLP, Более высокие позиции в поисковой выдаче MaltParser, NLTK, и др. способствуют привлечению новых пользователей. На сегодняшний день можно отметить два Тем не менее, на текущий момент можно считать основных недостатка ресурса. Во-первых, слабая активность пользователей эфемерной, то есть заполненность некоторых разделов, таких как человек попадает на NLPub во время поиска ответа «Персоналии» и «Литература». Это вызвано на свой вопрос при помощи поисковых систем. Это достаточно небольшим возрастом NLPub и свидетельствует о том, что база постоянных предполагается, что эта проблема решится путем читателей и авторов недостаточно велика: органического роста проекта. Во-вторых, отсутствие упоминание ресурса в популярных блогах или связей между разными разделами каталога сайтах отражается в статистике как резкий скачок усложняет навигацию. Решение этой проблемы вверх. состоит в добавлении соответствующих внутренних 59 ссылок и предоставлении наглядной карты сайта на Примечания одной из главных страниц ресурса. 1 http://nlpub.ru/ Повышение охвата пользователей и снижение 2 эфемерности их активности можно выполнить http://uniserv.iis.nsk.su/cl/ 3 путём интеграции с ресурсом mathlingvo для http://uisrussia.msu.ru/linguist/_B_comput_ling.jsp 4 автоматической публикации сводок новостей с http://www.rvb.ru/soft/catalogue/catalogue.html 5 указанием соответствующих ссылок. http://mathlingvo.ru/ 6 http://opencorpora.org/ В отдаленной перспективе было бы интересно 7 http://aclweb.org/aclwiki/ преобразовать каталог NLPub в семантическую вики 8 для предоставления машиночитаемых данных с http://qa.nlpub.ru/ 9 одновременным сохранением удобства внесения http://russianword.net/ 10 правок и дополнений в материалы проекта. https://metrika.yandex.ru/stat/?counter_id=17329045 NLPub: a Catalogue and a Community for Благодарности. Автор выражает огромную благодарность всем пользователям NLPub, Russian Linguistic Resources принявшим участие в работе над материалами Dmitry Ustalov проекта. The lack of coordination in the information on Литература existing tools and resources for Russian language processing has become a significant problem. Such a [1] Д. А. Усталов. Каталоги лингвистических problem complicates both research and practical ресурсов: состояние и перспективы // Молодой applications thwarting with the progress of the whole ученый. — 2012. — Т. 1, №12 (47). — С. 148– field. A specialized catalogue for linguistic resources 152. may assist one in getting this problem solved. In this [2] Д. А. Усталов. NLPub — каталог survey NLPuba catalogue and a community for Russian лингвистических решений. linguistic resources is presented and compared with its http://habrahabr.ru/post/152429/ analogs. Its data gathering and representation [3] Ю. А. Загорулько и др. Подход к построению approaches are also described and the merotomy is предметной онтологии для портала знаний по demonstrated. The experience obtained since the project компьютерной лингвистике // Компьютерная start is outlined and future work directions are stated. лингвистика и интеллектуальные технологии: Труды международной конференции «Диалог». — 2006. — С. 148–151. 60