Автоматическое наполнение информационных систем библиографическими сведениями о научных публикациях♣ © Ю.А Загорулько, О.О. Дяченко Институт систем информатики имени А.П. Ершова СО РАН, г. Новосибирск zagor@iis.nsk.su, dyachenko.oleg@gmail.com Аннотация данными. Вручную выполнить такую работу достаточно сложно, поэтому предпринимаются В докладе описывается подход к попытки ее автоматизации. автоматизации наполнения Рассмотрим наиболее значимые подходы к информационных систем созданию баз данных цитирования. библиографическими сведениями о Согласно предложенной Дэвидом Сонгом научных публикациях. В рамках этого модели универсальной базы данных цитирования подхода разработан метод автоматического [18] все публикации должны быть описаны в построения формальных описаний научных стандартном формате. Ссылки на цитаты статей, а также метод автоматического (библиографические ссылки) должны даваться в добавления таких описаний в контент XML-документе, построенном согласно портала научных знаний. определенной структуре. Дэвидом Сонгом была представлена такая XML-структура, в которой были 1. Введение определены правила описания всех публикуемых статей. В связи с бурным ростом числа публикаций по Разработанная исследовательским институтом различным отраслям знаний становится все труднее корпорации NEC автономная система найти нужную печатную работу. Для облегчения индексирования цитат ResearchIndex [3] этой задачи создаются электронные архивы автоматически индексирует публикации по научных статей [8, 9], информация о них информатике, обнаруженные в Web. представляется в базах данных (БД) цитирования [7, Отдельный класс составляют так называемые 12, 16] и порталах научных знаний [11, 17]. менеджеры ссылок (Reference managers) [1, 2, 4], Главным требованием к таким информационным позволяющие пользователям, как правило, авторам системам является обеспечение пользователя публикаций или исследователям, создавать и гибкими и удобными средствами поиска, навигации использовать свои локальные базы данных и доступа к представленным в них статьям. Причем цитирования. Большинство из предлагаемых эти системы должны предоставлять пользователю программ этого класса не обеспечивают не только метаданные статьи (название, авторов, автоматического получения информации о статье из аннотацию, ключевые слова, библиографическую внешних файлов. Исключение составляет лишь ссылку и т.п.), но и информацию о ее связях с Mendeley Desktop [4], работающий с PDF-файлами, другими публикациями. однако он обеспечивает низкое качество извлечения Для того, чтобы информационная система информации о статье. Помимо этого ни одна из оставалась актуальной, необходимо постоянно рассмотренных программ не работает с пополнять ее сведениями о новых публикациях. неразмеченными документами. Сбор таких сведений является очень трудоемким Каждый из рассмотренных подходов имеет процессом – для каждой научной статьи свои достоинства и недостатки. В одних подходах необходимо получить ее формальное описание, вся «работа» возложена на автора или издательство, включающее ее основные атрибуты и список в других наоборот – ручной труд практически содержащихся в ней библиографических ссылок, а исключен, но при этом ухудшается качество поиска, затем добавить это описание в конвент так как некоторые атрибуты статьи (например, информационной системы, обеспечив его автор или заголовок) не всегда правильно согласованность и связанность с ранее введенными извлекаются из текста. Таким образом, задача разработки системы, Труды 13й Всероссийской научной конференции которая бы позволяла автоматически извлекать «Электронные библиотеки: перспективные методы и библиографические сведения из неразмеченных технологии, электронные коллекции» - RCDL’2011, текстов научных публикаций и заносила бы их в Воронеж, Россия, 2011. 177 информационные системы, является актуальной. характерных для библиографической ссылки Рассмотрению одного из подходов к решению этой элементов. задачи и посвящен данный доклад. Символьные блоки располагаются в шаблоне между блоками-полями и позволяют существенно 2. Построение формального описания улучшить результаты работы отдельного шаблона. научных статей Применение каждого шаблона происходит по следующему алгоритму: Рассмотрим метод автоматического построения 1) Если в шаблон входят символьные блоки, формальных описаний научных статей. Прежде проверяется их наличие и правильная всего, отметим, что формальное описание статьи последовательность в ссылке, иначе – переход к состоит из двух блоков. Первый из них, включает следующему шаблону; основные характеристики статьи, извлекаемые из ее 2) Каждая из частей цитаты, заключенная вводной части: «название», «авторы», «аннотация», между символьными блоками, проверяется на «ключевые слова». Второй блок содержит описание соответствие блокам-полям, стоящими в шаблоне содержащихся в статье библиографических ссылок между ними, в случае несоответствия – переход к (цитируемых в статье публикаций). Каждое из этих следующему шаблону; описаний включает такие атрибуты, как «название», 3) Если всем полям цитаты установлены «авторы», «год издания», «название журнала», соответствия, то цитата считается разобранной. «том», «выпуск», «первая страница», «последняя Достоинством предложенного метода страница», «URL» и другие. построения формальных описаний научных статей Автоматическое построение формального является возможность его декларативной настройки описания научной статьи выполняется с на коллекцию документов, подлежащих обработке. использованием эвристических правил и Это необходимо в связи с тем, что правила иерархической системы шаблонов и включает оформления статей, особенно списка цитируемой следующие этапы: литературы, у разных изданий различаются. Такая (1) с помощью эвристических правил и с опорой настройка обеспечивается путем модификации на маркеры (характерные слова или набора высокоуровневых (полных) шаблонов, словосочетания) выделяются основные разделы обеспечивающих обработку статей, и задания им статьи (заголовок, список авторов, аннотация, весовых коэффициентов, определяющих их ключевые слова, список литературы), авторитетность при разборе библиографических (2) на основе анализа выделенных разделов ссылок. (Более подробно метод автоматического определяются основные характеристики статьи, построения формального описания научной статьи (3) на основе иерархической системы шаблонов описан в [14].) и регулярных выражений выполняется К настоящему времени разработан синтаксический разбор библиографического списка конструкторский интерфейс, позволяющий и формируется его формальное представление, редактировать полные, иерархические шаблоны, и (4) все полученные данные о статье заносятся в частичные, низкоуровневые шаблоны на языке базу данных цитирования (библиографических PCRE [5]. С использованием конструкторского ссылок). интерфейса был сформирован набор шаблонов, Под синтаксическим разбором элемента покрывающий наиболее часто используемые библиографического списка или цитаты в п.3. форматы описания библиографических ссылок. понимается определение входящих в нее полей и Разработан модуль, реализующий указанный метод нахождение их значений. Согласно нашему автоматической обработки текста статьи, подходу, синтаксический разбор осуществляется средствами СУБД MySQL реализована база данных путем сопоставления цитаты шаблонам, описанным цитирования, а также пользовательский интерфейс, следующим образом: позволяющий просматривать и редактировать <шаблон> ::= {<блок-поле>|<символьный блок>}+ полученные формальные описания статей. Блок-поле в записи шаблона представляет собой При построении формального описания статьи имя поля, заключенное в угловые скобки. порождаются два основных вида объектов – авторы Определение в цитате значения некоторого блок- и публикации. Рассмотрим их структуру подробнее. поля происходит при помощи низкоуровневых Каждый объект-автор имеет набор полей, (частичных) шаблонов, описанных на языке которые могут иметь либо одно, либо множество регулярных выражений (PCRE), путем нахождения значений. Схема представления такого объекта им соответствий в цитате. В случае, если цитата имеет вид: подходит под шаблон, то указанным полям ставится Author = . это просто набор символов, как правило, Первый элемент такого объекта (Id_Author), присутствующий в шаблоне для описания задает уникальный идентификатор персоне – автору публикации, смысл других полей понятен из их 178 названия. Заметим, что автор может иметь «Публикация», а их поля Place_work (Место несколько мест работы и рабочих телефонов. работы) и Publisher (Издательство) – в объекты Объект-публикация представляется следующей класса «Организация». Кроме того, все полученные структурой: объекты связываются между собой различными Publication = < Id_Publication, Title, Year, отношениями. Например, объект класса Journal, Volume, Issue, Chapter, Number, Start_page, «Публикация» связывается с объектами класса End_page, Keywords, Alternate_title, Abstract, Url, «Персона» и «Организация», соответственно, Date, Publisher, Conference_location, Series_title, отношениями «Автор публикации» и «Издан в», а City, ISBN, Number_of_pages, Conference_name, объект класса «Персона» с объектами класса Edition, Language, AUTHORS, REFERENCES >. «Организация» отношением «Работает в». Объекты такого типа также имеют уникальный В соответствии с предложенным методом идентификатор (Id_Publication) и множество формальные описания статей последовательно атрибутов, представляющих метаданные статьи. извлекаются из базы данных цитирования и Особенностью объекта типа Publication является вносятся в контент портала в соответствии со наличие двух наборов ссылок – AUTHORS и схемой, описанной на Рис.1. REFERENCES. Первый задает ссылки на авторов 1. Осуществляется поиск в контенте портала данной публикации, второй – на публикации, на знаний статьи с таким же названием (Title). которые ссылается публикация, описываемая Поскольку в названии статьи могут содержаться данным объектом. различного рода ошибки (опечатки и пр. ошибки, На основе структурированного представления совершенные автором-составителем статьи, а также статей могут быть установлены ассоциативные ошибки, появившиеся из-за погрешностей в работе связи между публикациями и их авторами, а также модуля генерации формального описания статей), между самими публикациями. Это значительно считается, что название найдено, если оно совпадает облегчает поиск нужных статей, хранящихся в с названием публикации, присутствующей в информационной системе, и делает возможной контенте портала, с некоторым предопределенным навигацию по ним. Кроме того, такое представление уровнем точности [10]. статей создает хорошие предпосылки для 2. Если название не найдено, то «тело автоматизации процесса занесения их описаний в публикации», т.е. значения всех полей, кроме контент информационной системы. авторов и связей между публикациями, добавляется в контент портала; при этом запоминается 3. Автоматическое добавление идентификатор (ID) добавленной статьи и формальных описаний научных статей в осуществляется переход к п.6. 3. Если название найдено, то запоминается контент портала научных знаний идентификатор (ID) найденной статьи, после чего Задача автоматического добавления описаний выполняются дополнительные проверки, описанные статей в контент портала знаний является довольно в п.4. сложной в связи с тем, что необходимо обеспечить 4. Сравниваются множества авторов и не только корректность, но и согласованность и названий статей, на которые ссылается добавляемая связанность вводимых данных с ранее введенными статья и статья, запомненная под идентификатором данными. Сделать это непросто, потому что статья в ID. портале знаний представляется не одним, а целым a. Если множество авторов одной из статей – набором связанных объектов (практически каждый вносимой или имеющей идентификатор ID – элемент описания есть объект, будь то автор полностью содержится в множестве авторов другой публикации, место его работы и др., статьи, и списки библиографических ссылок у них представляются отдельными объектами), и каждый содержат общие элементы, либо хотя бы один из такой объект нужно проверить на корректность и них пуст, то считается, что объект найден, и существование в контенте портала. осуществляется переход к п.5. Поясним сказанное на примере портала по b. В противном случае считается, что статья компьютерной лингвистике [13, 17]. Каждая не найдена и выполняются действия из п.2. публикация в контенте такого портала 5. Выполняется объединение «тел статей» по представляется связанным набором объектов правилу: следующих классов: «Публикация», «Персона», a. Если какое-то поле в статье с «Организация» и др. В связи с этим при занесении идентификатором ID отсутствует, то оно формального описания публикации, представленной добавляется в контент. в БД цитирования, выполняются отображения ее 6. Если соответствующие поля совпадают с элементов в объекты портала, при этом только часть некоторым предопределенным уровнем точности полей формального описания статьи отображается в (может варьироваться для различных полей), то в атрибуты объекта класса «Публикация», остальные зависимости от уровня привилегий автоматического – в атрибуты объектов других классов. Например: добавления – либо статья с идентификатором ID структура Author отображаются в объекты класса остается неизмененной, либо записывается новый . «Персона», структура Publication в объект класса 179 Рис.1. Схема добавления статьи в информационную систему вариант, либо ID остается неизмененной, но при этом логируются данные о незаписанном поле в ID 4. Практические результаты 7. Сравниваются авторы новой статьи и статьи с идентификатором ID по алгоритму, С целью исследования эффективности работы описанному ниже. модуля генерации формальных описаний и метода a. Для каждой пары авторов, признанных пополнения контента портала знаний был проведен алгоритмом совпадающими, данные объединяются ряд тестов. аналогично схеме из п. 5. 4.1 Тестирование и настройка модуля генерации b. Все оставшиеся авторы просто добавляются формальных описаний в контент, а соответствующие им объекты связываются с объектом публикации. Процесс обработки корпуса текстов данным 8. Библиографические ссылки, содержащиеся модулем включает два этапа: в новой статье, добавляются в контент по 1) Настройка набора шаблонов на корпус описанному выше сценарию. текстов; Алгоритм сравнения авторов статьи состоит в 2) Использование модуля для следующем (см. Рис.2): автоматического получения формальных описаний 1. Авторы сравниваются по именам (ФИО) и статей. по месту работы/жительства. Настройка шаблонов выполнялась на небольшой a. Если ФИО авторов различны, либо выборке, включающей 50 докладов конференции одинаковы, но места работы/жительства у авторов “Диалог-2008”. По результатам экспериментов был различны, то считается, что авторы не совпадают. доработан исходный набор шаблонов. b. В противном случае, авторы совпадают. На втором этапе были использованы 200 статей Предложенный метод автоматического конференции «Диалог» за 2005, 2006, 2007, 2009 и добавления формальных описаний статей обладает 2010 годы. Так как все статьи были взяты с сайта рядом важных свойств: конференции, где они были представлены в 1. Обеспечивается недублируемость данных, формате html, а модуль генерации формальных 2. Метод различает объекты с похожими описаний работает только с текстовым форматом характеристиками путем сравнения объектов не (txt), то перед обработкой статей потребовалось только по ключевым характеристикам, но и по удаление из их текстов тегов разметки. второстепенным уникальным свойствам. В результате проведения экспериментов были Таким образом, с помощью этого метода получены следующие результаты: возможно эффективное импортирование данных из БД цитирования в информационные системы, в частности, порталы знаний. 180 Рис.2. Схема алгоритма сравнения авторов статьи 1) Количество выделенных из текстов “Опыт теории лингвистических моделей названий статей (включая библиографические "Смысл Ы Текст". М.:” ссылки) составило 2194; после исключения и ошибочно определенных названий эта цифра “Опыт теории лингвистических моделей Смысл уменьшилась примерно до 2000; <-> Текст” 2) Количество извлеченных из статей должны определяться как совпадающие. различных авторов – 1378 (с учетом повторений – В качестве метода вычисления расстояния около 2000); заметим, что при обработке авторов между строками были предприняты попытки было допущено существенно меньше ошибок – 29; использовать расстояние Левенштейна [10], 3) Процент правильно обработанных вводных определяемое как минимальное количество частей статей, содержащих основную информацию операций вставки, удаления или замены одного о них, составил около 90%; символа на другой, необходимых для превращения 4) Процент правильно выделенных одной строки в другую. Однако, к сожалению, для (подошедших) под шаблоны цитат составил около сравнения названий статей этот показатель не 85%; следует заметить, что это, отчасти, было подошел, поскольку разница в написании даже вызвано ошибками при составлении цитат самими одного слова, например, из-за орфографической авторами статей, например, не проставлением ошибки, замены предлога знаком пунктуации или знаков препинания, а также огрехами удаления сокращения, приводили к резкому возрастанию разметки. расстояния между строками, что делало Часть статей была исключена из тестовой использование порогового значения расстояния выборки, поскольку предварительное удаление неудовлетворительным, каким бы оно не было. разметки сторонними инструментами привело к По этой причине было решено использовать повреждению внутренней структуры их текста, что несколько модифицированное расстояние, не позволило выполнить их автоматическую выраженное в количестве процентов, которое обработку удовлетворительно. составляет расстояние Левенштейна от минимальной длины двух сравниваемых строк: 4.2 Тестирование метода пополнения контента портала Тестирование метода проводилось на БД портала по компьютерной лингвистике. Поскольку метод пополнения контента портала где leven(s1,s2) – функция расстояния использует сравнение строк и понятие “допустимой Левенштейна, |si| – длина строки. точности”, необходимо было определить, каким Сравнение строк производилось следующим образом их можно было сравнивать, учитывая, что образом: строки 1) Выполняется приведение строк к нижнему регистру; 181 2) Из строк удаляются все небуквенные сравнения вновь добавляемых статей со статьями, символы; уже представленными в их базах данных, поскольку 3) Вычисляется расстояние между строками; частично эта работа выполняется вручную (в случае 4) В случае, если расстояние больше с SCOPUS и РИНЦ). заданного порогового расстояния, то строки Web of Science описывает свой метод сравнения считаются различными, иначе – совпадающими. названий статей [6] на примере сравнения названий Для определения величины порогового значения двух журналов: были проведены эксперименты по International Journal of Manufacturing and импортированию результатов работы модуля Production Systems и генерации формальных описаний в локальную БД International Journal of Manufacturing and портала по компьютерной лингвистике с заданием Production Services различных пороговых значений При этом сообщается, что различать подобные Из примерно 2000 выделенных названий статей, названия статей достаточно просто, приведя их к только 71 уже присутствовало в БД. сокращенной (аббревиатурной) форме, используя В результате эксперимента были получены БД сокращений. Например, для первого названия данные, представленные в таблице 1. такой формой будет: INT J MANUF PROD SYS. Так как подход, использованный в Web of Таблица 1. Зависимость числа отождествленных Science к различению названий, основывается на статей от порогового значения. англоязычной базе данных сокращений, которой Порог Число отожд. Число ошиб. она располагает, это не позволяет нам сравнивать 90 1468 1397 подход Web of Science с нашим подходом. В то же 50 114 43 время, модификация нашего подхода с 30 75 4 использованием идей, предложенных в подходе 25 72 1 Web of Science, является одним из возможных 20 71 0 направлений его развития. 10 64 7 5 63 8 5. Заключение Рассмотрен подход к автоматическому Таким образом, исходя из приведенных в наполнению информационных систем Таблице 1 данных эксперимента, пороговую библиографическими сведениями о научных величину целесообразно выбирать в интервале от 10 статьях. В рамках этого подхода разработана до 20, что соответствует 1-2 опечаткам на каждые формальная структура представления статьи, 10 букв. Большее пороговое значение будет разработан и реализован метод автоматического приводить к большему числу ошибочно построения формальных описаний научных статей. отождествленных статей. Его достоинством является возможность Среди извлеченных из статей 1378 авторов, декларативной настройки на коллекцию только 105 оказались уже представленными в БД. документов, подлежащих обработке. Средствами Это указывает на практическую целесообразность СУБД MySQL реализована база данных автоматического пополнения контента портала и цитирования, а также пользовательский интерфейс, информационных систем в целом. позволяющий просматривать и редактировать 4.3 Сравнение с существующими системами полученные формальные описания статей. Разработан и реализован метод автоматического Следует заметить, что выполненная работа была добавления формальных описаний научных статей в нацелена не на создание универсальных индексов информационные системы, интегрирующие знания цитирования, а на получение данных о публикациях и информационные ресурсы по определенной для порталов знаний и других информационных области знаний. систем, интегрирующих знания и информационные Для обеспечения возможности импорта ресурсы определенной тематики. В настоящий сторонних публикаций в БД цитирования, а также момент, имеющиеся в портале данные не использования формальных описаний статей, используются для оценки эффективности научной полученных предложенным методом, в других деятельности, но их наличие создает предпосылки к системах разработано представление этих описаний построению сетей цитирования и соавторства, в формате XML и реализованы модули экспорта в которые позволят выявлять наиболее значимые такой формат и импорта из него. (цитируемые) публикации, скрытые научные Описанные в докладе методы были сообщества и т.п. использованы для пополнения контента портала К сожалению, такие реферативно- знаний, обеспечивающего содержательный доступ к библиографические базы данных научного систематизированным знаниям и информационным цитирования, как отечественный РИНЦ, а также ресурсам по компьютерной лингвистике [13]. В зарубежные Web of Science и SCOPUS не частности, предложенные средства использовались предоставляют в открытой форме алгоритмов для внесения в контент указанного портала 182 сведений о статьях, представленных на Сборник трудов десятой юбилейной конференции «Диалог» в 2005-2010 гг. [15]. международной конференции "Крым 2003. В дальнейшем предполагается расширить Библиотеки и ассоциации в меняющемся мире: функциональность рассмотренного модуля новые технологии и новые формы генерации формальных описаний статей сотрудничества". Украина, Крым, 2003. возможностью обработки документов, представленных не только в формате txt, но и других форматах (pdf, html и др.). Automatic Filling of Information Systems with Bibliographic Records of Scientific Литература Publications [1] BiblioScape 8, 2011. www.biblioscape.com/ © Yu.A. Zagorulko, O.O. Dyachenko [2] I, Librarian, 2011. www.bioinformatics.org/librarian/ The paper describes an approach to automation of [3] Lawrence, S., Giles, C.L. & Bollacker, K. (1999). the filling of information systems with bibliographic Digital libraries and autonomous citation indexing. descriptions of scientific publications. In the framework In IEEE Computer. 32(6). of this approach, a method of generation of formal [4] Mendeley Desktop, 2011. www.mendeley.com/ descriptions of scientific papers and a method of [5] Perl Compatible Regular Expressions (PCRE). automatic addition of these descriptions in the content http://pcre.org of a scientific knowledge portal were developed. [6] Robertson J. Cited Title Unification. Thomson An advantage of the suggested method of generation Reuters. of formal descriptions of scientific papers is a http://thomsonreuters.com/products_services/scien possibility of its declarative adjustment to collection of ce/free/essays/cited_title_unification/ documents to be processed. [7] Scientific Literature Digital Library and Search Engine, 2011. http://citeseerx.ist.psu.edu [8] The Internet Archive, non-profit Internet library, ♣ Работа выполнена при финансовой поддержке РФФИ 2011. http://www.archive.org (проект № 09-07-00400). [9] The Rhine Recearch Center, 2011. - http://www.rhine.org [10] Wikipedia. Статья о Расстоянии Левенштейна. http://ru.wikipedia.org/wiki/Расстояние_Левеншт ейна [11] Археологический портал знаний, 2011. - http://www.sati.archaeology.nsc.ru/classarch2/ [12] База данных цитирования по нанотехнологиям, 2011. http://thomson.collexis.com/nano/ [13] Боровикова О.И., Загорулько Ю.А., Загорулько Г.Б., Кононенко И.С., Соколова Е.Г. Разработка портала знаний по компьютерной лингвистике // Труды 11-ой национальной конференции по искусственному интеллекту с международным участием КИИ-2008. М.: ЛЕНАНД, 2008. Т.3. С.380-388. [14] Дяченко О.О., Загорулько Ю.А.. Генерация формальных описаний научных статей для информационных систем // Труды 12-й национальной конференции по искусственному интеллекту с международным участием – КИИ-2010. – Москва: Физматлит, 2010.. -Т.1. -С.225-233. [15] Материалы конференции «Диалог». - http://dialog-21.ru [16] Научная электронная библиотека, российский информационный портал eLIBRARY.RU, 2011. http://elibrary.ru [17] Портал по компьютерной лингвистике, 2011. - http://uniserv.iis.nsk.su/cl/ [18] Сонг Д. Новая модель базы данных цитирования на языке XML с использованием XQuery в качестве поискового языка // 183