=Paper= {{Paper |id=None |storemode=property |title=Автоматическое связывание документов (Automatic Document Linking) |pdfUrl=https://ceur-ws.org/Vol-934/paper46.pdf |volume=Vol-934 |dblpUrl=https://dblp.org/rec/conf/rcdl/KnyazevaTK12 }} ==Автоматическое связывание документов (Automatic Document Linking) == https://ceur-ws.org/Vol-934/paper46.pdf
               Автоматическое связывание документов

       c А.А. Князева
       ⃝                        c И.Ю. Турчановский
                                ⃝                                            c О.С. Колобов
                                                                             ⃝
                     Томский филиал                                      Институт сильноточной
     Института вычислительных технологий СО РАН                           электроники СО РАН
                          Томск                                                   Томск
     aknjazeva@ict.nsc.ru         tur@hcei.tsc.ru                          okolobov@hcei.tsc.ru


                  Аннотация                                В более общей формулировке задача связы-
                                                        вания может быть поставлена для документов
    В работе рассматривается задача ав-                 разных типов, имеющих различную структуру.
    томатического связывания документов,                В то же время, задача связывания документов
    относящихся к одному и тому же                      одного типа, то есть выявления дублирующихся
    объекту реального мира. Предлагается                документов в одном или нескольких источниках
    алгоритм, основанный на классификации               является частным случаем рассматриваемой за-
    с использованием расстояния Махалан-                дачи. Разумеется, при этом речь идет о нечетких
    обиса. Работа алгоритма иллюстрируется              дубликатах, поскольку нередки ситуации, когда
    на примере связывания библиографиче-                дублирующиеся документы имеют различные
    ских записей и авторитетных записей                 значения в одном или нескольких полях [4].
    имен авторов в формате машиночитаемой               Причинами такого несоответствия могут быть
    каталогизационной записи (MARC).                    опечатки, перестановки слов и символов, про-
                                                        пуски данных, а также привычки и традиции
                                                        каталогизаторов.
1   Введение                                               Безусловно, самым простым подходом к
                                                        задаче связывания является принятие решения
В рамках работы рассматривается задача восста-          о соответствии записей на основе некоторых
новления отсутствующих или утраченных связей            правил. Эти правила могут быть относительно
между документами в контексте библиотечных              простыми или достаточно сложными, в зависи-
данных. В качестве документа может выступать            мости от конкретной системы. Такой подход к
как запись из электронного каталога библиотеки,         установлению связей можно назвать детермини-
так и полнотекстовый документ с внедренными             стическим. Однако на практике далеко не всегда
метаданными. Главное требование к документу -           есть возможность выработать исчерпывающий
он должен содержать информацию о свойствах              набор правил, особенно в условиях, когда часть
объекта в виде набора атрибутов с определенной          информации отсутствует.
структурой. В качестве примера работы алго-
ритма в данной работе приводятся результаты
                                                        2   Связанные работы
эксперимента по связыванию библиографических
записей и авторитетных записей имен авторов.            Впервые задача автоматического связывания
Тем не менее, подход является достаточно общим          без применения фиксированных правил была
и может быть перенесен на связывание полнотек-          сформулирована Ньюкомби [14] в контексте
стовых документов с авторитетными записями.             сопоставления записей о рождениях с запися-
Под связыванием документов в рамках работы              ми о регистрации брака. Суть предложенного
понимают сравнение информации из различных              решения заключается в подсчете количества сов-
источников данных с целью определения, какие            павших полей. Если это количество превышает
пары документов представляют один и тот же              некоторый заданный заранее порог, то записи
объект реального мира [4, 17]. Таким объектом           признаются соответствующими, в противном слу-
может быть, например, некоторый документ,               чае - несоответствующими. В дальнейшем для
автор или организация. Эта задача также                 идей Ньюкомби была разработана формальная
известна под названием связывания записей,              математическая модель, получившая название
идентификации сущностей и т.п.                          вероятностной модели связывания Fellegi-Sunter
                                                        (FS) [5], на которой в настоящее время осно-
Труды    14-й  Всероссийской   научной  конференции
«Электронные библиотеки: перспективные методы и
                                                        вано целое семейство вероятностных моделей,
технологии, электронные коллекции» — RCDL-2012,         например, модели основанные на штрафах или
Переславль-Залесский, Россия, 15–18 октября 2012 г.     использующие EM-алгоритм [4]. Описанный



                                                  299
подход основан на явной оценке условных веро-          решаемой задачи можно отнести то, что они не
ятностей соответствия записей, он предполагает         поддерживают данные сложной структуры, тре-
знание распределения признаков соответствия            буют установления правил связывания в явном
или их взаимную независимость [1].                     виде или принятия предположений о функции
   Альтернативой является более прямой под-            распределения признаков и их взаимной неза-
ход, основанный на методиках машинного                 висимости, которые часто не выполняются на
обучения [2]. Это может быть обучение с учите-         практике.
лем или без него. Основная идея заключается в             Группу систем, работающих с библиогра-
том, чтобы относить пару документов к классу           фическими данными, в свою очередь можно
соответствующих или несоответствующих пар на           разделить на две части: системы для «просто-
основании ее схожести с остальными парами              го» формата библиографической ссылки (такого
класса. Применение такого подхода не требу-            как BiBTEX или неструктурированная библио-
ет независимости признаков, что существенно            графическая запись) и системы для работы
расширяет область применения.                          с «профессиональными» форматами (семейство
   Диапазон существующих систем связывания             MARC-форматов). Первая группа систем вынуж-
документов достаточно широк: техники для               дена больше внимания уделять такой частной
установления RDF-ссылок в Веб, базы данных             задаче, как автоматическая разметка неразме-
с адресами клиентов и организаций, системы             ченного текста (чтобы выделять из текстовой
для связывания демографической и медицинской           строки элементы библиографического описания).
информации о персонах и др.                            Во второй группе такая необходимость отпадает
   В отдельную группу можно выделить методы,           благодаря сложной структуре формата, но в то
предназначенные для связывания данных в                же время появляется необходимость учета этой
Веб с помощью установления RDF-ссылок,                 структуры, в которой одна и та же информация
реализованные, напримерм в системе Silk [8].           может быть внесена по-разному, в зависимости
Хотя в основе таких методик лежат те же                от предпочтений каталогизаторов. К первой
общие предположения, что и во всех системах            группе можно отнести системы DIFWICS [7] и
связывания, специфичность области применения           MARLIN [2], а ко второй проект VIAF [16].
не позволяет непосредственно использовать              Однако, хотя в проекте VIAF и реализована
данные системы для решения рассматриваемой             работа с данными в MARC-формате, он не пред-
задачи.                                                лагает механизма для автоматической оценки
   Наиболее многочисленной является группа             весов признаков, поскольку основан на использо-
систем, настроенная на поиск дубликатов в              вании эмпирических правил. Кроме того, проект
одном или нескольких текстовых файлах (либо            нацелен на поск дублирующихся записей, а не
в реляционых БД), содержащих сведения об               связывание записей различных типов. Таким
именах, почтовых адресах, телефонах, номерах           образом, несмотря на некоторое сходство, не
страховки и т.п. Чаще всего, для принятия              представляется возможным заимствовать подход,
решения о соответствии записей используется            использованный в проекте VIAF для решения
набор правил или классическая вероятностная            поставленной задачи.
модель F-S. В первом случае система предо-
ставляет пользователю возможность определения
того, насколько важно совпадение по тому
                                                       3   Модель системы связывания
или иному признаку. На практике это может
                                                       Для процедуры связывания необходимо опреде-
быть достаточно трудно сделать, поскольку не
                                                       лить несколько основных моментов.
всегда в распоряжении пользователя есть такая
                                                          Так, необходимо задать правила для опре-
информация. Во втором случае вес того или
                                                       деления того, достаточно ли информации для
иного признака вычисляется автоматически, на
                                                       связывания содержится в записи. Кроме того,
основании функции правдоподобия (например,
                                                       необходимо определить правила для нормализа-
система AutoMatch [10]). При этом принима-
                                                       ции данных, которые бы позволили стандартизи-
ется предположение о функции распределения
                                                       ровать значения (например, с помощью словаря
признаков, а также их взаимной независимости.
                                                       допустимых значений).
Также, многие системы предлагают использова-
                                                          Далее следует предусмотреть варианты сокра-
ние одного из описанных механизмов на выбор
                                                       щения перебора при поиске записей-кандидатов
пользователя (Febrl [3], FRIL [11] и другие).
                                                       для связывания, поскольку в крупных хра-
Системы этой группы отличаются друг от
                                                       нилищах затраты на подробный анализ всех
друга гибкостью настройки, инструментами для
                                                       возможных пар записей могут быть неприемлимо
нормализации данных и сравнения отдельных
                                                       большими.
полей, возможностями визуалицации и т.п. К
                                                          Еще одним важным моментом является выбор
недостаткам систем этой группы с точки зрения
                                                       способа для сравнения значений на уровне



                                                 300
полей. Даже при проведении нормализации,              возникающих из-за сокращений, перестановки
использование строгого сравнения может быть           слов и т.п.
необоснованным. Зачастую необходимо оценить               Существует множество подходов к нормали-
степень соответствия полей записей, чтобы             зации данных. Это может быть использование
учесть и частичное соответствие информации.           конечного словаря для значений поля, автомати-
   Когда оценивается степень подобия между            ческая разметка текста на естественном языке
записями, состоящими из множества полей,              для определения о каком объекте идет речь и
возникает необходимость комбинировать оценки          т.п.
подобия для отдельных полей. Поскольку                    В данной работе рассматриваются записи
соответствие между общим подобием записей             в формате RUSMARC, созданные профессио-
и подобием в отдельных полям может сильно             нальными каталогизаторами, поэтому в блоке
варьироваться, то необходимо взвешивать поля          нормализации производится только проверка
и каким-либо образом оценивать вклад каждого          записи на соответствие профилю.
из них в соответствие на уровне записи [2].
   Перечисленные задачи, реализованные в              3.2   Составление пар
большинстве систем связывания [4], можно
рассматривать как этапы процедуры связывания:         Сравнение входящего документа с каждым
                                                      из авторитетных документов, может оказаться
1. Нормализация;                                      необоснованно трудоемким процессом. В частно-
2. Составление пар;                                   сти, при работе «на лету» может потребоваться
                                                      сократить количество авторитетных документов,
3. Сравнение   отдельных   полей   в   парах          которые будут сопоставляться с входящим. Су-
   записей;                                           ществует множество способов ограничить круг
4. Вынесение решения о соответствии.                  записей для сопоставления. Приведем некоторые
                                                      из них.
Кроме данных четырех этапов, непосредственно
участвующих в процедуре связывания, необхо-           1. Метод стандартных блоков выделяет записи
димо наличие еще двух: настройка системы                 в один блок в том случае, если они
и проверка качества связывания. Последние                содержат идентичный блочный ключ [9].
два включаются в работу периодически при                 Блочные ключи формируются на основе
расширении базы данных. Принцип работы у                 атрибутов записей, например, первые 4
них общий: для записи, относительно которой              символа фамилии. Кроме того, блочный
уже известно правильное решение (с какой                 ключ может быть и составным, например,
из авторитетных записей ее нужно связать)                атрибут «индекс» может сочетаться с
проводится процедура связывания и в первом               атрибутом «возраст». Ключи должны быть
случае уточняются параметры системы, а во                выбраны таким образом, чтобы блоки не
втором оценивается, насколько успешно система            были ни слишком большими, ни слишком
справилась с задачей.                                    мелкими.
   Рассмотрим подробнее описанные выше эта-
пы.                                                   2. Метод ближайших соседей [6] сортирует
                                                         записи на основе сортирующего ключа
                                                         и затем двигает окно фиксированного
3.1   Нормализация
                                                         размера ω последовательно по всем запи-
Блок нормализации решает две задачи: проверка            сям. Записи внутри окна составляют пары
записи на соответствие профилю и анализ ее               друг с другом и включаются в список
отдельных полей. Проверка на соответствие                пар-кандидатов. Использование окна огра-
профилю позволяет определить достаточно ли               ничивает число возможных сравнений для
информации, содержащейся в записи, для свя-              каждой записи до 2ω − 1. Метод может
зывания. Анализ отдельных полей предназначен             некорректно работать в том случае, если
для очистки и нормализации данных.                       количество записей с одним значением
   На практике большинство коллекций данных              ключа превышает размер окна, поскольку в
содержат засоренную, неполную, неправильно               такой ситуации будут сравниваться не все
форматированную информацию. Очистка данных               нужные записи.
и их нормализация - необходимые этапы                 3. Метод Bigram-индексирования [3] предна-
подготовки данных перед их загрузкой в                   значен для нечеткого разбиения на блоки.
хранилище и использованием для дальнейшего               Основная идея заключается в том, что
анализа. Особенно важно решение этих задач               значения блочных ключей конвертируются
в распределенных системах. Цель нормализации             в лист биграм (подстрок, состоящих из
данных - избавиться от вариаций в написании,             двух символов) и затем из этих биграм



                                                301
      формируются списки на основе заданного             различно записанные слова, символьные меры
      порога (например, выбираются все записи,           предпочтительнее, поскольку они могут оценить
      в которых встречается 80% биграм).                 разницу между строками более детально [2].
                                                            Далее методы можно классифицировать по
   В рамках данной работы принят метод поиска            тому, как вычисляются их параметры, например
по составному ключу, состоящему из двух                  «стоимость» операции редактирования или вес
значений: фамилия и инициалы автора. Значение            токена. Параметры могут быть фиксированными,
ключа определяется по входящему документу, а             вручную подобранными исследователем (кон-
поиск производится в авторитетной базе данных.           текстно-независимые методы), вычисленными на
При этом используется точное сопоставление.              основе характеристик БД или полученными
Такой механизм позволяет существенно сни-                в результате обучения с учителем (контекст-
зить трудоемкость без использования сложных              но-зависимые). В случае, если используются
вычислений.                                              контекстно-зависимые методы, включающие обу-
   Одной из важных черт предлагаемого подхода,           чение с учителем, необходимо определить
является использование расширенного автори-              обучающую выборку.
тетного документа для сравнения с входящим                  Результаты сопоставления строк также могут
документом, аналогичный подход используется в            варьироваться от одного метода к другому,
проекте VIAF [16]. Расширенная авторитетная              они могут быть записаны в виде бинарных,
запись кроме самой найденной авторитетной                категориальных, порядковых или непрерывных
записи включает информацию из библиографи-               величин.
ческих записей, уже хранящахся в системе                    Например, классический метод Левенштей-
и связанных с ней. Такой подход позволяет                на [12], определяющий расстояние как мини-
увеличить объем информации, задействованной              мальное число вставок, удалений или замен,
в анализе, и получать более точные результаты.           необходимых для перевода одной строки в
                                                         другую, относится к символьным методам с
3.3    Сравнение   отдельных   полей   в   парах         фиксированными параметрами (следовательно,
       записей                                           контекстно-независимый) и непрерывной пере-
                                                         менной результата.
Цель блока сравнения отдельных полей за-                    В рамках настоящей работы использовалась
ключается в оценке того, насколько записи                комбинация точного сравнения и сравнения с
совпадают по различным параметрам. Результа-             выделением основы слова по методу Snowball [15]
том работы блока является вектор, составленный           для русского языка. Такой выбор был обусловлен
из оценок близости двух строк, которые яв-               тем, что механизм стеммирования уже был
ляются значениями соответствующих полей.                 реализован на момент разработки алгоритма.
Существует огромное разнообразие методов со-
поставления строк, учитывающих различные
                                                         3.4   Вынесение решения для каждой из пар
аспекты сходства. Множество методов можно
классифицировать в соответствии с тем, на чем            Соответствие на уровне записей необязательно
они базируются, как определяются их параметры            означает однозначное соответствие на уровне
и в каком виде представляются результаты                 полей.
сопоставления.                                              Блок вынесения решения призван провести
   В основе метода сопоставления строк могут             анализ сравнительного вектора, полученного для
быть символы (как отдельные символы, так и               пары документов (авторитетного и библиографи-
q-граммы, наборы подстрок длины q) или токены.           ческого) и принять одно из двух возможных
В качестве примеров методов, базирующихся на             решений: соответствуют или не соответствуют
токенах, можно привести Метрику Джаккарда                эти записи друг другу.
или косинусную меру сходства в векторном                    Методы, используемые для решения задачи
пространстве. Методы, работающие с набором               связывания документов разделяются на две об-
подстрок определенной длины позволяют срав-              ширные категории. Детерминистические методы
нивать не целые слова, а комбинации в них,               в которых устанавливаются часто очень сложные
что может быть полезно при наличии орфогра-              правила и вероятностные методы, в которых
фических ошибок. Символьные метрики, такие               для классификации пар документов использу-
как расстояние Левенштейна и его различные               ются статистические модели [3]. Вероятностные
варианты, вычисляют подобие между строками,              методы могут быть в свою очередь разделе-
оценивая минимальное количество изменений,               ны на методы, основанные на классической
которые достаточны для перевода одной строки             вероятностной теории связывания [5], и бо-
в другую. В случае, когда данные представле-             лее поздние подходы, использующие различные
ны относительно короткими строками, которые              техники машинного обучения [2].
содержат одинаковые, хотя и орфографически


                                                   302
   Основное отличие классической модели от             коррелированность признаков и инвариантно к
методик машинного обучения заключается в               масштабу. Учет коррелированности позволяет
том, что она основана на предположении того,           отказаться от предположения о взаимной незави-
что сравнительный вектор является случайным            симости переменных, которое часто принимается
вектором, чья функция плотности различается            при классификации, и работать с зависимыми
для каждого из двух классов (совпадающих               признаками. В рамках решаемой задачи это яв-
и несовпадающих пар документов). При этом              ляется важным моментом, поскольку некоторые
предполагается, что классы этих плотностей из-         переменные достаточно сильно коррелированны.
вестны заранее и их параметры можно оценить.              Квадрат расстояния Махаланобиса между
Затем, задача сводится к вычислению вероятно-          двумя точками X и Y, определенными в
сти принадлежности сравнительного вектора к            p-мерном пространстве можно записать в виде:
каждому из классов при условии его конкретной
реализации и выбора наиболее вероятного клас-
са. Использование этого подход осложняется                      D2 (X, Y ) = (X − Y )C −1 (X − Y )T ,    (1)
тем, что на практике, как правило, классы
плотностей заранее неизвестны.                               где X и Y - векторы координат размерности
   Альтернативный подход заключается в ис-             p;
пользовании методик машинного обучения, поз-              C −1 - матрица, обратная ковариационной
воляющих не делать предположений о функциях            матрице.
плотности соответствующих и несоответствую-               Заменив один или оба вектора в формуле (1)
щих пар, а классифицировать пару документов            на вектор координат центроида первого класса
на основе ее подобия одному из классов.                µ1 или второго µ2 , получим расстояние от точки
Такой подход возможен, например, если выбрать          до класса или расстояние между классами.
некоторый центроид класса, а затем вычислить           На практике оценить расстояние Махаланобиса
расстояние до центроидов обоих классов и               можно подставив соответствующие оценки сред-
выбрать наименьшее.                                    них значений и матрицы ковариации. В качестве
   Рассмотрим три подхода к построению                 оценки матрицы ковариации в формуле (1)
решающей функции [4].                                  будем использовать внутригрупповую матрицу
                                                       ковариации W, элементы которой находится по
1. Индукционная модель связывания записей:             формуле:
   в основе лежит машинное обучение с
   учителем, предполагаем, что есть обуча-                             g   nk
                                                                   1 XX
   ющая выборка, в которой для каждого                 Wij =                   (Xikm − Xik. )(Xjkm − Xjk. ),
                                                                n. − 2
   образца точно известен класс. Эта выборка                           k=1 m=1
   используется для построения классифика-                                                              (2)
   тора, приванного относить любой новый               где
   образец к определенному классу.                        g - число классов;
                                                          nk - число наблюдений в k-м классе;
2. Кластерная модель связывания записей —
                                                          n. - общее число наблюдений по всем
   это модель обучения без учителя, она
                                                       классам;
   не требует обучающей выборки. Принцип
                                                          Xikm - величина переменной i для m-го
   таков: разбиваем все пары на три кла-
                                                       наблюдения в k-м классе;
   стера с помощью некоторого алгоритма
                                                          Xik. - средняя величина переменной i в k-м
   кластеризации, затем определяем какой
                                                       классе.
   кластер относится к какому статусу: со-
                                                          Воспользовавшись расстоянием Махалоноби-
   ответствие, несоответствие или возможное
                                                       са можно произвести отбор наиболее ин-
   соответствие.
                                                       формативных признаков (то есть признаков,
3. Гибридная модель. На первом шаге ис-                позволяющих наиболее четко разделить классы),
   пользуя кластерную модель для анализа               а также спрогнозировать принадлежность к клас-
   некоторого количества пар, затем эти па-            су для новых наблюдений (вычислив расстояния
   ры становятся обучающей выборкой для                до обоих классов и выбрав наиболее близкий
   применения обучения с учителем.                     класс).

   В рамках данной работы используется
индукционная модель. Классификация пары до-            4     Описание эксперимента
кументов к классу соответствующих, либо к
классу несоответствующих пар производится с            При проведении эксперимента ставилась цель
помощью расстояния Махалонибиса [13], вы-              проанализировать пригодность предлагаемого ал-
бранного благодаря тому, что оно учитывает             горитма для решения задачи автоматического



                                                 303
связывания библиографических записей с ав-             00161/Н340-682478
                                                       700 1$a Шилов $b Б. В.$gБорис
торитетными записями имен авторов. Данные
                                                         Владимирович$cцитолог$f19710323
для эксперимента были предоставлены НП
                                                         $3AShilov\_BoriB2003100663480700
МедАрт [18].                                           701 1 $aИванов$bВ. В. $gВладимир
   Эксперимент проводился на системе, включа-            Владимирович $cбиохимик $f19530130
ющей:                                                    $3AIvanovVladV2004042963480700
                                                         $pкафедра биохимии и молекулярной
1. Библиографическую базу данных (ББД),                  биологии СГМУ
   около 300 000 записей в формате                     701 1 $aКазанский $bВ. Е.
   RUSMARC;                                            71202 $aСибирский медицинский
                                                         университет $cТомск
2. Авторитетный файл имен авторов (АФА),
   около 10 000 записей в формате RUSMARC
   AUTHORITY.                                           Рис. 2: Фрагмент библиографической записи

   На основе АФА был составлен список
фамилий с инициалами, соответствующих сразу            4.1     Факторы
двум и более авторитетным записям (42 фамилии
                                                       Рассмотрим подробнее переменные, по которым
с инициалами). Для каждой из фамилий были
                                                       осуществляется связывание записей (таблица 1).
составлены пары из авторитетной записи (АЗ) и
                                                          Результирующая переменная out отвечает
библиографической записи (БЗ), всего 1215 пар.
                                                       за принадлежность библиографической записи
Полученное множество было случайным образом
                                                       данному автору (другими словами за принад-
разделено на обучающую и тестовую выборки.
                                                       лежность наблюдения к одной из двух групп).
   Кроме наличия однофамильцев к авто-
                                                       Остальные переменные в нашем эксперименте
ритетным записям предъявлялось требование
                                                       являются факторными и указывают на степень
полноты: наличие информации о дате рождения,
                                                       соответствия информации о годах жизни автора,
географических и профессиональных дополне-
ний, аннотации (наличие полей 001, 200 ($a,
$b, $c, $f, $y), 830$a).
   В рамках эксперимента намеренно игнориро-                 Таблица 1: Основная группа переменных
валась информация о расшифровке инициалов
(200 $g) для увеличения области совпаде-                      Переменная       Сравнение     АЗ      БЗ
ния авторитетных и библиографических записей                        out          точное      001    701$3
и, следовательно, объема обучающей выборки.                  (соответствие)    совпадение
Разумеется, рабочий алгоритм не будет игнори-                      birth       совпадение
ровать эту информацию, что позволит повысить                       (дата      с точностью   200$f   701$f
его точность.                                                  рождения)         до года
   В свою очередь, библиографическая запись                        death       совпадение
обязательно должна была содержать указание                         (дата      с точностью   200$f   701$f
на авторитетную запись (наличие поля 701$3)                      смерти)         до года
для того, чтобы можно было ответить на вопрос                    addition      совпадение   200$c   701$c
о ее принадлежности. В рамках эксперимента                      (профес-       усеченных
требование полноты к БЗ не предъявлялось,                      сиональное         форм
хотя очевидно, отсутствие информации сразу по                 дополнение)
нескольким переменным существенно повышает                        place1      совпадение    200$y   712$c
вероятность ошибки.                                            (географи-     усеченных
                                                                 ческое)         форм
001 AIvanovVladV2004042963480700                                  place2      вхождение     200$y   712$a
200 1$a Иванов $b В. В. $c биохимия                            (географи-     усеченных
$f 19530130 $g Владимир Владимирович $y Томск                    ческое)         форм
830 $a Образование: в 1975 г. окончил                            work 1       совпадение    830$a   701$p
Томский университет, биолого-почвенный                            (место      усеченных
факультет, аспирантуру в Томском медицинском                     работы)         форм
институте.                                                        work2       вхождение     830$a   712$a
    $a Ученая степень: в 1975 г. защитил                          (место      усеченных
кандидатскую диссертацию. Кандидат
                                                                 работы
биологических наук.
                                                              коллектива)        форм

    Рис. 1: Фрагмент авторитетной записи



                                                 304
                                                       переменные нельзя назвать независимыми. В
Таблица 2: Расширенная группа: соавторы по             случае, когда не указаны соавторы, например,
фамилии                                                все три переменные coauthor1, coauthor2 и
                                                       coauthor3 будут равны 2. Выбор наиболее
      Переменная                Поля для
                                                       значимых переменных обсуждается ниже.
                              сравнения БЗ
                                                          Вычисляя значения перечисленных перемен-
                               и расширен-
                                                       ных для записей, приведенных в примере, а
                                 ной АЗ
                                                       затем проделав аналогичное сравнение для всех
      coauthor1
                                                       пар из обучающей выборки, получим исход-
      (количество найденных
                                                       ные данные эксперимента, фрагмент которых
      фамилий соавторов)
                                                       приведен в таблице 3.
      coauthor2
      (доля найденных            701$a,
      фамилий соавторов)         702$a                       Таблица 3: Фрагмент исходных данных
      coauthor3
      (макс. число                                           out              Факторные переменные
      общих БЗ среди                                               addition     birth death place1   ...
      указанных фамилий)                                     2        3           3      2      1    ...
                                                             2        1           3      2      2    ...
                                                             1        1           1      2      2    ...

профессиональной деятельности, географическом
положении и т.п. Факторные переменные можно               Введение переменной place2 было основано
разделить на две группы. Значения перемен-             на том факте, что в библиографических записях
ных основной группы вычисляются на основе              при заполнении поля 712$a иногда в скобках
непосредственного сравнения библиографической          указывают место расположения организации,
записи с авторитетной. Расширенная группа              кроме того, в названиях некоторых органи-
использует расширенную авторитетную запись,            заций содержится указание на географическое
которая строится следующим образом: находятся          положение (например, можно найти подстроку
все библиографические записи, уже связанные            «Томск» в названии «Томский государственный
с авторитетной записью и оценивается степень           университет»). Переменная work1 отвечает за
их подобия рассматриваемой библиографической           указание места работы автора в аннотации. В
записи. Такой подход позволяет существенно             данном случае 701$p = «кафедра биохимии
расширить объем библиографических записей,             и молекулярной биологии СГМУ», тогда как
которые можно связать с соответствующими               830$a содержит подстроку «кафедры биохимии
авторитетными, поскольку информация по пере-           и молекулярной биологии Сибирского медицин-
менным основной группы часто отсутствует в             ского университета». Сопоставить эти строки
библиографических записях. С другой стороны,           можно, если использовать словари. Если словарь
подход не дает никакого выигрыша в случае,             сокращений не привлекать, то получим значение
когда с авторитетной записью не связано ни             work1 равное 1, хотя очевидно, что налицо
одной библиографической.                               совпадение информации. В то же время пара
   В расширенной группе переменных анализи-            записей относится к классу соответствующих и
руется информация по соавторам и предметным            переменная out принимает значение 2.
рубрикам, указанным в библиографической за-
писи. При этом разделение на авторов и
соавторов условное: автором будем называть             4.2   Предварительный анализ
персону, указанную в авторитетной записи (для          Факторные переменные, используемые в работе,
которой производится связывание), а соавторами         не подчиняются нормальному распределению,
все остальные персоны, независимо от того, как         что исключает применение параметрических
они указаны в библиографических записях.               критериев. Для проверки гипотезы значимости
   В таблице 2 приведены три переменные,               различия двух групп использовался ранговый
расчитываемые для соавторов по фамилии,                коэффициент корреляции τ Кендалла [19].
аналогично обрабатываются соавторы по кодам            Переменные, для которых принималась гипотеза
(группа переменных coauthorId поля 701$3,              об отсутствии различий (при уровне значимости
702$3), предметные рубрики по наименованиям            0,01), исключались из работы.
(переменные subject поле 606$a), предметные               Как видно из таблицы 4, переменную place2,
рубрики по кодам (переменные subjectId поле            уровень значимости для которой больше 0,01,
606$3). Всего в расширенной группе вычисляется         можно исключить из рассмотрения.
12 переменных. Следует отметить, что эти



                                                 305
         Таблица 4: Анализ переменных                     Таблица 5: Первый этап ранжирования фактор-
                                                          ных переменных
  Переменная     τ       p-value     Корреляция
                                                                    Шаг      Переменная       Расстояние
  addition      0,428   <2,2*10−16     значима                     отбора                       между
  birth         0,868   <2,2*10−16     значима                                                 классами
  death         0,296   <2,2*10−16     значима                                                D2 (µ1 |µ2 )
  place1        0,257   <2,2*10−16     значима                      шаг 1       addition         19,63
  place2        0,041      0,149      незначима                   (выбрана     coauthor1         20,77
  work1         0,094    1,1*10−3    мало значима                   birth)    coauthor2 *        21,39
  work2         0,137    1,4*10−6    мало значима                              coauthor3         20,27
  coauthor1     0,587   <2,2*10−16     значима                                coauthorId1        20,06
  coauthor2     0,595   <2,2*10−16     значима                                coauthorId2        20,85
  coauthor3     0,588   <2,2*10−16     значима                                coauthorId3        19,77
  coauthorId1   0,513   <2,2*10−16     значима                                   death           19,44
  coauthorId2   0,513   <2,2*10−16     значима                                   place1          19,31
                                                                                subject1         20,51
  coauthorId3   0,508   <2,2*10−16     значима
                                                                                subject2         20,58
  subject1      0,408   <2,2*10−16     значима
                                                                                subject3         19,63
  subject2      0,489   <2,2*10−16     значима
                                                                               subjectId1        20,57
  subject3      0,417   <2,2*10−16     значима
                                                                               subjectId2        20,47
  subjectId1    0,405   <2,2*10−16     значима
                                                                               subjectId3        19,51
  subjectId2    0,41    <2,2*10−16     значима
                                                                                 work1           19,32
  subjectId3    0,405   <2,2*10−16     значима
                                                                                 work2           19,35



4.3   Отбор факторных переменных                          Таблица 6: Результат ранжирования переменных
Воспользовавшись расстоянием Махалонобиса
                                                                Место   Переменная    Место      Переменная
можно произвести отбор наиболее информатив-
ных признаков. Для этого на каждом шаге                          1          birth      10           place1
отбираем по одной переменной, дающей наи-                        2       coauthor2     11         coauthor1
большее расстояние между центроидами классов                     3       subjectId1    12        coauthorId1
в сочетании с уже выбранными (таблица 5).                        4      coauthorId2    13        coauthorId3
   В качестве первой включаемой переменной                       5         death       14          subject2
выберем birth, дающую наибольший коэффици-                       6        addition     15         coauthor3
ент корреляции с результирующей переменной                       7       subjectId2    16           work2
out. Так, на первом шаге в дополнение к birth                    8         work1       17          subject3
будет выбрана переменная coauthor2 (отмечена                     9        subject1     18         subjectId3
*), а на втором переменные birth, coauthor2,
subjectId1, и так далее. Чем раньше включаются
переменные - тем больше информации в них
                                                          вана с уже включенными переменными.
содержится.
   В результате процедуры отбора был получен
список факторных переменных в порядке их                  4.4   Проверка качества дискриминации
значимости для дискриминации, приведенной в               С помощью расстояния Махаланобиса можно
таблице 6. Пользуясь этой информацией можно               прогнозировать принадлежность наблюдения к
исключить наименее информативные переменные               одной из групп. Для этого достаточно рассчитать
и сократить время работы алгоритма.                       расстояния до центроидов обоих классов, подста-
   Следует отметить, что ранжирование учиты-              вив в формулу (1) координаты этого наблюдения,
вает не только вклад отдельной переменной, но             координаты центроида класса и матрицу внутри-
и ее взаимодействие с остальными, это дости-              групповой ковариации, рассчитанную по формуле
гается за счет учета корреляции в расстоянии              (2). После чего следует выбрать в качестве
Махаланобиса. Таким образом, на каждом этапе              прогноза тот класс, расстояние до которого
включение менее информативной, но при этом                наименьшее.
менее коррелированной переменной может ока-                   Проведя расчеты для тестовой выборки,
заться полезнее включения более информативной             наблюдения которой не использовались при
переменной, если она слишком тесно коррелиро-             вычислении параметров алгоритма, получим так


                                                    306
называемую матрицу классификации, на основе            библиографических записей. На практике это
которой можно рассчитать долю правильно клас-          приводит к попытке найти соответствующую
сифицированных объектов и оценить точность             авторитетную запись даже и для той биб-
прогноза.                                              лиографической, которая содержит недостаточно
   Поскольку количество ошибок в тестовой              информации. Поэтому к алгоритму предъявляет-
выборке зависит от того, какие именно пары             ся требование возможности работы в условиях
попали в нее, было проведено 100 прогонов с            частично пропущенных данных. Требования
разными выборками. Средний процент ошибок              полноты библиографической записи можно ва-
составил 2,36%.                                        рьировать в зависимости от степени надежности
                                                       принятия решения, которой требуется достичь.
                                                          В целом можно утверждать, что предлагаемый
5   Заключение                                         алгоритм способен улучшить качество данных
                                                       библиотеки за счет установления недостающих
В данной статье представлен алгоритм автома-
                                                       связей между библиографическими записями,
тического авторитетного контроля, позволяющий
                                                       полнотекстовыми документами и авторитетными
делать заключение о связи библиографической
                                                       документами. При дальнейшей разработке алго-
и авторитетной записей без участия человека;
                                                       ритма планируется подключить дополнительные
а также процедура статистического анализа
                                                       методы сопоставления строк, улучшить анализ
признаков и отбора наиболее информативных из
                                                       соответствия по предметным рубрикам, а также
них. Подход, описанный в работе, является до-
                                                       дополнить блок нормализации специальными
статочно общим и не накладывает ограничений
                                                       словарями, отсутствующими на данный момент
на используемые переменные и информацию,
                                                       в библиотечной системе.
которую они отражают.
   Важной особенностью предлагаемого подхода
является возможность обучения на конкретных            Список литературы
данных. С одной стороны, это является
ограничением, поскольку такие данные не всегда          [1] Belin T. R., and Rubin D. B. (1995), "A
доступны. С другой стороны, возможность                     method for Calibrating False-Match Rates
обучения позволяет настроить алгоритм на                    in Record Linkage Journal of the American
работу с базой данных и, тем самым, учесть ее               Statistical Association, 90, 694-707.
особенности.
                                                        [2] Bilenko M. Learning to Combine Trained
   Информацию, на основе которой производится
                                                            Distance Metrics for Duplicate Detection in
связывание, можно разделить на основную (годы
                                                            Databases / M. Bilenko, R. Mooney.
жизни, профессиональное дополнение, место ра-
                                                            Technical Report AI-02-296, Artificial
боты) и косвенную (наименование коллективного
                                                            Intelligence Lab, University of Texas
автора, географическая отметка, информация о
                                                            at Austin, 2002.
соавторах и тематических рубриках). При этом
не требуется взаимной независимости признаков,          [3] Christen P., Churches T. Febrl: Freely
по которым производится сравнение, а также до-              extensible  biomedical  record   linkage
пускается возможность отсутствия информации                 Manual, release 0.2.2 edition, November
в части полей. Еще одна особенность подхо-                  2003.
да заключается в использовании расширенных              [4] Elfeky M. G., Elmagarmid A. K.,
авторитетных записей, позволяющих увеличить                 Verykios V. S. "TAILOR: A Record
объем информации для сравнения. Конечно,                    Linkage Tool Box". In Proceedings of
информация, привлеченная из библиографиче-                  the 18th International Conference on Data
ских записей, уже связанных с расматриваемой                Engineering (ICDE 02). IEEE Computer
авторитетной, является косвенной и потому                   Society, Washington, DC, USA, 17 - 28,
необходимо тщательно анализировать ее с точки               2002.
зрения достаточности для принятия решений.
                                                        [5] Fellegi I. P., Sunter A. B. A theory for
Однако с другой стороны, «основная» информа-
                                                            record linkage. Journal of the American
ция, такая как годы жизни, профессиональное
                                                            Statistical Association, 64: 1183-1210, 1969.
дополнение и место работы автора, часто
отсутствует в библиографической записи. В ре-           [6] Hernandez M. A., Stolfo S. J. Real-world
зультате необходимо делать выбор: использовать              data is dirty: data cleansing and the
косвенную информацию или отказываться от                    merge/purge problem. Journal of Data
связывания вовсе.                                           Mining and Knowledge Discovery, 1(2),
   Как уже упоминалось, к авторитетным запи-                1998.
сям в рамках работы предъявляются достаточно            [7] Hylton J. A. Identifying and merging
жесткие требования полноты, в отличие от                    related bibliographic records. M. S. thesis,


                                                 307
     MIT, 1996. Published as MIT Laboratory                    Library of Congress Name Authority Files
     for Computer Science Technical Report 678.                / Bennett, Rick, Christal Hengel-Dittrich,
 [8] Isele R., Jentzsch A., Bizer C., & Volz J.                Edward T. O’Neill, and Barbara Tillett //
     (2010). Silk - A Link Discovery Framework                 International Cataloging and Bibliographic
     for the Web of Data, User manual and link                 Control. 2007. V.36,1. P. 12-19.
     language specification 2.0. Language.                [17] Winkler W. E. Overview of Record
 [9] Jaro M. A. Advances in Record Linkage                     Linkage and Current Research Directions.
     Methodology as Applied to Matching the                    Research Report Series, RRS: Statistics
     1985 Census of Tampa, Florida. Journal of                 #2006-2.    http://www.census.gov/
     the American Statistical Society, 84(406):                srd/papers/pdf/rrs2006-02.pdf.
     414-420, 1989.                                       [18] Мешечак Н. А. Web-справочник «Медики
[10] Jaro M. A. Probabilistic linkage of large                 России» [Электронный ресурс] / Н. А.
     public health data files // Statistics in                 Мешечак, О. С. Колобов, Ф. Е. Татарский
     Medicine 1995; 14: P. 491-498.                            // Информационные технологии, компью-
                                                               терные системы и издательская продукция
[11] Jurczyk P., Lu J., Xiong L., Cragan                       для библиотек: материалы конф. LIBCOM-
     J., Adolfo Correa, FRIL: A Tool for                       2007. - Электрон. текстовые дан. - М.
     Comparative Record Linkage, American                      : ГПНТБ России, 2007. – 1 электрон.
     Medical Informatics associations (AMIA)                   опт. диск (CD-ROM). – Загл. с этикетки
     2008 annual Symposium.                                    диска. – ISBN 978-5-85638-120-6. - гос.
[12] Levenshtein V. I. Binary codes capable of                 регистрации 0320702219.
     correcting insertions and reversals. Soviet          [19] Закс Л. Статистическое оценивание. Пер.
     Physics Doclady, 10(8): 707-710, Feb. 1966.               с нем. В.Н. Варыгина. Под ред. Ю.П.
[13] Mahalanobis      P.   C.     (1936). «On                  Адлера, В.Г. Горского. М.: Статистика,
     the generalised distance in statistics».                  1976. – 599 с.: ил.
     Proceedings of the National Institute of
     Sciences of India 2 (1): 49-55.                             Automatic document linking
                                                          Anna Knyazeva, Igor Turchanovsky, Oleg Kolobov
[14] Newcombe H. B., Kennedy J. M., Axford
     S. J., and James A. P. Automatic linkage of              The problem of automatic linking of documents
     vital records. Science, 130:954-959, 1959.           relating to the same real world object is
[15] Сайт:  Russian  stemming  algorithm                  considered. An algorithm based on classification
     http://snowball.tartarus.org/                        using the Mahalanobis distance is proposed.
     algorithms/russian/stemmer.html                      The algorithm is illustrated by linking between
                                                          bibliographic and authority records of author
[16] VIAF (Virtual International Authority File):
                                                          names in Machine-Readable Cataloging format
     Linking the Deutsche Nationalbibliothek and
                                                          (MARC).




                                                    308