Формализация фактоподобных высказываний в конкретно-исторических исследованиях © Н.А.Маркова Институт проблем информатики РАН, Москва MarkovaNatAlex@gmail.com тысяч волонтеров. В проекте фигурирует Аннотация ограниченный круг хорошо структурированных На основе анализа специфики конкретно- источников (в основном, регистрационных), и выходом его служит ограниченная номенклатура исторических исследований разработана модель представления фактоподобных фактов – основные даты биографий лиц и их высказываний, включающих не только родственные связи. точные утверждения, но и неполные Чрезвычайно интересные результаты были сведения, результаты их аналитико- получены в рамках проводимого в синтетической обработки, вопросы и Петрозаводском университете комплекса работ по гипотезы. Представление высказываний в формализации информации, содержащейся в виде метаданных является основой коллекциях текстов исторических документов, и поддерживающей информационной построения информационной системы для технологии. упорядочивания и анализа накопленных знаний в рамках работы сетевого сообщества [2]. Модель 1 Введение предполагает глубокую и множественную разметку исходных документов. Её сфера Массовые электронные публикации применения в настоящее время ограничена исторических источников и исследований сообществами исследователей рукописных открывают широчайшие возможности для работ средневековых текстов. по изучению конкретно-исторических вопросов. Ряд особенностей конкретно-исторических Для того чтобы ввести в научный оборот исследований не позволяет применить публикуемые материалы, требуется провести их унифицированные готовые решения, фактографическое индексирование, оснастить опирающиеся на представлении о факте, как об метаданными, представляющими содержащие в утверждении, что, в частности, неявно них сведения – факты – в удобном для предполагает семантический Web. Далеко не все использования виде. Эта задача жизненно важна факты, излагаемые в исторических источниках, в не только для рукописных и старопечатных основанных на них исследованиях, а также в документов, но и для поддающихся переводу в справочниках и энциклопедиях, соответствуют полнотекстовый вид нарративных источников. В объективной истине. Документы нередко той или иной степени ее решает каждый содержат предположения, гипотезы, частичное исследователь, изучая источник. Не дожидаясь знание об интересующем предмете. При этом пока библиографы и архивисты осуществят приближение к истине возможно за счет анализа фактографическое индексирование источников, противоречий, интеграции данных, извлекаемых эту работу уже выполняют виртуальные из различных источников. Метаданные нередко сообщества исследователей, как используются для представления профессиональных, так и любителей. фактографической информации (например, в Подавляющее большинство площадок для обмена проекте dbPedia), однако в них не учитываются фактографической информацией представляет чрезвычайно важные для конкретно-исторических собой бессистемный обмен текстовыми исследований особенности темпоральность и репликами на форумах. неточность. Однако существуют примеры и хорошо Расширим понятие «факт», включив в него продуманных информационных технологий в этой неточные и неполные сведения, результаты их области. Фактографическое индексирование, аналитико-синтетической обработки, вопросы и выполняемое виртуальным сообществом в рамках гипотезы. Предложим общую форму для крупнейшего международного проекта фиксации такого рода сведений в виде FamilySearch [5], насчитывает более миллиарда фактоподобных высказываний (ФПВ), записей, в подготовке которых участвуют сотни представимых метаданными. Модель объединяет 98 данные фактографического индексирования  Имена объектов вариативны (объект может исторических источников и их аналитико- иметь несколько имен) и неоднозначны синтетической обработки. Основные положения (различные объекты могут иметь совпадающие предлагаемого формализма будем выражать в имена). терминах ER-модели, на концептуальном уровне  Период существования объекта, а также совпадающих с категориями аппарата онтологий, периоды, в котором значение некоторого свойства повсеместно применяемых в настоящее время для его постоянно, представляют ограниченные формального представления фактических знаний. временные интервалы. Наши построения будут основаны на анализе  Номенклатура изучаемых свойств объектов специфики конкретно-исторических специфична для определенного класса объектов и исследований. Их целью является создание зависит от конкретного исследования. Причем основы для построения эффективной наличие определенного свойства и его возможные информационной технологии поддержки работы значения, а также допустимые сочетания значений исследователей. этого и других свойств объекта зависит от временного интервала даже в рамках одного 2 Специфика конкретно-исторических исследования. исследований  При определении свойств объекта В рамках конкретно-исторических возможны искажения вследствие дефектов в исследований изучаются определенные объекты, содержании источников, в процессах их сведения о которых частично формализуемы. распознавания, интерпретации, интеграции. Предполагается, что в данной сфере имеется С точки зрения процесса исследований к специальный (выбранный исследователем) поддерживающей его информационной понятийный аппарат, и предметом исследования технологии целесообразно предъявить следующие является вполне определенный набор свойств требования. объектов, часть из которых может быть  Необходимо фиксировать не только четко определена математически множеством установленные факты, но и ФПВ, включающие допустимых значений, а часть характеризуется предположения, неточные значения свойств, нарративами или образами. исследовательские вопросы. Мы рассматриваем исследования,  Каждое сформулированное высказывание опирающиеся на изучение документальных должно быть соотнесено с источником или с источников. Диапазон такого рода работ цепочкой вывода, обобщающей другие ФПВ. постоянно расширяется за счет того, что существенная часть документов получает  Необходимо обеспечить информационную электронные копии, к которым обеспечивается навигацию по связям между объектами, в том сетевой доступ. числе, для электронных документов – межтекстовые связи; многоаспектный поиск; Изучая источник, исследователь сохраняет возможности статистической обработки. метаданные: адресные ссылки, выдержки, выписки, а также, по возможности, некоторую  Необходимо отслеживать процессы формализованную в соответствии с задачами накопления данных, выявления дефектов, конкретного исследования форму извлеченного выдвижения/ опровержения гипотез по знания. В соответствии с классификацией, данной исследуемым источникам, времени, в работе [1], метаданные делятся на автономные и исполнителям, аргументации. встроенные. В терминах традиционной бумажной Концептуальной основой для создания технологии первые – соответствуют записям, информационной технологии, удовлетворяющей сохраняемым в виде отдельных карточек или в перечисленным требованиям, является рабочей тетради. Вторые – результат разметки предлагаемая формальная модель представления документа-источника – очерчивания, закладок, ФПВ. заметок на полях, использования разноцветных маркеров или стикеров. 3 Модель фактоподобных высказываний При переходе к современной информационной Принципиальная проблема, которую технологии эффективность работы исследователя необходимо решить при разработке модели ФПВ, будет тем выше, чем более систематизировано состоит в выборе рационального уровня удастся представить эти метаданные. формализации. Малоэффективны как совсем Перечислим основные особенности изучаемых неформальное текстовое представление объектов, которые следует учитывать при (нарратив), так и попытка максимальной создании информационной технологии, формализации. Сформулируем три положения, обслуживающей конкретно-исторические опора на которые позволит выбрать оптимальный исследования. уровень формализации. 99 1) Модель строится по ER-принципу, с Наиболее важная особенность предлагаемой определенными наборами объектов, атрибутов, модели – включение в ФПВ временного отношений. интервала, в рамках которого оно предполагается 2) Для каждой сферы исследования справедливым. Такая конструкция предоставляет выбираются свои наборы объектов и свойств, значительно более удобный базис для аналитико- возможно, уточняемые для конкретного проекта. синтетической работы в области конкретно- исторических исследований, чем фиксация 3) Формализуются не все возможные отдельных событий. Действительно, подавляющее свойства, а те, которые отражают поддающиеся большинство событий, касающихся объекта, типизации аспекты, возможные значения которых имеют свою пару – они фиксируют начало и задаются диапазоном чисел, дат; словарным конец периода, в котором некоторое свойство перечнем. Все, что не укладывается в эти рамки (а объекта имело некоторое значение. Даже для также малозначимые в рамках конкретного такого свойства, как титул, возможны события проекта сведения), представляется нарративным присвоение, лишение, восстановление, текстом. определяющие соответствующие временные Модель включает три группы элементов. интервалы. В любом случае, время ФПВ, Основные элементы модели – компоненты ER- касающегося некоторого свойства объекта, модели изучаемого исторического процесса: ограничено временем существования (жизни) объекты, атрибуты, отношения – фиксируются объекта. базовыми высказываниями. Высказывания-связки соотносят базовые высказывания с источниками и Будем определять периоды (dt  DT), как между собой. Наконец, информацию, dt = (start, finish), включающую высказывания-ограничения, а также где start и finish – это либо даты (с некоторой данные, относящиеся к процессу исследования, степенью точности), либо оценки ограничений, отнесем к служебным высказываниям. налагаемые на эти даты. Подробно форма Рассмотрим эти группы высказываний подробнее. представления временных интервалов разной степени определенности в виде строки 3.1 Базовые высказывания метаданных рассмотрена в [3]. Множество объектов исследования (O = O class ) Предложенный подход совсем не включает объекты определенных классов. Для противоречит возможности в рамках конкретного каждого класса объектов устанавливается набор исследования определить специальный класс свойств. Литеральные свойства – атрибуты – объектов – события определенного рода сопоставляют объекту некоторое значение из (например, Конференции). определенного множества (чисел, дат, Рассмотрим основные виды базовых ФПВ и номинальных шкал, текстов). Объектные определим содержание метаданных, их свойства – отношения – сопоставляют объекту фиксирующих. другой объект и литеральное значение, которое 1) Дефиниция – высказывание, определяющее можно воспринимать, как метку на графе связей существование объекта определенного класса в между объектами. Такая конструкция, вместо определенный период времени: используемого в OWL строгого разделения на категории свойств, не предполагающего t  dt (o d (t)  O class ). литеральных значений у объектных свойств, d = (nomen, class, dt) – метаданные, позволяет не вводить дополнительных объектов фиксирующие дефиницию. (Отношение между Петровым и Гимназией), а, Здесь nomen – имя объекта – неформальная и, оставаясь в рамках объектов исследования возможно, неуникальная текстовая константа, (Петров, Гимназия) специфицировать значение служащая для удобства восприятия связи (Должность = Инспектор). Для конкретно- исследователем. Каждое ФПВ имеет свою исторических задач такое представление уникальную идентификацию, которую для существенно нагляднее. простоты описания мы опускаем. При адресации Далеко не все высказывания, содержащиеся в ФПВ будем использовать его обозначение историческом источнике, можно формализовать. (например, d). Но даже для формализуемых высказываний, 2) Атрибут – высказывание, определяющее суждение о значении свойства объекта может значение определенного литерального свойства быть сформулировано не только как равенство объекта в определенный период времени: некой константе, но и как различные варианты неравенства, а также принадлежности (не t  dt (a aclass (o d , t)  avalue). принадлежности) некоторому набору констант. a = (d, aclass, avalue, , dt) – метаданные, Оператор ФПВ, соотносящий значения свойства фиксирующие атрибут. объекта с константой/списком констант (), 3) Отношение – высказывание, определяющее определим следующим образом: связь объекта с другим объектом, а также   {, , , , , , } 100 литеральное значение, сопоставляемое этой связи Пятно на рукописи, неразборчивый почерк, в определенный период времени: неизвестные сокращения – причины того, что t  dt (r rclass (o dp , o dq , t)  rvalue). исследователь неуверен в результатах интерпретации. Но и при уверенности в r = (d p , d q , rclass, rvalue, , dt) – метаданные, толковании источника, исследователь может быть фиксирующие отношение. не согласен со смыслом интерпретированного Во всех конкретно-исторических высказывания. В этом случае он должен исследованиях рассматриваются классы Лицо и зафиксировать противоречие между данными Документальный объект (Д-объект). В источника и более надежными сведениями, что большинстве случаев интерес представляют послужит обоснованием для высказывания, Географические и Социальные объекты. В фиксирующего ложность сведений источника. специальных исследованиях классами изучаемых Пример цепочки такого рода размышлений, объектов являются Архитектурные, Природные, фиксируемых средствами ФПВ, будет приведен в Математические и пр. объекты. следующем разделе. Наиболее общими для самых разных областей Определим множество ФПВ (представленных исследований являются свойства Д-объектов, под метаданными) – F, как объединение которыми мы понимаем не только документы, но вышеперечисленных видов ФПВ и специальных и их совокупности, и их компоненты (от архивов, ФПВ-связок – L, определяемых рекурсивно. библиотек, интернет-порталов до абзацев текста). F = D  A  R  L, Атрибуты и связи документов хорошо специфицируют библиографические и где D = {d}, A={a}, R={r}, L = {l} археографические стандарты. В рамках l = (fp, fq, , estim) современных стандартов IFLA (например, [5]) fp  F, fq  F, рассматриваются связи между документами, estim  [0..1], (0 –TRUE, 1 – FALSE) представляющие интерес для конкретно   {}  Logical  Temporal исторических исследований. К ним относятся: структурная (входит, следует за), деривативная Logical = {AND, OR, XOR, …} (версии, переработки, переводы), дескриптивная Temporal = {BEFORE, AFTER, SAMETIME, (критика, комментарии, аннотации, рефераты) INTERSECT} связи.  – интерпретация. Атрибуты и связи Лиц, в основном, специфичны для сферы исследований. 3.3 Служебные высказывания Универсальны атрибуты пол и связь с гео- Каждой сфере исследования соответствует объектами местопребывание (которое, например, свой набор классов объектов, их свойств, в момент рождения – место рождения). зависимостей между значениями свойств. Часть Достаточно часто рассматриваются родственные из этих ограничений легко формализуема. связи, должностные отношения, отношения Например, спецификация перечней классов учитель-ученик. Связи Лиц и Д-объектов объектов и классов свойств, в зависимости от фиксируют сведения об авторстве, адресатах и классов объектов; списки возможных значений упоминаниях. свойств. Несколько сложнее, но все же возможно 3.2 Высказывания-связки формализовать ограничения на возможные сочетания значений свойств, а также на Утверждение о том, что некоторое ФПВ временные характеристики. Примерами такого получено в результате интерпретации () рода ограничений являются накладываемые определенного источника также является биологическими законами разности в возрасте определенным высказыванием. Источник при родителей и детей, или формулируемые этом адресуется дефиницией соответствующего конкретным социальным устройством регламент Д-объекта. Сопоставляя ФПВ, исследователь продвижения по службе. конструирует новые выражения с помощью Важнейшим служебным высказыванием логических или темпоральных связок. Как является перечень классов (например, class  интерпретация, так и логические операции над {Лицо, Д-объект, Гео-объект, Соц-объект}). ФПВ не являются в полной мере формальными Ограничения на атрибуты формулируются действиями. В рассуждениях исследователя есть указанием области определения и области доля интуиции. Однако степень уверенности в значений (domain и range). Например, своих умозаключениях вполне оцениваема. domain(Пол)= Лицо; range(Пол)={м, ж, ?}. Для Поэтому каждому ФПВ-связке будем отношений область определения задается парой, сопоставлять оценку уверенности в фиксируемой например, domain(Родство)= (Лицо, Лицо). им формулировке. Такую оценку рационально выражать в шкале нечеткой логики от 0 – FALSE Для фиксации ограничений на возраст детей до 1 – TRUE. может потребоваться формализация высказывания 101  d 0 , d ((d 0 , d, Родство, Родитель)  l 1 = (d 0 c.295 , a 1 , , 1) (d.start – d 0 .start > 10) AND a 2 = (d 2 , «автор Беломорские былины», 1901) (d.start – d 0 .start < 90)) l 2 = (d 0 c.295 , a 1 , , 1) Должны ли фиксироваться подобные ограничения в виде метаданных, Итак, ФПВ a 1 и a 2 противоречивы: интерпретируемых некоторым унифицированным l 3 = (a 1 , a 2 , AND, 0.01) инструментом, или они представляют Формальную возможность того, что и специализированные процедуры контроля (своего Александр М. был «известным этнографом», но рода сложных алгоритмических высказываний) – не публиковал своих исследований, мы оценили в зависит от конкретных обстоятельств. Во многих 1 процент. случаях контроль ограничения вообще может l 4 = (l 3 , a 2 , , 0.01) быть выполнен только вручную. В целом, полезно хотя бы в неформальном, текстовом виде l 5 = (l 4 , r 1 , AND, 0.99) фиксировать ограничения, как своего рода Теперь мы можем сформулировать новое памятку для исследователя (нарративное высказывание, корректирующее ошибочное a 1 : высказывание). a 3 = (d 2 , «исслед. былин сев. края», 1896..-) В соответствии с выдвинутыми требованиями l 6 = (l 4 , a 3 , , 0.99) необходимо отслеживать процесс накопления Строго говоря, приведенная цепочка данных и их аналитико-синтетической обработки. рассуждений, равно как и операция Для этого целесообразно применить типовой интерпретации источника не являются прием, используемый, в частности, в wiki- формальными. Однако возможность технологии. Каждая запись ФПВ сопровождается формализованной фиксации результатов временной меткой и указанием автора. Вместо мыслительных операций существенно изменения записи производится формирование ее дисциплинирует исследователя, а также позволяет новой версии. осуществиться научной коммуникации, что 4 Пример рассуждений, фиксируемых служит залогом взаимного контроля и способствует повторному использованию данных ФПВ исследования. Рассмотрим пример интерпретации источника, выявления противоречия, формулировки новых 5 Заключение ФПВ. Источник – книга, посвященная 100-летию В рамках данной работы модель ФПВ Первой московской гимназии [6]. представлена концептуально. При ее d 0 = («Столетие 1-й гимназии», Д-объект, 1903) использовании в конкретной информационной d 1 = («1-я гимназия», Соц-объект, 1804-1904..) технологии она должна быть выражена в терминах соответствующего аппарата, в качестве В источнике содержатся, в частности, списки которого могут выступать как современные языки выпускников по годам выпуска, а также списки онтологий, так и инструменты баз данных. печатных работ, авторами которых являются выпускники гимназии. Два однофамильца – Опора на языки онтологий позволит Алексей М. и Александр М. окончили гимназию организовать обмен информацией с другими соответственно в 1896 и в 1888 годах: информационными системами. В частности, это позволит импортировать конечные (или хотя бы d 2 = («Алексей М.», Лицо, 1874..1878-1903..) стабилизированные) данные исследования в r 1 = (d 2 , d 1 , Ученик, ..-1896) качестве фактографического индекса в d 3 = («Александр М.», Лицо, 1866..1870-1903..) библиографическую/археографическую r 2 = (d 3 , d 1 , Ученик, ..-1888) информационную систему. Оценка времени жизни дана, исходя из Технология баз данных обеспечит ограничения на возраст учеников. эффективность накопления и аналитико- синтетической обработки ФПВ. Однако В источнике допущена ошибка. В наилучшего результата, как показала практика комментарии, относящимся к Александру М., разработки и эксплуатации инструментального сказано «Известный этнограф, исследователь комплекса Фактограф [4], можно добиться, былин сев. края». При этом работ у Александра сочетая автономные метаданные, хранимые в базе М. не отмечено, а вот у Алексея М. отмечено данных, и встроенные, размечающие документ- несколько работ, посвященных северным источник. При этом предполагается, что былинам. исследователь имеет свою копию источника, a 1 = (d 3 , «исслед. былин сев. края», 1888..-) 1 которую он может «чиркать» разметкой. Взаимные связи между ФПВ, хранимыми в базе 1 Для краткости мы опускаем  = «=», класс атрибута – данных, и фрагментами текста источника Упоминание, а также определения Д-объектов – достигаются средствами гиперссылок. В страниц, входящих в книгу-источник. документах-источниках границы фрагментов, 102 связанных с высказываниями, хранимыми в базе, [2] Кравцов А.В. Информационные модели и определяются либо явно (для xml и html технологии в организации работы научного форматов), либо закладками, применимыми не сообщества по публикации и анализу только в офисных документах, но и в документах коллекций исторических документов форматов pdf и djvu. В свою очередь, // Электронные библиотеки: перспективные гиперссылками на форму, представляющую методы и технологии, электронные конкретный объект в базе данных, целесообразно коллекции: Труды XI Всероссийской оснастить текст источников в точках его научной конференции RCDL'2009. упоминания. В случае не редактируемых Петрозаводск: КарНЦ РАН, 2009. C. 210– документов (pdf и djvu) такую ссылку можно 218. поместить в комментарий. [3] Маркова Н.А. Логика биографических Вычленяя ФПВ из источника, мы фактов //Информатика и ее применения, обеспечиваем удобство его контроля, анализа, 2012. Т. 6, вып. 2. С. 49–58. интеграции, но в то же время, теряем контекст, [4] Маркова Н.А. Программа Средства который может быть чрезвычайно полезен для интеграции, хранения и анализа создания целостной картины. С другой стороны, биографических данных (Фактограф). возможность получения оперативной справки по Свидетельство о государственной ходу чтения источника, касающейся его текущего регистрации программы для ЭВМ участка, способствует пониманию текста. № 2013617234 от 06.08.2013. Сравнение обладающего внутренним единством [5] Руководство пользователя по программе линейного текста со структурной картиной FamilySearch Indexing. © 2009, 2014 by связанных объектов, в нем упоминаемым, дает Intellectual Reserve, Inc. URL: возможность как уточнить идентификацию http://broadcast.lds.org/elearning/FHD/ объектов, сформулировать новые ФПВ, так и Local_Support/FamilySearchIndexing/RU/ глубже понять подтекст, неподдающийся fsi_user_guide.pdf формализации. [6] Столетие Московской 1-й гимназии. 1804- Повторное обращение к источнику (адресное, 1904 гг. / сост. И. Гобза. – М.: Синод. тип., и поэтому эффективное), равно как и повторное 1903. URL: использование выявленных сведений, http://dlib.rsl.ru/viewer/01003711731#?page=1 чрезвычайно полезно уже индивидуальному [7] Функциональные требования к исследователю. Тем важнее эти возможности для библиографическим записям / Рос. библ. организации информационного обмена в ассоц., РГБ. – М.: Пашков дом, 2008. сообществах, изучающих историю. Предложенный в работе метод формализации Formalization of the Fact-like данных может служить основой для создания информационной технологии, существенно Propositions in Specific Historical Studies повышающих эффективность работы коллектива Natalia A. Markova исследователей. The paper proposes a model of metadata Литература representation of the fact-like propositions that specify not only true statements, but suggestions, [1] Когаловский М.Р. Метаданные в hypothesis, incomplete information, the results of компьютерных системах // analytic/synthetic processing. Requirements to Программирование, МАИК/Наука provide efficiency of the specific historical studies are «Интерпериодика». 2013. Т. 39, № 4. С. 28– under consideration. The metadata are considered as 46. the base of supporting IT. 103