=Paper=
{{Paper
|id=Vol-1297/098-103_paper-16
|storemode=property
|title=Формализация фактоподобных высказываний в конкретно-исторических исследованиях
(Formalization of the Fact-like Propositions in Specific Historical Studies)
|pdfUrl=https://ceur-ws.org/Vol-1297/098-103_paper-16.pdf
|volume=Vol-1297
|dblpUrl=https://dblp.org/rec/conf/rcdl/Markova14
}}
==Формализация фактоподобных высказываний в конкретно-исторических исследованиях
(Formalization of the Fact-like Propositions in Specific Historical Studies)
==
Формализация фактоподобных высказываний в
конкретно-исторических исследованиях
© Н.А.Маркова
Институт проблем информатики РАН,
Москва
MarkovaNatAlex@gmail.com
тысяч волонтеров. В проекте фигурирует
Аннотация ограниченный круг хорошо структурированных
На основе анализа специфики конкретно- источников (в основном, регистрационных), и
выходом его служит ограниченная номенклатура
исторических исследований разработана
модель представления фактоподобных фактов – основные даты биографий лиц и их
высказываний, включающих не только родственные связи.
точные утверждения, но и неполные Чрезвычайно интересные результаты были
сведения, результаты их аналитико- получены в рамках проводимого в
синтетической обработки, вопросы и Петрозаводском университете комплекса работ по
гипотезы. Представление высказываний в формализации информации, содержащейся в
виде метаданных является основой коллекциях текстов исторических документов, и
поддерживающей информационной построения информационной системы для
технологии. упорядочивания и анализа накопленных знаний в
рамках работы сетевого сообщества [2]. Модель
1 Введение предполагает глубокую и множественную
разметку исходных документов. Её сфера
Массовые электронные публикации применения в настоящее время ограничена
исторических источников и исследований сообществами исследователей рукописных
открывают широчайшие возможности для работ средневековых текстов.
по изучению конкретно-исторических вопросов.
Ряд особенностей конкретно-исторических
Для того чтобы ввести в научный оборот
исследований не позволяет применить
публикуемые материалы, требуется провести их
унифицированные готовые решения,
фактографическое индексирование, оснастить
опирающиеся на представлении о факте, как об
метаданными, представляющими содержащие в
утверждении, что, в частности, неявно
них сведения – факты – в удобном для
предполагает семантический Web. Далеко не все
использования виде. Эта задача жизненно важна
факты, излагаемые в исторических источниках, в
не только для рукописных и старопечатных
основанных на них исследованиях, а также в
документов, но и для поддающихся переводу в
справочниках и энциклопедиях, соответствуют
полнотекстовый вид нарративных источников. В
объективной истине. Документы нередко
той или иной степени ее решает каждый
содержат предположения, гипотезы, частичное
исследователь, изучая источник. Не дожидаясь
знание об интересующем предмете. При этом
пока библиографы и архивисты осуществят
приближение к истине возможно за счет анализа
фактографическое индексирование источников,
противоречий, интеграции данных, извлекаемых
эту работу уже выполняют виртуальные
из различных источников. Метаданные нередко
сообщества исследователей, как
используются для представления
профессиональных, так и любителей.
фактографической информации (например, в
Подавляющее большинство площадок для обмена
проекте dbPedia), однако в них не учитываются
фактографической информацией представляет
чрезвычайно важные для конкретно-исторических
собой бессистемный обмен текстовыми
исследований особенности темпоральность и
репликами на форумах.
неточность.
Однако существуют примеры и хорошо
Расширим понятие «факт», включив в него
продуманных информационных технологий в этой
неточные и неполные сведения, результаты их
области. Фактографическое индексирование,
аналитико-синтетической обработки, вопросы и
выполняемое виртуальным сообществом в рамках
гипотезы. Предложим общую форму для
крупнейшего международного проекта
фиксации такого рода сведений в виде
FamilySearch [5], насчитывает более миллиарда
фактоподобных высказываний (ФПВ),
записей, в подготовке которых участвуют сотни
представимых метаданными. Модель объединяет
98
данные фактографического индексирования Имена объектов вариативны (объект может
исторических источников и их аналитико- иметь несколько имен) и неоднозначны
синтетической обработки. Основные положения (различные объекты могут иметь совпадающие
предлагаемого формализма будем выражать в имена).
терминах ER-модели, на концептуальном уровне Период существования объекта, а также
совпадающих с категориями аппарата онтологий, периоды, в котором значение некоторого свойства
повсеместно применяемых в настоящее время для его постоянно, представляют ограниченные
формального представления фактических знаний. временные интервалы.
Наши построения будут основаны на анализе
Номенклатура изучаемых свойств объектов
специфики конкретно-исторических
специфична для определенного класса объектов и
исследований. Их целью является создание
зависит от конкретного исследования. Причем
основы для построения эффективной
наличие определенного свойства и его возможные
информационной технологии поддержки работы
значения, а также допустимые сочетания значений
исследователей.
этого и других свойств объекта зависит от
временного интервала даже в рамках одного
2 Специфика конкретно-исторических исследования.
исследований При определении свойств объекта
В рамках конкретно-исторических возможны искажения вследствие дефектов в
исследований изучаются определенные объекты, содержании источников, в процессах их
сведения о которых частично формализуемы. распознавания, интерпретации, интеграции.
Предполагается, что в данной сфере имеется С точки зрения процесса исследований к
специальный (выбранный исследователем) поддерживающей его информационной
понятийный аппарат, и предметом исследования технологии целесообразно предъявить следующие
является вполне определенный набор свойств требования.
объектов, часть из которых может быть Необходимо фиксировать не только четко
определена математически множеством установленные факты, но и ФПВ, включающие
допустимых значений, а часть характеризуется предположения, неточные значения свойств,
нарративами или образами. исследовательские вопросы.
Мы рассматриваем исследования,
Каждое сформулированное высказывание
опирающиеся на изучение документальных должно быть соотнесено с источником или с
источников. Диапазон такого рода работ
цепочкой вывода, обобщающей другие ФПВ.
постоянно расширяется за счет того, что
существенная часть документов получает Необходимо обеспечить информационную
электронные копии, к которым обеспечивается навигацию по связям между объектами, в том
сетевой доступ. числе, для электронных документов –
межтекстовые связи; многоаспектный поиск;
Изучая источник, исследователь сохраняет
возможности статистической обработки.
метаданные: адресные ссылки, выдержки,
выписки, а также, по возможности, некоторую Необходимо отслеживать процессы
формализованную в соответствии с задачами накопления данных, выявления дефектов,
конкретного исследования форму извлеченного выдвижения/ опровержения гипотез по
знания. В соответствии с классификацией, данной исследуемым источникам, времени,
в работе [1], метаданные делятся на автономные и исполнителям, аргументации.
встроенные. В терминах традиционной бумажной Концептуальной основой для создания
технологии первые – соответствуют записям, информационной технологии, удовлетворяющей
сохраняемым в виде отдельных карточек или в перечисленным требованиям, является
рабочей тетради. Вторые – результат разметки предлагаемая формальная модель представления
документа-источника – очерчивания, закладок, ФПВ.
заметок на полях, использования разноцветных
маркеров или стикеров. 3 Модель фактоподобных высказываний
При переходе к современной информационной Принципиальная проблема, которую
технологии эффективность работы исследователя необходимо решить при разработке модели ФПВ,
будет тем выше, чем более систематизировано состоит в выборе рационального уровня
удастся представить эти метаданные. формализации. Малоэффективны как совсем
Перечислим основные особенности изучаемых неформальное текстовое представление
объектов, которые следует учитывать при (нарратив), так и попытка максимальной
создании информационной технологии, формализации. Сформулируем три положения,
обслуживающей конкретно-исторические опора на которые позволит выбрать оптимальный
исследования. уровень формализации.
99
1) Модель строится по ER-принципу, с Наиболее важная особенность предлагаемой
определенными наборами объектов, атрибутов, модели – включение в ФПВ временного
отношений. интервала, в рамках которого оно предполагается
2) Для каждой сферы исследования справедливым. Такая конструкция предоставляет
выбираются свои наборы объектов и свойств, значительно более удобный базис для аналитико-
возможно, уточняемые для конкретного проекта. синтетической работы в области конкретно-
исторических исследований, чем фиксация
3) Формализуются не все возможные
отдельных событий. Действительно, подавляющее
свойства, а те, которые отражают поддающиеся
большинство событий, касающихся объекта,
типизации аспекты, возможные значения которых
имеют свою пару – они фиксируют начало и
задаются диапазоном чисел, дат; словарным
конец периода, в котором некоторое свойство
перечнем. Все, что не укладывается в эти рамки (а
объекта имело некоторое значение. Даже для
также малозначимые в рамках конкретного
такого свойства, как титул, возможны события
проекта сведения), представляется нарративным
присвоение, лишение, восстановление,
текстом.
определяющие соответствующие временные
Модель включает три группы элементов. интервалы. В любом случае, время ФПВ,
Основные элементы модели – компоненты ER- касающегося некоторого свойства объекта,
модели изучаемого исторического процесса: ограничено временем существования (жизни)
объекты, атрибуты, отношения – фиксируются объекта.
базовыми высказываниями. Высказывания-связки
соотносят базовые высказывания с источниками и Будем определять периоды (dt DT), как
между собой. Наконец, информацию, dt = (start, finish),
включающую высказывания-ограничения, а также где start и finish – это либо даты (с некоторой
данные, относящиеся к процессу исследования, степенью точности), либо оценки ограничений,
отнесем к служебным высказываниям. налагаемые на эти даты. Подробно форма
Рассмотрим эти группы высказываний подробнее. представления временных интервалов разной
степени определенности в виде строки
3.1 Базовые высказывания метаданных рассмотрена в [3].
Множество объектов исследования (O = O class ) Предложенный подход совсем не
включает объекты определенных классов. Для противоречит возможности в рамках конкретного
каждого класса объектов устанавливается набор исследования определить специальный класс
свойств. Литеральные свойства – атрибуты – объектов – события определенного рода
сопоставляют объекту некоторое значение из (например, Конференции).
определенного множества (чисел, дат, Рассмотрим основные виды базовых ФПВ и
номинальных шкал, текстов). Объектные определим содержание метаданных, их
свойства – отношения – сопоставляют объекту фиксирующих.
другой объект и литеральное значение, которое
1) Дефиниция – высказывание, определяющее
можно воспринимать, как метку на графе связей
существование объекта определенного класса в
между объектами. Такая конструкция, вместо
определенный период времени:
используемого в OWL строгого разделения на
категории свойств, не предполагающего t dt (o d (t) O class ).
литеральных значений у объектных свойств, d = (nomen, class, dt) – метаданные,
позволяет не вводить дополнительных объектов фиксирующие дефиницию.
(Отношение между Петровым и Гимназией), а,
Здесь nomen – имя объекта – неформальная и,
оставаясь в рамках объектов исследования
возможно, неуникальная текстовая константа,
(Петров, Гимназия) специфицировать значение
служащая для удобства восприятия
связи (Должность = Инспектор). Для конкретно-
исследователем. Каждое ФПВ имеет свою
исторических задач такое представление
уникальную идентификацию, которую для
существенно нагляднее.
простоты описания мы опускаем. При адресации
Далеко не все высказывания, содержащиеся в ФПВ будем использовать его обозначение
историческом источнике, можно формализовать. (например, d).
Но даже для формализуемых высказываний,
2) Атрибут – высказывание, определяющее
суждение о значении свойства объекта может
значение определенного литерального свойства
быть сформулировано не только как равенство
объекта в определенный период времени:
некой константе, но и как различные варианты
неравенства, а также принадлежности (не t dt (a aclass (o d , t) avalue).
принадлежности) некоторому набору констант. a = (d, aclass, avalue, , dt) – метаданные,
Оператор ФПВ, соотносящий значения свойства фиксирующие атрибут.
объекта с константой/списком констант (), 3) Отношение – высказывание, определяющее
определим следующим образом: связь объекта с другим объектом, а также
{, , , , , , }
100
литеральное значение, сопоставляемое этой связи Пятно на рукописи, неразборчивый почерк,
в определенный период времени: неизвестные сокращения – причины того, что
t dt (r rclass (o dp , o dq , t) rvalue). исследователь неуверен в результатах
интерпретации. Но и при уверенности в
r = (d p , d q , rclass, rvalue, , dt) – метаданные, толковании источника, исследователь может быть
фиксирующие отношение. не согласен со смыслом интерпретированного
Во всех конкретно-исторических высказывания. В этом случае он должен
исследованиях рассматриваются классы Лицо и зафиксировать противоречие между данными
Документальный объект (Д-объект). В источника и более надежными сведениями, что
большинстве случаев интерес представляют послужит обоснованием для высказывания,
Географические и Социальные объекты. В фиксирующего ложность сведений источника.
специальных исследованиях классами изучаемых Пример цепочки такого рода размышлений,
объектов являются Архитектурные, Природные, фиксируемых средствами ФПВ, будет приведен в
Математические и пр. объекты. следующем разделе.
Наиболее общими для самых разных областей Определим множество ФПВ (представленных
исследований являются свойства Д-объектов, под метаданными) – F, как объединение
которыми мы понимаем не только документы, но вышеперечисленных видов ФПВ и специальных
и их совокупности, и их компоненты (от архивов, ФПВ-связок – L, определяемых рекурсивно.
библиотек, интернет-порталов до абзацев текста). F = D A R L,
Атрибуты и связи документов хорошо
специфицируют библиографические и где D = {d}, A={a}, R={r}, L = {l}
археографические стандарты. В рамках l = (fp, fq, , estim)
современных стандартов IFLA (например, [5]) fp F, fq F,
рассматриваются связи между документами, estim [0..1], (0 –TRUE, 1 – FALSE)
представляющие интерес для конкретно {} Logical Temporal
исторических исследований. К ним относятся:
структурная (входит, следует за), деривативная Logical = {AND, OR, XOR, …}
(версии, переработки, переводы), дескриптивная Temporal = {BEFORE, AFTER, SAMETIME,
(критика, комментарии, аннотации, рефераты) INTERSECT}
связи. – интерпретация.
Атрибуты и связи Лиц, в основном,
специфичны для сферы исследований. 3.3 Служебные высказывания
Универсальны атрибуты пол и связь с гео- Каждой сфере исследования соответствует
объектами местопребывание (которое, например, свой набор классов объектов, их свойств,
в момент рождения – место рождения). зависимостей между значениями свойств. Часть
Достаточно часто рассматриваются родственные из этих ограничений легко формализуема.
связи, должностные отношения, отношения Например, спецификация перечней классов
учитель-ученик. Связи Лиц и Д-объектов объектов и классов свойств, в зависимости от
фиксируют сведения об авторстве, адресатах и классов объектов; списки возможных значений
упоминаниях. свойств. Несколько сложнее, но все же возможно
3.2 Высказывания-связки формализовать ограничения на возможные
сочетания значений свойств, а также на
Утверждение о том, что некоторое ФПВ временные характеристики. Примерами такого
получено в результате интерпретации () рода ограничений являются накладываемые
определенного источника также является биологическими законами разности в возрасте
определенным высказыванием. Источник при родителей и детей, или формулируемые
этом адресуется дефиницией соответствующего конкретным социальным устройством регламент
Д-объекта. Сопоставляя ФПВ, исследователь продвижения по службе.
конструирует новые выражения с помощью Важнейшим служебным высказыванием
логических или темпоральных связок. Как является перечень классов (например, class
интерпретация, так и логические операции над {Лицо, Д-объект, Гео-объект, Соц-объект}).
ФПВ не являются в полной мере формальными Ограничения на атрибуты формулируются
действиями. В рассуждениях исследователя есть указанием области определения и области
доля интуиции. Однако степень уверенности в значений (domain и range). Например,
своих умозаключениях вполне оцениваема. domain(Пол)= Лицо; range(Пол)={м, ж, ?}. Для
Поэтому каждому ФПВ-связке будем отношений область определения задается парой,
сопоставлять оценку уверенности в фиксируемой например, domain(Родство)= (Лицо, Лицо).
им формулировке. Такую оценку рационально
выражать в шкале нечеткой логики от 0 – FALSE Для фиксации ограничений на возраст детей
до 1 – TRUE. может потребоваться формализация высказывания
101
d 0 , d ((d 0 , d, Родство, Родитель) l 1 = (d 0 c.295 , a 1 , , 1)
(d.start – d 0 .start > 10) AND a 2 = (d 2 , «автор Беломорские былины», 1901)
(d.start – d 0 .start < 90))
l 2 = (d 0 c.295 , a 1 , , 1)
Должны ли фиксироваться подобные
ограничения в виде метаданных, Итак, ФПВ a 1 и a 2 противоречивы:
интерпретируемых некоторым унифицированным l 3 = (a 1 , a 2 , AND, 0.01)
инструментом, или они представляют Формальную возможность того, что и
специализированные процедуры контроля (своего Александр М. был «известным этнографом», но
рода сложных алгоритмических высказываний) – не публиковал своих исследований, мы оценили в
зависит от конкретных обстоятельств. Во многих 1 процент.
случаях контроль ограничения вообще может l 4 = (l 3 , a 2 , , 0.01)
быть выполнен только вручную. В целом, полезно
хотя бы в неформальном, текстовом виде l 5 = (l 4 , r 1 , AND, 0.99)
фиксировать ограничения, как своего рода Теперь мы можем сформулировать новое
памятку для исследователя (нарративное высказывание, корректирующее ошибочное a 1 :
высказывание). a 3 = (d 2 , «исслед. былин сев. края», 1896..-)
В соответствии с выдвинутыми требованиями l 6 = (l 4 , a 3 , , 0.99)
необходимо отслеживать процесс накопления
Строго говоря, приведенная цепочка
данных и их аналитико-синтетической обработки.
рассуждений, равно как и операция
Для этого целесообразно применить типовой
интерпретации источника не являются
прием, используемый, в частности, в wiki-
формальными. Однако возможность
технологии. Каждая запись ФПВ сопровождается
формализованной фиксации результатов
временной меткой и указанием автора. Вместо
мыслительных операций существенно
изменения записи производится формирование ее
дисциплинирует исследователя, а также позволяет
новой версии.
осуществиться научной коммуникации, что
4 Пример рассуждений, фиксируемых служит залогом взаимного контроля и
способствует повторному использованию данных
ФПВ исследования.
Рассмотрим пример интерпретации источника,
выявления противоречия, формулировки новых
5 Заключение
ФПВ. Источник – книга, посвященная 100-летию В рамках данной работы модель ФПВ
Первой московской гимназии [6]. представлена концептуально. При ее
d 0 = («Столетие 1-й гимназии», Д-объект, 1903) использовании в конкретной информационной
d 1 = («1-я гимназия», Соц-объект, 1804-1904..) технологии она должна быть выражена в
терминах соответствующего аппарата, в качестве
В источнике содержатся, в частности, списки которого могут выступать как современные языки
выпускников по годам выпуска, а также списки онтологий, так и инструменты баз данных.
печатных работ, авторами которых являются
выпускники гимназии. Два однофамильца – Опора на языки онтологий позволит
Алексей М. и Александр М. окончили гимназию организовать обмен информацией с другими
соответственно в 1896 и в 1888 годах: информационными системами. В частности, это
позволит импортировать конечные (или хотя бы
d 2 = («Алексей М.», Лицо, 1874..1878-1903..) стабилизированные) данные исследования в
r 1 = (d 2 , d 1 , Ученик, ..-1896) качестве фактографического индекса в
d 3 = («Александр М.», Лицо, 1866..1870-1903..) библиографическую/археографическую
r 2 = (d 3 , d 1 , Ученик, ..-1888) информационную систему.
Оценка времени жизни дана, исходя из Технология баз данных обеспечит
ограничения на возраст учеников. эффективность накопления и аналитико-
синтетической обработки ФПВ. Однако
В источнике допущена ошибка. В наилучшего результата, как показала практика
комментарии, относящимся к Александру М., разработки и эксплуатации инструментального
сказано «Известный этнограф, исследователь комплекса Фактограф [4], можно добиться,
былин сев. края». При этом работ у Александра сочетая автономные метаданные, хранимые в базе
М. не отмечено, а вот у Алексея М. отмечено данных, и встроенные, размечающие документ-
несколько работ, посвященных северным источник. При этом предполагается, что
былинам. исследователь имеет свою копию источника,
a 1 = (d 3 , «исслед. былин сев. края», 1888..-) 1 которую он может «чиркать» разметкой.
Взаимные связи между ФПВ, хранимыми в базе
1
Для краткости мы опускаем = «=», класс атрибута – данных, и фрагментами текста источника
Упоминание, а также определения Д-объектов – достигаются средствами гиперссылок. В
страниц, входящих в книгу-источник. документах-источниках границы фрагментов,
102
связанных с высказываниями, хранимыми в базе, [2] Кравцов А.В. Информационные модели и
определяются либо явно (для xml и html технологии в организации работы научного
форматов), либо закладками, применимыми не сообщества по публикации и анализу
только в офисных документах, но и в документах коллекций исторических документов
форматов pdf и djvu. В свою очередь, // Электронные библиотеки: перспективные
гиперссылками на форму, представляющую методы и технологии, электронные
конкретный объект в базе данных, целесообразно коллекции: Труды XI Всероссийской
оснастить текст источников в точках его научной конференции RCDL'2009.
упоминания. В случае не редактируемых Петрозаводск: КарНЦ РАН, 2009. C. 210–
документов (pdf и djvu) такую ссылку можно 218.
поместить в комментарий. [3] Маркова Н.А. Логика биографических
Вычленяя ФПВ из источника, мы фактов //Информатика и ее применения,
обеспечиваем удобство его контроля, анализа, 2012. Т. 6, вып. 2. С. 49–58.
интеграции, но в то же время, теряем контекст, [4] Маркова Н.А. Программа Средства
который может быть чрезвычайно полезен для интеграции, хранения и анализа
создания целостной картины. С другой стороны, биографических данных (Фактограф).
возможность получения оперативной справки по Свидетельство о государственной
ходу чтения источника, касающейся его текущего регистрации программы для ЭВМ
участка, способствует пониманию текста. № 2013617234 от 06.08.2013.
Сравнение обладающего внутренним единством [5] Руководство пользователя по программе
линейного текста со структурной картиной FamilySearch Indexing. © 2009, 2014 by
связанных объектов, в нем упоминаемым, дает Intellectual Reserve, Inc. URL:
возможность как уточнить идентификацию http://broadcast.lds.org/elearning/FHD/
объектов, сформулировать новые ФПВ, так и Local_Support/FamilySearchIndexing/RU/
глубже понять подтекст, неподдающийся fsi_user_guide.pdf
формализации. [6] Столетие Московской 1-й гимназии. 1804-
Повторное обращение к источнику (адресное, 1904 гг. / сост. И. Гобза. – М.: Синод. тип.,
и поэтому эффективное), равно как и повторное 1903. URL:
использование выявленных сведений, http://dlib.rsl.ru/viewer/01003711731#?page=1
чрезвычайно полезно уже индивидуальному [7] Функциональные требования к
исследователю. Тем важнее эти возможности для библиографическим записям / Рос. библ.
организации информационного обмена в ассоц., РГБ. – М.: Пашков дом, 2008.
сообществах, изучающих историю.
Предложенный в работе метод формализации Formalization of the Fact-like
данных может служить основой для создания
информационной технологии, существенно
Propositions in Specific Historical Studies
повышающих эффективность работы коллектива
Natalia A. Markova
исследователей.
The paper proposes a model of metadata
Литература representation of the fact-like propositions that
specify not only true statements, but suggestions,
[1] Когаловский М.Р. Метаданные в hypothesis, incomplete information, the results of
компьютерных системах // analytic/synthetic processing. Requirements to
Программирование, МАИК/Наука provide efficiency of the specific historical studies are
«Интерпериодика». 2013. Т. 39, № 4. С. 28– under consideration. The metadata are considered as
46. the base of supporting IT.
103