<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta />
    <article-meta>
      <title-group>
        <article-title>Автоматизированное понимание таблиц на основе системы исполнения правил</article-title>
      </title-group>
      <pub-date>
        <year>2013</year>
      </pub-date>
      <fpage>216</fpage>
      <lpage>223</lpage>
      <abstract>
        <p>В работе обсуждаются вопросы автоматизации процесса понимания таблиц, т.е. восстановления изначально отсутствующей в них информации о семантических отношениях (пары вида, ячейка-роль, метка-значение, метка-метка, метка-измерение). Предлагается подход, при котором понимание таблицы реализуется как исполнение правил анализа табличной структуры. На основе этого подхода разработана система для массового преобразования неструктурированной табличной информации, представленной в формате табличного процессора Excel, к структурированному виду. Результатом понимания таблиц являются структурированные данные ― таблицы в канонической форме, которые структурно соответствуют таблицам реляционной базы данных. Полученные экспериментальные результаты показывают эффективность применения предлагаемого подхода для широкого класса сводных таблиц из статистических отчетов.</p>
      </abstract>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>-</title>
      <p>
        По оценки исследователей Merrill Lynch [
        <xref ref-type="bibr" rid="ref16">16</xref>
        ]
примерно 80 процентов всей бизнес информации
представлено в неструктурированном виде. Такая
информация не имеет предопределенной
формальной модели данных (например, научная
статья, финансовый отчет, сообщение электронной
почты) [
        <xref ref-type="bibr" rid="ref1">1</xref>
        ] и является противоположностью
структурированной информации (например,
реляционным базам данных).
      </p>
      <p>
        Многие исследователи, в том числе, W. Inmon
[
        <xref ref-type="bibr" rid="ref11 ref12">11-12</xref>
        ], отмечают важность вопросов интеграции
неструктурированной информации. Одним из
наиболее интересных вопросов является интеграция
Труды 16-й Всероссийской научной конференции
«Электронные библиотеки: перспективные методы и
технологии, электронные коллекции» — RCDL-2014,
Дубна, Россия, 13–16 октября 2014 г.
      </p>
      <p>На практике решения многих задач связаны с
необходимостью извлекать информацию из таких
таблиц и загружать её в базы данных. Поскольку,
таблицы, представленные в неструктурированном
виде, часто оказываются единственным доступным
источником информации. Только после
преобразование такой табличной информации к
структурированной форме она становится
доступной для использования в бизнес-аналитике,
включая, аналитическую обработку в реальном
времени (OLAP), интеллектуальный анализ данных,
и извлечение знаний.</p>
      <p>В литературе рассматриваются следующие
задачи, которые являются преобразованием
неструктурированной табличной информации к
структурированному виду.</p>
      <p>
        1) Каноникализация таблицы [
        <xref ref-type="bibr" rid="ref19 ref2">2, 19</xref>
        ] ―
приведение её к канонической форме, которая
структурно соответствует таблице реляционной
базы данных.
      </p>
      <p>
        2) Извлечение информации из таблицы [
        <xref ref-type="bibr" rid="ref5">5</xref>
        ]
является аналогом задачи извлечения информации
из текста и состоит в выборочном извлечении
фактов, формирующих целевую базу данных.
      </p>
      <p>
        3) Понимание таблицы [
        <xref ref-type="bibr" rid="ref5 ref9">5, 9</xref>
        ] состоит в
восстановлении отношений между метками
(заголовками) и значениями данных, а также между
метками и измерениями (доменами).
      </p>
      <p>
        Как определяется в работе [
        <xref ref-type="bibr" rid="ref9">9</xref>
        ] понимание таблиц
в общем случае включает следующие этапы: (1)
обнаружение таблицы (поиск позиций
ограничивающего прямоугольника таблицы внутри
источника); (2) распознавание таблицы (разделение
её на отдельные ячейки); (3) функциональный
анализ (определение того, какую роль играет ячейка
в таблице); (4) структурный анализ (определение
связей между ячейками); и (5) интерпретацию
таблицы (извлечение фактов из таблицы). В
настоящей работе обсуждается автоматизация
следующих из перечисленных этапов понимании
таблиц: (3) функционального и (4) структурного
анализ, и (5) интерпретации таблицы.
2 Родственные работы
      </p>
      <p>
        Существует огромное разнообразие способов
изображения таблиц. Это приводит к высокой
сложности анализа и обработки
неструктурированной табличной информации. Как
показано в обзорах [
        <xref ref-type="bibr" rid="ref13 ref22 ref4 ref5">4, 5, 13, 22</xref>
        ], посвященных
проблемам анализа и обработки таблиц, сейчас
наиболее изучены, хотя и не решены полностью,
проблемы обнаружения и распознавания таблиц.
При этом проблемы высокоуровневого анализа и
интерпретации таблиц остаются менее изученными.
      </p>
      <p>
        Вопросы понимания таблиц, связанные с
задачами их (3) функционального и (4) структурного
анализ, а также (5) интерпретации, рассматриваются
в ряде работ [
        <xref ref-type="bibr" rid="ref10 ref19 ref2 ref4 ref6 ref8">2, 4, 6, 8, 10, 19, 23–24</xref>
        ]. Ниже
приводится анализ некоторых из них.
      </p>
      <p>
        В работах Douglas S. и др. [
        <xref ref-type="bibr" rid="ref2">2</xref>
        ] и Tijerino Y. и др.
[
        <xref ref-type="bibr" rid="ref19">19</xref>
        ] рассматривается преобразование
(структурирование) табличной информации,
называемое каноникализацией таблицы. В работе
Douglas S. и др. предлагается метод интерпретации
и каноникализации таблиц, которые содержатся в
спецификациях, используемых в строительной
промышленности. Для этого они предлагают
использовать обработку естественного языка на
основе онтологии предметной области (подъязыка
спецификаций строительной промышленности).
      </p>
      <p>
        Предлагаемый Tijerino Y. и др. [
        <xref ref-type="bibr" rid="ref19">19</xref>
        ] способ
каноникализации основан на использовании
библиотеки фреймов, содержащей знания о
лексическом содержании таблиц. Каждый фрейм
данных описывает один тип данных и используется
для отнесения выражений на естественном языке
(табличных заголовков и значений) к этому типу.
Для описания типов данных ими предлагается
использовать регулярные выражения, словари и
некоторые открытые ресурсы, например, WordNet
[
        <xref ref-type="bibr" rid="ref21">21</xref>
        ].
      </p>
      <p>
        В перечисленных работах [
        <xref ref-type="bibr" rid="ref10 ref11 ref12 ref13 ref14 ref15 ref16 ref17 ref18 ref19 ref2 ref3 ref4 ref5 ref6 ref7 ref8 ref9">2–19</xref>
        ] предлагаются
методы каноникализации таблиц, основанные на
анализе и интерпретации представленной в
таблицах естественно-языковой информации. На
практике этого не всегда достаточно, для более
точного и полного извлечения информации из
таблицы часто также требуется анализ
пространственной и графической информации.
      </p>
      <p>
        W. Gatterbauer и др. в работе [
        <xref ref-type="bibr" rid="ref8">8</xref>
        ] напротив
предлагают предметно-независимый метод
извлечения информации из HTML таблиц,
основанный на анализе исключительно
пространственной и стилевой информации в
формате CSS2 (Cascading Style Sheets Level 2). В
частности, ими предлагается выполнять
интерпретацию таблиц (восстановление
семантических отношений) на основе эвристик о
стилевой информации подготовленного для набора
наиболее общих типов изображения web-таблиц.
      </p>
      <p>
        В работе D.W. Embley и др. [
        <xref ref-type="bibr" rid="ref6">6</xref>
        ] предлагаются
методы обнаружения таблиц внутри HTML страниц,
и извлечения из них информации. При этом
предполагается, что таблица может включать
вложенные таблицы на связанных страницах. В
частности, для поиска атрибутов (меток) и значений
(данных) среди содержания ячеек таблицы
предлагается использовать онтологии, специально
разрабатываемые для извлечения данных. Такие
онтологии извлечения помимо понятий (объектов),
отношений и ограничений содержат привязанные к
объектам фреймы, которые с помощью регулярных
выражений позволяют связать содержание таблицы
с объектами онтологии. Для связывания атрибутов
со значениями, дополнительно к онтологиям
извлечения используется набор эвристик о
пространственной структуре и содержании таблиц.
      </p>
      <p>В отличие от приведенных исследований нами
предлагается автоматизировать понимание таблиц
за счет анализа и интерпретации, как их
естественно-языковой, так и пространственной и
графической (стилевой) информации.
3 Представление фактов о таблицах</p>
      <p>Для понимания таблиц нами предлагается
подход, основанный на исполнении правил анализа
структуры таблиц. Идея, лежащая в основе
предлагаемого подхода, состоит в следующем.
Обычно внутри тематической коллекции
документов от одного поставщика таблицы
компонуются и форматируются однообразно. Для
такой коллекции документов можно определить
набор формализованных правил анализа табличной
структуры, который удовлетворяет всем или почти
всем ее таблицам. Эти правила можно представить в
виде базы знаний, а процесс восстановления
семантических отношений в таблице реализовать
как логический вывод. При этом база фактов,
используемая в процессе логического вывода, может
включать информацию о пространственном,
графическом и естественно-языковом содержании
таблицы.
3.1 Базовые предположения о таблицах</p>
      <p>На основе ограничений табличной структуры,
характерных для представлений табличной
информации в широко распространенных форматах
данных, таких как Excel, Word, HTML и LaTeX,
предлагается достаточно общая модель таблицы
CELLS, которая ориентирована на представление
фактов о табличной информации в процессе
логического вывода. В модели сделано несколько
общих для этих представлений предположений.</p>
      <p>1) Ячейка может располагаться в одной или
нескольких соседних строках и в одном или
нескольких соседних столбцах (например, атрибуты
COLSPAN и ROWSPAN в HTML) и имеет
прямоугольную форму в пространстве строк и
столбцов, как показано на рис. 1, а.</p>
      <p>2) Внутри ячейки не могут располагаться другие
ячейки или таблицы (это не допускается в Excel).</p>
      <p>
        3) Содержимое ячейки может являться либо
меткой (заголовком), либо вхождением (данными).
Используемые здесь термины «вхождение» и
«метка» соответствуют смыслу терминов «entry» и
«label» соответственно из работы Wang X. [
        <xref ref-type="bibr" rid="ref20">20</xref>
        ].
      </p>
      <p>4) Метки могут адресовать вхождения либо в
строках ― метки строк, либо в столбцах ― метки
столбцов.</p>
      <p>Рис. 1. Примеры объединения плиток сетки
в ячейки таблицы, обозначенные как 1, 2 и 3:
так ячейка может объединять несколько плиток</p>
      <p>в Excel, Word, HTML и LaTeX (а);
так ячейка может визуально (для восприятия человеком)
включать несколько плиток с помощью разграфки (б);
скорее всего, так ячейки никто не представляет (в)
Очевидно, что сделанные предположения
описывают широкий класс обрабатываемых таблиц.
Пример сводной таблицы, полностью укладывающейся
в данную модель, приводится на рис. 2.</p>
      <p>Рис. 2. Пример сводной таблицы
3.2 Модель таблицы</p>
      <p>Модель включает два уровня: физической и
логической структуры, которые в упрощенном виде
можно описать следующим образом.</p>
      <p>1) Уровень физической структуры Tp=(Sr, Sc, С)
состоит из: (1) пространства строк ― Sr и столбцов
― Sc; (2) набора ячеек ― С, в котором каждая
ячейка ― с=(p, c', S) включает: координаты в
пространстве строк Sr и столбцов Sc ― p=(cl, rt, cr,
rb), содержание ― c', стилевая информация
(цветовые схемы, шрифтовые метрики,
выравнивание, стили оформлении границ и др.) ― S.</p>
      <p>2) Уровень логической структуры Tl=(D, Lr, Lc,
E) состоит из: (1) набора представленных в
обрабатываемой таблице измерений ― D={Di},
каждое из которых содержит значения Di={dj}; (2)
дерева меток строк ― Lr и (3) столбцов ― Lc,
отражающих связи между метками, не
являющимися значениями измерений Di из набора D
― l=(l'), где l' ― содержание метки; (4) набора
вхождений ― E, в котором каждое вхождение ―
e=(e', D', L') включает: содержание ― e', набор
связанных с ним значений измерений Di из набора D
― D', набор связанных с ним меток из деревьев Lr и
Lc ― L'.
3.3 Структуры данных</p>
      <p>Предлагаемая в работе модель таблицы
реализована в виде ряда структур данных, основные
из которых перечислены далее: CELL, ENTRY,
LABEL, LABELNODE. Структура CELL
предназначена для представления ячейки и прежде
всего информации о её физической структуре,
однако она также включает уровень логической
структуры ячейки (т.е. она позволяет накапливать
информацию о ее связях с другими ячейками, ее
роли и типе данных). На практике это позволяет
разрабатывать правила анализа табличной
структуры в более лаконичной манере по сравнению
со случаем, при котором используются
дополнительные структуры данных для
представления информации уровня логической
структуры. Структуры ENTRY, LABEL,
LABELNODE используются исключительно на
уровне логической структуры. ENTRY служит для
представления вхождения, а LABEL — метки.
Структура LABELNODE является оболочкой для
структуры LABEL и обеспечивает представление
деревьев меток.</p>
      <p>Все предложенные структуры данных и
алгоритмы реализованы на платформе Java. Это
обеспечивает возможность использовать их
напрямую для представления фактов о таблицах в
процессе логического вывода, выполняемого в
системе исполнения правил с поддержкой
спецификации JSR-94 (Java Rule Engine API).
$c : CCell( cl == 1, style.getFont().getColor() == "#ff0000")
modify ( $c ) { setRole( Role.ROWLABEL ) }
$c1 : CCell()
4. Представление и исполнение правил
анализа табличной структуры</p>
      <p>
        Схема преобразования табличной информации
от неструктурированной к структурированной
форме показана на рис. 3. Предполагается, что
этапы обнаружения и распознавания таблицы
выполняются в сторонних системах. Например, для
извлечения таблиц из PDF документов могут
использоваться системы Tabula [
        <xref ref-type="bibr" rid="ref18">18</xref>
        ] или PDFGenie
[
        <xref ref-type="bibr" rid="ref15">15</xref>
        ], для документов, напечатанных в файлы
формата EMF, может использоваться технология,
предложенная в работах [24]. Выходом таких систем
являются таблицы в форматах Excel, HTML или
XML, которые могут быть
физическому уровню модели CELLS.
      </p>
      <p>приведены
к
В процессе загрузки таблиц из полученных
файлов Excel, HTML или XML в структуры данных,
реализующих модель CELLS, табличная
информация подвергается предобработки. Это
включает опционально: удаление лишних
пробельных и служебных символов из текстового
содержания, исключение из таблицы пустых строк и
столбцов и восстановление отсутствующих настроек
стилей границ ячеек. Последнее необходимо,
поскольку видимые и физические границы ячейки
не всегда совпадают. Визуально они могут быть
образованы границами соседних ячеек. Приведение
стилей физических границ ячеек в соответствии с её
видимыми границами позволяет упростить правила
анализа структуры таблицы.</p>
      <p>Полученные в результате данные о таблице,
которые формируют базу фактов для логического
вывода. Кроме того, факты могут быть дополнены
внешней информацией об измерениях.</p>
      <p>Для обработки набора таблиц формируется база
знаний, которая состоит из продукционных правил
анализа табличной структуры. Они отображают
доступную информацию: позиции (координаты),
графическое форматирование и
естественноязыковое содержание ячеек, в отсутствующие
изначально отношения между метками,
вхождениями и измерениями. Полученные в
процессе вывода новые факты о семантических
отношениях должны быть достаточными для
каноникализации таблицы.</p>
      <p>
        В качестве система исполнения таких правил
может использоваться свободная системы Drools
Expert [
        <xref ref-type="bibr" rid="ref3">3</xref>
        ], реализующая спецификацию JSR-94. При
этом сами правила могут быть представлены на
языке выражений MVEL [
        <xref ref-type="bibr" rid="ref14">14</xref>
        ].
      </p>
      <p>На Рис. 4 приводится ряд простых примеров
возможных правил анализа структуры на языке
MVEL. Если ячейка $c находится в 1-ом столбце, а
её текст выделен красным цветом, то она выполняет
роль метки строки (рис. 4, а). Если ячейка $c1
расположена непосредственно над ячейкой $c2 и
при этом полностью охватывает её по столбцам, то
они связаны (рис. 2, б). Если ячейка $c содержит
текст, удовлетворяющий регулярному выражению
"(?i).*(total)", то её необходимо игнорировать при
формировании выходных данных (рис. 2, в).
Примеры правил, которые применялись при
тестировании системы CELLS, можно найти по
адресу http://cells.icc.ru/test.</p>
      <p>В процессе логического вывода накапливается
информация о логической структуре таблицы. Для
этой информации выполняется постобработка,
которая включает: приведение текстового
содержания ячеек к эталонным написаниям,
сопоставление меток с измерениями и
формирование канонической формы таблицы.</p>
      <p>Из восстановленной информации модели
таблицы CELLS формируется таблица в
канонической форме, которая включает следующие
поля: DATA ― данные (вхождения); ROW_LABEL
― пути меток от листьев до корней из
невырожденного дерева Lr; COL_LABEL ― пути
меток от листьев до корней из невырожденного
дерева Lc; D1,..., Dn ― поля значений измерений Di
из набора D. Каждый кортеж в такой канонической
форме представляет связь между вхождением,
путями в деревьях меток и значениями
восстановленных измерений. Дополнительно поле
ROW_LABEL/COL_LABEL может быть разделено
на несколько отдельных полей, каждое из которых
будет соответствовать одному уровню вложенности
в дереве меток строк/столбцов.</p>
      <p>Рис. 5. Каноническая форма таблицы из рис. 1:
все метки сопоставлены измерениям, поэтому поля</p>
      <p>COL_LABEL и ROW_LABEL отсутствуют
3 Экспериментальные результаты</p>
      <p>Экспериментальная оценка представленного
подхода выполнена с помощью системы CELLS, в
которой реализованы структуры данных,
представляющие модель таблицы CELLS, и
алгоритмы: 1) загрузки исходной табличной
информации в формате Excel (тестовых данных со
специальной разметкой); 2) структурирования
табличной информации, восстановленной в
процессе логического вывода; 3) экспорта
результатов в формате Excel.</p>
      <p>Для экспериментальной оценки сформирована
коллекция тестовых данных, которая включает
97 таблиц в формате Excel, собранных из
7 различных источников. Коллекция доступна по
адресу http://cells.icc.ru/test. Её краткое описание
приводится в табл. 1. Для формирования коллекции
исходная табличная информация была
преобразована из формата PDF в Excel.</p>
      <p>Источниками тестовых данных послужили
слабоструктурированные документы в
низкоуровневом формате файлов печати PDF ―
государственные и финансовые статистические
отчеты с богатым табличным содержанием. Для
формирования коллекции исходная табличная
информация была преобразована из формата PDF в
Excel. При этом, насколько это было возможно, в
полученных тестовых таблицах было сохранено
графическое форматирование, представленное в
соответствующих им PDF источниках.
Код
источника</p>
    </sec>
    <sec id="sec-2">
      <title>AEROFLOT 2</title>
    </sec>
    <sec id="sec-3">
      <title>BOEING 3</title>
    </sec>
    <sec id="sec-4">
      <title>CHINA_STAT 4</title>
    </sec>
    <sec id="sec-5">
      <title>CHEVRON 5</title>
    </sec>
    <sec id="sec-6">
      <title>USDA_NASS 6 TOBACCO 7</title>
      <p>Кол-во
таблиц
Кол-во
ячеек</p>
      <p>Кол-во
вхождений
Кол-во
меток
Кол-во связей</p>
      <p>между
метками*
Кол-во
правил</p>
      <p>Время
исполнения
правил (мс)
15
13
21
18
7
7
16
1088
2047
2156
7216
812
1553
2844
734
727
964
4180
268
1175
2195
257
321
470
862
141
313
508
102
167
196
551
89
174
335
10
16
14
12
12
16
10
417
526
663
964
283
638
730
1 Statistical Handbook of Japan 2007. Statistics Bureau of Japan. Chapter 5, 8.
2 OJSC «Aeroflot – Russian Airlines» Consolidated Financial Statements For the Year Ended December 31, 2006. P. 4–10,
25–26.
3 Boeing Co, Annual Report 2010. P. 50–55, 83–85.
4 China statistical yearbook 2003. National Bureau of Statistics of China. P. 23–48, 555, 559, 571, 584, 590, 664, 708, 774, 765.
5 Chevron Corp. News Release November 2, 2012. Chevron Corp. P. 1, 5–9.
6 USDA NASS. 2003 Agricultural Statistics Annual. USDA (U.S. Department of Agriculture). National Agricultural Statistics
Service. Chapter VI. P. 5–7, 12.
7 Tobacco: World Markets and Trade 2005. USDA (U.S. Department of Agriculture). Foreign Agricultural Service.
* Исключая связи корней деревьев меток.</p>
      <p>Тестовые данные имеют дополнительную
разметку для определения местоположения таблицы
внутри листа Excel (рис. 6), а также аккуратную
декомпозицию на ячейки. Там, где это возможно, их
физическая структура и разграфка совпадают. Это
позволяет избежать этапов обнаружения и
сегментации таблицы.
Рис. 6. Дополнительная разметка тестовой таблицы: маркеры «$START» и «$END» указывают
соответственно верхний левый и нижний правый угол таблицы в пространстве строк и столбцов
На рис. 7 показаны некоторые таблицы из
тестовой коллекции данных. Их структуры
включают типичные для этой коллекции
особенности. Так, таблица, рис. 7, а, содержит
иерархии меток строк и столбцов. Тело таблицы,
рис. 7, б, пересекают перерезы: «Price per 100
pounds» и «Price per bushel». В таблице, рис. Х, в,
столбцы с метками строк чередуются со столбцами с
данными.</p>
      <p>Полученные экспериментальные результаты
приводятся в табл. 1. Логический вывод выполнялся
в системе Drools Expert (5.4.0.Final). При этом
использовался процессор Intel Core 2 Quad, 2,66
ГГц. Экспериментальные результаты показывают
эффективность применения предлагаемого подхода
для широкого класса таблиц.
4. Заключение</p>
      <p>Предлагаемый подход базируется на
предположении о том, что для одного или
нескольких схожих источников можно разработать
непротиворечивый набор правил анализа структуры
содержащихся в них таблиц. Однако разработка
достаточно универсальных баз знаний для многих
разнородных источников имеет слишком высокую
цену и не всегда возможна из-за противоречий,
содержащихся в самих источниках. Поэтому данный
подход предназначен в основном для задач
управления данными, прежде всего для массовой
интеграции табличной информации из наборов
похожих источников.
Литература</p>
      <p>Automated Table Understanding</p>
      <p>Using a Rule Engine</p>
      <p>Alexey O. Shigarov</p>
      <p>The paper discusses issues on automation of the
table understanding (i.e. recovering relationships of
table elements). We propose an approach to table
understanding based on the use of a rule engine. A table
model oriented on the logical inference and algorithms
for processing tabular information are also considered in
the paper. The CELLS system for structuring tabular
information presented in Excel spreadsheet format has
been developed using the proposed approach, model and
algorithms. The performance evaluation of the system
shows that the approach can be applied to a wide range
of tables.</p>
    </sec>
  </body>
  <back>
    <ref-list>
      <ref id="ref1">
        <mixed-citation>
          [1]
          <string-name>
            <surname>Blumberg</surname>
            <given-names>R.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Atre</surname>
            <given-names>S.</given-names>
          </string-name>
          <article-title>The problem with unstructured data // DM Review</article-title>
          ,
          <year>2003</year>
          . http://soquelgroup.com/Articles/ dmreview_0203_problem.pdf
        </mixed-citation>
      </ref>
      <ref id="ref2">
        <mixed-citation>
          [2]
          <string-name>
            <surname>Douglas</surname>
            <given-names>S.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Hurst</surname>
            <given-names>M.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Quinn</surname>
            <given-names>D</given-names>
          </string-name>
          .
          <source>Using Natural Language Processing for Identifying and Interpreting Tables in Plain Text // Proc. of the 4th Annual Symposium on Document Analysis and Information Retrieval. Las Vegas</source>
          .
          <year>1995</year>
          . P.
          <volume>535</volume>
          -
          <fpage>546</fpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref3">
        <mixed-citation>
          [3]
          <string-name>
            <given-names>Drools</given-names>
            <surname>Expert (JBoss Community</surname>
          </string-name>
          <article-title>)</article-title>
          . http://www.jboss.org/drools/drools-expert.html
        </mixed-citation>
      </ref>
      <ref id="ref4">
        <mixed-citation>
          [4]
          <string-name>
            <given-names>e</given-names>
            <surname>Silva</surname>
          </string-name>
          <string-name>
            <given-names>A.C.</given-names>
            ,
            <surname>Jorge</surname>
          </string-name>
          <string-name>
            <given-names>A.M.</given-names>
            ,
            <surname>Torgo</surname>
          </string-name>
          <string-name>
            <surname>L</surname>
          </string-name>
          .
          <article-title>Design of an end-to-end method to extract information from tables // Int</article-title>
          . J. on
          <source>Document Analysis and Recognition</source>
          .
          <year>2006</year>
          . Vol.
          <volume>8</volume>
          , No. 2. P.
          <volume>144</volume>
          -
          <fpage>171</fpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref5">
        <mixed-citation>
          [5]
          <string-name>
            <surname>Embley</surname>
            <given-names>D.W.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Hurst</surname>
            <given-names>M.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Lopresti</surname>
            <given-names>D.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Nagy</surname>
            <given-names>G</given-names>
          </string-name>
          .
          <source>Table-processing paradigms: a research survey // Int. J. on Document Analysis and Recognition</source>
          .
          <year>2006</year>
          . Vol.
          <volume>8</volume>
          , No. 2. P.
          <volume>66</volume>
          -
          <fpage>86</fpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref6">
        <mixed-citation>
          [6]
          <string-name>
            <surname>Embley</surname>
            <given-names>D.W.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Tao</surname>
            <given-names>C.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Liddle</surname>
            <given-names>S.W. Automating</given-names>
          </string-name>
          <article-title>the Extraction of Data from HTML Tables with Unknown Structure // Data &amp; Knowledge Engineering</article-title>
          . Elsevier.
          <year>2005</year>
          . Vol.
          <volume>54</volume>
          , No. 1. P. 3-
          <fpage>28</fpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref7">
        <mixed-citation>
          [7]
          <string-name>
            <surname>Feldman</surname>
            <given-names>R.</given-names>
          </string-name>
          ,
          <source>Sanger J. The Text Mining Handbook: Advanced</source>
          Approaches in Analyzing Unstructured Data // Cambridge University Press.
          <year>2006</year>
          . 422 p.
        </mixed-citation>
      </ref>
      <ref id="ref8">
        <mixed-citation>
          [8]
          <string-name>
            <surname>Gatterbauer</surname>
            <given-names>W.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Bohunsky</surname>
            <given-names>P.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Herzog</surname>
            <given-names>M.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Krüpl</surname>
            <given-names>B.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Pollak</surname>
            <given-names>B.</given-names>
          </string-name>
          <string-name>
            <surname>Towards</surname>
          </string-name>
          Domain-Independent
          <source>Information Extraction from Web Tables // Proc. of the 16th Int. Conf. on World Wide Web. ACM</source>
          New York, NY, US,
          <year>2007</year>
          . P.
          <volume>71</volume>
          -
          <fpage>80</fpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref9">
        <mixed-citation>
          [9]
          <string-name>
            <surname>Hurst</surname>
            <given-names>M.</given-names>
          </string-name>
          <string-name>
            <surname>Layout</surname>
          </string-name>
          and
          <article-title>Language: Challenges for Table Understanding on the Web //</article-title>
          <source>In Proc. of the 1st Int. Workshop on Web Document Analysis</source>
          .
          <year>2001</year>
          . P.
          <volume>27</volume>
          -
          <fpage>30</fpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref10">
        <mixed-citation>
          [10]
          <string-name>
            <surname>Hurst</surname>
            <given-names>M.</given-names>
          </string-name>
          <article-title>The Interpretation of Tables in Texts</article-title>
          .
          <source>PhD thesis</source>
          . School of Cognitive Science, Informatics, the University of Edinburgh. UK,
          <year>2000</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref11">
        <mixed-citation>
          [11]
          <string-name>
            <surname>Inmon</surname>
            <given-names>W.H.</given-names>
          </string-name>
          <article-title>Matching unstructured data and structured data // The data administration newsletter</article-title>
          .
          <year>2006</year>
          . http://www.tdan.com/ view-articles/5009.
        </mixed-citation>
      </ref>
      <ref id="ref12">
        <mixed-citation>
          [12]
          <string-name>
            <surname>Inmon</surname>
            <given-names>W.H.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Nesavich</surname>
            <given-names>A</given-names>
          </string-name>
          .
          <article-title>"Tapping into Unstructured Data: Integrating Unstructured Data and Textual Analytics into Business Intelligence", 1st edition</article-title>
          , Prentice Hall PTR,
          <year>2007</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref13">
        <mixed-citation>
          [13]
          <string-name>
            <surname>Lopresti</surname>
            <given-names>D.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Nagy</surname>
            <given-names>G.</given-names>
          </string-name>
          <article-title>A tabular survey</article-title>
          of
          <source>automated table processing // Lecture Notes in Computer Science</source>
          .
          <year>2000</year>
          . Vol.
          <year>1941</year>
          . P.
          <volume>93</volume>
          -
          <fpage>120</fpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref14">
        <mixed-citation>[14] MVEL. http://mvel.codehaus.org</mixed-citation>
      </ref>
      <ref id="ref15">
        <mixed-citation>[15] PDFGenie, http://www.pdftron.com/pdfgenie</mixed-citation>
      </ref>
      <ref id="ref16">
        <mixed-citation>
          [16]
          <string-name>
            <surname>Shilakes</surname>
            <given-names>C.C.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Tylman</surname>
            <given-names>J</given-names>
          </string-name>
          . Enterprise Information Portals // Merrill Lynch.
          <year>1998</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref17">
        <mixed-citation>
          [17]
          <string-name>
            <given-names>SQL</given-names>
            <surname>Server Integration</surname>
          </string-name>
          <string-name>
            <surname>Services</surname>
          </string-name>
          , http://msdn.microsoft.com/ru-ru/library/ ms141026.aspx
        </mixed-citation>
      </ref>
      <ref id="ref18">
        <mixed-citation>
          [18]
          <string-name>
            <surname>Tabula</surname>
          </string-name>
          , http://tabula.nerdpower.org
        </mixed-citation>
      </ref>
      <ref id="ref19">
        <mixed-citation>
          [19]
          <string-name>
            <surname>Tijerino</surname>
            <given-names>Y.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Embley</surname>
            <given-names>D.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Lonsdale</surname>
            <given-names>D.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Nagy</surname>
            <given-names>G</given-names>
          </string-name>
          .
          <article-title>Towards ontology generation</article-title>
          from tables // World Wide Web:
          <source>Internet and Web Information Systems</source>
          .
          <year>2005</year>
          . Vol.
          <volume>8</volume>
          , No. 3. P.
          <volume>261</volume>
          -
          <fpage>285</fpage>
          . Tabular Abstraction, Editing, and
          <source>PhD thesis</source>
          . Waterloo, Ontario,
        </mixed-citation>
      </ref>
      <ref id="ref20">
        <mixed-citation>
          [20]
          <string-name>
            <surname>Wang</surname>
            <given-names>X.</given-names>
          </string-name>
          <string-name>
            <surname>Formatting</surname>
          </string-name>
          . Canada.
          <year>1996</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref21">
        <mixed-citation>[21] WordNet, http://wordnet.princeton.edu</mixed-citation>
      </ref>
      <ref id="ref22">
        <mixed-citation>
          [22]
          <string-name>
            <surname>Zanibbi</surname>
            <given-names>R.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Blostein</surname>
            <given-names>D.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Cordy</surname>
            <given-names>J.R.</given-names>
          </string-name>
          <article-title>A survey of table recognition: Models, observations</article-title>
          , transformations, and inferences // Int. J. on
          <source>Document Analysis and Recognition</source>
          .
          <year>2004</year>
          . Vol.
          <volume>7</volume>
          , No. 1. P. 1-
          <fpage>16</fpage>
          .
        </mixed-citation>
      </ref>
    </ref-list>
  </back>
</article>