=Paper= {{Paper |id=Vol-1297/216-223_paper-31 |storemode=property |title=Автоматизированное понимание таблиц на основе системы исполнения правил (Automated Table Understanding Using a Rule Engine) |pdfUrl=https://ceur-ws.org/Vol-1297/216-223_paper-31.pdf |volume=Vol-1297 |dblpUrl=https://dblp.org/rec/conf/rcdl/Shigarov14 }} ==Автоматизированное понимание таблиц на основе системы исполнения правил (Automated Table Understanding Using a Rule Engine) == https://ceur-ws.org/Vol-1297/216-223_paper-31.pdf
              Автоматизированное понимание таблиц
               на основе системы исполнения правил

                                    © А.О. Шигаров
                  Институт динамики систем и теории управления СО РАН
                                         Иркутск
                                     shigarov@icc.ru

                                                         неструктурированных текстов, включая таблицы.
                 Аннотация                               Многие слабоструктурированные (ASCII-текст,
                                                         файлы печати PDF и др.) и полуструктурированные
   В     работе     обсуждаются      вопросы
   автоматизации процесса понимания таблиц,              (документы Word, книги Excel, HTML страницы и
   т.е.      восстановления       изначально             др.) документы [7] содержат таблицы. Такие
                                                         таблицы главным образом адресованы для
   отсутствующей в них информации о
   семантических отношениях (пары вида,                  восприятия человеком. Они не предназначены
   ячейка-роль, метка-значение, метка-метка,             напрямую      для   высокоуровневой       машинной
                                                         обработки, например, выполнения запросов к
   метка-измерение). Предлагается подход,
   при     котором     понимание     таблицы             данным по аналогии с SQL (Structured Query
   реализуется как исполнение правил анализа             Language). Поэтому они также являются примером
                                                         неструктурированной информации.
   табличной структуры. На основе этого
   подхода разработана система для массового                 На практике решения многих задач связаны с
   преобразования        неструктурированной             необходимостью извлекать информацию из таких
   табличной информации, представленной в                таблиц и загружать её в базы данных. Поскольку,
   формате табличного процессора Excel, к                таблицы, представленные в неструктурированном
   структурированному виду. Результатом                  виде, часто оказываются единственным доступным
   понимания          таблиц        являются             источником       информации.       Только     после
   структурированные данные ― таблицы в                  преобразование такой табличной информации к
   канонической форме, которые структурно                структурированной      форме      она    становится
   соответствуют таблицам реляционной базы               доступной для использования в бизнес-аналитике,
   данных. Полученные экспериментальные                  включая, аналитическую обработку в реальном
   результаты показывают эффективность                   времени (OLAP), интеллектуальный анализ данных,
   применения предлагаемого подхода для                  и извлечение знаний.
   широкого класса сводных таблиц из                         В литературе рассматриваются следующие
   статистических отчетов.                               задачи,    которые    являются     преобразованием
                                                         неструктурированной табличной информации к
1 Введение                                               структурированному виду.
   По оценки исследователей Merrill Lynch [16]               1) Каноникализация таблицы [2, 19] ―
примерно 80 процентов всей бизнес информации             приведение её к канонической форме, которая
представлено в неструктурированном виде. Такая           структурно соответствует таблице реляционной
информация      не   имеет     предопределенной          базы данных.
формальной модели данных (например, научная                  2) Извлечение информации из таблицы [5]
статья, финансовый отчет, сообщение электронной          является аналогом задачи извлечения информации
почты) [1] и является противоположностью                 из текста и состоит в выборочном извлечении
структурированной     информации      (например,         фактов, формирующих целевую базу данных.
реляционным базам данных).                                   3) Понимание таблицы          [5, 9] состоит в
   Многие исследователи, в том числе, W. Inmon           восстановлении     отношений      между     метками
[11-12], отмечают важность вопросов интеграции           (заголовками) и значениями данных, а также между
неструктурированной информации. Одним из                 метками и измерениями (доменами).
наиболее интересных вопросов является интеграция             Как определяется в работе [9] понимание таблиц
                                                         в общем случае включает следующие этапы: (1)
Труды 16-й Всероссийской научной конференции             обнаружение       таблицы       (поиск      позиций
«Электронные библиотеки: перспективные методы и          ограничивающего прямоугольника таблицы внутри
технологии, электронные коллекции» — RCDL-2014,          источника); (2) распознавание таблицы (разделение
Дубна, Россия, 13–16 октября 2014 г.                     её на отдельные ячейки); (3) функциональный




                                                   216
анализ (определение того, какую роль играет ячейка            формате CSS2 (Cascading Style Sheets Level 2). В
в таблице); (4) структурный анализ (определение               частности,     ими     предлагается     выполнять
связей между ячейками); и (5) интерпретацию                   интерпретацию        таблиц       (восстановление
таблицы (извлечение фактов из таблицы). В                     семантических отношений) на основе эвристик о
настоящей работе обсуждается автоматизация                    стилевой информации подготовленного для набора
следующих из перечисленных этапов понимании                   наиболее общих типов изображения web-таблиц.
таблиц: (3) функционального и (4) структурного                   В работе D.W. Embley и др. [6] предлагаются
анализ, и (5) интерпретации таблицы.                          методы обнаружения таблиц внутри HTML страниц,
                                                              и извлечения из них информации. При этом
2 Родственные работы                                          предполагается, что таблица может включать
   Существует огромное разнообразие способов                  вложенные таблицы на связанных страницах. В
изображения таблиц. Это приводит к высокой                    частности, для поиска атрибутов (меток) и значений
сложности          анализа        и        обработки          (данных) среди содержания ячеек таблицы
неструктурированной табличной информации. Как                 предлагается использовать онтологии, специально
показано в обзорах [4, 5, 13, 22], посвященных                разрабатываемые для извлечения данных. Такие
проблемам анализа и обработки таблиц, сейчас                  онтологии извлечения помимо понятий (объектов),
наиболее изучены, хотя и не решены полностью,                 отношений и ограничений содержат привязанные к
проблемы обнаружения и распознавания таблиц.                  объектам фреймы, которые с помощью регулярных
При этом проблемы высокоуровневого анализа и                  выражений позволяют связать содержание таблицы
интерпретации таблиц остаются менее изученными.               с объектами онтологии. Для связывания атрибутов
                                                              со значениями, дополнительно к онтологиям
   Вопросы понимания таблиц, связанные с                      извлечения используется набор эвристик о
задачами их (3) функционального и (4) структурного            пространственной структуре и содержании таблиц.
анализ, а также (5) интерпретации, рассматриваются
в ряде работ [2, 4, 6, 8, 10, 19, 23–24]. Ниже                   В отличие от приведенных исследований нами
приводится анализ некоторых из них.                           предлагается автоматизировать понимание таблиц
                                                              за счет анализа и интерпретации, как их
   В работах Douglas S. и др. [2] и Tijerino Y. и др.         естественно-языковой, так и пространственной и
[19]         рассматривается         преобразование           графической (стилевой) информации.
(структурирование)       табличной      информации,
называемое каноникализацией таблицы. В работе                 3 Представление фактов о таблицах
Douglas S. и др. предлагается метод интерпретации
и каноникализации таблиц, которые содержатся в                   Для понимания таблиц нами предлагается
спецификациях, используемых в строительной                    подход, основанный на исполнении правил анализа
промышленности. Для этого они предлагают                      структуры таблиц. Идея, лежащая в основе
использовать обработку естественного языка на                 предлагаемого подхода, состоит в следующем.
основе онтологии предметной области (подъязыка                Обычно      внутри     тематической    коллекции
спецификаций строительной промышленности).                    документов от одного поставщика таблицы
   Предлагаемый Tijerino Y. и др. [19] способ                 компонуются и форматируются однообразно. Для
каноникализации основан на использовании                      такой коллекции документов можно определить
библиотеки фреймов, содержащей знания о                       набор формализованных правил анализа табличной
лексическом содержании таблиц. Каждый фрейм                   структуры, который удовлетворяет всем или почти
данных описывает один тип данных и используется               всем ее таблицам. Эти правила можно представить в
для отнесения выражений на естественном языке                 виде базы знаний, а процесс восстановления
(табличных заголовков и значений) к этому типу.               семантических отношений в таблице реализовать
Для описания типов данных ими предлагается                    как логический вывод. При этом база фактов,
использовать регулярные выражения, словари и                  используемая в процессе логического вывода, может
некоторые открытые ресурсы, например, WordNet                 включать информацию о пространственном,
[21].                                                         графическом и естественно-языковом содержании
                                                              таблицы.
   В перечисленных работах [2–19] предлагаются
методы каноникализации таблиц, основанные на                  3.1 Базовые предположения о таблицах
анализе и интерпретации представленной в
таблицах естественно-языковой информации. На                     На основе ограничений табличной структуры,
практике этого не всегда достаточно, для более                характерных    для    представлений   табличной
точного и полного извлечения информации из                    информации в широко распространенных форматах
таблицы      часто     также     требуется    анализ          данных, таких как Excel, Word, HTML и LaTeX,
пространственной и графической информации.                    предлагается достаточно общая модель таблицы
   W. Gatterbauer и др. в работе [8] напротив                 CELLS, которая ориентирована на представление
предлагают       предметно-независимый         метод          фактов о табличной информации в процессе
извлечения информации из HTML таблиц,                         логического вывода. В модели сделано несколько
основанный       на      анализе      исключительно           общих для этих представлений предположений.
пространственной и стилевой информации в



                                                        217
   1) Ячейка может располагаться в одной или                  3.2 Модель таблицы
нескольких соседних строках и в одном или
нескольких соседних столбцах (например, атрибуты                  Модель включает два уровня: физической и
COLSPAN и ROWSPAN в HTML) и имеет                             логической структуры, которые в упрощенном виде
прямоугольную форму в пространстве строк и                    можно описать следующим образом.
столбцов, как показано на рис. 1, а.                              1) Уровень физической структуры Tp=(Sr, Sc, С)
   2) Внутри ячейки не могут располагаться другие             состоит из: (1) пространства строк ― Sr и столбцов
ячейки или таблицы (это не допускается в Excel).              ― Sc; (2) набора ячеек ― С, в котором каждая
                                                              ячейка ― с=(p, c', S) включает: координаты в
   3) Содержимое ячейки может являться либо                   пространстве строк Sr и столбцов Sc ― p=(cl, rt, cr,
меткой (заголовком), либо вхождением (данными).               rb), содержание ― c', стилевая информация
Используемые здесь термины «вхождение» и                      (цветовые       схемы,     шрифтовые      метрики,
«метка» соответствуют смыслу терминов «entry» и               выравнивание, стили оформлении границ и др.) ― S.
«label» соответственно из работы Wang X. [20].
                                                                  2) Уровень логической структуры Tl=(D, Lr, Lc,
   4) Метки могут адресовать вхождения либо в                 E) состоит из: (1) набора представленных в
строках ― метки строк, либо в столбцах ― метки                обрабатываемой таблице измерений ― D={Di},
столбцов.                                                     каждое из которых содержит значения Di={dj}; (2)
                                                              дерева меток строк ― Lr и (3) столбцов ― Lc,
                                                              отражающих        связи   между     метками,     не
                                                              являющимися значениями измерений Di из набора D
                                                              ― l=(l'), где l' ― содержание метки; (4) набора
                                                              вхождений ― E, в котором каждое вхождение ―
                                                              e=(e', D', L') включает: содержание ― e', набор
                                                              связанных с ним значений измерений Di из набора D
                                                              ― D', набор связанных с ним меток из деревьев Lr и
                                                              Lc ― L'.

                                                              3.3 Структуры данных
                                                                 Предлагаемая в работе модель таблицы
                                                              реализована в виде ряда структур данных, основные
                                                              из которых перечислены далее: CELL, ENTRY,
                                                              LABEL,      LABELNODE.         Структура      CELL
                                                              предназначена для представления ячейки и прежде
                                                              всего информации о её физической структуре,
       Рис. 1. Примеры объединения плиток сетки               однако она также включает уровень логической
      в ячейки таблицы, обозначенные как 1, 2 и 3:            структуры ячейки (т.е. она позволяет накапливать
     так ячейка может объединять несколько плиток             информацию о ее связях с другими ячейками, ее
            в Excel, Word, HTML и LaTeX (а);                  роли и типе данных). На практике это позволяет
так ячейка может визуально (для восприятия человеком)
                                                              разрабатывать     правила     анализа    табличной
 включать несколько плиток с помощью разграфки (б);
   скорее всего, так ячейки никто не представляет (в)         структуры в более лаконичной манере по сравнению
                                                              со    случаем,     при    котором     используются
    Очевидно,   что   сделанные     предположения             дополнительные       структуры      данных      для
описывают широкий класс обрабатываемых таблиц.                представления информации уровня логической
Пример сводной таблицы, полностью укладывающейся              структуры.      Структуры      ENTRY,      LABEL,
в данную модель, приводится на рис. 2.                        LABELNODE используются исключительно на
                                                              уровне логической структуры. ENTRY служит для
                                                              представления вхождения, а LABEL — метки.
                                                              Структура LABELNODE является оболочкой для
                                                              структуры LABEL и обеспечивает представление
                                                              деревьев меток.
                                                                 Все предложенные структуры данных и
                                                              алгоритмы реализованы на платформе Java. Это
                                                              обеспечивает     возможность     использовать    их
                                                              напрямую для представления фактов о таблицах в
                                                              процессе логического вывода, выполняемого в
                                                              системе исполнения правил с поддержкой
                                                              спецификации JSR-94 (Java Rule Engine API).



           Рис. 2. Пример сводной таблицы




                                                        218
                           Рис. 3. Схема структурирования табличной информации


...
when
    $c : CCell( cl == 1, style.getFont().getColor() == "#ff0000")                                       а
then
    modify ( $c ) { setRole( Role.ROWLABEL ) }
...
when
    $c1 : CCell()
    $c2 : CCell( rt == $c1.rb + 1, ( $c1.cl <= cl && cr < $c1.cr ) ||
               ( $c1.cl < cl && cr <= $c1.cr ) )                                                        б
then
    $c1.addConnectedCell( $c2 )

...
when
    $c : CCell( text matches "(?i).*(total)" )
                                                                                                         в
then
    modify ( $c ) { setIgnored( true ) }
...

                            Рис. 4. Примеры правил анализа табличной структуры


                                                          XML, которые могут быть приведены к
4. Представление и исполнение правил                      физическому уровню модели CELLS.
анализа табличной структуры                                  В процессе загрузки таблиц из полученных
                                                          файлов Excel, HTML или XML в структуры данных,
   Схема преобразования табличной информации
                                                          реализующих       модель    CELLS,      табличная
от неструктурированной к структурированной
                                                          информация      подвергается предобработки. Это
форме показана на рис. 3. Предполагается, что
                                                          включает     опционально:     удаление    лишних
этапы обнаружения и распознавания таблицы
                                                          пробельных и служебных символов из текстового
выполняются в сторонних системах. Например, для
                                                          содержания, исключение из таблицы пустых строк и
извлечения таблиц из PDF документов могут
                                                          столбцов и восстановление отсутствующих настроек
использоваться системы Tabula [18] или PDFGenie
                                                          стилей границ ячеек. Последнее необходимо,
[15], для документов, напечатанных в файлы
                                                          поскольку видимые и физические границы ячейки
формата EMF, может использоваться технология,
                                                          не всегда совпадают. Визуально они могут быть
предложенная в работах [24]. Выходом таких систем
                                                          образованы границами соседних ячеек. Приведение
являются таблицы в форматах Excel, HTML или
                                                          стилей физических границ ячеек в соответствии с её




                                                    219
видимыми границами позволяет упростить правила                    Пример канонической формы обработанной
анализа структуры таблицы.                                     таблицы приводится на Рис. 5. Сформированная
    Полученные в результате данные о таблице,                  каноническая таблица может экспортироваться в
которые формируют базу фактов для логического                  реляционную базу данных с помощью стандартных
вывода. Кроме того, факты могут быть дополнены                 средств интеграции данных известных систем
внешней информацией об измерениях.                             управления базами данных (СУБД). Например,
                                                               службы "SQL Server Integration Services" [17],
    Для обработки набора таблиц формируется база
                                                               позволяют импортировать данные из таблиц с
знаний, которая состоит из продукционных правил
                                                               простой "решеточной" структурой в форматах Excel,
анализа табличной структуры. Они отображают
                                                               CSV в базы данных под управлением СУБД
доступную информацию: позиции (координаты),
                                                               "SQL Server".
графическое форматирование и естественно-
языковое содержание ячеек, в отсутствующие
изначально         отношения       между      метками,
вхождениями и измерениями. Полученные в
процессе вывода новые факты о семантических
отношениях должны быть достаточными для
каноникализации таблицы.
    В качестве система исполнения таких правил
может использоваться свободная системы Drools
Expert [3], реализующая спецификацию JSR-94. При
этом сами правила могут быть представлены на
языке выражений MVEL [14].
    На Рис. 4 приводится ряд простых примеров
возможных правил анализа структуры на языке
MVEL. Если ячейка $c находится в 1-ом столбце, а
её текст выделен красным цветом, то она выполняет
роль метки строки (рис. 4, а). Если ячейка $c1                      Рис. 5. Каноническая форма таблицы из рис. 1:
расположена непосредственно над ячейкой $c2 и                     все метки сопоставлены измерениям, поэтому поля
при этом полностью охватывает её по столбцам, то                      COL_LABEL и ROW_LABEL отсутствуют
они связаны (рис. 2, б). Если ячейка $c содержит
текст, удовлетворяющий регулярному выражению                   3 Экспериментальные результаты
"(?i).*(total)", то её необходимо игнорировать при                Экспериментальная оценка представленного
формировании выходных данных (рис. 2, в).                      подхода выполнена с помощью системы CELLS, в
Примеры правил, которые применялись при                        которой     реализованы          структуры      данных,
тестировании системы CELLS, можно найти по                     представляющие модель таблицы               CELLS, и
адресу http://cells.icc.ru/test.                               алгоритмы: 1) загрузки исходной табличной
    В процессе логического вывода накапливается                информации в формате Excel (тестовых данных со
информация о логической структуре таблицы. Для                 специальной      разметкой);       2) структурирования
этой информации выполняется постобработка,                     табличной     информации,         восстановленной     в
которая       включает:       приведение    текстового         процессе     логического         вывода;    3) экспорта
содержания ячеек к эталонным написаниям,                       результатов в формате Excel.
сопоставление        меток       с   измерениями     и            Для экспериментальной оценки сформирована
формирование канонической формы таблицы.                       коллекция тестовых данных, которая включает
    Из восстановленной информации модели                       97 таблиц в формате Excel, собранных из
таблицы        CELLS      формируется     таблица    в         7 различных источников. Коллекция доступна по
канонической форме, которая включает следующие                 адресу http://cells.icc.ru/test. Её краткое описание
поля: DATA ― данные (вхождения); ROW_LABEL                     приводится в табл. 1. Для формирования коллекции
― пути меток от листьев до корней из                           исходная       табличная         информация        была
невырожденного дерева Lr; COL_LABEL ― пути                     преобразована из формата PDF в Excel.
меток от листьев до корней из невырожденного                      Источниками тестовых данных послужили
дерева Lc; D1,..., Dn ― поля значений измерений Di             слабоструктурированные              документы         в
из набора D. Каждый кортеж в такой канонической                низкоуровневом формате файлов печати PDF ―
форме представляет связь между вхождением,                     государственные и финансовые статистические
путями в деревьях меток и значениями                           отчеты с богатым табличным содержанием. Для
восстановленных измерений. Дополнительно поле                  формирования коллекции исходная табличная
ROW_LABEL/COL_LABEL может быть разделено                       информация была преобразована из формата PDF в
на несколько отдельных полей, каждое из которых                Excel. При этом, насколько это было возможно, в
будет соответствовать одному уровню вложенности                полученных тестовых таблицах было сохранено
в дереве меток строк/столбцов.                                 графическое форматирование, представленное в
                                                               соответствующих им PDF источниках.




                                                         220
                                          Таблица 1. Экспериментальные результаты

        Код                 Кол-во   Кол-во         Кол-во           Кол-во       Кол-во связей        Кол-во        Время
     источника              таблиц   ячеек        вхождений          меток           между             правил      исполнения
                                                                                    метками*                       правил (мс)
 JAPAN_STAT 1                15       1088            734             257               102              10             417
                    2
 AEROFLOT                    13       2047            727             321               167              16             526
            3
 BOEING                      21       2156            964             470               196              14             663
                        4
 CHINA_STAT                  18       7216           4180             862               551              12             964
                5
 CHEVRON                      7        812            268             141                89              12             283
 USDA_NASS 6                  7       1553           1175             313               174              16             638
                7
 TOBACCO                     16       2844           2195             508               335              10             730
 1
   Statistical Handbook of Japan 2007. Statistics Bureau of Japan. Chapter 5, 8.
 2
   OJSC «Aeroflot – Russian Airlines» Consolidated Financial Statements For the Year Ended December 31, 2006. P. 4–10,
 25–26.
 3
   Boeing Co, Annual Report 2010. P. 50–55, 83–85.
 4
   China statistical yearbook 2003. National Bureau of Statistics of China. P. 23–48, 555, 559, 571, 584, 590, 664, 708, 774, 765.
 5
   Chevron Corp. News Release November 2, 2012. Chevron Corp. P. 1, 5–9.
 6
   USDA NASS. 2003 Agricultural Statistics Annual. USDA (U.S. Department of Agriculture). National Agricultural Statistics
 Service. Chapter VI. P. 5–7, 12.
 7
   Tobacco: World Markets and Trade 2005. USDA (U.S. Department of Agriculture). Foreign Agricultural Service.
 *
   Исключая связи корней деревьев меток.

   Тестовые данные имеют дополнительную                              физическая структура и разграфка совпадают. Это
разметку для определения местоположения таблицы                      позволяет избежать этапов обнаружения и
внутри листа Excel (рис. 6), а также аккуратную                      сегментации таблицы.
декомпозицию на ячейки. Там, где это возможно, их




        Рис. 6. Дополнительная разметка тестовой таблицы: маркеры «$START» и «$END» указывают
       соответственно верхний левый и нижний правый угол таблицы в пространстве строк и столбцов

   На рис. 7 показаны некоторые таблицы из
тестовой коллекции данных. Их структуры                              4. Заключение
включают     типичные     для    этой   коллекции                       Предлагаемый     подход     базируется    на
особенности. Так, таблица, рис. 7, а, содержит                       предположении о том, что для одного или
иерархии меток строк и столбцов. Тело таблицы,                       нескольких схожих источников можно разработать
рис. 7, б, пересекают перерезы: «Price per 100                       непротиворечивый набор правил анализа структуры
pounds» и «Price per bushel». В таблице, рис. Х, в,                  содержащихся в них таблиц. Однако разработка
столбцы с метками строк чередуются со столбцами с                    достаточно универсальных баз знаний для многих
данными.                                                             разнородных источников имеет слишком высокую
   Полученные экспериментальные результаты                           цену и не всегда возможна из-за противоречий,
приводятся в табл. 1. Логический вывод выполнялся                    содержащихся в самих источниках. Поэтому данный
в системе Drools Expert (5.4.0.Final). При этом                      подход предназначен в основном для задач
использовался процессор Intel Core 2 Quad, 2,66                      управления данными, прежде всего для массовой
ГГц. Экспериментальные результаты показывают                         интеграции табличной информации из наборов
эффективность применения предлагаемого подхода                       похожих источников.
для широкого класса таблиц.




                                                               221
Рис. 7. Примеры тестовых таблиц




             222
   Подход положен в основу развиваемой авторами                    [11] Inmon W.H. Matching unstructured data and
системы понимания таблиц в формате Excel.                               structured data // The data administration
Полученные      экспериментальные     результаты                        newsletter.        2006.      http://www.tdan.com/
показывают эффективность её применения для                              view-articles/5009.
широкого класса таблиц, представленных в формате                   [12] Inmon W.H., Nesavich A. "Tapping into
Excel. В то же время необходимо дальнейшее                              Unstructured Data: Integrating Unstructured Data
исследование возможностей для упрощения правил                          and Textual Analytics into Business Intelligence",
анализа структуры таблицы за счет развития                              1st edition, Prentice Hall PTR, 2007.
структур   данных     представления    табличной                   [13] Lopresti D., Nagy G. A tabular survey of
информации и дополнительных алгоритмов её                               automated table processing // Lecture Notes in
предобработки и постобработки.                                          Computer Science. 2000. Vol. 1941. P. 93–120.
   Работа выполнена при финансовой поддержке                       [14] MVEL. http://mvel.codehaus.org
РФФИ грант № 14-07-00166 и Совета по грантам
                                                                   [15] PDFGenie, http://www.pdftron.com/pdfgenie
Президента РФ СП-3387.2013.5.
                                                                   [16] Shilakes C.C., Tylman J. Enterprise Information
Литература                                                              Portals // Merrill Lynch. 1998.
                                                                   [17] SQL         Server       Integration      Services,
 [1] Blumberg     R., Atre S. The problem with                          http://msdn.microsoft.com/ru-ru/library/
     unstructured data // DM Review, 2003.                              ms141026.aspx
     http://soquelgroup.com/Articles/                              [18] Tabula, http://tabula.nerdpower.org
     dmreview_0203_problem.pdf
                                                                   [19] Tijerino Y., Embley D., Lonsdale D., Nagy G.
 [2] Douglas S., Hurst M., Quinn D. Using Natural                       Towards ontology generation from tables // World
     Language Processing for Identifying and                            Wide Web: Internet and Web Information
     Interpreting Tables in Plain Text // Proc. of the 4th              Systems. 2005. Vol. 8, No. 3. P. 261–285.
     Annual Symposium on Document Analysis and
                                                                   [20] Wang X. Tabular Abstraction, Editing, and
     Information Retrieval. Las Vegas. 1995. P. 535–
                                                                        Formatting. PhD thesis. Waterloo, Ontario,
     546.
                                                                        Canada. 1996.
 [3] Drools       Expert       (JBoss       Community).
                                                                   [21] WordNet, http://wordnet.princeton.edu
     http://www.jboss.org/drools/drools-expert.html
                                                                   [22] Zanibbi R., Blostein D., Cordy J.R. A survey of
 [4] e Silva A.C., Jorge A.M., Torgo L. Design of an
                                                                        table     recognition:     Models,    observations,
     end-to-end method to extract information from
                                                                        transformations, and inferences // Int. J. on
     tables // Int. J. on Document Analysis and
                                                                        Document Analysis and Recognition. 2004.
     Recognition. 2006. Vol. 8, No. 2. P. 144–171.
                                                                        Vol. 7, No. 1. P. 1–16.
 [5] Embley D.W., Hurst M., Lopresti D., Nagy G.
                                                                   [23] Кудинов П.Ю. Адаптивные методы извлечения
     Table-processing paradigms: a research survey //
                                                                        информации из статистических таблиц,
     Int. J. on Document Analysis and Recognition.
                                                                        представленных в текстовом виде : дис. …
     2006. Vol. 8, No. 2. P. 66–86.
                                                                        канд. техн. наук. М., 2011. С. 105.
 [6] Embley D.W., Tao C., Liddle S.W. Automating
                                                                   [24] Шигаров        А.О.     Технология     извлечения
     the Extraction of Data from HTML Tables with
                                                                        табличной информации из электронных
     Unknown Structure // Data & Knowledge
                                                                        документов разных форматов : дис. … канд.
     Engineering. Elsevier. 2005. Vol. 54, No. 1. P. 3–
                                                                        техн. наук. Иркутск, 2009. С. 143.
     28.
 [7] Feldman R., Sanger J. The Text Mining                                Automated Table Understanding
     Handbook: Advanced Approaches in Analyzing
     Unstructured Data // Cambridge University Press.
                                                                               Using a Rule Engine
     2006. 422 p.
                                                                                     Alexey O. Shigarov
 [8] Gatterbauer W., Bohunsky P., Herzog M., Krüpl
     B., Pollak B. Towards Domain-Independent                          The paper discusses issues on automation of the
     Information Extraction from Web Tables // Proc.               table understanding (i.e. recovering relationships of
     of the 16th Int. Conf. on World Wide Web. ACM                 table elements). We propose an approach to table
     New York, NY, US, 2007. P. 71–80.                             understanding based on the use of a rule engine. A table
                                                                   model oriented on the logical inference and algorithms
 [9] Hurst M. Layout and Language: Challenges for
                                                                   for processing tabular information are also considered in
     Table Understanding on the Web // In Proc. of the             the paper. The CELLS system for structuring tabular
     1st Int. Workshop on Web Document Analysis.                   information presented in Excel spreadsheet format has
     2001. P. 27–30.                                               been developed using the proposed approach, model and
[10] Hurst M. The Interpretation of Tables in Texts.               algorithms. The performance evaluation of the system
     PhD thesis. School of Cognitive Science,                      shows that the approach can be applied to a wide range
     Informatics, the University of Edinburgh. UK,                 of tables.
     2000.




                                                             223