-

Автоматизированное понимание таблиц на основе системы исполнения правил

2013

216 223

В работе обсуждаются вопросы автоматизации процесса понимания таблиц, т.е. восстановления изначально отсутствующей в них информации о семантических отношениях (пары вида, ячейка-роль, метка-значение, метка-метка, метка-измерение). Предлагается подход, при котором понимание таблицы реализуется как исполнение правил анализа табличной структуры. На основе этого подхода разработана система для массового преобразования неструктурированной табличной информации, представленной в формате табличного процессора Excel, к структурированному виду. Результатом понимания таблиц являются структурированные данные ― таблицы в канонической форме, которые структурно соответствуют таблицам реляционной базы данных. Полученные экспериментальные результаты показывают эффективность применения предлагаемого подхода для широкого класса сводных таблиц из статистических отчетов.

По оценки исследователей Merrill Lynch [ 16 ] примерно 80 процентов всей бизнес информации представлено в неструктурированном виде. Такая информация не имеет предопределенной формальной модели данных (например, научная статья, финансовый отчет, сообщение электронной почты) [ 1 ] и является противоположностью структурированной информации (например, реляционным базам данных).

Многие исследователи, в том числе, W. Inmon [ 11-12 ], отмечают важность вопросов интеграции неструктурированной информации. Одним из наиболее интересных вопросов является интеграция Труды 16-й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» — RCDL-2014, Дубна, Россия, 13–16 октября 2014 г.

На практике решения многих задач связаны с необходимостью извлекать информацию из таких таблиц и загружать её в базы данных. Поскольку, таблицы, представленные в неструктурированном виде, часто оказываются единственным доступным источником информации. Только после преобразование такой табличной информации к структурированной форме она становится доступной для использования в бизнес-аналитике, включая, аналитическую обработку в реальном времени (OLAP), интеллектуальный анализ данных, и извлечение знаний.

В литературе рассматриваются следующие задачи, которые являются преобразованием неструктурированной табличной информации к структурированному виду.

1) Каноникализация таблицы [ 2, 19 ] ― приведение её к канонической форме, которая структурно соответствует таблице реляционной базы данных.

2) Извлечение информации из таблицы [ 5 ] является аналогом задачи извлечения информации из текста и состоит в выборочном извлечении фактов, формирующих целевую базу данных.

3) Понимание таблицы [ 5, 9 ] состоит в восстановлении отношений между метками (заголовками) и значениями данных, а также между метками и измерениями (доменами).

Как определяется в работе [ 9 ] понимание таблиц в общем случае включает следующие этапы: (1) обнаружение таблицы (поиск позиций ограничивающего прямоугольника таблицы внутри источника); (2) распознавание таблицы (разделение её на отдельные ячейки); (3) функциональный анализ (определение того, какую роль играет ячейка в таблице); (4) структурный анализ (определение связей между ячейками); и (5) интерпретацию таблицы (извлечение фактов из таблицы). В настоящей работе обсуждается автоматизация следующих из перечисленных этапов понимании таблиц: (3) функционального и (4) структурного анализ, и (5) интерпретации таблицы. 2 Родственные работы

Существует огромное разнообразие способов изображения таблиц. Это приводит к высокой сложности анализа и обработки неструктурированной табличной информации. Как показано в обзорах [ 4, 5, 13, 22 ], посвященных проблемам анализа и обработки таблиц, сейчас наиболее изучены, хотя и не решены полностью, проблемы обнаружения и распознавания таблиц. При этом проблемы высокоуровневого анализа и интерпретации таблиц остаются менее изученными.

Вопросы понимания таблиц, связанные с задачами их (3) функционального и (4) структурного анализ, а также (5) интерпретации, рассматриваются в ряде работ [ 2, 4, 6, 8, 10, 19, 23–24 ]. Ниже приводится анализ некоторых из них.

В работах Douglas S. и др. [ 2 ] и Tijerino Y. и др. [ 19 ] рассматривается преобразование (структурирование) табличной информации, называемое каноникализацией таблицы. В работе Douglas S. и др. предлагается метод интерпретации и каноникализации таблиц, которые содержатся в спецификациях, используемых в строительной промышленности. Для этого они предлагают использовать обработку естественного языка на основе онтологии предметной области (подъязыка спецификаций строительной промышленности).

Предлагаемый Tijerino Y. и др. [ 19 ] способ каноникализации основан на использовании библиотеки фреймов, содержащей знания о лексическом содержании таблиц. Каждый фрейм данных описывает один тип данных и используется для отнесения выражений на естественном языке (табличных заголовков и значений) к этому типу. Для описания типов данных ими предлагается использовать регулярные выражения, словари и некоторые открытые ресурсы, например, WordNet [ 21 ].

В перечисленных работах [ 2–19 ] предлагаются методы каноникализации таблиц, основанные на анализе и интерпретации представленной в таблицах естественно-языковой информации. На практике этого не всегда достаточно, для более точного и полного извлечения информации из таблицы часто также требуется анализ пространственной и графической информации.

W. Gatterbauer и др. в работе [ 8 ] напротив предлагают предметно-независимый метод извлечения информации из HTML таблиц, основанный на анализе исключительно пространственной и стилевой информации в формате CSS2 (Cascading Style Sheets Level 2). В частности, ими предлагается выполнять интерпретацию таблиц (восстановление семантических отношений) на основе эвристик о стилевой информации подготовленного для набора наиболее общих типов изображения web-таблиц.

В работе D.W. Embley и др. [ 6 ] предлагаются методы обнаружения таблиц внутри HTML страниц, и извлечения из них информации. При этом предполагается, что таблица может включать вложенные таблицы на связанных страницах. В частности, для поиска атрибутов (меток) и значений (данных) среди содержания ячеек таблицы предлагается использовать онтологии, специально разрабатываемые для извлечения данных. Такие онтологии извлечения помимо понятий (объектов), отношений и ограничений содержат привязанные к объектам фреймы, которые с помощью регулярных выражений позволяют связать содержание таблицы с объектами онтологии. Для связывания атрибутов со значениями, дополнительно к онтологиям извлечения используется набор эвристик о пространственной структуре и содержании таблиц.

В отличие от приведенных исследований нами предлагается автоматизировать понимание таблиц за счет анализа и интерпретации, как их естественно-языковой, так и пространственной и графической (стилевой) информации. 3 Представление фактов о таблицах

Для понимания таблиц нами предлагается подход, основанный на исполнении правил анализа структуры таблиц. Идея, лежащая в основе предлагаемого подхода, состоит в следующем. Обычно внутри тематической коллекции документов от одного поставщика таблицы компонуются и форматируются однообразно. Для такой коллекции документов можно определить набор формализованных правил анализа табличной структуры, который удовлетворяет всем или почти всем ее таблицам. Эти правила можно представить в виде базы знаний, а процесс восстановления семантических отношений в таблице реализовать как логический вывод. При этом база фактов, используемая в процессе логического вывода, может включать информацию о пространственном, графическом и естественно-языковом содержании таблицы. 3.1 Базовые предположения о таблицах

На основе ограничений табличной структуры, характерных для представлений табличной информации в широко распространенных форматах данных, таких как Excel, Word, HTML и LaTeX, предлагается достаточно общая модель таблицы CELLS, которая ориентирована на представление фактов о табличной информации в процессе логического вывода. В модели сделано несколько общих для этих представлений предположений.

1) Ячейка может располагаться в одной или нескольких соседних строках и в одном или нескольких соседних столбцах (например, атрибуты COLSPAN и ROWSPAN в HTML) и имеет прямоугольную форму в пространстве строк и столбцов, как показано на рис. 1, а.

2) Внутри ячейки не могут располагаться другие ячейки или таблицы (это не допускается в Excel).

3) Содержимое ячейки может являться либо меткой (заголовком), либо вхождением (данными). Используемые здесь термины «вхождение» и «метка» соответствуют смыслу терминов «entry» и «label» соответственно из работы Wang X. [ 20 ].

4) Метки могут адресовать вхождения либо в строках ― метки строк, либо в столбцах ― метки столбцов.

Рис. 1. Примеры объединения плиток сетки в ячейки таблицы, обозначенные как 1, 2 и 3: так ячейка может объединять несколько плиток

в Excel, Word, HTML и LaTeX (а); так ячейка может визуально (для восприятия человеком) включать несколько плиток с помощью разграфки (б); скорее всего, так ячейки никто не представляет (в) Очевидно, что сделанные предположения описывают широкий класс обрабатываемых таблиц. Пример сводной таблицы, полностью укладывающейся в данную модель, приводится на рис. 2.

Рис. 2. Пример сводной таблицы 3.2 Модель таблицы

Модель включает два уровня: физической и логической структуры, которые в упрощенном виде можно описать следующим образом.

1) Уровень физической структуры Tp=(Sr, Sc, С) состоит из: (1) пространства строк ― Sr и столбцов ― Sc; (2) набора ячеек ― С, в котором каждая ячейка ― с=(p, c', S) включает: координаты в пространстве строк Sr и столбцов Sc ― p=(cl, rt, cr, rb), содержание ― c', стилевая информация (цветовые схемы, шрифтовые метрики, выравнивание, стили оформлении границ и др.) ― S.

2) Уровень логической структуры Tl=(D, Lr, Lc, E) состоит из: (1) набора представленных в обрабатываемой таблице измерений ― D={Di}, каждое из которых содержит значения Di={dj}; (2) дерева меток строк ― Lr и (3) столбцов ― Lc, отражающих связи между метками, не являющимися значениями измерений Di из набора D ― l=(l'), где l' ― содержание метки; (4) набора вхождений ― E, в котором каждое вхождение ― e=(e', D', L') включает: содержание ― e', набор связанных с ним значений измерений Di из набора D ― D', набор связанных с ним меток из деревьев Lr и Lc ― L'. 3.3 Структуры данных

Предлагаемая в работе модель таблицы реализована в виде ряда структур данных, основные из которых перечислены далее: CELL, ENTRY, LABEL, LABELNODE. Структура CELL предназначена для представления ячейки и прежде всего информации о её физической структуре, однако она также включает уровень логической структуры ячейки (т.е. она позволяет накапливать информацию о ее связях с другими ячейками, ее роли и типе данных). На практике это позволяет разрабатывать правила анализа табличной структуры в более лаконичной манере по сравнению со случаем, при котором используются дополнительные структуры данных для представления информации уровня логической структуры. Структуры ENTRY, LABEL, LABELNODE используются исключительно на уровне логической структуры. ENTRY служит для представления вхождения, а LABEL — метки. Структура LABELNODE является оболочкой для структуры LABEL и обеспечивает представление деревьев меток.

Все предложенные структуры данных и алгоритмы реализованы на платформе Java. Это обеспечивает возможность использовать их напрямую для представления фактов о таблицах в процессе логического вывода, выполняемого в системе исполнения правил с поддержкой спецификации JSR-94 (Java Rule Engine API). $c : CCell( cl == 1, style.getFont().getColor() == "#ff0000") modify ( $c ) { setRole( Role.ROWLABEL ) } $c1 : CCell() 4. Представление и исполнение правил анализа табличной структуры

Схема преобразования табличной информации от неструктурированной к структурированной форме показана на рис. 3. Предполагается, что этапы обнаружения и распознавания таблицы выполняются в сторонних системах. Например, для извлечения таблиц из PDF документов могут использоваться системы Tabula [ 18 ] или PDFGenie [ 15 ], для документов, напечатанных в файлы формата EMF, может использоваться технология, предложенная в работах [24]. Выходом таких систем являются таблицы в форматах Excel, HTML или XML, которые могут быть физическому уровню модели CELLS.

приведены к В процессе загрузки таблиц из полученных файлов Excel, HTML или XML в структуры данных, реализующих модель CELLS, табличная информация подвергается предобработки. Это включает опционально: удаление лишних пробельных и служебных символов из текстового содержания, исключение из таблицы пустых строк и столбцов и восстановление отсутствующих настроек стилей границ ячеек. Последнее необходимо, поскольку видимые и физические границы ячейки не всегда совпадают. Визуально они могут быть образованы границами соседних ячеек. Приведение стилей физических границ ячеек в соответствии с её видимыми границами позволяет упростить правила анализа структуры таблицы.

Полученные в результате данные о таблице, которые формируют базу фактов для логического вывода. Кроме того, факты могут быть дополнены внешней информацией об измерениях.

Для обработки набора таблиц формируется база знаний, которая состоит из продукционных правил анализа табличной структуры. Они отображают доступную информацию: позиции (координаты), графическое форматирование и естественноязыковое содержание ячеек, в отсутствующие изначально отношения между метками, вхождениями и измерениями. Полученные в процессе вывода новые факты о семантических отношениях должны быть достаточными для каноникализации таблицы.

В качестве система исполнения таких правил может использоваться свободная системы Drools Expert [ 3 ], реализующая спецификацию JSR-94. При этом сами правила могут быть представлены на языке выражений MVEL [ 14 ].

На Рис. 4 приводится ряд простых примеров возможных правил анализа структуры на языке MVEL. Если ячейка $c находится в 1-ом столбце, а её текст выделен красным цветом, то она выполняет роль метки строки (рис. 4, а). Если ячейка $c1 расположена непосредственно над ячейкой $c2 и при этом полностью охватывает её по столбцам, то они связаны (рис. 2, б). Если ячейка $c содержит текст, удовлетворяющий регулярному выражению "(?i).*(total)", то её необходимо игнорировать при формировании выходных данных (рис. 2, в). Примеры правил, которые применялись при тестировании системы CELLS, можно найти по адресу http://cells.icc.ru/test.

В процессе логического вывода накапливается информация о логической структуре таблицы. Для этой информации выполняется постобработка, которая включает: приведение текстового содержания ячеек к эталонным написаниям, сопоставление меток с измерениями и формирование канонической формы таблицы.

Из восстановленной информации модели таблицы CELLS формируется таблица в канонической форме, которая включает следующие поля: DATA ― данные (вхождения); ROW_LABEL ― пути меток от листьев до корней из невырожденного дерева Lr; COL_LABEL ― пути меток от листьев до корней из невырожденного дерева Lc; D1,..., Dn ― поля значений измерений Di из набора D. Каждый кортеж в такой канонической форме представляет связь между вхождением, путями в деревьях меток и значениями восстановленных измерений. Дополнительно поле ROW_LABEL/COL_LABEL может быть разделено на несколько отдельных полей, каждое из которых будет соответствовать одному уровню вложенности в дереве меток строк/столбцов.

Рис. 5. Каноническая форма таблицы из рис. 1: все метки сопоставлены измерениям, поэтому поля

COL_LABEL и ROW_LABEL отсутствуют 3 Экспериментальные результаты

Экспериментальная оценка представленного подхода выполнена с помощью системы CELLS, в которой реализованы структуры данных, представляющие модель таблицы CELLS, и алгоритмы: 1) загрузки исходной табличной информации в формате Excel (тестовых данных со специальной разметкой); 2) структурирования табличной информации, восстановленной в процессе логического вывода; 3) экспорта результатов в формате Excel.

Для экспериментальной оценки сформирована коллекция тестовых данных, которая включает 97 таблиц в формате Excel, собранных из 7 различных источников. Коллекция доступна по адресу http://cells.icc.ru/test. Её краткое описание приводится в табл. 1. Для формирования коллекции исходная табличная информация была преобразована из формата PDF в Excel.

Источниками тестовых данных послужили слабоструктурированные документы в низкоуровневом формате файлов печати PDF ― государственные и финансовые статистические отчеты с богатым табличным содержанием. Для формирования коллекции исходная табличная информация была преобразована из формата PDF в Excel. При этом, насколько это было возможно, в полученных тестовых таблицах было сохранено графическое форматирование, представленное в соответствующих им PDF источниках. Код источника

AEROFLOT 2 BOEING 3 CHINA_STAT 4 CHEVRON 5 USDA_NASS 6 TOBACCO 7

Кол-во таблиц Кол-во ячеек

Кол-во вхождений Кол-во меток Кол-во связей

между метками* Кол-во правил

Время исполнения правил (мс) 15 13 21 18 7 7 16 1088 2047 2156 7216 812 1553 2844 734 727 964 4180 268 1175 2195 257 321 470 862 141 313 508 102 167 196 551 89 174 335 10 16 14 12 12 16 10 417 526 663 964 283 638 730 1 Statistical Handbook of Japan 2007. Statistics Bureau of Japan. Chapter 5, 8. 2 OJSC «Aeroflot – Russian Airlines» Consolidated Financial Statements For the Year Ended December 31, 2006. P. 4–10, 25–26. 3 Boeing Co, Annual Report 2010. P. 50–55, 83–85. 4 China statistical yearbook 2003. National Bureau of Statistics of China. P. 23–48, 555, 559, 571, 584, 590, 664, 708, 774, 765. 5 Chevron Corp. News Release November 2, 2012. Chevron Corp. P. 1, 5–9. 6 USDA NASS. 2003 Agricultural Statistics Annual. USDA (U.S. Department of Agriculture). National Agricultural Statistics Service. Chapter VI. P. 5–7, 12. 7 Tobacco: World Markets and Trade 2005. USDA (U.S. Department of Agriculture). Foreign Agricultural Service. * Исключая связи корней деревьев меток.

Тестовые данные имеют дополнительную разметку для определения местоположения таблицы внутри листа Excel (рис. 6), а также аккуратную декомпозицию на ячейки. Там, где это возможно, их физическая структура и разграфка совпадают. Это позволяет избежать этапов обнаружения и сегментации таблицы. Рис. 6. Дополнительная разметка тестовой таблицы: маркеры «$START» и «$END» указывают соответственно верхний левый и нижний правый угол таблицы в пространстве строк и столбцов На рис. 7 показаны некоторые таблицы из тестовой коллекции данных. Их структуры включают типичные для этой коллекции особенности. Так, таблица, рис. 7, а, содержит иерархии меток строк и столбцов. Тело таблицы, рис. 7, б, пересекают перерезы: «Price per 100 pounds» и «Price per bushel». В таблице, рис. Х, в, столбцы с метками строк чередуются со столбцами с данными.

Полученные экспериментальные результаты приводятся в табл. 1. Логический вывод выполнялся в системе Drools Expert (5.4.0.Final). При этом использовался процессор Intel Core 2 Quad, 2,66 ГГц. Экспериментальные результаты показывают эффективность применения предлагаемого подхода для широкого класса таблиц. 4. Заключение

Предлагаемый подход базируется на предположении о том, что для одного или нескольких схожих источников можно разработать непротиворечивый набор правил анализа структуры содержащихся в них таблиц. Однако разработка достаточно универсальных баз знаний для многих разнородных источников имеет слишком высокую цену и не всегда возможна из-за противоречий, содержащихся в самих источниках. Поэтому данный подход предназначен в основном для задач управления данными, прежде всего для массовой интеграции табличной информации из наборов похожих источников. Литература

Automated Table Understanding

Using a Rule Engine

Alexey O. Shigarov

The paper discusses issues on automation of the table understanding (i.e. recovering relationships of table elements). We propose an approach to table understanding based on the use of a rule engine. A table model oriented on the logical inference and algorithms for processing tabular information are also considered in the paper. The CELLS system for structuring tabular information presented in Excel spreadsheet format has been developed using the proposed approach, model and algorithms. The performance evaluation of the system shows that the approach can be applied to a wide range of tables.

[1] Blumberg

, Atre

The problem with unstructured data // DM Review , 2003 . http://soquelgroup.com/Articles/ dmreview_0203_problem.pdf

[2] Douglas

, Hurst

, Quinn

. Using Natural Language Processing for Identifying and Interpreting Tables in Plain Text // Proc. of the 4th Annual Symposium on Document Analysis and Information Retrieval. Las Vegas . 1995 . P. 535 - 546 .

[3]

Drools

Expert (JBoss Community ) . http://www.jboss.org/drools/drools-expert.html

[4]

Silva

A.C. , Jorge

A.M. , Torgo

L . Design of an end-to-end method to extract information from tables // Int . J. on Document Analysis and Recognition . 2006 . Vol. 8 , No. 2. P. 144 - 171 .

[5] Embley

D.W.

, Hurst

, Lopresti

, Nagy

. Table-processing paradigms: a research survey // Int. J. on Document Analysis and Recognition . 2006 . Vol. 8 , No. 2. P. 66 - 86 .

[6] Embley

D.W.

, Tao

, Liddle

S.W. Automating

the Extraction of Data from HTML Tables with Unknown Structure // Data & Knowledge Engineering . Elsevier. 2005 . Vol. 54 , No. 1. P. 3- 28 .

[7] Feldman

, Sanger J. The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data // Cambridge University Press. 2006 . 422 p.

[8] Gatterbauer

, Bohunsky

, Herzog

, Krüpl

, Pollak

Towards Domain-Independent Information Extraction from Web Tables // Proc. of the 16th Int. Conf. on World Wide Web. ACM New York, NY, US, 2007 . P. 71 - 80 .

[9] Hurst

Layout and Language: Challenges for Table Understanding on the Web // In Proc. of the 1st Int. Workshop on Web Document Analysis . 2001 . P. 27 - 30 .

[10] Hurst

The Interpretation of Tables in Texts . PhD thesis . School of Cognitive Science, Informatics, the University of Edinburgh. UK, 2000 .

[11] Inmon

W.H.

Matching unstructured data and structured data // The data administration newsletter . 2006 . http://www.tdan.com/ view-articles/5009.

[12] Inmon

W.H.

, Nesavich

. "Tapping into Unstructured Data: Integrating Unstructured Data and Textual Analytics into Business Intelligence", 1st edition , Prentice Hall PTR, 2007 .

[13] Lopresti

, Nagy

A tabular survey of automated table processing // Lecture Notes in Computer Science . 2000 . Vol. 1941 . P. 93 - 120 .

[14] MVEL. http://mvel.codehaus.org

[15] PDFGenie, http://www.pdftron.com/pdfgenie

[16] Shilakes

C.C.

, Tylman

. Enterprise Information Portals // Merrill Lynch. 1998 .

[17]

SQL

Server Integration Services , http://msdn.microsoft.com/ru-ru/library/ ms141026.aspx

[18] Tabula , http://tabula.nerdpower.org

[19] Tijerino

, Embley

, Lonsdale

, Nagy

. Towards ontology generation from tables // World Wide Web: Internet and Web Information Systems . 2005 . Vol. 8 , No. 3. P. 261 - 285 . Tabular Abstraction, Editing, and PhD thesis . Waterloo, Ontario,

[20] Wang

Formatting . Canada. 1996 .

[21] WordNet, http://wordnet.princeton.edu

[22] Zanibbi

, Blostein

, Cordy

J.R.

A survey of table recognition: Models, observations , transformations, and inferences // Int. J. on Document Analysis and Recognition . 2004 . Vol. 7 , No. 1. P. 1- 16 .