<?xml version="1.0" encoding="UTF-8"?>
<TEI xml:space="preserve" xmlns="http://www.tei-c.org/ns/1.0" 
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" 
xsi:schemaLocation="http://www.tei-c.org/ns/1.0 https://raw.githubusercontent.com/kermitt2/grobid/master/grobid-home/schemas/xsd/Grobid.xsd"
 xmlns:xlink="http://www.w3.org/1999/xlink">
	<teiHeader xml:lang="ru">
		<fileDesc>
			<titleStmt>
				<title level="a" type="main">Автоматизированное понимание таблиц на основе системы исполнения правил</title>
			</titleStmt>
			<publicationStmt>
				<publisher/>
				<availability status="unknown"><licence/></availability>
			</publicationStmt>
			<sourceDesc>
				<biblStruct>
					<analytic>
						<author role="corresp">
							<persName><forename type="first">©</forename><forename type="middle">А О</forename><surname>Шигаров</surname></persName>
							<email>shigarov@icc.ru</email>
						</author>
						<title level="a" type="main">Автоматизированное понимание таблиц на основе системы исполнения правил</title>
					</analytic>
					<monogr>
						<imprint>
							<date/>
						</imprint>
					</monogr>
					<idno type="MD5">3936F2DC75DDEE735F023CD8EE583603</idno>
				</biblStruct>
			</sourceDesc>
		</fileDesc>
		<encodingDesc>
			<appInfo>
				<application version="0.7.2" ident="GROBID" when="2023-03-25T05:41+0000">
					<desc>GROBID - A machine learning software for extracting information from scholarly documents</desc>
					<ref target="https://github.com/kermitt2/grobid"/>
				</application>
			</appInfo>
		</encodingDesc>
		<profileDesc>
			<abstract/>
		</profileDesc>
	</teiHeader>
	<text xml:lang="ru">
		<body>
<div xmlns="http://www.tei-c.org/ns/1.0"><head>Аннотация</head></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="1">Введение</head><p>По оценки исследователей Merrill Lynch <ref type="bibr" target="#b13">[16]</ref> примерно 80 процентов всей бизнес информации представлено в неструктурированном виде. Такая информация не имеет предопределенной формальной модели данных (например, научная статья, финансовый отчет, сообщение электронной почты) <ref type="bibr">[1]</ref> и является противоположностью структурированной информации (например, реляционным базам данных).</p><p>Многие исследователи, в том числе, W. Inmon <ref type="bibr" target="#b9">[11]</ref><ref type="bibr" target="#b10">[12]</ref>, отмечают важность вопросов интеграции неструктурированной информации. Одним из наиболее интересных вопросов является интеграция неструктурированных текстов, включая таблицы. Многие слабоструктурированные (ASCII-текст, файлы печати PDF и др.) и полуструктурированные (документы Word, книги Excel, HTML страницы и др.) документы <ref type="bibr" target="#b5">[7]</ref>  2) Извлечение информации из таблицы <ref type="bibr" target="#b3">[5]</ref> является аналогом задачи извлечения информации из текста и состоит в выборочном извлечении фактов, формирующих целевую базу данных.</p><p>3) Понимание таблицы <ref type="bibr" target="#b3">[5,</ref><ref type="bibr" target="#b7">9]</ref>   2) Внутри ячейки не могут располагаться другие ячейки или таблицы (это не допускается в Excel).</p><p>3) Содержимое ячейки может являться либо меткой (заголовком), либо вхождением (данными). Используемые здесь термины «вхождение» и «метка» соответствуют смыслу терминов «entry» и «label» соответственно из работы Wang X. <ref type="bibr" target="#b17">[20]</ref>.</p><p>2  </p><formula xml:id="formula_0">)</formula></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="4.">Представление и исполнение правил анализа табличной структуры</head><p>Схема преобразования табличной информации от неструктурированной к структурированной форме показана на рис. 3. Предполагается, что этапы обнаружения и распознавания таблицы выполняются в сторонних системах. Например, для извлечения таблиц из PDF документов могут использоваться системы Tabula <ref type="bibr" target="#b15">[18]</ref> или PDFGenie <ref type="bibr" target="#b12">[15]</ref> Пример канонической формы обработанной таблицы приводится на Рис. 5. Сформированная каноническая таблица может экспортироваться в реляционную базу данных с помощью стандартных средств интеграции данных известных систем управления базами данных (СУБД). Например, службы "SQL Server Integration Services" <ref type="bibr" target="#b14">[17]</ref>, позволяют импортировать данные из таблиц с простой "решеточной" структурой в форматах Excel, CSV в базы данных под управлением СУБД "SQL Server".    Работа выполнена при финансовой поддержке РФФИ грант № 14-07-00166 и Совета по грантам Президента РФ СП-3387.2013.5.</p><p>[24] Шигаров А.О. Технология извлечения табличной информации из электронных документов разных форматов : дис. … канд. техн. наук. Иркутск, 2009. С. 143.</p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head>Automated Table Understanding Using a Rule Engine</head><p>Alexey O. Shigarov The paper discusses issues on automation of the table understanding (i.e. recovering relationships of table elements). We propose an approach to table understanding based on the use of a rule engine. A table model oriented on the logical inference and algorithms for processing tabular information are also considered in the paper. The CELLS system for structuring tabular information presented in Excel spreadsheet format has been developed using the proposed approach, model and algorithms. The performance evaluation of the system shows that the approach can be applied to a wide range of tables.</p></div><figure xmlns="http://www.tei-c.org/ns/1.0" xml:id="fig_0"><head>1 )</head><label>1</label><figDesc>Уровень физической структуры Tp=(Sr, Sc, С) состоит из: (1) пространства строк -Sr и столбцов -Sc; (2) набора ячеек -С, в котором каждая ячейка -с=(p, c', S) включает: координаты в пространстве строк Sr и столбцов Sc -p=(cl, rt, cr, rb), содержаниеc', стилевая информация (цветовые схемы, шрифтовые метрики, выравнивание, стили оформлении границ и др.) -S.</figDesc></figure>
<figure xmlns="http://www.tei-c.org/ns/1.0" xml:id="fig_1"><head>4 )</head><label>4</label><figDesc>Уровень логической структуры Tl=(D, Lr, Lc, E) состоит из: (1) набора представленных в обрабатываемой таблице измерений -D={Di}, каждое из которых содержит значения Di={dj}; (2) дерева меток строк -Lr и (3) столбцов -Lc, отражающих связи между метками, не являющимися значениями измерений Di из набора D -l=(l'), где l' -содержание метки; (4) набора вхождений -E, в котором каждое вхождение -e=(e', D', L') включает: содержаниеe', набор связанных с ним значений измерений Di из набора D -D', набор связанных с ним меток из деревьев Lr и Lc -L'. Метки могут адресовать вхождения либо в строках -метки строк, либо в столбцах -метки столбцов. 3.3 Структуры данных Предлагаемая в работе модель таблицы реализована в виде ряда структур данных, основные из которых перечислены далее: CELL, ENTRY, LABEL, LABELNODE. Структура CELL предназначена для представления ячейки и прежде всего информации о её физической структуре, однако она также включает уровень логической структуры ячейки (т.е. она позволяет накапливать информацию о ее связях с другими ячейками, ее роли и типе данных). На практике это позволяет разрабатывать правила анализа табличной структуры в более лаконичной манере по сравнению со случаемиспользуются исключительно на уровне логической структуры. ENTRY служит для представления вхождения, а LABEL -метки. Структура LABELNODE является оболочкой для структуры LABEL и обеспечивает представление деревьев меток. Рис. 1. Примеры объединения плиток сетки в ячейки таблицы, обозначенные как 1, 2 и 3: так ячейка может объединять несколько плиток в Excel, Word, HTML и LaTeX (а); так ячейка может визуально (для восприятия человеком) включать несколько плиток с помощью разграфки (б); скорее всего, так ячейки никто не представляет (в) Очевидно, что сделанные предположения описывают широкий класс обрабатываемых таблиц. Пример сводной таблицы, полностью укладывающейся в данную модель, приводится на рис. 2.Все предложенные структуры данных и алгоритмы реализованы на платформе Java. Это обеспечивает возможность использовать их напрямую для представления фактов о таблицах в процессе логического вывода, выполняемого в системе исполнения правил с поддержкой спецификации JSR-94 (Java Rule Engine API).</figDesc></figure>
<figure xmlns="http://www.tei-c.org/ns/1.0" xml:id="fig_2"><head>Рис. 2 .Рис. 4 .</head><label>24</label><figDesc>Пример сводной таблицы Рис. 3. Схема структурирования табличной информации ... when $c : CCell( cl == 1, style.getFont().getColor() == "#ff0000") then modify ( $c ) { setRole( Role.ROWLABEL ) } а ... when $c1 : CCell() $c2 : CCell( rt == $c1.rb + 1, ( $c1.cl &lt;= cl &amp;&amp; cr &lt; $c1.cr ) || ( $c1.cl &lt; cl &amp;&amp; cr &lt;= $c1.cr ) ) then $c1.addConnectedCell( $c2 ) б ... when $c : CCell( text matches "(?i).*(total)" ) then modify ( $c ) { setIgnored( true ) } ... в Примеры правил анализа табличной структуры</figDesc></figure>
<figure xmlns="http://www.tei-c.org/ns/1.0" xml:id="fig_3"><head>Рис. 5 .</head><label>5</label><figDesc>Каноническая форма таблицы из рис. 1: все метки сопоставлены измерениям, поэтому поля COL_LABEL и ROW_LABEL отсутствуют 3 Экспериментальные результаты</figDesc></figure>
<figure xmlns="http://www.tei-c.org/ns/1.0" xml:id="fig_4"><head>7</head><label>7</label><figDesc>Tobacco: World Markets and Trade 2005. USDA (U.S. Department of Agriculture). Foreign Agricultural Service. * Исключая связи корней деревьев меток. Тестовые данные имеют дополнительную разметку для определения местоположения таблицы внутри листа Excel (рис. 6), а также аккуратную декомпозицию на ячейки. Там, где это возможно, их физическая структура и разграфка совпадают. Это позволяет избежать этапов обнаружения и сегментации таблицы. Рис. 6. Дополнительная разметка тестовой таблицы: маркеры «$START» и «$END» указывают соответственно верхний левый и нижний правый угол таблицы в пространстве строк и столбцов На рис. 7 показаны некоторые таблицы из тестовой коллекции данных. Их структуры включают типичные для этой коллекции особенности. Так, таблица, рис. 7, а, содержит иерархии меток строк и столбцов. Тело таблицы, рис. 7, б, пересекают перерезы: «Price per 100 pounds» и «Price per bushel». В таблице, рис. Х, в, столбцы с метками строк чередуются со столбцами с данными. Полученные экспериментальные результаты приводятся в табл. 1. Логический вывод выполнялся в системе Drools Expert (5.4.0.Final). При этом использовался процессор Intel Core 2 Quad, 2,66 ГГц. Экспериментальные результаты показывают эффективность применения предлагаемого подхода для широкого класса таблиц.</figDesc></figure>
<figure xmlns="http://www.tei-c.org/ns/1.0" xml:id="fig_5"><head></head><label></label><figDesc>, что для одного или нескольких схожих источников можно разработать непротиворечивый набор правил анализа структуры содержащихся в них таблиц. Однако разработка достаточно универсальных баз знаний для многих разнородных источников имеет слишком высокую цену и не всегда возможна из-за противоречий, содержащихся в самих источниках. Поэтому данный подход предназначен в основном для задач управления данными, прежде всего для массовой интеграции табличной информации из наборов похожих источников. Рис. 7. Примеры тестовых таблиц Подход положен в основу развиваемой авторами системы понимания таблиц в формате Excel. Полученные экспериментальные результаты показывают эффективность её применения для широкого класса таблиц, представленных в формате Excel. В то же время необходимо дальнейшее исследование возможностей для упрощения правил анализа структуры таблицы за счет развития структур данных представления табличной информации и дополнительных алгоритмов её предобработки и постобработки.</figDesc></figure>
<figure xmlns="http://www.tei-c.org/ns/1.0"><head></head><label></label><figDesc></figDesc><graphic coords="4,97.68,52.56,400.08,209.52" type="bitmap" /></figure>
<figure xmlns="http://www.tei-c.org/ns/1.0"><head></head><label></label><figDesc></figDesc><graphic coords="7,61.68,52.56,472.08,127.44" type="bitmap" /></figure>
<figure xmlns="http://www.tei-c.org/ns/1.0"><head></head><label></label><figDesc></figDesc><graphic coords="7,61.68,457.68,471.60,268.32" type="bitmap" /></figure>
<figure xmlns="http://www.tei-c.org/ns/1.0" type="table" xml:id="tab_2"><head>Труды 16-й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» -RCDL-2014, Дубна, Россия, 13-16 октября 2014 г.</head><label></label><figDesc>Ячейка может располагаться в одной или нескольких соседних строках и в одном или нескольких соседних столбцах (например, атрибуты COLSPAN и ROWSPAN в HTML) и имеет прямоугольную форму в пространстве строк и столбцов, как показано на рис. 1, а.</figDesc><table><row><cell cols="5">анализ (определение того, какую роль играет ячейка в таблице); (4) структурный анализ (определение связей между ячейками); и (5) интерпретацию таблицы (извлечение фактов из таблицы). В настоящей работе обсуждается автоматизация 1) Модель включает два уровня: физической и формате CSS2 (Cascading Style Sheets Level 2). В частности, ими предлагается выполнять интерпретацию таблиц 3.2 Модель таблицы (восстановление логической структуры, которые в упрощенном виде семантических отношений) на основе эвристик о стилевой информации подготовленного для набора можно описать следующим образом.</cell></row><row><cell>следующих из перечисленных этапов понимании</cell><cell cols="4">наиболее общих типов изображения web-таблиц.</cell></row><row><cell>таблиц: (3) функционального и (4) структурного анализ, и (5) интерпретации таблицы.</cell><cell cols="4">В работе D.W. Embley и др. [6] предлагаются методы обнаружения таблиц внутри HTML страниц,</cell></row><row><cell>2 Родственные работы</cell><cell cols="4">и извлечения из них информации. При этом предполагается, что таблица может включать</cell></row><row><cell>Существует огромное разнообразие способов изображения таблиц. Это приводит к высокой сложности анализа и обработки неструктурированной табличной информации. Как показано в обзорах [4, 5, 13, 22], посвященных проблемам анализа и обработки таблиц, сейчас наиболее изучены, хотя и не решены полностью, проблемы обнаружения и распознавания таблиц. При этом проблемы высокоуровневого анализа и интерпретации таблиц остаются менее изученными. Вопросы понимания таблиц, связанные с задачами их (3) функционального и (4) структурного анализ, а также (5) интерпретации, рассматриваются в ряде работ [2, 4, 6, 8, 10, 19, 23-24]. Ниже приводится анализ некоторых из них. В работах Douglas S. и др. [2] и Tijerino Y. и др. [19] рассматривается преобразование (структурирование) табличной информации,</cell><cell cols="4">вложенные таблицы на связанных страницах. В частности, для поиска атрибутов (меток) и значений (данных) среди содержания ячеек таблицы предлагается использовать онтологии, специально разрабатываемые для извлечения данных. Такие онтологии извлечения помимо понятий (объектов), отношений и ограничений содержат привязанные к объектам фреймы, которые с помощью регулярных выражений позволяют связать содержание таблицы с объектами онтологии. Для связывания атрибутов со значениями, дополнительно к онтологиям извлечения используется набор эвристик о пространственной структуре и содержании таблиц. В отличие от приведенных исследований нами предлагается автоматизировать понимание таблиц за счет анализа и интерпретации, как их естественно-языковой, так и пространственной и графической (стилевой) информации.</cell></row><row><cell>называемое каноникализацией таблицы. В работе</cell><cell></cell><cell></cell><cell></cell><cell></cell></row><row><cell>Douglas S. и др. предлагается метод интерпретации</cell><cell></cell><cell></cell><cell></cell><cell></cell></row><row><cell>и каноникализации таблиц, которые содержатся в</cell><cell cols="4">Для понимания таблиц нами предлагается</cell></row><row><cell>спецификациях, используемых в строительной</cell><cell cols="4">подход, основанный на исполнении правил анализа</cell></row><row><cell>промышленности. Для этого они предлагают</cell><cell cols="4">структуры таблиц. Идея, лежащая в основе</cell></row><row><cell>использовать обработку естественного языка на</cell><cell cols="4">предлагаемого подхода, состоит в следующем.</cell></row><row><cell>основе онтологии предметной области (подъязыка</cell><cell>Обычно</cell><cell>внутри</cell><cell>тематической</cell><cell>коллекции</cell></row><row><cell>спецификаций строительной промышленности).</cell><cell cols="4">документов от одного поставщика таблицы</cell></row><row><cell>Предлагаемый Tijerino Y. и др. [19] способ каноникализации основан на использовании библиотеки фреймов, содержащей знания о лексическом содержании таблиц. Каждый фрейм данных описывает один тип данных и используется для отнесения выражений на естественном языке (табличных заголовков и значений) к этому типу. Для описания типов данных ими предлагается использовать регулярные выражения, словари и некоторые открытые ресурсы, например, WordNet [21]. В перечисленных работах [2-19] предлагаются</cell><cell cols="4">компонуются и форматируются однообразно. Для такой коллекции документов можно определить набор формализованных правил анализа табличной структуры, который удовлетворяет всем или почти всем ее таблицам. Эти правила можно представить в виде базы знаний, а процесс восстановления семантических отношений в таблице реализовать как логический вывод. При этом база фактов, используемая в процессе логического вывода, может включать информацию о пространственном, графическом и естественно-языковом содержании таблицы.</cell></row><row><cell>пространственной и стилевой информации в методы каноникализации таблиц, основанные на анализе и интерпретации представленной в таблицах естественно-языковой информации. На практике этого не всегда достаточно, для более точного и полного извлечения информации из таблицы часто также требуется анализ пространственной и графической информации. W. Gatterbauer и др. в работе [8] напротив предлагают предметно-независимый метод извлечения информации из HTML таблиц, основанный на анализе исключительно</cell><cell cols="4">состоит в метками (заголовками) и значениями данных, а также между восстановлении отношений между метками и измерениями (доменами). Как определяется в работе [9] понимание таблиц в общем случае включает следующие этапы: (1) обнаружение таблицы (поиск позиций ограничивающего прямоугольника таблицы внутри источника); (2) распознавание таблицы (разделение её на отдельные ячейки); (3) функциональный 3.1 Базовые предположения о таблицах На основе ограничений табличной структуры, характерных для представлений табличной информации в широко распространенных форматах данных, таких как Excel, Word, HTML и LaTeX, предлагается достаточно общая модель таблицы CELLS, которая ориентирована на представление фактов о табличной информации в процессе логического вывода. В модели сделано несколько общих для этих представлений предположений.</cell></row></table><note>3 Представление фактов о таблицах</note></figure>
<figure xmlns="http://www.tei-c.org/ns/1.0" type="table" xml:id="tab_3"><head></head><label></label><figDesc>Если ячейка $c находится в 1-ом столбце, а её текст выделен красным цветом, то она выполняет роль метки строки (рис. 4, а). Если ячейка $c1 расположена непосредственно над ячейкой $c2 и при этом полностью охватывает её по столбцам, то они связаны (рис. 2, б). Если ячейка $c содержит текст, удовлетворяющий регулярному выражению "(?i).*(total)", то её необходимо игнорировать при формировании выходных данных (рис. 2, в).</figDesc><table><row><cell cols="6">видимыми границами позволяет упростить правила</cell></row><row><cell cols="4">анализа структуры таблицы.</cell><cell></cell></row><row><cell cols="6">Полученные в результате данные о таблице,</cell></row><row><cell cols="6">которые формируют базу фактов для логического</cell></row><row><cell cols="6">вывода. Кроме того, факты могут быть дополнены</cell></row><row><cell cols="5">внешней информацией об измерениях.</cell></row><row><cell cols="6">Для обработки набора таблиц формируется база</cell></row><row><cell cols="6">знаний, которая состоит из продукционных правил</cell></row><row><cell cols="6">анализа табличной структуры. Они отображают</cell></row><row><cell cols="6">доступную информацию: позиции (координаты),</cell></row><row><cell cols="6">графическое форматирование и естественно-</cell></row><row><cell cols="6">языковое содержание ячеек, в отсутствующие</cell></row><row><cell>изначально</cell><cell></cell><cell cols="2">отношения</cell><cell>между</cell><cell>метками,</cell></row><row><cell cols="6">вхождениями и измерениями. Полученные в</cell></row><row><cell cols="6">процессе вывода новые факты о семантических</cell></row><row><cell cols="6">отношениях должны быть достаточными для</cell></row><row><cell cols="4">каноникализации таблицы.</cell><cell></cell></row><row><cell cols="6">В качестве система исполнения таких правил</cell></row><row><cell cols="6">может использоваться свободная системы Drools</cell></row><row><cell cols="6">Expert [3], реализующая спецификацию JSR-94. При</cell></row><row><cell cols="6">этом сами правила могут быть представлены на</cell></row><row><cell cols="4">языке выражений MVEL [14].</cell><cell></cell></row><row><cell cols="6">На Рис. 4 приводится ряд простых примеров</cell></row><row><cell cols="6">возможных правил анализа структуры на языке</cell></row><row><cell cols="6">MVEL. Примеры правил, которые применялись при</cell></row><row><cell cols="6">тестировании системы CELLS, можно найти по</cell></row><row><cell cols="4">адресу http://cells.icc.ru/test.</cell><cell></cell></row><row><cell cols="6">В процессе логического вывода накапливается</cell></row><row><cell cols="6">информация о логической структуре таблицы. Для</cell></row><row><cell cols="6">этой информации выполняется постобработка,</cell></row><row><cell>которая</cell><cell cols="2">включает:</cell><cell cols="2">приведение</cell><cell>текстового</cell></row><row><cell cols="6">содержания ячеек к эталонным написаниям,</cell></row><row><cell cols="2">сопоставление</cell><cell>меток</cell><cell>с</cell><cell cols="2">измерениями</cell><cell>и</cell></row><row><cell cols="6">формирование канонической формы таблицы.</cell></row><row><cell cols="6">Из восстановленной информации модели</cell></row><row><cell cols="6">, для документов, напечатанных в файлы формата EMF, может использоваться технология, предложенная в работах [24]. Выходом таких систем являются таблицы в форматах Excel, HTML или таблицы CELLS формируется таблица в канонической форме, которая включает следующие поля: DATA -данные (вхождения); ROW_LABEL -пути меток от листьев до корней из невырожденного дерева Lr; COL_LABEL -пути меток от листьев до корней из невырожденного дерева Lc; D1,..., Dn -поля значений измерений Di из набора D. Каждый кортеж в такой канонической форме представляет связь между вхождением, путями в деревьях меток и значениями восстановленных измерений. Дополнительно поле ROW_LABEL/COL_LABEL может быть разделено на несколько отдельных полей, каждое из которых будет соответствовать одному уровню вложенности в дереве меток строк/столбцов.</cell><cell>XML, которые могут быть приведены к физическому уровню модели CELLS. В процессе загрузки таблиц из полученных файлов Excel, HTML или XML в структуры данных, реализующих модель CELLS, табличная информация подвергается предобработки. Это включает опционально: удаление лишних пробельных и служебных символов из текстового содержания, исключение из таблицы пустых строк и столбцов и восстановление отсутствующих настроек стилей границ ячеек. Последнее необходимо, поскольку видимые и физические границы ячейки не всегда совпадают. Визуально они могут быть образованы границами соседних ячеек. Приведение стилей физических границ ячеек в соответствии с её</cell></row></table></figure>
<figure xmlns="http://www.tei-c.org/ns/1.0" type="table" xml:id="tab_4"><head></head><label></label><figDesc>Для экспериментальной оценки сформирована коллекция тестовых данных, которая включает 97 таблиц в формате Excel, собранных из 7 различных источников. Коллекция доступна по адресу http://cells.icc.ru/test. Её краткое описание приводится в табл. 1. Excel. При этом, насколько это было возможно, в полученных тестовых таблицах было сохранено графическое форматирование, представленное в соответствующих им PDF источниках. Statistical Handbook of Japan 2007. Statistics Bureau of Japan. Chapter 5, 8. 2 OJSC «Aeroflot -Russian Airlines» Consolidated Financial Statements For the Year Ended December 31, 2006. P. 4-10, 25-26. 3 Boeing Co, Annual Report 2010. P. 50-55, 83-85. 4 China statistical yearbook 2003. National Bureau of Statistics of China. P. 23-48, 555, 559, 571, 584, 590, 664, 708, 774, 765.</figDesc><table><row><cell></cell><cell></cell><cell cols="5">Таблица 1. Экспериментальные результаты</cell><cell></cell></row><row><cell>Код</cell><cell>Кол-во</cell><cell>Кол-во</cell><cell>Кол-во</cell><cell>Кол-во</cell><cell cols="2">Кол-во связей</cell><cell>Кол-во</cell><cell>Время</cell></row><row><cell>источника</cell><cell>таблиц</cell><cell>ячеек</cell><cell>вхождений</cell><cell>меток</cell><cell></cell><cell>между</cell><cell>правил</cell><cell>исполнения</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell>метками *</cell><cell></cell><cell>правил (мс)</cell></row><row><cell>JAPAN_STAT 1</cell><cell>15</cell><cell>1088</cell><cell>734</cell><cell>257</cell><cell></cell><cell>102</cell><cell>10</cell><cell>417</cell></row><row><cell>AEROFLOT 2</cell><cell>13</cell><cell>2047</cell><cell>727</cell><cell>321</cell><cell></cell><cell>167</cell><cell>16</cell><cell>526</cell></row><row><cell>BOEING 3</cell><cell>21</cell><cell>2156</cell><cell>964</cell><cell>470</cell><cell></cell><cell>196</cell><cell>14</cell><cell>663</cell></row><row><cell>CHINA_STAT 4</cell><cell>18</cell><cell>7216</cell><cell>4180</cell><cell>862</cell><cell></cell><cell>551</cell><cell>12</cell><cell>964</cell></row><row><cell>CHEVRON 5</cell><cell>7</cell><cell>812</cell><cell>268</cell><cell>141</cell><cell></cell><cell>89</cell><cell>12</cell><cell>283</cell></row><row><cell>USDA_NASS 6</cell><cell>7</cell><cell>1553</cell><cell>1175</cell><cell>313</cell><cell></cell><cell>174</cell><cell>16</cell><cell>638</cell></row><row><cell>TOBACCO 7</cell><cell>16</cell><cell>2844</cell><cell>2195</cell><cell>508</cell><cell></cell><cell>335</cell><cell>10</cell><cell>730</cell></row><row><cell>1</cell><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell cols="5">Экспериментальная оценка представленного</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell cols="5">подхода выполнена с помощью системы CELLS, в</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell>которой</cell><cell cols="2">реализованы</cell><cell cols="2">структуры</cell><cell>данных,</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell cols="4">представляющие модель таблицы</cell><cell>CELLS, и</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell cols="5">алгоритмы: 1) загрузки исходной табличной</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell cols="5">информации в формате Excel (тестовых данных со</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell cols="2">специальной</cell><cell>разметкой);</cell><cell cols="2">2) структурирования</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell>табличной</cell><cell></cell><cell>информации,</cell><cell cols="2">восстановленной</cell><cell>в</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell>процессе</cell><cell></cell><cell>логического</cell><cell>вывода;</cell><cell>3) экспорта</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell cols="4">результатов в формате Excel.</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell cols="3">Для формирования коллекции</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell>исходная</cell><cell></cell><cell>табличная</cell><cell cols="2">информация</cell><cell>была</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell cols="4">преобразована из формата PDF в Excel.</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell cols="5">Источниками тестовых данных послужили</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell cols="3">слабоструктурированные</cell><cell cols="2">документы</cell><cell>в</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell cols="5">низкоуровневом формате файлов печати PDF -</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell cols="5">государственные и финансовые статистические</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell cols="5">отчеты с богатым табличным содержанием. Для</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell cols="5">формирования коллекции исходная табличная</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell cols="5">информация была преобразована из формата PDF в</cell></row></table><note>5 Chevron Corp. News Release November 2, 2012. Chevron Corp. P. 1, 5-9. 6 USDA NASS. 2003 Agricultural Statistics Annual. USDA (U.S. Department of Agriculture). National Agricultural Statistics Service. Chapter VI. P. 5-7, 12.</note></figure>
		</body>
		<back>
			<div type="references">

				<listBibl>

<biblStruct xml:id="b0">
	<monogr>
		<title level="m" type="main">The problem with unstructured data // DM Review</title>
		<author>
			<persName><forename type="first">R</forename><surname>Blumberg</surname></persName>
		</author>
		<author>
			<persName><forename type="first">S</forename><surname>Atre</surname></persName>
		</author>
		<ptr target="http://soquelgroup.com/Articles/dmreview_0203_problem.pdf" />
		<imprint>
			<date type="published" when="2003">2003</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b1">
	<analytic>
		<title level="a" type="main">Using Natural Language Processing for Identifying and Interpreting Tables in Plain Text</title>
		<author>
			<persName><forename type="first">S</forename><surname>Douglas</surname></persName>
		</author>
		<author>
			<persName><forename type="first">M</forename><surname>Hurst</surname></persName>
		</author>
		<author>
			<persName><forename type="first">D</forename><surname>Quinn</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="m">Proc. of the 4th Annual Symposium on Document Analysis and Information Retrieval</title>
				<meeting>of the 4th Annual Symposium on Document Analysis and Information Retrieval<address><addrLine>Las Vegas</addrLine></address></meeting>
		<imprint>
			<date type="published" when="1995">1995</date>
			<biblScope unit="page" from="535" to="546" />
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b2">
	<analytic>
		<title level="a" type="main">Design of an end-to-end method to extract information from tables</title>
		<author>
			<persName><forename type="first">A</forename><forename type="middle">C</forename><surname>Silva</surname></persName>
		</author>
		<author>
			<persName><forename type="first">A</forename><forename type="middle">M</forename><surname>Jorge</surname></persName>
		</author>
		<author>
			<persName><forename type="first">L</forename><surname>Torgo</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="j">Int. J. on Document Analysis and Recognition</title>
		<imprint>
			<biblScope unit="volume">8</biblScope>
			<biblScope unit="issue">2</biblScope>
			<biblScope unit="page" from="144" to="171" />
			<date type="published" when="2006">2006</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b3">
	<analytic>
		<title level="a" type="main">Table-processing paradigms: a research survey</title>
		<author>
			<persName><forename type="first">D</forename><forename type="middle">W</forename><surname>Embley</surname></persName>
		</author>
		<author>
			<persName><forename type="first">M</forename><surname>Hurst</surname></persName>
		</author>
		<author>
			<persName><forename type="first">D</forename><surname>Lopresti</surname></persName>
		</author>
		<author>
			<persName><forename type="first">G</forename><surname>Nagy</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="j">Int. J. on Document Analysis and Recognition</title>
		<imprint>
			<biblScope unit="volume">8</biblScope>
			<biblScope unit="issue">2</biblScope>
			<biblScope unit="page" from="66" to="86" />
			<date type="published" when="2006">2006</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b4">
	<monogr>
		<title level="m" type="main">Automating the Extraction of Data from HTML Tables with Unknown Structure // Data &amp; Knowledge Engineering</title>
		<author>
			<persName><forename type="first">D</forename><forename type="middle">W</forename><surname>Embley</surname></persName>
		</author>
		<author>
			<persName><forename type="first">C</forename><surname>Tao</surname></persName>
		</author>
		<author>
			<persName><forename type="first">S</forename><forename type="middle">W</forename><surname>Liddle</surname></persName>
		</author>
		<imprint>
			<date type="published" when="2005">2005</date>
			<publisher>Elsevier</publisher>
			<biblScope unit="volume">54</biblScope>
			<biblScope unit="page" from="3" to="28" />
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b5">
	<monogr>
		<author>
			<persName><forename type="first">R</forename><surname>Feldman</surname></persName>
		</author>
		<author>
			<persName><forename type="first">J</forename><surname>Sanger</surname></persName>
		</author>
		<title level="m">The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data</title>
				<imprint>
			<publisher>Cambridge University Press</publisher>
			<date type="published" when="2006">2006</date>
			<biblScope unit="page">422</biblScope>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b6">
	<analytic>
		<title level="a" type="main">Towards Domain-Independent Information Extraction from Web Tables</title>
		<author>
			<persName><forename type="first">W</forename><surname>Gatterbauer</surname></persName>
		</author>
		<author>
			<persName><forename type="first">P</forename><surname>Bohunsky</surname></persName>
		</author>
		<author>
			<persName><forename type="first">M</forename><surname>Herzog</surname></persName>
		</author>
		<author>
			<persName><forename type="first">B</forename><surname>Krüpl</surname></persName>
		</author>
		<author>
			<persName><forename type="first">B</forename><surname>Pollak</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="m">Proc. of the 16th Int. Conf. on World Wide Web</title>
				<meeting>of the 16th Int. Conf. on World Wide Web<address><addrLine>New York, NY, US</addrLine></address></meeting>
		<imprint>
			<publisher>ACM</publisher>
			<date type="published" when="2007">2007</date>
			<biblScope unit="page" from="71" to="80" />
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b7">
	<analytic>
		<title level="a" type="main">Layout and Language: Challenges for Table Understanding on the Web</title>
		<author>
			<persName><forename type="first">M</forename><surname>Hurst</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="m">Proc. of the 1st Int. Workshop on Web Document Analysis</title>
				<meeting>of the 1st Int. Workshop on Web Document Analysis</meeting>
		<imprint>
			<date type="published" when="2001">2001</date>
			<biblScope unit="page" from="27" to="30" />
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b8">
	<monogr>
		<title level="m" type="main">The Interpretation of Tables in Texts</title>
		<author>
			<persName><forename type="first">M</forename><surname>Hurst</surname></persName>
		</author>
		<imprint>
			<date type="published" when="2000">2000</date>
			<pubPlace>UK</pubPlace>
		</imprint>
		<respStmt>
			<orgName>School of Cognitive Science, Informatics, the University of Edinburgh</orgName>
		</respStmt>
	</monogr>
	<note type="report_type">PhD thesis</note>
</biblStruct>

<biblStruct xml:id="b9">
	<monogr>
		<author>
			<persName><forename type="first">W</forename><forename type="middle">H</forename><surname>Inmon</surname></persName>
		</author>
		<ptr target="http://www.tdan.com/view-articles/5009" />
		<title level="m">Matching unstructured data and structured data // The data administration newsletter</title>
				<imprint>
			<date type="published" when="2006">2006</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b10">
	<monogr>
		<title level="m" type="main">Tapping into Unstructured Data: Integrating Unstructured Data and Textual Analytics into Business Intelligence</title>
		<author>
			<persName><forename type="first">W</forename><forename type="middle">H</forename><surname>Inmon</surname></persName>
		</author>
		<author>
			<persName><forename type="first">A</forename><surname>Nesavich</surname></persName>
		</author>
		<imprint>
			<date type="published" when="2007">2007</date>
			<publisher>Prentice Hall PTR</publisher>
		</imprint>
	</monogr>
	<note>1st edition</note>
</biblStruct>

<biblStruct xml:id="b11">
	<analytic>
		<title level="a" type="main">A tabular survey of automated table processing</title>
		<author>
			<persName><forename type="first">D</forename><surname>Lopresti</surname></persName>
		</author>
		<author>
			<persName><forename type="first">G</forename><surname>Nagy</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="j">Lecture Notes in Computer Science</title>
		<imprint>
			<biblScope unit="page" from="93" to="120" />
			<date type="published" when="1941">2000. 1941</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b12">
	<monogr>
		<title/>
		<author>
			<persName><surname>Pdfgenie</surname></persName>
		</author>
		<ptr target="http://www.pdftron.com/pdfgenie" />
		<imprint/>
	</monogr>
</biblStruct>

<biblStruct xml:id="b13">
	<monogr>
		<title level="m" type="main">Enterprise Information Portals // Merrill Lynch</title>
		<author>
			<persName><forename type="first">C</forename><forename type="middle">C</forename><surname>Shilakes</surname></persName>
		</author>
		<author>
			<persName><forename type="first">J</forename><surname>Tylman</surname></persName>
		</author>
		<imprint>
			<date type="published" when="1998">1998</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b14">
	<monogr>
		<ptr target="http://msdn.microsoft.com/ru-ru/library/ms141026.aspx" />
		<title level="m">SQL Server Integration Services</title>
				<imprint/>
	</monogr>
</biblStruct>

<biblStruct xml:id="b15">
	<monogr>
		<ptr target="http://tabula.nerdpower.org" />
		<title level="m">Tabula</title>
				<imprint/>
	</monogr>
</biblStruct>

<biblStruct xml:id="b16">
	<monogr>
		<title level="m" type="main">Towards ontology generation from tables // World Wide Web: Internet and Web Information Systems</title>
		<author>
			<persName><forename type="first">Y</forename><surname>Tijerino</surname></persName>
		</author>
		<author>
			<persName><forename type="first">D</forename><surname>Embley</surname></persName>
		</author>
		<author>
			<persName><forename type="first">D</forename><surname>Lonsdale</surname></persName>
		</author>
		<author>
			<persName><forename type="first">G</forename><surname>Nagy</surname></persName>
		</author>
		<imprint>
			<date type="published" when="2005">2005</date>
			<biblScope unit="volume">8</biblScope>
			<biblScope unit="page" from="261" to="285" />
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b17">
	<monogr>
		<title level="m" type="main">Tabular Abstraction, Editing, and Formatting</title>
		<author>
			<persName><forename type="first">X</forename><surname>Wang</surname></persName>
		</author>
		<imprint>
			<date type="published" when="1996">1996</date>
			<pubPlace>Waterloo, Ontario, Canada</pubPlace>
		</imprint>
	</monogr>
	<note type="report_type">PhD thesis</note>
</biblStruct>

<biblStruct xml:id="b18">
	<monogr>
		<ptr target="http://wordnet.princeton.edu" />
		<title level="m">WordNet</title>
				<imprint/>
	</monogr>
</biblStruct>

<biblStruct xml:id="b19">
	<analytic>
		<title level="a" type="main">A survey of table recognition: Models, observations, transformations, and inferences</title>
		<author>
			<persName><forename type="first">R</forename><surname>Zanibbi</surname></persName>
		</author>
		<author>
			<persName><forename type="first">D</forename><surname>Blostein</surname></persName>
		</author>
		<author>
			<persName><forename type="first">J</forename><forename type="middle">R</forename><surname>Cordy</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="j">Int. J. on Document Analysis and Recognition</title>
		<imprint>
			<biblScope unit="volume">7</biblScope>
			<date type="published" when="2004">2004</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b20">
	<monogr>
		<title/>
		<author>
			<persName><forename type="first">P</forename></persName>
		</author>
		<imprint>
			<biblScope unit="page" from="1" to="16" />
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b21">
	<analytic>
		<title level="a" type="main">Адаптивные методы извлечения информации из статистических таблиц, представленных в текстовом виде</title>
		<author>
			<persName><forename type="first">П</forename><surname>Кудинов</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="j">дис. … канд. техн. наук. М</title>
		<imprint>
			<biblScope unit="page">105</biblScope>
			<date type="published" when="2011">2011</date>
		</imprint>
	</monogr>
</biblStruct>

				</listBibl>
			</div>
		</back>
	</text>
</TEI>
