Динамические частотные характеристики как основа для структурного описания разнородных лингвистических объектов © Е.В. Ягунова © Д.В. Ландэ Институт проблем регистрации информации С.-Петербургский гос. Университет НАН Украины Санкт-Петербург Киев iagounova.elena@gmail.com dwlande@gmail.com тематическими запросами – фильтрами политемати- Аннотация ческого информационного потока. В нашей же работе исследуется политематический информаци- В статье представлен подход к изучению онный поток, который понимается, прежде всего, динамических характеристик слов для опи- как множество текстов, выступающих как неко- сания разнородных динамических объектов: торое единство: адресатов интересует смысл, от отдельных текстов до потоков новостей. Четыре группы слов, выделяемых на осно- заключенный сразу в сотнях и тысячах текстов. В качестве «слепка» информационного потока в дан- вании динамических частотных характерис- тик, имеют четкую физическую и языковую ной работе исследуется массив веб-публикаций из RUNeta, заиндексированный системой InfoStream природу. Они соответствуют разнородным (http://infostream.ua) в течение декабря 2008 г., по лингвистическим характеристикам объ- ектам (с точки зрения структуры объекта и объем которого составляет около 1200000 сообще- особенностей языка). ний (~3500 источников). Что такое текст? Даже структура единичного текста исследована более чем неполно. Прежде всего, текст – это основная единица, в которой Введение содержится коммуницируемый смысл. В рамках Изменившиеся условия существования челове- традиционного лингвистического подхода основные чества в условиях перехода к информационному характеристики текста определяют как: обществу коренным образом перестроили проце- ­ развернутость, или «последовательность дуры анализа информации. Развитие поисковых знаковых единиц» (например, [1]); технологий открыло новое поле деятельности для ­ отдельнооформленность; специалистов в области компьютерной лингвистики текста. Раньше основным и единственным объектом ­ связность и цельность. лингвистического исследования был текст (его Развернутость соотносится с вопросом о анализ, понимание). Вместе с тем, объемы инфор- размерности и уровне иерархии такой единицы, как мации, содержащейся в информационных потоках, текст, структурными составляющими которого не могут быть восприняты и проанализированы являются слова, синтагмы, фразы, сверхфразовые отдельным человеком в силу его психофизиологи- единства (забегая вперед – и далее). Выделяют ческих ограничений. Новый объект – информации- «внешнюю» и «внутреннюю» (смысловую) связ- онный поток – требует использования новых ность. В основе связности и цельности текста – технологий, которые выступают в качестве посред- взаимосвязанность и взаимообусловленность его ника при извлечении адресатом коммуницируемого структурных составляющих. Связность реализуется смысла. Информационный поток в рамках данной как пространственная (контактно расположенные работы рассматривается как совокупность сообще- структурные составляющие), «логическая» и ний, циркулирующих в информационном простран- ассоциативная. В последних исследованиях все стве, в частности, его репрезентативной части - веб- чаще разделяют когезию и когерентность (напри- пространстве. Как правило, предметом научных мер, см. [2]. Когезия – связь элементов текста, при исследований в настоящее время выступают инфор- которых интерпретация одних элементов зависит от мационные потоки, соответствующие определенным других [2]. Когерентность соотносима с прагмати- темам, которые на практике могут определяться ческой стороной, она выводит нас за пределы текста в коммуникативную ситуацию и опирается на базу знаний адресата. Когерентность в наибольшей сте- Труды 14-й Всероссийской научной конференции пени связана с реализаций (смысловых) ожиданий «Электронные библиотеки: перспективные методы и адресата. Однако часто невозможно четко разграни- технологии, электронные коллекции» — RCDL-2012, чить эти два разных вида связности. Переславль-Залесский, Россия, 15-18 октября 2012 г. 150 Природа связей может быть различного проис- Данные характеристики являются динамически- хождения: ми, так как в них учитывается динамическая (1) связанной с лексической и семантической картина взаимодействия частот встречаемости в сочетаемостью/несочетаемостью, пространстве анализируемого объекта (от (2) определяющейся правилами синтаксиса, коллекции до текста). (3) соотносимой с информационной значимостью, Цель исследования состояла в том, чтобы на (4) задаваемой коммуникативной ситуацией вообще основании сопоставления частот встречаемости слов и задачей коммуникации в частности. – глобальной и локальной – выделить основные еди- Применимы ли основные характеристики текста ницы анализа для структур, описывающих коллек- к такому лингвистическому объекту как информаци- цию и/или текст. Для описания выделяемых единиц онный поток? По-видимому, ответ должен быть попробуем использовать те наработки, которые положительным. Наиболее проблемной характерис- может предоставить лингвистика текста, т.е. допол- тикой является отдельнооформленность, которая нительной целью работы является соединение предполагает, с одной стороны, наличие сигналов методов и задач информационных технологий начала и конца, а с другой – представление о мониторинга новостей и лингвистических подходов фреймах: знании носителей языка о структуре в рамках нашего расширенного понимания объекта, текстов (текстовой и коммуникативной компетен- методов и задач лингвистики текста. ции). Но проблемы с наличием сигналов начала и Что могут представлять основные единицы конца возникают гораздо раньше, т.е. уже на уровне анализа для структур, описывающих коллекцию сложного текста. А то, что сегменты информаци- и/или текст? Для художественного повествования, онного потока содержат коммуницируемый смысл скорее всего такой единицей будет сверхфразовое (и при решении определенных задач коммуникации единство (СФЕ) [3]. Это единица, которая наименее эти объекты становятся основными), полагаем, ни у формализована в традиционной лингвистике текста, кого не вызывает сомнений. Очевидно и наличие прежде всего, это относится к критериям опре- большого количества лингвистических технологий, деления/выделения подобных единиц. Чаще всего, позволяющих решать эти задачи. когда описывают СФЕ, речь идет об единстве В рамках исследования частотных характеристик ситуации (событии): единстве действующих лиц, текста с целью сопоставления этих характеристик места, времени, а иногда и способе действия (или о введем два определения: некотором сходном составе). Таким образом Определение 1. Глобальная частота встреча- наблюдается аналогия между описанием лингвис- емости – абсолютная частота встречаемости слова тики текста и описанием в рамках информационного в анализируемом объекте (от коллекции до текста). подхода, когда существенное внимание уделяется Определение 2. Локальная частота встреча- именно этим типам именованных сущностей. емости – абсолютная частота встречаемости слова Для новостного потока, вероятно, будут в окне наблюдения из K слов. выделяться единицы, являющиеся некоторыми Очевидно, что при исследовании информаци- аналогами СФЕ (наиболее четкие из возможных онного потока, количество записей будет изменять- аналогов СФЕ). Эти единицы предположительно ся в течение времени, т.е. такая характеристика, как состоят более чем из одного документа/ текста глобальная частота встречаемости может динами- (значимая новость не должна быть представлена чески изменяться во времени. В данной работе она лишь одним документом). Это будет похоже на фиксируется нами для окна наблюдения, равного сегмент потока, состоящего из документов с макси- объему исследуемого фрагмента информационного мальными локальными актуальностью и новизной. потока или исследуемого текста литературного Вероятно, такой сегмент имеет сравнительно четкие произведения. Локальная частота встречаемости же временные границы начала и конца фрагмента. зависит от относительно небольшого скользящего Таким образом, интересующая нас структурная окна наблюдения и может динамически изменяться единица в новостном потоке представляет собой в пределах всего текстового массива или единич- единицу, размерность которой варьирует от новост- ного исследуемого текста литературного произве- ного текста до кластера текстов, относящихся к дения. одному временному сегменту и одной тематике Конечно, локальная частота встречаемости (одна или ряд сходных ситуаций, объединяемых на может быть разной для различных фрагментов основе наименований персон, организаций, геогра- текста, а также зависеть от перестановки сообщений фических наименований, времени и собственно в информационном потоке, однако, как показывает наименования ситуации (события). практика, при достаточно больших объемах В чистом виде такие единицы встречаются наблюдаемых данных, характер их распределения, в крайне редко даже для текстов с максимальной частности, для массива веб-публикаций зависит однородностью тематики и стилевых характеристик. лишь от величины окна наблюдения. Кроме того, Почему? Потому что даже для самых однородных инвариантность от перестановок отдельных сообще- текстов наблюдается иерархия тем (тем и подтем) и ний обеспечивается нами в дальнейшем выбором отсутствие полной однородности стиля. В случае величины окон наблюдений, которые по порядку новостных текстов – потому что одна и та же соответствуют размеру среднего сообщения из ситуация может быть освещена по-разному даже в информационного потока. текстах информационных лент (уж не говоря о 151 тематических текстах с элементами аналитики), один и тот же текст может содержать информацию о 1 Материал и методика нескольких ситуациях (событиях). В этом смысле противопоставление текст vs цикл vs коллекция- поток оказывается динамическим, лишенным четких В рамках проводимого исследования границ. рассматривались: В теории информационного поиска признано ­ максимально неоднородная ( и по ранжирование весов слов по классическому тематическим, и по стилевым характеристикам) критерию Солтона TF IDF [4], где TF (Term коллекция новостей из русскоязычного Frequency) – это частота встречаемости слова в сегмента веб-пространства; пределах выбранного документа, а IDF (Inverse ­ поэма Н.В.Гоголя «Мертвые души» (первый Document Frequency) – функция (чаще всего лога- том). рифм) от величины, обратной количеству докумен- На уровне выбора материала мы пытались тов, в которых встретилось данное слово. Наш максимизировать количество противопоставлений: подход идеологически близок к TF, можно считать, 1) новостной vs художественный функциональный что локальная частота – это аналог TF (в этом стиль; случае окно наблюдения – аналог документа), а 2) коллекция vs одно произведение; глобальная частота встречаемости соответствует DF 3) тематическая и стилевая неоднородность (Document Frequency). При этом появляется (новостей) vs однородность (поэмы возможность анализировать не только массивы Н.В. Гоголя). документов, как это реализовано с помощью TF Исследовалась зависимость локальной частоты IDF, но и цельные тексты больших объемов (ср. [5]). встречаемости слов от глобальной с тремя Следует отметить, что если в задачах информа- значениями окна анализа (K=100, K=500 и K=5000). ционного поиска достаточно часто исследуется Окна анализа подбирались эмпирически, их выбор поведение TF IDF (или некоторых близких по был обусловлен желанием в качестве минимального смыслу функций), в то время, как в рамках данной окна выбрать тот диапазон, в который помещается работы фактически исследуется взаимная средний абзац для поэмы или средний текст зависимость двух сомножителей TF и DF. новостей (K=100), в качестве максимального окна – В наших исследованиях приоритетное значе- средняя глава поэмы или сегмент, в котором ние имеет весь текстовый массив (в отличие от реализуется большинство новостных текстов, каждого отдельного документа), значения глобаль- реализующих наиболее распространенную и ной частоты встречаемости не понижается путем актуальную новость (K=5000). логарифмирования как в TF IDF. Кроме того, критерий соотношения локальной и глобальной частоты встречаемости слов может применяться не 2 Результаты только к слову из определенного фрагмента текста, но и позволяет видеть общую частотную картину, Введем еще определения, с которыми мы связанную с выбранным словом, оценивать его отчасти будем соотносить свои результаты. Семан- значение для всего текстового массива. тической структурой называем структуру, харак- В [6] исследовалась зависимость особенности теризующую прежде всего стилевые характеристи- соотношения локальной и глобальной популярности ки, информационной структурой – характеризую- сообщений электронных СМИ. При этом было щую тематику (предметную область) анализиру- выявлено некоторое количество сообщений, харак- емых текстов или коллекций. Для новостных (или теризующихся большим соотношением локальной научных) текстов эти структуры противопоставлены популярности к глобальной. Этот факт позволяет существенно выше, чем для художественных судить о событиях, описываемых в данных сооб- текстов [8]. щениях, как о новых. Таким образом был обоснован На рис. 1 представлены графики зависимости алгоритм выявления документов, получивших боль- локальной частоты от глобальной для различных шую популярность только в последнее время (New окон анализа (K). Очевидно, при приближении Event Detection) [7]. Однако нам не известны такого значения K к общему числу N слов в анализи- рода исследования, выходящие за рамки решения руемом объекте (тексте и/или коллекции), верхняя узко формулируемых задач мониторинга новостных кромка графика будет приближаться к прямой потоков, например, на уровне слов, фрагментов (локальная частота станет совпадать с глобальной). текста, текста и т.д. На каждом графике выделяется 4 области в На наш взгляд предлагаемый подход позволяет соответствии со следующими параметрами: анализировать структуры самых разных текстовых 1. Глобальная и локальная частот малые. Таких объектов: от единичного текста до политемати- слов очень много, их значение в тексте ческой коллекции текстов, рассматриваемой как соответствует «хвосту» распределения Ципфа – это, сегмент информационного потока. прежде всего, редко используемые специфические Кроме того, предлагаемый подход позволит слова, т.е. слова, характеризующие данный приблизиться к формализованной оценке такой документ (сегмент потока) и встречающиеся более составляющей, как СФЕ. одного раза как глобально, так и локально. Кроме 152 таких специфических слов в «область 1» попадают границами, например, появление действующего ошибки, которые достаточно легко отфильтровать. лица (и/или объекта), локализованного в данной 2. Глобальная частота относительно единице (сегменте текста) и сопровождаемого небольшая, а локальная – высокая. Этой области «всплеском» внимания. Рассматриваемые слова поч- соответствуют слова, присущие новой теме, ти наверняка относятся к информационной струк- «всплеску» интереса к определенному факту в пото- туре. Мы абстрагируемся от проблем повторных ке новостей на сравнительно небольшом временном номинаций, что позволительно именно на таких сегменте веб-пространства (далее – веба). Этой сегментах, т.к. высокий уровень внимания «застав- области соответствуют слова единичного текста, ляет» авторов текстов многократно повторять маркирующие интересующие нас структурные основную номинацию. единицы (сегменты текста) с наиболее четкими K Массив из веб-пространства K «Мертвые души», том 1 100: 100 500: 500 5000: 5000 Рис. 1 Зависимость локальной частоты встречаемости (вертикальная ось) от глобальной (горизонтальная ось) в двойной логарифмической шкале структуре по преимуществу относятся слова из п. 2) 3. Глобальная частота высокая, а локальная – (о разделении этих структур см. подробнее [9]). низкая. Этой области соответствуют слова относи- 4. Глобальная и локальная частоты высокие. В тельно равномерно входящие в текст, по-видимому, эту область чаще всего попадают служебные слова, определяющие его общую структуру: прежде всего, имеющие низкую «различительную силу» при семантическую структуру, в которой задаются поиске, такие слова обычно помещаются в список общие стилевые характеристики анализируемого «стоп-слов». объекта (текста и/или коллекции) и способ «упаковки» информации. В данном случае – те 3 Обсуждение результатов характеристики, которые свойственны большинству новостных источников (из веба), или те, которые В данной статье мы сосредоточились на словах, свойственны поэме «Мертвые души». Вероятно, это у которых глобальная частота уже большая, а те слова, которые соответствуют скорее семанти- локальная скачет (см. «гребешок» на рис. 1). Это ческой структуре» текста, в отличие от промежуточный и наиболее информативный для нас информационной структуры, (к информационной 153 фрагмент (взаимодействие между областями и стандарты не влияли на результат эксперимента. В структурами). табл. 2 приведены результаты эксперимента; вес Для поэмы «Мертвые души» практически все слова (или словосочетания) приводится в абсо- знаменательные слова (имена) с такими частотными лютных числах (указывается число информантов, характеристиками являются теми ключевыми записавших в анкете данное слово). Как и в вычис- словами, которые явно маркируют СФЕ. СФЕ с лительном эксперименте, анализировались слова, этими словами сопровождаются всплеском внима- которые могли объединяться в сложные номинации ния на соответствующие реалии при развертывании (мертвые души) только на основании анализа анкет. текста. Эти слова, упорядоченные по значению глобальной частоты, приведены в табл. 1, у них Табл. 2 Ключевые слова, полученные в результате глобальная частота меньше 250, а локальная эксперимента с информантами максимальная больше 10. № п/п Ключевые слова Вес Табл. 1 Ключевые слова с рассматриваемыми 1 ПОМЕЩИК 10 частотными характеристиками 2 БРИЧКА 8 Глобальная частота Ключевое слово с 3 ТРОЙКА 8 встречаемости рассматриваемыми 4 ЧИЧИКОВ 8 динамическими частотными 5 ДОРОГА 7 характеристиками 6 КОРОБОЧКА 7 128 ЧЕЛОВЕК 7 ПЛЮШКИН 7 107 НОЗДРЕВ 8 КУПЧАЯ 6 9 МАНИЛОВ 6 73 СОБАКЕВИЧ 10 СОБАКЕВИЧ 6 67 МАНИЛОВ 11 МЕРТВЫЕ ДУШИ 6 63 ДУШИ 12 ГУБЕРНАТОР 5 52 СЕЛИФАН 13 НОЗДРЕВ 5 14 КРЕПОСТНЫЕ 3 54 ЧИЧИКОВ 15 РОССИЯ 3 43 МЕРТВЫЕ Для того, чтобы выделить ключевые слова по 38 ПРЕДСЕДАТЕЛЬ мере TF IDF важно правильно определить контекст, 33 ИВАН а именно контрастивную коллекцию. В качестве двух вариантов контрастивной 29 КАПИТАН коллекции рассматривались: 26 КОПЕЙКИН ­ «Гоголь+Чехов» – коллекция текстов 17 АНТОНОВИЧ Н.В. Гоголя (кроме «Мертвых Душ») и коллекция текстов А.П.Чехова (сборники «Человек в футляре», «Рассказы 1887 год», Эти слова можно считать ключевыми, так как все «Рассказы. Повести. 1888-1891», «Рассказы. они соотносятся с теми наборами ключевых слов, Повести. 1892-1894», «Рассказы. Повести. которым соответствовали наибольшие значения TF 1894-1897»; IDF, более трети из них – с наборами слов, которые выделяли информанты (ср. [9]). ­ «Гоголь» – коллекция текстов Н.В. Гоголя (кроме «Мертвых Душ»). Так, для получения набора ключевых слов был Выбор контекста определяется требованием проведен эксперимент (21 информант) с тради- максимальной однородности и опирался как на ционной методикой и стандартной инструкцией интуицию исследователя, так и на данные [10]: «Вспомните «Мертвые души» Н.В. Гоголя. предварительного статистического анализа. Подумайте над их содержанием. Выпишите 10-15 В табл. 3 приведены ключевые слова, выделен- слов, наиболее важных для их содержания». ные с использованием меры важности TF IDF, слова Единственное отличие от традиционного варианта упорядочены по убыванию значения этой меры. заключалось в том, что информантам предлагалось Пороговое значение определялось на основании вспомнить тексты, т.е. оценивалось остаточное зна- графического изображения распределения значений ние текста. В качестве информантов выступали, меры; значение подбиралось так, чтобы набор был главным образом, профессиональные филологи (не представительным для последующей интерпре- студенты), хорошо знающие русскую классику. К тации, а порог находился перед так называемым участию в эксперименте не привлекались препо- плато (последовательностью с близкими значениями даватели русской литературы в школе или ВУЗе, меры). чтобы образовательные методики, программы, 154 Табл. 3 Ключевые слова, полученные в результате список слов, у которых глобальная частота уже вычислительного эксперимента большая, а локальная скачет (см. «гребешок» на Ключевые слова в рис. 1). Кроме того, не все ключевые слова, характе- контексте Ключевые слова в ризующиеся максимальными значениями TF IDF «Гоголь+Чехов» контексте «Гоголь» (см. табл. 2), попали в этот список. Эти факты, по- видимому, объясняются тем, что это список тех ЧИЧИКОВ ЧИЧИКОВ слов, которые явно маркируют определенные СФЕ, НОЗДРЕВ НОЗДРЕВ но не обязательно весь текст. Это список тех слов, МАНИЛОВ МАНИЛОВ которые сопровождаются всплеском внимания на СЕЛИФАН СЕЛИФАН соответствующие реалии в процессе развертывания СОБАКЕВИЧ ПАВЕЛ текста. КОСТАНЖОГЛО Приведем несколько примеров из визуализации СОБАКЕВИЧ (распределения в тексте разных действующих лиц) с ЧЕЛОВЕК ПРЕДСЕДАТЕЛЬ помощью сервиса [11] (рис. 2-7), доступного по ПЛЮШКИН КОСТАНЖОГЛО адресу http://ling.infostream.ua/jag/. В рамках этого ПЛАТОН ГЕРОЙ сервиса обеспечивается визуализация плотности ХЛОБУЕВ встречаемости слова в тексте в зависимости от ПЕТРУШКА ширины окна наблюдения. В приведенных спектро- СЛОВО ПЛЮШКИН граммах по горизонтали откладываются номера РУКА ПЛАТОН вхождения слова в тексте, а по вертикали – ширина КОПЕЙКИН ХЛОБУЕВ окон наблюдения (начиная со значения 1 в самом МУРАЗ БРИЧКА низу, вхождения слова в данном случае выделяется АНТОНОВИЧ светло-серым цветом). Если в соответствующее ок- ИМЕНИЕ но наблюдения попадает несколько целевых слов, то ПЕТРУШКА ИВАНОВИЧ оно закрашивается более интенсивным оттенком БРИЧКА КОПЕЙКИН темного». Максимальное окно наблюдения в приве- ПЛАТОНОВ ЧЕЛОВЕК денных случаях составляет 400 словоупотреблений ЛИЦО (с/у). ПОЛИЦЕЙМЕЙСТЕР На рис. 2 представлена спектрограмма, СОБАКЕВИЧА РУКОПИС отражающая распределение наименования главного КУПЧАЯ ПОМЕЩИК действующего лица: лексема «Чичиков» в тексте ПАВЕЛ ПРОКУРОР встречается 467 раз. На рис. 3 представлена спектро- ГОРОД ПРЕВОСХОДИТЕЛЬС грамма для лексемы «Манилов» (105 словоупот- ТВО реблений в тексте (с/у)), на рис. 4 – для лексемы СТОРОНА «Ноздрев» (143 с/у), на рис. 5 – для лексемы КРЕСТЬЯНИН «Собакевич» (106 с/у), на рис. 6 – для лексемы ГЛАЗ БАРИН «Плюшкин» (46 с/у), на рис. 7 – для лексемы КОШКАРЕВ ГУБЕРНАТОР «Копейкин» (32 с/у). МЕСТО КОНСТАНТИН АССИГНАЦИЯ СИЯТЕЛЬСТВО ГЕРОЙ АНДРЕЙ ДУШИ АФАНАСИЙ ДАМА МУРАЗ ГОЛОВА ДУШИ Рис. 2 Спектрограмма для лексемы «Чичиков» ЛЕНИЦЫН АНТОНОВИЧ ПОЭМА ХОЗЯЙКА ЧУБАРЫЙ ДЕРЕВНЯ ДУМАТЬ ГЕНЕРАЛ ИВАНОВИЧ ГОСТЬ ЖИЗНЬ БАТЮШКА Рис. 3 Спектрограмма для лексемы «Манилов» БОГ ХОЗЯИН ДОМ КРЕПОСТЬ БАРИН ХОЗЯЙСТВО ПОЛИЦЕЙМЕЙСТЕР КНЯЗЬ ПРЕДСЕДАТЕЛЬ МЕРТВЫЕ Рис. 4 Спектрограмма для лексемы «Ноздрев» Следует отметить, что не все выделенные информантами ключевые слова попали в искомый 155 Табл. 4 Ключевые слова из «Мертвых душ» Ключевые слова Глобальная с рассматриваемыми частота динамическими частотными встречаемости характеристиками Рис. 5 Спектрограмма для лексемы «Собакевич» 230 ЛИ 222 ЕМУ 192 НЕТ 189 БЫЛИ 179 ВЫ Рис. 6 Спектрограмма для лексемы «Плюшкин» 162 О 141 СЕБЕ 139 ОЧЕНЬ 137 НУ 129 ВЕДЬ Рис. 7 Спектрограмма для лексемы «Копейкин» 116 МНЕ Ключевые слова Чичиков, Манилов, Ноздрев, 101 МЕНЯ Собакевич, Копейкин являются теми ключевыми 97 ТЕБЯ словами, которые явно маркируют интересующие 94 ОНА нас структурные единицы текста (см. табл. 1). В 91 ТЕБЕ отличие от них лексема «Плюшкин» сосредоточено 83 ТАМ на одном, но очень расплывчатом фрагменте, оно не может маркировать и привлекать внимание, т.е. 58 ГОВОРИТ служить для сегментации и идентификации соответ- 42 АХ ствующей единицы. 29 МОЖЕТЕ Коммуникативные, модальные и некоторые 28 ПОНИМАЕТЕ другие классы глаголов (например, глаголы вообра- 23 ПРЕДСТАВИТЬ жения), дискурсивные слова маркируют смену коммуникативных (как части семантических) струк- Предлагаемый подход, основанный на исполь- тур: модальности, тональности, адресности и т.д. зовании динамических частотных характеристик, Эти слова приведены в таблице 4, они упорядочены позволяет формализовать возможности описания по значению глобальной частоты. семантической структуры текста в тесном взаимо- Для «Мертвых душ» – среди слов, у которых действии с информационной структурой. Выйти на глобальная частота уже большая, а локальная скачет формализованный способ описания связности текс- – наиболее характерны глаголы «говорить», «пред- та на уровне интересующих нас структурных ставить», «понимаете» (выделено п/ж шрифтом в единиц (тем самым приблизиться и к пониманию табл. 4). Для глагола «представить» самые актуаль- природы сегментации на СФЕ). ные конструкции – «можете себе представить» На материале новостной коллекции ключевые или «можете представить себе». Глагол «понима- слова, у которых глобальная частота уже большая, а ете» (часто вместе с частицей «ли») несет чисто локальная скачет, ведут себя еще более явным коммуникативную (и стилистическую, конечно) образом, их доля по сравнению с незнаменательной нагрузку (напр., в составе конструкций «Понимаете лексикой гораздо выше, чем для однородного еди- ли?», «Понимаете?», «.., понимаете,…»). Как ничного текста художественной литературы. В табл. составные элементы этих конструкциями «можете, 4 приведен список анализируемых слов (у них, как и ли, себя» находятся среди рассматриваемого списка в рассматриваемом ранее случае, глобальная частота слов, в табл. 4 они выделены полужирным курси- меньше 250, а локальная больше 10). вом. В списке слов присутствуют междометия («О» Проиллюстрируем это положение на примере и «Ах» с разными знаками препинания), личные локальных информационных всплесков начала местоимения, частицы, наречия. декабря 2008 года (приводится название одного из Таким образом выделяются структурные едини- документов): ОПЕК («Президент ОПЕК пригласил цы, характеризуемые резкой сменой коммуникатив- Россию вступить в картель»), РЖД («Из-за кризиса ных или модальных свойств: например, отстранен- РЖД в ноябре сократила грузоперевозки на 20 ное повествование от третьего лица сменяется обра- процентов»), нефти («Распоряжение о строи- щением к адресату (или диалогом). Разные виды тельстве нефтепровода в обход Белоруссии»), DIXIS повествователя и адресата в нарративе, речевой и («Судебные приставы арестовали имущество нарративный режимы и т.д. в художественном по- Dixis»). Yahoo («Microsoft подтвердил заинтересо- вествовании уже неплохо изучены в лингвис- ванность в покупке поиска Yahoo!»), Facebook тической теории (см., например, Падучева 2010). 156 («Сетевой червь атаковал компьютеры пользова- телей Facebook») и т.д. Примеры государственный и университет иллюстрируют соединение двух словоформ в неоднословную номинацию («Не принимать абитуриентов по ЕГЭ разрешили 24 вузам»). Рис. 8. Спектрограмма для лексемы «банк» Табл. 5 Ключевые слова из потока новостей, полученные в результате вычислительного эксперимента Глобальная частота Ключевые слова Рис. 9. Спектрограмма для лексемы «газ» Встречаемо с рассматриваемыми динамическими сти частотными характеристиками 370 ДОЛЛАР 340 ПРОЦЕНТ 286 США Рис. 10. Спектрограмма для лексемы «доллар» 175 РУБЛЬ 149 СУД 90 НАТО 66 НЕФТЬ Рис. 11. Спектрограмма для лексемы «нефть» 60 NOKIA На примере этих спектрограмм рассматривается 50 YAHOO степень равномерности / выделенности лексемы в небольшом новостном массиве одного источника 46 ОПЕК для данного временного периода – видно, что 29 РНК лексемы «банк», «газ» маркируют интересующие 28 РОНАЛДУ нас структурные единицы этого новостного массива. 22 РЖД Лексема «доллар» с некоторой натяжкой может 22 МЭРИ маркировать определенные сегменты этого массива, ГОСУДАРСТВЕННЫЙ хотя и с небольшим весом. Лексема «нефть» явно не 21 УНИВЕРСИТЕТ обладает такими свойствами. 20 VISTA Заключение 16 DIXIS 15 FACEBOOK На основании сопоставления частот 11 SANYO встречаемости слов – глобальной и локальной – можно выделить основные структурные единицы, Локальные максимумы на графиках (рис. 1), позволяющие описывать как новостную коллекцию, соотносимые с коммуникативными и модальными так и единичный текст литературного произведения. характеристиками коллекции (сегмента русскоязыч- Для описания выделяемых единиц разумно ного новостного веба), проявляются, например, в использовать методы и подходы лингвистики резком локальном всплеске определенной дискур- текста, т.е. оптимальным для их описания является сивной и/или местоименной лексики, особенно лич- соединение методов информационных технологий и ных местоимений типа «мы» (глобальная частота лингвистики текста. Каждая из выделяемых единиц встречаемости – 174, максимальная локальная – описывает одну ситуацию, характеризуется макси- 19), «я» (глобальная частота встречаимости – 105, мальной тематической и стилевой однородностью. максимальная локальная – 11]). Такого рода лекси- Более того, то, что выделяется по предлагаемой ческих единиц выделяется гораздо меньше, но они методике, как правило, хорошо локализовано, имеет оказывают не менее яркое влияние на то, что обыч- явно выраженные временные и тематические но называется дискурсом (дискурсивными практи- границы. Поэтому сегменты новостного потока, ками), в данном случае это важные локальные выделенные благодаря локальным всплескам, всплески, характеризующие новостной дискурс можно назвать аналогами СФЕ? конца 2008 года. Четыре группы слов, выделяемых на основании На рис. 8-11 представлены спектрограммы, динамических частотных характеристик, имеют отражающие распределения слов «банк», «газ», четкую физическую и языковую природу. Они «доллар», «нефть» в небольшом массиве новостных характеризуют объекты (разнородные по лингви- сообщений за указанный период из одного стическим характеристикам) с точки зрения струк- источника (elvisti.com – «Обзор основных событий туры объекта и особенностей конкретного рассмат- дня») по тематикам экономика и энергетика. 157 риваемого (под)языка (языка текста или рассмат- предлагаемый метод, ориентирован на исследование риваемой коллекции). различных лингвистических объектов, когда Два класса – класс слов с малыми глобальной и единичный текст перетекает в поток текстов, а локальной частотами и класс с высокой глобальной лингвистика текста смыкается с лингвистикой и локальной частотами – соотносятся с распределе- Интернета. нием Ципфа (явным или метафорически понима- емым (если объем объекта не позволяет строить Литература подобные распределения)). [1] Николаева Т.М. Краткий словарь терминов Класс слов, у которых глобальная частота относительно небольшая, а локальная – высокая, лингвистики текста // Новое в зарубежной маркирует моменты всплеска интереса (и сами лингвистике. Вып. VIII. – М., 1978. объекты, вызывающие этот интерес). Речь идет, [2] Кронгауз М. А. Семантика. – M.: РГГУ, 2001 г. например, о «всплеске» интереса к определенному 399 с. факту в потоке новостей (на сегменте веба (СФЕ)) [3] Солганик Г. Я. Синтаксическая стилистика. или всплеск интереса к действующему лицу (и/или Сложное синтаксическое целое. – 2-е изд., объекту) в пределах рассматриваемой структурной испр. и доп. – М.: Высш. шк., 1991. – 182 с. единицы текста. Эти слова выступают в качестве [4] Salton G., Buckley C. Term-weighting approaches фигур на фоне остальных единиц сегмента (в in automatic text retrieval. Information Processing терминах гештальт-психологии) и почти наверняка and Management, 1988. – № 24(5). – P. 513-523. относятся к информационной структуре. С другой [5] Ягунова Е.В. Ключевые слова в исследовании стороны, эти слова могут выделять и собирать текстов Н.В. Гоголя // Проблемы социо- и вокруг себя соответствующие единицы (СФЕ), тем психолингвистики. Вып. 15: Пермская социо- самым опосредованно сегментируя поток на такие лингвистическая школа: идеи трех поколений: структурные составляющие как СФЕ. К 70-летию Аллы Солломоновны Штерн. Класс слов, у которых глобальная частота высо- Пермь, 2011. с.121-312 кая, а локальная – низкая, относительно равномерно [6] Ландэ Д.В., Григорьев А.Н., Брайчевский С.М., распределены в тексте и определяют, прежде всего, Дармохвал А.Т., Снарский А.А. Особенности семантическую структуру, в которой задаются об- соотношения локальной и глобальной популяр- щие стилевые характеристики анализируемого ности сообщений электронных СМИ // объекта (текста и/или коллекции) и способ MegaLing'2007. Горизонты прикладной линг- «упаковки» информации. Это те слова, которые вистики и лингвистических технологий. Докла- соответствуют скорее семантической структуре» ды международной конференции. – Симферо- текста, в отличие от информационной структуры. поль, Изд-во: "ДиАйПи", 2007. - С. 223-224. В статье мы сосредоточились на словах, у которых глобальная частота уже большая, а [7] Allan J., Papka, R., Lavrenko V. On-line new локальная скачет. Это промежуточный класс (между event detection and tracking // In SIGIR’98: третьим и четвертым) и наиболее информативный Proceedings of the 21st Annual International для нас фрагмент, т.к. именно на нем реализуется ACM SIGIR conference on Research and взаимодействие между информационной и семанти- development in information retrieval. – 1998. ческой структурами. Когда мы рассматривали класс [8] Падучева Е.В. Семантические исследования. слов, у которых глобальная частота относительно Семантика времени и вида в русском языке. небольшая, а локальная – высокая, мы понимаем, Семантика нарратива. – М.: Языки русской что в сегментации потока эти слова могут культуры, 1996. Изд. 2-е, 2010 участвовать лишь опосредованно (опираясь на них, [9] Ягунова Е.В., Пивоварова Л.М. Эксперимен- мы узнаем количество единиц, но не границы между тально-вычислительные исследования худо- ними). Как только мы переходим к промежуточному жественной прозы Н.В. Гоголя // XLII Вино- классу, в фокус внимания попадают как ключевые градовские чтения в МГУ «В.В. Виноградов о слова (принадлежащие информационной структуре), художественном тексте»: Материалы – М., так и слова, образующие структуру и стиль (тем 2012 (в печати) самым принадлежащие семантической структуре). http://webground.su/data/lit/pivovarova_yagunova/Expe Первые слова (ключевые) выделяют единицы: обо- rimentalno-vychislitelnyie_issledovaniya_prozy.pdf значают основные объекты, являющиеся фигурами в [10] Мурзин Л.Н., Штерн А.С. Текст и его восприя- локальной структуре объекта. Слова, образующие тие. – Свердловск : Изд-во Урал. ун-та, 1991. – структуру и стиль, по-видимому, часто маркируют 172 с. границы, обозначая изменение коммуникативной [11] Ландэ Д.В. Визуализация статистики вхожде- стратегии (или нарративного режима в художест- ния слов // MegaLing'2009. Горизонты при- венном тексте). кладной лингвистики и лингвистических тех- В заключение еще раз подчеркнем, что нологий. Материалы международной конфе- современная лингвистика должна быть ориентиро- ренции 21-26 сентября 2009 г., Украина, Киев / вана на разнообразие лингвистических объектов: от – К.: Довіра. – С. 63-64. традиционного объекта, равного единичному тексту, [12] Большакова Е.И., Клышинский Э.С., Ландэ до коллекций и потоков новостей (cр. [12]). И Д.В., Носков А.А., Пескова О.В., Ягунова Е.В 158 Автоматическая обработка текстов на The paper presents an approach to studying dynamic естественном языке и компьютерная frequency features of words for diverse linguistic лингвистика : учеб. пособие. — М.: МИЭМ, objects; the purpose of the approach is to describe 2011. — 272 с. heterogeneous dynamic objects covering the wide range from individual texts to the news texts flow. Four groups of words are used, extracted on the basis of their Dynamic frequency features as the basis dynamic frequency response (both global and local), for the structural description of diverse each of which has a clearly distinct physical and linguistic nature. They correspond to diverse linguistic linguistic objects characteristics of objects in terms of the object structure and language features. Elena Yagunova, Dmitry Lande 159