УДК 519.21 Сигов А.С., Жуков Д.О., Новикова О.А. Московскии технологическии университет, г. Москва, Россия МОДЕЛИРОВАНИЕ ПРОЦЕССОВ РЕАЛИЗАЦИИ ПАМЯТИ И САМООРГАНИЗАЦИИ ИНФОРМАЦИИ ПРИ ПРОГНОЗИРОВАНИИ НОВОСТНЫХ СОБЫТИЙ С ИСПОЛЬЗОВАНИЕМ МАССИВОВ ЕСТЕСТВЕННО-ЯЗЫКОВЫХ ТЕКСТОВ* АННОТАЦИЯ В работе представлена разработанная модель прогнозирования новостных событий на основе стохастической динамики изменения кластеров новостных образов и реализации памяти в информационном пространстве при самоорганизации слабоструктурированной информации. Проведённый авторами работы анализ стохастической динамики достижения порога реализации новостного события показывает возможность роста вероятности перехода через него практически сразу после начала процесса изменения структуры новостных кластеров, что связано с учетом памяти о предыдущих состояниях в информационной системе и возможности описания самоорганизации вследствие учета в дифференциальной модели информационных процессов второй производной по времени. Кроме того, предлагаемая модель показывает возможность резких изменений вероятности перехода через порог событий, и учитывает наличие в её поведении осцилляций. На основе разработанной модели создан алгоритм анализа взаимосвязи новостных кластеров в информационном пространстве с возможностью возникновения прогнозируемого события, и определения возможного времени его реализации. КЛЮЧЕВЫЕ СЛОВА Самоорганизация; случайные процессы с памятью; порог редкого события; информационное пространство; новостной кластер. Alexander Sigov, Dmitry Zhukov, Olga Novikova Moscow technological university, Moscow, Russia MODELLING OF MEMORY REALIZATION PROCESSES AND THE IMPLEMENTATION OF INFORMATION SELF-ORGANIZATION IN FORECASTING THE NEW'S EVENTS USING ARRAYS OF NATURAL LANGUAGE TEXTS ANNOTATION The paper presents a developed model of forecasting of news events on the basis of the stochastic dynamics of the news clusters and realization of memory in the information space with the self- organization of semistructured information. The stochastic dynamics of achieving the threshold of realization of the news event analysis, carried out by the authors, shows the possibility of growth of probabilities of transition through the realization threshold probabilities almost immediately after the beginning of the process of modification in the structure of the news cluster, the probability of transition is determined by previous states in the information space memory consideration and the possibility of self-organization description, resulting from information processes, the second time derivative, in the differential equation consideration. In addition, the proposed model shows the possibility of sudden changes in the probability of passing the events threshold, and takes into account the presence of oscillation in its behavior. On the basis of the developed model the algorithm of analysis of connection between news clusters in the information field and the possibility of occurrence of the predicted event as well as determining the possible time of its implementation has been created. * Труды I Международной научной конференции «Конвергентные когнитивно- информационные технологии» (Convergent’2016), Москва, 25-26 ноября, 2016 42 KEYWORDS Self-organization; stohastic processes with memory; the threshold is a rare event; information space; a news cluster. Быстрыи рост объё мов баз данных во всех сферах человеческои деятельности привел к чрезвычаинои востребованности эффективных инструментов по преобразованию данных в ценную информацию. Обширные объемы текстовои информации, доступнои в электронном виде, продолжают расти с ошеломляющеи скоростью. По оценкам экспертов к 2020 году общемировои объем различных данных будет около 35000 Экзобаит (Экзо=1018), что составит рост по отношению к 2010 году в 44 раза. Причем до 90% будут составлять не структурированные или плохо структурированные данные, а до 80% данных не будут использованы повторно. Представленная работа посвящена разработке принципов и научных методов прогнозирования редких антропогенных событии, способных оказывать существенное влияние на социальное и экономическое развитие общества. В настоящее время существует выдвинутая Нассимом Николасом Талебом теория, в которои рассматривается природа возникновения и реализации таких событии. Согласно его теории, данные явления должны удовлетворять следующим критериям [1]: 1. Событие является неожиданным (для экспертов); 2. Событие имеет значительные последствия; 3. После наступления, в ретроспективе, событию можно дать рационалистическое объяснение, как если бы оно было ожидаемым. Нассим Николас Талеб для таких явлении ввел понятие: «Чё рныи лебедь» («Black swan»). С его точки зрения практически все значимые научные открытия, исторические и политические события, достижения искусства и культуры — это «Чё рные лебеди». В своеи теории Нассим Талеб предполагает, что человечество не способно успешно прогнозировать своё будущее, а уверенность в своих знаниях опережает сами знания и порождает феномен «сверхуверенности» [1]. Поскольку в реальном мире существуют причинно–следственные связи, то на наш взгляд нельзя однозначно утверждать, что данная задача не имеет решения, и в представленнои нами работе мы обозначаем некоторые возможные пути её решения. Создание моделеи возникновения «Чё рных лебедеи», позволяющих предсказывать возможность подобного рода событии, представляет на наш взгляд значительныи как научныи, так и практическии интерес. Частичное решение задачи прогнозирования событии достигнуто в экономических областях, например, для технического анализа поведения фьючерсных рынков [2]. Для этого в частности можно использовать многомерныи статистическии анализ и временные ряды [3]. Обсуждая тему математического моделирования и прогнозирования развития экономических процессов необходимо обратить внимание на работы россиискои научнои школы академика А.А. Петрова и чл. – корр. И.Г. Поспелова [4-6], работы профессора Ф.Т. Алескерова [7,8], посвященные теории выбора (модель интервального выбора, модель коллективного выбора, основанные на рассмотрении классов бинарных отношении, таких как слабые бипорядки, простые и простеишие полупорядки), на основе которои может быть построена поведенческая модель биржи. В настоящее время основные работы в области прогнозирования социальных информационных процессов направлены на описание поведения пользователеи в социальных сетях и сети интернет. В частности, можно упомянуть работы [9,10]. Модели, близкие по проблематике к предлагаемои нами теме прогнозирования новостных событии, были рассмотрены в работах [11,12]. В [11] для решения задачи прогнозирования авторы изучают временные зависимости в потоках событии и вводят кусочно-постоянную аппроксимацию их интенсивности, применяя Баиесовскии подход и распределение Пуассона к описанию выборки важности будущих событии. Это позволяет построить нелинеиные временные зависимости для предсказания будущих событии с использованием деревьев решении. Однако, авторы не рассматривают наличие памяти информационного пространства и возможность его самоорганизации, что является на наш взгляд очень важным для прогнозирования редких событии. В работе [12] для описания структуры новостного информационного пространства вводится понятие директора - условнои оси, положение которои определяется усреднением направлении векторов, задающих положение центров всех новостных кластеров. Авторы предлагают проводить анализ самоподобия в поведении директоров на основе модели Хё рста и на основании этого выявлять наличие периодичности в их поведении, и прогнозировать повторяемость. Отмечая существенные успехи, достигнутые в прогнозировании поведения процессов для технических и экономических систем, нельзя не обратить внимание на то, что для социальных систем существенныи прогресс в даннои области отсутствует, а механистическое перенесение 43 методов и подходов технических и экономических наук не дает желаемых результатов. Прогнозирование появления в социальных системах новостных событии типа «Чё рныи лебедь» осложняется необходимостью поиска скрытых закономерностеи в больших объемах слабоструктурированнои гетерогеннои информации и решением проблемы измеримости параметров различных протекающих процессов. Априори все данные являются по своему характеру гетерогенными (имеют разныи формат представления и единицы измерения). Важным является то, что использование существующих методов и подходов интеллектуального анализа данных (Big Data) не приносит ощутимых результатов, поскольку применение имеющихся инструментов очистки, извлечения и анализа данных, скорее всего не позволяют извлекать сами знания, уничтожая их скрытые (латентные) связи (для изучения нелинеиных процессов применяются линеиные методы). Появление редкого новостного события типа «Чё рныи лебедь» может зависеть от факторов любои природы (природных, климатических, астрономических, геологических, социальных и т.д.). Например, установлено влияние солнечнои активности (11 летнии и 60 летнии циклы) на социальные (воины, революции, волны переселения народов и т.д.) и экономические процессы (неурожаи, голод, падение биржевых индексов и т.д.). Климатические условия и их изменения также влияют в историческои перспективе на социально – экономические процессы. При создании модели прогнозирования новостных событии необходим математическии аппарат, которыи позволил бы формализовать характер данных и привести их к единои шкале измерении. Очевидно, что нельзя в однои модели проводить вычислительные операции, например, над лингвистическими оценками и величинами метрическои шкалы, без использования процедур отображения на формальное безразмерное множество. Суть предлагаемых нами принципов для возможности прогнозирования новостных событии заключается в следующем: 1. На основе существующих методов математической лингвистики необходимо формализовать описание информационного пространства, представляющего набор текстов на естественных языках. Таким образом, предполагается решить проблему разнородности данных и единиц измерения параметров различных процессов (шкалы измерений заведомо огрубляются и становятся лингвистическими, но при этом все данные формализуются единым образом). 2. На естественном языке можно дать описание интересующего (предполагаемого) новостного события, для которого будет проводиться прогнозирование его реализации. И на основе методов математической лингвистики осуществляется его формализованное описание в информационном пространстве. 3. Учитывая, что информационное пространство является отображением реального мира, в котором существуют причинно–следственные связи между событиями, то можно предположить выполнение закона их сохранения в информационном пространстве. А в качестве гипотезы для проверки можно выдвинуть идею о том, что существующие в информационном пространстве формализованные текстовые знания могут формировать образ интересующего прогнозируемого события. Если данная гипотеза верна, то может быть построена математическая модель прогнозирования новостного события, описывающая временные зависимости вероятности его реализации. Предлагаемая нами методика разработки модели прогнозирования новостных событии, включает следующие этапы. Сначала необходимо выделить основные характеристики новостных событии, которые на наш взгляд необходимо учесть при построении математическои модели их прогнозирования. Затем выбрать методы математическои лингвистики (например, представление документа векторнои семантическои моделью), позволяющие формализовать описание процессов реального мира с использованием текстов на естественных языках для создания их информационных образов, а для анализа возможности прогнозирования новостного события необходимо разработать модель, учитывающую стохастическую самоорганизацию слабоструктурированнои информации и реализацию памяти в массивах естественно-языковых текстовых данных. Результаты её анализа, на наш взгляд, позволят предложить алгоритм прогнозирования, которыи можно использовать совместно с методами математическои лингвистики, как инструмента для проверки разработаннои нами прогностическои модели. Основные характеристики новостных событий и предположения, принятые для создания модели прогнозирования Для создания модели прогнозирования новостных событии нами были выделены следующие их основные характеристики и принят ряд предположении: 1. В характере, времени и месте реализации событий имеется изначальная неопределенность и 44 нечеткость; 2. Реализующиеся событие является проявлением стохастических процессов с изначально неизвестными законами распределения и их характеристиками (математическое ожидание, дисперсия и т.д.); 3. Событие является следствием того, что в системе, где оно наблюдается, имеется хотя бы “частичная” память о некоторых ранее происходящих процессах и их состояниях. В реальном мире существуют множественные причинно-следственные связи, хотя бы частично сохраняющиеся при отображении событий в информационное пространство более чем на одном шаге (правило сохранения причинно-следственных связей при любых отображениях); 4. Событие является следствием того, что система, в которой оно происходит, обладает возможностью к хотя бы частичной самоорганизации; 5. Процессы, приводящие к появлению события могут иметь характер самоподобия. У каждого из таких событий, как правило, наблюдаются слабо выраженные предшествующие ему аналоги, на основе которых, в ретроспективе, дается рационалистическое объяснение произошедшему; 6. Исходные данные для использования в прогностической модели требуют формализации и приведения к единому формату, поскольку являются не измеримыми (нет методик оценки в единой шкале) и гетерогенными (социально – экономические параметры, геологические, климатические, астрономические). Инструментом реализации данного процесса и проверки адекватности модели могут быть существующие методы математической лингвистики. Например, на основе методик, применяемых при отнесении текстовой информации к определенной группе новостных сообщений; 7. Любое прогнозируемое событие может быть описано в информационном пространстве некоторым текстовым документом, который можно отнести к определенной смысловой группе (кластеру), имеющей свои собственные характеристики (правило кластеризации информации). В любой момент времени существует множество различных информационных кластеров (описывающих различные природные, социальные и экономические процессы, явления природы, научные знания, культурные, политические, спортивные, военные и иные новостные события) отображающих основные свойства физического мира и взаимосвязи событий. С течением времени новостные кластеры могут изменяться или исчезать, и эти изменения могут быть описаны в рамках динамических моделей; 8. Прогнозирование новостного события должно быть основано на модели, в которой исходная текстовая информация на естественном языке после формализации с помощью методов математической лингвистики (например, представлении текстовых документов векторной семантической моделью) превращается в безразмерные числовые данные, с которыми можно производить математические операции; 9. Несмотря на то, что прогнозируемое событие является ещё неизвестным, можно искусственно описать его в информационном пространстве, создавая некоторый новостной образ, а затем построить динамическую модель возможной трансформации уже существующих текстовых образов к заданному образу события. Описание методов формализации текстов естественных языков для использования в предлагаемой модели Всю совокупность естественно – языковых текстов, описывающих различные природные, социальные и экономические процессы, явления природы, научные знания, культурные, политические, спортивные, военные и иные новостные события и т.д., можно определить, как коллекцию документов. Для формализованного представления текстовых документов необходимо создание словаря коллекции при проведение лингвистическои обработки, которая включает [13, 14]:  Разметка текста (линеаризация). Необходима для распознавания и извлечения слов – терминов (термов) и составных терминов (термов) из исходного текста. При разметке учитывается пунктуация и переносы слов, и кроме того игнорируются стоп – слова (малоинформативные, но часто встречающиеся в текстах слова, например, предлоги, союзы, причастия, междометия и т.д.);  Нормализация текста. При нормализации проводится удаление из исходного текста грамматической информации (падежи, числа, глагольные виды и времена, залоги причастий, род и так далее). Слова в разных регистрах, а также их аббревиатуры приводятся к одной форме. Нормализация требует морфологического анализа, распознающего части речи с учетом контекста и многочисленных правил согласования (без него нормализация будет давать значительное количество ошибочных результатов). В ряде случаев нормализация может быть 45 заменена стеммингом или лемматизацией;  Комментирование текста. Комментирование в частности необходимо потому что, одно и то же слово в тексте может быть употреблено в различных значениях. Комментирования заключаются в добавлении в документ метаданных с информацией о части речи, о наличии у слова других значений и синтаксический разбор предложения. Синтаксическое комментирование включает сегментацию и разметку частей речи. Это используется для устранения неоднозначности в сокращениях и поиск ассоциаций среди ключевых слов. Комментирование полезно для измерения семантической схожести слов и понятий (для моделей, основанных на матрице слово- контекст) [15]. После разметки, нормализации и комментировании текстов каждыи документ коллекции представляется набором термов (терминов), которые в него входят, и их частотами вхождения, что позволяет создать векторную модель документа. При этом порядок следования слов, соответствующих термам, в представлении документа не учитывается. Термы коллекции (словарь терминов) могут сортироваться в соответствии с некими критериями (например, по алфавиту слова, представляющего терм, или на основе критерия морфологическои эквивалентности). Векторная модель основывается на гипотезе (statistical semantics hypothesis) о том, что: статистические зависимости употребления слов и терминов (термов) могут быть использованы для нахождения заложенного в текст смысла [13, 14]. Согласно гипотезе о скрытых связях, пары слов, которые встречаются в похожих моделях, стремятся иметь близкую семантическую зависимость [16]. Суть векторнои модели документа (модель “bag of terms”) заключается в следующем [13, 14]. Пусть общее количество имеющихся различных уникальных термов равно m (термы могут быть пронумерованы от 1 до m), а число имеющихся в коллекции текстовых документов равно n (документы могут быть пронумерованы от 1 до n). Пусть имеется документ (обозначим его Xi, i – принимает значения от 1 до n), которыи содержит некоторое число термов (терминов) (их порядок в наборе не важен). Тогда данному документу можно поставить в соответствие вектор Xi={ω , ω , ω ,⋅⋅⋅⋅ ω ,⋅⋅⋅⋅ ω }, где первыи элемент соответствует числу (частоте) вхождении в документ первого термина, второи –второго, третии – третьего и т.д. Каждая ω может принимать любое положительное значение от 0. Все Xi образуют матрицу, которую называют для всеи коллекции: термин – документ (столбцами матрицы являются вектора Xi, а строки определяют частоты вхождения отдельных терминов в документы коллекции). Как правило, большинство значении элементов этои матрицы равны 0 (матрица является разреженнои). Это связано с тем, что документы содержит лишь малую долю терминов из всего словаря. Главная идея векторнои модели семантики (vector space model, VSM) – это представление каждого документа коллекции в качестве точки в многомерном пространстве (вектора в векторном пространстве, размерности Rm). Близко лежащие друг к другу точки соответствуют семантически схожим документам. Векторная модель документа получили свое развитие в основном для решения задач информационного поиска: поиск документа по запросу (и определение релевантности), классификация документов, кластеризация документов. Информационныи поиск с использованием матрицы термин-документ (term–document matrix) основывается на следующеи гипотезе: оценивание релевантности документа запросу можно производить путем представления документа и запроса в виде набора терминов (bag of terms). Гипотеза, использованная в нашеи модели, заключается в том, что прогнозируемое событие тоже можно рассматривать в определеннои степени как поисковыи запрос, в котором его предполагаемое текстовое описание может быть формализовано в виде вектора в векторном пространстве, имеющего размерность Rm. Однако, в отличии от задачи информационного поиска и сопоставления вектора запроса векторам из пространства Rm, в нашеи модели мы будем наоборот искать зависимости, описывающие эволюцию векторов из Rm и определение временнои зависимости вероятности формирования на её основе вектора прогнозируемого события. Прежде чем переити к детальному описанию предлагаемои нами модели необходимо сказать о том, что представляется целесообразным выделить во всеи коллекции документов отдельные смысловые группы текстов (провести тематическое разделение, или кластеризацию текстов). При этом каждая такая группа (кластер) текстовых документов может быть описана вектором, задающим положение центра. Данныи подход используется, например, в задачах классификации и отнесение сообщении новостнои ленты к определеннои группе и весьма эффективен с точки зрения экономии вычислительных ресурсов. 46 Модель стохастической динамики новостных образов при прогнозировании редких событий в информационном пространстве Взаимосвязь образов новостных кластеров в информационном пространстве с появлением прогнозируемого события Возьмё м коллекцию текстовых документов. Используя методы математическои лингвистики, создадим их векторное представление в информационном пространстве с размерностью Rm. Проведем в какои-то момент времени t их кластеризацию по смысловым группам. Определим вектора (z1, z2, z3, zk, zj,), задающие положение центров этих кластеров в данныи момент времени. Далее проведем текстовое описание прогнозируемого новостного события и зададим его вектор Xbs в информационном пространстве с размерностью Rm. Поскольку мы предполагаем, что в информационном пространстве уже имеются некоторые данные о предстоящем новостном событии, то должна существовать, и эволюция имеющихся групп новостных событии, на событие которое мы пытаемся прогнозировать. При описании эволюции на наш взгляд является наиболее приемлемым использование параметров, применяемых в информационном поиске при определении релевантности запросов: нахождение расстояния между векторами и определения косинуса угла между ними. Выберем в качестве эволюционного параметра - нахождение проекции xj векторов, задающих положение центров информационных кластеров в данныи момент времени z1, z2, z3, zk, zj, на направление вектора Xbs, определяющего появление прогнозируемого события. Каждая из проекции xk определяется как произведение величины соответствующего вектора zk и косинуса угла между направлениями векторов zk и Xbs (xk=zk*cos(αk), т.е. по сути дела мы используем косинусную меру, принятую в информационном поиске. Спустя некоторыи интервал времени (назовем его интервал измерения τ0) величины векторов, задающие положения центров информационных кластеров изменяются на какие-то случаиные значения Δj (j – обозначает рассматриваемыи вектор). Для пояснения, например, вектора z01 и z02 определяют положение центров новостных кластеров в информационном пространстве в момент времени t, а вектора z1 и z2 спустя интервал времени τ0 (момент времени t+τ0). В данных случаях Δ1=z1-z01 и Δ2=z2-z02. Аналогичным образом определяются изменения положения центров для всех кластеров в информационном пространстве за время шага τ0. Величины x01, x02, x1 и x2 будут задавать значения соответствующих проекции векторов, определяющих положение центров новостных кластеров 1 и 2, на направление вектора прогнозируемого события, в моменты времени t и t+τ0. Следует отметить, что некоторые величины проекции xk могут оказаться больше предыдущих значении x0k (для однои и тои же группы новостных данных), а некоторые меньше, т.е. в информационном пространстве одновременно сосуществуют два тренда поведения. Один на увеличение значении проекции, другои на их уменьшение, что необходимо учесть в рамках разрабатываемои модели. Введем для любого момента времени понятие среднего значения всех величин проекции векторов, задающих положение центров новостных кластеров в информационном пространстве на направление оси прогнозируемого события. Для группы из K новостных кластеров в момент времени t среднее ∑ , значение определяется следующим образом: = , где xt,j обозначают соответствующие значения проекции векторов, задающих положение центров новостных кластеров, на направление оси прогнозируемого события, в данныи момент времени t. Спустя интервал времени τ0: ( ) = ∑ ( ), . Чтобы учесть тренды увеличения и уменьшения значении величин проекции векторов, задающих положение центров новостных кластеров, на направление оси прогнозируемого события можно поступить следующим образом. На основании анализа значении xt,j и xt+τ,j разделим множество xt,j на две подгруппы, в однои (xt,j)I будут все новостные кластеры, для которых за интервал времени τ0 произошло уменьшение значении величин проекции xt+τ,j (обозначим число таких кластеров как R), а во второи (xt,j)II – увеличение (обозначим число таких кластеров как K-R), ∑ ( , ) ∑ ( , ) и наидем для каждои из них средние значения (( , ) = и( , ) = ) проекции векторов, задающих положение центров этих новостных кластеров. Далее, мы предлагаем следующии подход к учету трендов увеличения и уменьшения значении величин проекции векторов, задающих положение центров новостных кластеров, на направление оси прогнозируемого события. Поскольку при учете трендов имеет смысл говорить об усредненных величинах, то будем рассматривать переход за интервал времени τ0 в точку ( ) из точки ( , ) , которая находится на оси прогнозирования события правее точки ( ) и точки ( , ) которая 47 находится левее ( ) . Сами по себе переходы являются случаиными событиями, а их величины можно определить следующим образом: =( , ) − ( ) и = ( ) − ( , ) . После следующего шага τ0 определяем новые значения и : =( , ) − ( ) и = ( )−( , ) и т.д. На любом шаге n величины ξt+nτ и εt+nτ могут иметь различные случаиные (или почти случаиные) значения. Поэтому возникает необходимость либо выявления в их поведении характерных особенностеи (например, зависимости ξt+kτ и εt+kτ от времени, могут обладать самоподобием при не случайном поведении), либо, если они обладают характеристиками равномерного распределения, то возможно их усреднение за достаточно большои интервал ∑ времени наблюдения и использование в модели этих средних случаиных значении = и ∑ = , где N – число шагов (интервалов времени τ0) наблюдения).Отметим, что зависимости величин ξt+kτ и εt+kτ от времени могут подчиняться некоторому закону распределения и тогда его параметры могут быть установлены по полученным данным. Самоподобие характеристик процессов в информационном пространстве. Медленно и быстро меняющиеся подсистемы При наличии во временнои зависимости поведении величин ξt+kτ и εt+kτ элементов самоподобия, для его описания может быть применена теория, суть которои заключается в том, что непрерывныи стохастическии процесс Y(t), считается статистически самоподобным с параметром Харста (Hurst) H (0,5≤H≤1), если для любого положительного числа a, случаиные процессы Y(t) и a- HY(at) будут иметь одинаковые статистические своиства. Значение H=0.5 показывает отсутствие самоподобности, а значения H близкие к единице показывают её большую степень. Следует отметить, что теория самоподобия широко применяется для исследования информационных процессов, в частности поведении трафика при передаче данных [17]. Самоподобные процессы принято разделять на два класса: точно самоподобные и асимптотически самоподобные. Различие между этими двумя классами заключается в том, что для функции автокорреляции точно самоподобных процессов выполняется условие: ( ) = ( ), а для асимптотически самоподобных: ( ) ( ), при kq. Дисперсия для обоих классов процессов ( ) определяется одинаковым образом: ( ) =  , где  – параметр самоподобия (01), связанныи с параметром Харста следующим соотношением: =2(1–H), а k – величина блока разбиения исходных данных. Коэффициент Харста находится по зависимости логарифма среднего значения дисперсии от логарифма величины блоков m разбиения исходнои выборки данных. При наличии самоподобия, полученная зависимость должна иметь линеиныи вид. Таким образом, если аппроксимировать логарифмические зависимости линеинои функциеи, то с помощью метода наименьших квадратов можно вычислить коэффициенты данного линеиного уравнения и коэффициент корреляции данных с линеинои зависимостью. Тангенс угла наклона линеинои зависимости связан с параметром Харста (Hurst) H. Важным вопросом является решение задачи выбора параметров информационных процессов, в поведении которых можно определить самоподобие. Анализ данных, описывающих информационное пространство показывает, что можно выделить две взаимосвязанные подсистемы:  “медленную”, в которой обрабатывается информация, медленно изменяющуюся или почти не изменяющаяся с течением времени (научные, культурные, религиозные, художественные и т.д. знания);  “быструю”, к которой можно отнести информацию политического, экономического, спортивного и т.д. характера. Каждая из подсистем содержит определенные наборы кластеров информации, со своими векторами, задающими их положение. Введем понятие директор. Директором будем называть условное направление в информационном пространстве, которое определяется взаимным усреднением направлении всех рассматриваемых векторов. Направление директора может быть рассчитано с помощью метода наименьших квадратов для отклонения углов векторов, задающих положение центров информационных кластеров от условного направления, которое принимается за директор. Используя данную методику можно получить “медленныи” и “быстрыи” директор и при исследовании самоподобия определять зависимость от времени угла между двумя этими 48 директорами. В частности, таким образом можно определить интервал или период самоподобия информационного пространства. Для определения самоподобия процессов, приводящих к реализации интересующего информационного события можно исследовать зависимость от времени углов между каждым из директоров и вектором, описывающим в информационном пространстве данное прогнозируемое событие. Построение разностных схем вероятностных переходов между состояниями в информационном пространстве В разрабатываемои нами модели процессов, протекающих в информационном пространстве, величина среднего значения текущего состояния проекции векторов xi, характеризующих положение центров новостных кластеров в информационном пространстве на ось прогнозируемого события, может случаиным образом увеличиваться за счет того, что величина ε больше величины ξ на каждом шаге (или нескольких последовательных шагах), или случаиным образом уменьшаться, если величина ε меньше величины ξ. В конечном счете, состояние xi окажется вблизи порога прогнозируемого события, равного величине вектора Xbs. Обозначим все множество состоянии, которые описывают возможность появления некоторого события на оси прогнозирования, как X. Состояние, наблюдаемое в момент времени t можно обозначить, как xi (xiX). Интервал времени, за которыи возможно изменение состояния xi обозначим как τ0. В данном случае любое значение текущего времени t=h τ0, где h – номер шага перехода между состояниями (процесс перехода между состояниями становится квазинепрерывным с бесконечно малым временным интервалом τ0), h=0,1,2,3, N. Текущее состояние xi на шаге h, после перехода на шаге h+1 может увеличиваться на некоторую величину , или уменьшаться на величину , и соответственно оказаться равным xi+, или xi-. Величины  и  принадлежат области определения xi и являются параметрами моделируемых процессов. Кроме того, на xi+, и xi- необходимо наложить ограничения: xi+L1 (L1 – верхняя граница множества X) и xi-L2(L2 – нижняя граница множества X). В самом простом случае  и  являются для любого шага h постоянными величинами. Введем понятие вероятности нахождения информационного пространства в том или ином состояния. Пусть, после некоторого числа шагов h про описываемую систему можно сказать, что:  P(x-ε,h) – вероятность того, что она находится в состоянии (x-ε);  P(x,h) – вероятность того, что она находится в состоянии x;  P(x+ξ,h) – вероятность того, что она находится в состоянии (x+ξ). После каждого шага, состояние xi (далее индекс i для краткости можно опустить), может изменяться на величину  или . Вероятность P(x,h+1)– того, что на следующем (h+1) шаге система (или процесс) окажется в состоянии x будет равна (см. рис. 1): P(x,h+1)= P(x-ε,h)+ P(x+ξ,h)– P(x,h) . (1) Рис. 1. Схема возможных переходов между состояниями системы (или процесса) на h+1 шаге Поясним выражение (1) и представленную на рисунке 1 схему. Вероятность перехода в состояние x на шаге h P(x,h+1) определяется суммои вероятностеи переходов в это состояние из состоянии (x-ε) - P(x-ε,h) и (x+ξ) - P(x+ξ,h) в которых находилась система на шаге h за вычетом вероятности перехода (P(x,h)) системы из состояния x (в котором она находилась на шаге h) в любое другое состояние на h+1 шаге. В данном случае будем считать, что сами переходы осуществляются с вероятностью равнои 1. В данном случае мы рассматриваем Марковский непрерывный процесс, в котором система не обладает памятью состояний, однако в реальности в системе, которой является общество, всегда остается некоторая память о предыдущем состоянии. Следовательно, предлагаемая модель должна это учитывать. Для этого определим вероятности P(x-ε,h), P(x+ξ,h) и P(x,h) через состояния на h-1 шаге. Аналогично схеме, представленной на рисунке 1, изобразим схемы соответствующих 49 переходов (см. рис. 2), и учитывая, что  и  являются некоторыми постоянными величинами для любого шага h запишем: P(x-ε,h)=P(x-2ε,h-1)+P(x-ε+ξ,h-1)–P(x-ε,h-1), (2) P(x+ξ,h)=P(x+ξ-ε,h-1)+P(x+2ξ,h-1)–P(x+ξ,h-1), (3) P(x,h)=P(x-ε,h-1)+P(x+ξ,h-1)–P(x,h-1). (4) Подставив (2), (3) и (4) в уравнение (1) получим: P(x,h+1)={P(x-2ε,h-1)+P(x-ε+ξ,h-1)–P(x-ε,h-1)}+{P(x+ξ-ε,h-1)+ +P(x+2ξ,h-1)–P(x+ξ,h-1)}-P(x-ε,h-1)-P(x+ξ,h-1)+P(x,h-1). (5) Рис. 2. Схема возможных переходов на h-1 шаге для определения вероятностей P(x-,h), P(x+,h) и P(x,h) Заметим, что в левой части уравнения (5) мы имеем число шагов (h+1), а в правой (h-1). Для того чтобы не проводить разложение правой части уравнения (5) в ряд Тейлора в окрестности числа шагов h (или по времени), а только в окрестности точки x, преобразуем (5) к виду: ( , ℎ + 2) = { ( − 2 , ℎ) + ( − + , ℎ)– ( − , ℎ)} + { ( + − , ℎ) + + ( + , ℎ) − ( + , ℎ)} − ( − , ℎ) − ( + , ℎ − 1) + ( , ℎ) . (6) Далее учитывая, что t=h·τ0, где t – время процесса, h – номер шага, τ0 – длительность одного шага перейдем от h к t и проведем соответствующие разложения в ряд Тейлора: ( , ) (2 ) ( , ) ( , ℎ + 2) = ( , ) + 2 + + ⋅⋅⋅ 2 ( , ) (2ε) ( , ) ( − 2 , ℎ) = ( , ) − 2ε + + ⋅⋅⋅ 2 ( , ) ( − ) ( , ) ( − + , ℎ) = ( , ) − ( − ) + + ⋅⋅⋅ 2 ( , ) ( , ) ( − , ℎ) = ( , ) − ε + + ⋅⋅⋅ 2 ( , ) ( − ) ( , ) ( + − , ℎ) = ( , ) + ( − ) + + ⋅⋅⋅ 2 ( , ) (2ξ) ( , ) ( + 2 , ℎ) = ( , ) + 2ξ + + ⋅⋅⋅ 2 ( , ) ( , ) ( + , ℎ) = ( , ) + + + ⋅⋅⋅ 2 ( , ) ( , ) ( − , ℎ) = ( , ) − + + ⋅⋅⋅ 2 ( , ) ( , ) ( + , ℎ) = ( , ) + + + ⋅⋅⋅ 2 Подставив полученные разложения в уравнение (6) находим: ( , ) ( ) ( , ) ( , ) ( , ) 2 + ={ +( − ) + } + 2( − ) . Или в обобщенном виде: 50 ( , ) ( , ) ( , ) ( , ) = − − , (7) где: = ; = ; = ( ,) Член уравнения вида – описывает упорядоченныи переход либо в состояние, когда оно ( , ) увеличивается ( > ), либо, когда оно уменьшается ( < ); член уравнения вида – описывает случаиное изменение состояния (неопределенность изменения). Член уравнения вида ( , ) – можно определить, как скорость общего изменения состояния системы с течением времени; ( , ) член уравнения вида – описывает процесс, при котором состояния сами становятся источниками возникновения других состоянии (самоорганизация и ускорение как упорядоченных ( , ) ( , ) ( ) и случаиных ( ) переходов). С точки зрения области применимости модели в уравнениях (7) и (8) необходимо учесть ограничение, накладываемое на коэффициент a=(ε2-εξ+ξ2)/τ0 перед второи производнои по x, которая учитывает возможность случаиного изменения состояния. Должно выполняться условие (ε2–εξ+ξ2)≥(l–x0)2, смысл которого заключается в том, что переход из начального состояния x0 через порог достижения события не может произоити быстрее, чем за время одного шага τ0. Если (ε2– εξ+ξ2)<(l–x0)2, то система переходит через порог достижения события за один шаг. Формулировка и решение краевой задачи при прогнозировании новостных событий в информационном пространстве Считая функцию P(x,t) непрерывнои, можно переити от вероятности P(x,t) (уравнение (7)) к плотности вероятности ρ(x,t)=dP(x,t)/dx и сформулировать граничную задачу, решение которои и будет описывать процесс перехода между состояниями в информационном пространстве. ( , ) ( , ) ( , ) ( , ) = − − . (8) Первое граничное условие. Первое граничное условие выберем исходя из следующих соображении: состояние x=0 определяет полное отсутствие каких бы то ни было, протекающих в информационном пространстве, процессов, с соответствующими им измеряемыми параметрами. Сама вероятность обнаружить такое состояние может быть отлична от 0 (хотя и должна быть близка к нулю), однако плотность вероятности, определяющую поток в состоянии x=0, необходимо положить равнои 0 (состояния системы не могут выходить в область отрицательных значении (реализуется условие отражения)), т.е.: ( , ) = . (a) Второе граничное условие. Рассмотрим состояние информационного пространства с значением величины вектора находящегося вблизи границы возможных значении его состоянии обозначим эту предельную величину возможных состоянии как L). Сама вероятность обнаружить такое состояние будет отлична от 0. Однако плотность вероятности, определяющая поток в состоянии x=L необходимо положить равнои 0 (состояния системы не могут выходить в область значении больше, чем максимально возможная величина (реализуется условие отражения от границы)), т.е.: ( , ) = . (b) Поскольку в момент времени t=0 состояние системы уже может быть равно некоторому значению x0, то начальное условие зададим в виде: 1, = ( , = 0) = ( − ) = . 0, ≠ Так как начальное условие содержит дельта функцию, то решение для ρ(x,t) разбивается на две области при x>x0 и при x≤x0. Поскольку исходное дифференциальное уравнение содержит вторую производную по времени, то необходимо второе начальное условие. Оно является не столь очевидным, как первое, но в данном случае можно использовать непрерывность функции для любого момента времени. Наличие δ–функции приводит к тому, что решение, оставаясь непрерывным в точке x=x0, испытывает в неи разрыв производнои. При решении задачи с помощью методов операционного исчисления возникает необходимость вычисления интеграла ∫ ( , ) ⃒ , где ( , ) – изображение ρ(x,t). Поскольку изображение также как и оригинал являются непрерывными, то данныи интеграл равен 0, что позволяет не задавать ( , ) начальное условие дл я ⃒ в явном виде. 51 Используя методы операционного исчисления для плотности вероятности ρ1(x,t) и ρ2(x,t) обнаружения состояния системы в одном из значении на отрезке от 0 до L можно получить следующую систему уравнении: При ≥ ( )( ) ( ) ( , ) == − ∑ ℎ − . ( ) ( ) При < ( )( ) ( ) ( , ) == − ∑ ℎ − . ( ) ( ) Если реализация прогнозируемого события связана с увеличением величины исходного состояния системы x0, то интеграл P(l,t): ( , )=∫ ( , ) +∫ ( , ) . (9) будет задавать вероятность того, что состояние системы к моменту времени t находится на отрезке от 0 до l (l=Xbs), т.е. порог события l не будет достигнут. Соответственно, вероятность Qi(t) того, что порог события l окажется к моменту времени t достигнутым или превзоиденным, можно определить следующим образом: ( , ) = 1 − ( , ). (10) Анализ показывает, что ( , ) и ( , ) при любых значениях t и x не являются отрицательными, для функции ( , ) при t→∞ выполняется условие ( , )→1 ( ( , )→0). Если реализация прогнозируемого события связана с уменьшением величины исходного состояния системы x0 то интеграл P(L,t): (, )=∫ ( , ) +∫ ( , ) (11) будет задавать вероятность того, что состояние системы к моменту времени t находится на числовои прямои от l