Модифицированный коэффициент корреляции © Т.О. Дюкина Санкт-Петербургский государственный университет, Санкт-Петербург, Россия dtospb@mail.ru t.dukina@spbu.ru Аннотация. Статья посвящена рассмотрению показателя – коэффициента корреляции Пирсона, его положительным и отрицательным сторонам применения для анализа динамики и связи между явлениями, а также последующей его модификации. Модификация коэффициента корреляции осуществлена на основе замены способа расчета элементов формулы: средних значений. Осуществлена апробация предложенного модифицированного коэффициента корреляции и доказано его преимущество в более точной оценке тесноты связи между вариацией исследуемого фактора и изменением показателя, характеризующего стабильность налоговой системы страны, на эмпирических данных. Ключевые слова: коэффициент корреляции Пирсона, модифицированный коэффициент корреляции, средняя арифметическая, средняя геометрическая, вариация, динамика, оценка тесноты связи. The Modified Correlation Coefficient © Tatiana Dyukina St. Petersburg State University, St. Petersburg, Russia dtospb@mail.ru t.dukina@spbu.ru Abstract. Article is devoted to consideration of an indicator – coefficient of correlation of Pearson, to his positive and negative sides of application for the analysis of dynamics and communication between the phenomena, and also the subsequent its modification. Modification of the correlation coefficient is carried out on the basis of replacement of a way of calculation of elements of a formula to be performed on the average values. Approbation of the modified correlation coefficient has been carried out and its merits revealed in more exact assessment of the closeness of links between variation of a studied factor and change of the indicator characterizing stability of the country tax system on empirical data have been shown. Keywords: Pearson correlation coefficient, modified correlation coefficient, arithmetic average, geometric average, variation, dynamics, assessment of closeness of links. 1 Введение встречались чаще в прошлом столетии по сравнению с сегодняшним днем. В настоящее время такие Сегодня вопросам состояния, развития, а также исследования являются относительно большой совершенствования статистических методов редкостью. Таким образом, вопросы начинает уделяться повышенное внимание. Это не совершенствования статистических методов, в том случайно, так как именно статистические методы числе отдельных статистических показателей, предоставляют широкие возможности приобретают еще большую актуальность в свете своевременного и полного анализа разнообразных обозначенных аспектов. данных и получения в результате их обработки Данная статья посвящена совершенствованию качественных выводов. методики расчета одного из наиболее употребляемых Исследования, которые посвящены решению не в статистической практике анализа данных только методологических вопросов статистического различных показателей – для оценки тенденции ряда анализа в различных сферах экономики и общества, динамики и тесноты связи между показателями. Для но и оценке универсальности и специализации статистического анализа тенденции ряда динамики, а методов, систематизации опыта применения также тесноты связи между вариацией исследуемого статистических методов при решении различного фактора и изменением изучаемого показателя рода практических задач, а также развитию и применение находит широко известный показатель: созданию новых методов анализа данных, коэффициент корреляции Пирсона. Труды XIX Международной конференции «Аналитика и управление данными в областях с интенсивным использованием данных» (DAMDID/ RCDL’2017), Москва, Россия, 10–13 октября 2017 года 136 2 Анализ степени исследования проблемы корреляционно-регрессионного и эконометри- ческого анализа. Обозначенные методы для 2.1 Показатели, применяемые для измерения определения количественной оценки влияния стабильности (устойчивости) тенденции ряда отдельных факторов на уровень стабильности динамики налоговой системы страны требуют Действительно, для измерения стабильности осмотрительного, пунктуального и вдумчивого (устойчивости) тенденции ряда динамики среди применения, поскольку в процессе их применения рекомендованных к применению показателей: могут возникать целый ряд еще неразрешенных в коэффициента корреляции рангов Ч. Спирмена (C.E. науке в полном объеме проблем: Spearman) [9, с. 345; (Spearman)] и соотношения • использование неполного комплекта влияющих между среднегодовым абсолютным изменением и факторов; средним квадратическим (либо линейным) • построение моделей, которые содержат отклонением уровней от тренда [9, с. 347] индексу ненаблюдаемые факторы; корреляции, показывающему степень • ложная причинно-следственная связь, в том числе сопряженности колебаний фактических уровней с возникающая из-за употребления в анализе колебаниями теоретических уровней, происходящих замещающих факторов [1]. под влиянием комплекса основополагающих Следовательно, широкое применение факторов, и представляющему собой коэффициент рассматриваемого в настоящей статье показателя – корреляции Пирсона (Pearson), или иначе, линейный коэффициента корреляции Пирсона, особенно без коэффициент корреляции [7, с. 475] отводится одно учета его особенностей и специфики применения, из самых важных, можно сказать, эпохальных мест. может привести к неверным расчетам и выводам. Здесь следует акцентировать внимание на том, Отмеченное становится особенно актуальным в что, во-первых, коэффициент корреляции Пирсона случаях нелинейности развития анализируемых рекомендуется использовать исключительно в показателей, характеризующих экономическую случаях линейной связи. В случаях нелинейной среду. связи, которые встречаются наиболее часто, применение данного показателя нежелательно. Во- 3 Методологические вопросы разработки вторых, слабым местом данного показателя является модифицированного коэффициента его неверное реагирование на выбросы: результаты корреляции измерения, выделяющиеся из общей совокупности (слишком большие или малые значения) могут 3.1 Особенности экономической среды способствовать большим значениям данного Многие экономисты, в числе которых Дж. Кейнс, показателя. В таком случае, они означают высокую считают экономическую среду непредсказуемой и степень сопряженности колебаний фактических изменчивой [5]: «экономическая среда на уровней с колебаниями теоретических уровней, протяжении некоторого периода времени должна происходящих под влиянием комплекса оставаться неизменной и однородной во всех основополагающих факторов. В-третьих, в случаях, значимых отношениях, за исключением колебаний когда одна из двух переменных не является тех факторов, которые рассматриваются отдельно» нормально распределенной (а, как показывает анализ [3]. «Но быть уверенными, что такие условия множества эмпирических данных, имеющих сохранятся в будущем, даже если они экономическую природу, большинство таких данных обнаруживаются в прошлом, нельзя», – заключает собственно и не являются нормально ученый [3]. распределенными), а также в случаях, когда одна из Действительно, большинство экономических двух переменных имеет порядковую шкалу переменных (факторов) взаимодействуют измерения, коэффициент корреляции Пирсона посредством многообразных нелинейных неприменим. В этих случаях рекомендуется зависимостей. Однако арсенал эконометрической использовать только ранговые коэффициенты науки сегодня довольно богат, что позволяет Спирмена и Кендалла. успешно решать проблемные вопросы при 2.2 Показатели, используемые для моделировании социально-экономических количественной оценки влияния отдельных процессов и явлений. факторов на анализируемый показатель 3.2 Коэффициент корреляции Пирсона Для определения количественной оценки влияния Как уже отмечено выше, в случае линейных отдельных факторов на анализируемый показатель в зависимостей широкое применение для определения настоящее время имеется возможность применять тесноты связи находит коэффициент корреляции различные методы: индексный анализ, Пирсона (см. формулу 1). дисперсионный анализ, корреляционно- регрессионный, эконометрический анализ и другие. В последнее время наибольшее распространение в научных исследованиях получили методы 137 n наилучшим образом осуществить обобщение  ( xi  x )( уi  y ) значений признака в исследуемой совокупности не только в случаях наличия экстремальных значений К xy  n i 1 n (1) отдельных единиц изучаемой статистической  ( x  x)  ( у  y) i 2 i 2 совокупности, но и в случаях распределений, i 1 i 1 принимающих характер, отличающийся от где К xy – значение коэффициента корреляции нормального закона распределения. На наш взгляд, замена средней арифметической Пирсона, x , y – средние значения уровней величины при модификации коэффициента показателя, рассчитываемые по формуле корреляции Пирсона на другие статистические арифметической средней [8, с. 224]. величины (например, медианное значение, модальное значение, а также иные робастные 3.3 Модифицированный коэффициент величины) не рациональна, поскольку не позволит в корреляции должной мере обеспечить устойчивость меры Следует учитывать, что довольно большой объем среднего. Кроме того, стоит отметить тот факт, что факторов, вариация которых оказывает влияние на использование Пирсоном модального и медианного изменение анализируемого показателя, подчиняется значений в известных формулах асимметрии законам распределения, характер которых отличен от распределений не сделало их более совершенными, нормального распределения. Представляется, что наоборот, они общепризнанно считаются весьма среднее значение показателя, рассчитанное по приблизительными и довольно часто показывают формуле арифметической средней, в этих некорректные значения этого показателя. распределениях не является истинным. В этом случае Возможности модифицированного коэффициента расчет среднего значения исследуемого показателя корреляции (по сравнению с коэффициентом по геометрической средней, учитывающим большой корреляции Пирсона) более обширны: его можно разброс значений показателя, представляется более применять для оценки тесноты связи между корректным. Вследствие этого, полагаем возможным вариацией исследуемого фактора и изменением осуществить модификацию коэффициента показателя, характеризующего анализируемый корреляции Пирсона посредством введения в нее показатель, в случаях, когда характер распределений вместо среднего значения, определяемого по исследуемого фактора и (или) показателя, его формуле арифметической средней, среднего характеризующего, отличается от закона значения, рассчитанного по формуле геометрической нормального распределения (поскольку применение средней Пирсона (см. формулу 2). среднего значения, рассчитанного по n геометрической средней, позволяет корректно  (x  x i геом )( уi  yгеом) учитывать большой разброс значений показателя в К xy M  i 1 (2) распределениях, отличных от нормального закона n n распределения). В результате модифицированный  (x  x i 1 i геом )  ( уi  yгеом) 2 i 1 2 коэффициент корреляции позволит наиболее точно определять силу влияния вариации фактора на M где К xy – значение модифицированного изменение исследуемых показателей. коэффициента корреляции, xгеом , yгеом – средние 4 Апробация модифицированного значения уровней фактора и результативного коэффициента корреляции показателя, определяемые по формуле 4.1 Данные и выборка геометрической средней. При исследовании совокупностей с качественно В настоящем исследовании осуществлена также разнородными признаками на первый план апробация предложенного модифицированного выступает именно нетипичность средних коэффициента корреляции и эмпирически доказано показателей. Средняя геометрическая величина его преимущество, заключающееся в более точной позволяет осуществить обобщение качественно оценке тесноты связи между вариацией разнородных значений признаков системных исследуемого фактора и изменением показателя, пространственных совокупностей или характеризующего анализируемый показатель. статистических совокупностей, представленных в В качестве исследуемого показателя был выбран динамике (во времени). Она, обнаруживая общие показатель, характеризующий стабильность свойства исследуемых совокупностей, которые налоговой системы нашей страны – средняя присущи всем единицам соответствующих фактическая налоговая нагрузка на одного совокупностей, позволяет выявить общие налогоплательщика по налогам, сборам и иных закономерности, обусловленные общими обязательным платежам в бюджетную систему причинами, а также избежать случайных влияний. Российской Федерации, а в качестве фактора – При модификации коэффициента корреляции уровень заболеваемости всего населения с Пирсона была выбрана именно средняя диагнозом, установленным впервые в жизни на 1000 геометрическая величина, так как она позволяет человек населения. 138 Исследования осуществлены в динамике за Среднее период 2010-2014 гг. на основе официальных линейное статистических данных в разрезе субъектов отклонени Российской Федерации, формируемых Федеральной е 61 83 92 91 104 налоговой службой России и Федеральной службой Среднее государственной статистики. квадратиче Средняя фактическая налоговая нагрузка на ское одного налогоплательщика по налогам, сборам и отклонени иных обязательным платежам в бюджетную систему е 141 191 222 217 238 Российской Федерации определена на основе данных Коэффици ФНС [6]. Федеральная налоговая службой России -ент представляет данные в свободном доступе в целом по вариации, 229, Российской Федерации и в разрезе ее субъектов за % 225,7 237,0 244,1 237,9 2 период с 2007 г. по настоящее время в формах Коэффици статистической налоговой отчетности. -ент Уровень заболеваемости всего населения с асиммет- диагнозом, установленным впервые в жизни на 1000 рии 4,79 4,72 4,77 4,71 4,57 человек населения, рассчитан на основе данных Коэффици Федеральной службы государственной статистики -ент 20,3 [2, 4]. эксцесса 23,34 22,35 22,37 21,45 6 Поскольку данные по исследуемым показателям Источник: рассчитано автором были взяты в разрезе субъектов Российской Федерации, следовательно, в работе был применен Анализ средних и медианных значений сплошной метод исследования. изучаемого показателя за период 2010-2014 гг. 4.2 Эмпирические результаты исследования (рассчитанных по несгруппированным данным), свидетельствует об их стабильном увеличении на Предварительно был осуществлен анализ протяжении всего исследуемого периода, что исследуемого показателя, характеризующего означает положительные изменения исследуемого стабильность налоговой системы нашей страны – показателя на макроуровне и, как следствие, средней фактической налоговой нагрузки на одного направленность изменений в сторону стабильного налогоплательщика по налогам, сборам и иным развития налоговой системы в Российской обязательным платежам в бюджетную систему Федерации (следует отметить, что здесь сказывается Российской Федерации на основе расчета влияние инфляционного фактора). Однако все показателей центра, структуры, степени вариации и показатели вариации, а также коэффициенты типа распределения и установлен характер асимметрии и эксцесса (рассчитанные по распределения субъектов РФ налоговой системы по несгруппированным данным), являются более показателю средней фактической налоговой тонким инструментом, позволяющим учитывать нагрузки на одного налогоплательщика по налогам, влияние случайных факторов на исследуемый сборам и иным обязательным платежам в показатель, и указывают на постоянную и довольно бюджетную систему Российской Федерации за существенную вариацию значений период 2010-2014 гг. (см. Таблицу 1). рассматриваемого показателя. Анализ Таблица 1 Показатели центра, структуры, степени коэффициента вариации в исследуемом периоде вариации и типа распределения средней показал также, что в РФ совокупности субъектов по фактической налоговой нагрузки на одного исследуемому показателю за период 2010-2014 гг., налогоплательщика по налогам, сборам и иным чрезвычайно неоднородные, вариация по субъектам обязательным платежам в бюджетную систему РФ значительная, так как превышает не только 33%, Российской Федерации за период 2010-2014 гг. но и 100%, что свидетельствует о крайней Показател Годы нестабильности налоговой системы в и 2010 2011 2012 2013 2014 пространственном аспекте за анализируемый период. 1 2 3 4 5 6 Следует отметить уменьшение значений характеристик распределения (коэффициентов Средняя асимметрии и эксцесса) по исследуемому показателю арифмети- в 2014 г. по сравнению с 2010 г., пусть и ческая 62 81 91 91 104 незначительное, но, тем не менее, это указывает на Средняя позитивные изменения, происходящие в развитии геометрич налоговой системы страны. еская 31 37 42 43 49 Среднее значение анализируемого показателя, Медианно рассчитанного по формуле геометрической средней в е значение 27 31 36 36 41 два и более раз меньше, чем аналогичное значение, Размах 1 рассчитанное по формуле арифметической средней, вариации 901 1 179 1 340 1 224 311 139 на протяжении всего исследуемого периода. При Источник: рассчитано автором этом именно значения показателя, рассчитанные по формуле геометрической средней, наиболее Для более наглядного представления информации приближены к медианным значениям, что косвенно представим полученные коэффициенты корреляции подтверждает их преимущество в выявлении на графике (см. Рисунок 1) . истинного среднего значения в исследуемой совокупности. Таким образом, анализ показателей центра, структуры, степени вариации и типа распределения исследуемого показателя за период 2010-2014 гг. позволяет констатировать, что распределение изучаемого показателя на протяжении всего рассматриваемого периода имеет характер гиперэкспоненциального распределения. На основе данных показателя, характеризующего стабильность налоговой системы нашей страны – средней фактической налоговой нагрузки на одного налогоплательщика по налогам, сборам и иных обязательным платежам в бюджетную систему Рисунок 1 Коэффициенты корреляции взаимосвязи Российской Федерации, и его фактора – уровня средней фактической налоговой нагрузки на одного заболеваемости всего населения с диагнозом, налогоплательщика по налогам, сборам и иным установленным впервые в жизни на 1000 человек обязательным платежам в бюджетную систему населения – в динамике за каждый год периода с 2010 Российской Федерации и уровня заболеваемости по 2014 гг. был рассчитан модифицированный всего населения с диагнозом, установленным коэффициент корреляции, а также впервые в жизни на 1000 человек населения за модифицированный коэффициент детерминации период 2010-2014 гг. (рассчитываемый возведением в квадрат модифицированного коэффициента корреляции). 5 Заключение Результаты расчетов эмпирических исследований по На основе анализа данных таблицы 2 и рис.1 расчету коэффициентов корреляции и детерминации (в том числе модифицированных) представлены в можно констатировать, что за весь рассматриваемый период уровень значений модифицированного таблице 2. коэффициента корреляции по сравнению с Таблица 2 Коэффициенты корреляции и коэффициентом корреляции Пирсона является детерминации взаимосвязи средней фактической существенно более низким. Это означает налоговой нагрузки на одного налогоплательщика существенно более низкую (в данном случае, в по налогам, сборам и иных обязательным платежам отдельные годы даже более чем в два раза) в бюджетную систему Российской Федерации и взаимосвязь вариации средней фактической уровня заболеваемости всего населения с налоговой нагрузки на одного налогоплательщика по диагнозом, установленным впервые в жизни на 1000 налогам, сборам и иным обязательным платежам в человек населения за период 2010-2014 гг. бюджетную систему Российской Федерации и Годы уровня заболеваемости всего населения с диагнозом, Показатели установленным впервые в жизни на 1000 человек 2010 2011 2012 2013 2014 1 2 3 4 5 6 населения за период 2010-2014 гг. Коэффици- Аналогичный вывод можно сделать и по 0,45 рассчитанным коэффициентам детерминации: за ент 0,628 0,600 0,572 0,524 7 весь анализируемый период уровень значений корреляции Коэффици- модифицированного коэффициента детерминации ент 0,20 оказался меньше, чем у коэффициента корреляции 0,395 0,360 0,327 0,274 Пирсона. детермина- 9 ции Кроме того, выявленный характер взаимосвязи Модифицир вариации исследуемых показателей заметно ованный отличается, что особенно хорошо заметно на 0,18 графике. Модифицированный коэффициент коэффици- 0,410 0,417 0,323 0,203 4 корреляции имеет более высокие темпы снижения ент корреляции для исследуемых эмпирических показателей по Модифицир сравнению с коэффициентом корреляции Пирсона, ованный что является следствием более точного учета коэффици- 0,168 0,174 0,104 0,041 0,03 влияния дисбаланса анализируемой экономической ент детер- 3 системы, в которой были выявлены нелинейные минации процессы развития. 140 Следовательно, использование [5] Rozmainsky I. Methodological bases of the theory модифицированных коэффициентов корреляции и of Keynes and his "dispute on a method" with детерминации позволяет получить, по нашему Tinbergen. Economy questions. No. 4. pp. 25-36 мнению, более точную оценку взаимосвязи (2007) изменений средней фактической налоговой нагрузки [6] Summary reports in general on the Russian на одного налогоплательщика по налогам, сборам и Federation and in a section of subjects of the иных обязательным платежам в бюджетную систему Russian Federation. Российской Федерации и уровня заболеваемости https://www.nalog.ru/rn78/related_activities/statist всего населения с диагнозом, установленным ics_and_analytics/forms/ впервые в жизни на 1000 человек населения. [7] The tendency of property stratification only Литература accrues. Experts warn about danger of social explosion in Russia because of property [1] Hendri D. Econometrics: alchemy or science? stratification [An electronic resource]. Ekovest, No. 2. pp. 172 – 196 (2003) http://www.newizv.ru/economics/2014-10- [2] Incidence of the population on the main classes of 17/209143-tendencija-imushestvennogo- diseases. rassloenija-tolko-narastaet.html. – Zagl. from the http://www.gks.ru/wps/wcm/connect/rosstat_main/ screen (2014) rosstat/ru/statistics/population/healthcare/# [8] Theory of statistics. Under the editorship of the [3] KeynesJ. M. Method of professor Tinbergen. prof. G. L. Gromyko. 2nd prod., reslave. and Economy questions. No. 4. P. 28 (2007) additional Moscow. 476 p. (2006) [4] Population. [9] Yeliseyeva I. I., Yuzbashev M. M. General theory http://www.gks.ru/wps/wcm/connect/rosstat_main/ of statistics. 4 prod., reslave and additiona. rosstat/ru/statistics/population/demography/# Moscow. 480 p. (1999) 141