<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta />
    <article-meta>
      <title-group>
        <article-title>DEGENERATE INVERTED REPEATS IN THE GENOMES OF MYCOBACTERIUM</article-title>
      </title-group>
      <contrib-group>
        <aff id="aff0">
          <label>0</label>
          <institution>Institute for Information Transmission Problems of the Russian Academy of Sciences (Kharkevich Institute)</institution>
          ,
          <addr-line>Moscow</addr-line>
          ,
          <country country="RU">Russia</country>
        </aff>
        <aff id="aff1">
          <label>1</label>
          <institution>Semen Korolev</institution>
          ,
          <addr-line>Konstantin Gorbunov, Oleg Zverkov, Alexander Seliverstov, Vasily Lyubetsky</addr-line>
        </aff>
      </contrib-group>
      <fpage>182</fpage>
      <lpage>187</lpage>
      <abstract>
        <p />
      </abstract>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>-</title>
      <p>
        вычисления расстояния Левенштеина на разных языках программирования доступны в [
        <xref ref-type="bibr" rid="ref2">2</xref>
        ]. Это
расстояние между двумя строками длины m и n вычисляется методом динамического
программирования [
        <xref ref-type="bibr" rid="ref3">3</xref>
        ], выполняющим O(mn) операции с линеинои памятью O(min(n, m)).
      </p>
      <p>Напомним, что ДНК состоит из двух комплементарных цепеи. Поэтому в зависимости от
цепи, каждыи ген транскрибируется в определённом направлении, а некодирующие области
различаются в зависимости от взаимного направления транскрипции фланкирующих генов.
Участок РНК, соответствующии вырожденному инвертированному повтору на ДНК, может
образовать шпильку, то есть вторичную структуру, в которои комплементарные нуклеотиды из
начала и из конца соединяются между собои. Середина образует петлю, в которои цепь РНК
изгибается в пространстве. Нуклеотиды петли не обязательно комплементарны. Петля не может
быть короче трёх и обычно содержит не меньше четырёх нуклеотидов. Большие петли уменьшают
стабильность шпильки. Нуклеотиды, не входящие в состав петли, образуют плечи шпильки.
Некомплементарность нуклеотидов плеч также уменьшает стабильность шпильки, поскольку
некомплементарные нуклеотиды образуют выпячивания. Мы классифицируем шпильки по трём
параметрам: длине плеча, длине петли и расстоянию между одним плечом и участком,
комплементарным другому плечу в метрике Левенштеина.</p>
      <p>
        Шпильки играют важную роль в регуляции экспрессии генов, поскольку во многих случаях
служат терминаторами транскрипции, то есть прерывают процесс создания РНК по ДНК. Примеры
рассмотрены в работах [
        <xref ref-type="bibr" rid="ref4 ref5 ref6 ref7 ref8 ref9">4-9</xref>
        ]. Шпильки участвуют в регуляции экспрессии генов, часто образуя
сложные структуры; они могут служить для предотвращения конфликтов, возникающих в ходе
транскрипции генов на комплементарных цепях ДНК [
        <xref ref-type="bibr" rid="ref10 ref11">10-11</xref>
        ]. Шпилька на 3'-конце РНК служит для
стабилизации транскрипта, предотвращая его разрушение ферментами РНКазами.
      </p>
      <p>
        Также вырожденные инвертированные повторы могут служить саитами кооперативного
связывания транскрипционных факторов с ДНК. В этом случае две копии фактора связывают два
участка ДНК, расположенные на комплементарных цепях ДНК. С другои стороны, инвертированные
повторы возникают в результате хромосомных перестроек, в частности, на краях вставок
мобильных элементов. Сравнительныи анализ хромосомных структур даёт важную информацию
об эволюции генома [
        <xref ref-type="bibr" rid="ref12">12</xref>
        ].
Материалы
NC_016768 Mycobacterium tuberculosis KZN 4207
NC_016804 Mycobacterium bovis BCG str. Mexico
NC_016946 Mycobacterium intracellulare ATCC 13950
NC_016947 Mycobacterium intracellulare MOTT-02
NC_016948 Mycobacterium intracellulare MOTT-64
NC_017522 Mycobacterium tuberculosis CCDC5180
NC_017523 Mycobacterium tuberculosis CCDC5079
NC_017524 Mycobacterium tuberculosis CTRI-2
NC_017904 Mycobacterium sp. MOTT36Y
NC_018027 Mycobacterium chubuense NBB4
NC_018078 Mycobacterium tuberculosis KZN 605
NC_018143 Mycobacterium tuberculosis H37Rv
NC_018289 Mycobacterium smegmatis str. MC2 155
Методы
      </p>
      <p>Независимо рассматривались кодирующие области (гены) и некодирующие (межгенные)
области трёх типов:
 межу сходящимися генами;
 между расходящимися генами;
 между последовательно расположенными генами.</p>
      <p>Учитывались только кодирующие области, размеченные в аннотациях геномов. Для этого
исследования написана программа, реализующая оригинальныи алгоритм поиска вырожденных
инвертированных повторов и привязки их к областям генома. Программа написана на языке Python
и работает следующим образом:
 Из основного кода вызывается функция find_hairpins_in_file, она получает на вход gbk-файл,
с помощью вспомогательных функций получает из него нуклеотидную
последовательность, находит на ней координаты генов. Затем для каждой межгенной
области (добавляя 20 н. с каждой стороны) вызывается функция find_cross_hairpins, после
чего результаты делятся по типам межгенных областей и возвращаются в основную
программу, где для всех файлов уже вычисляются средние величины и т.д.
 Функция find_cross_hairpins получает на вход последовательность нуклеотидов,
минимальную длину плеча шпильки (по умолчанию это 7 н.), максимальную величину
петли (по умолчанию это 14 н). В цикле по величине петли ищутся шпильки с минимальной
длиной плеча (минимальная длина повышается, если петля достигает ее значения) и
удовлетворяющие заданному расстоянию Левенштейна между плечами. Каждая найденная
шпилька, передается в функцию find_all_possible_hairpins (с условием, чтобы в итоге
максимальная длина плеча была ограничена 35 н.). Параметры шпилек и их расстояния до
генов записываются в массив. Вызывается функция check_and_delete_hairpins. Этот
результат возвращается в find_hairpins_in_file.
 Функция find_all_possible_hairpins получает на вход последовательность, у которой
посередине найдена шпилька, и параметры этой шпильки. Функция добавляет по одному
нуклеотиду с каждой стороны и проверяет, можно ли ожидать шпильку большей длины.
Возвращает все возможные варианты более длинных шпилек.
 Функция check_and_delete_hairpins получает на вход массив из шпилек с их параметрами и
расстояниями до генов. Сортирует шпильки по расстоянию до левого гена. Вычисляет
отношение перекрытия соседних шпилек к длине (оба плеча и петля) более короткой из
них, если перекрытие превышает порог (по умолчанию - 70%), то удаляет короткую
шпильку. При одинаковой длине удаляет ту, в которой больше расстояние Левенштейна
между плечами. Возвращает оставшиеся шпильки.</p>
      <p>Время счёта на процессоре с двумя ядрами составило примерно 10 минут на один геном.
Результаты и обсуждение</p>
      <p>Всего рассмотрено 187759 межгенных областеи, из них 123737 последовательных, 31994
сходящихся и 32028 расходящихся (рис. 1).</p>
      <p>Большое число вырожденных инвертированных повторов, соответствующих шпилькам с
длинои петли четыре нуклеотида, позволяет предполагать, что значительная доля этих повторов
деиствительно соответствует шпилькам на РНК. Две зависимости расстояния между шпилькои и
ближаишим геном от параметров шпильки существенно различаются между собои для двух типов
межгенных областеи. Это говорит о различнои роли шпилек в зависимости от типа области. Они
Рис.1. Соотношение чисел межгенных областей трёх типов в геномах рассмотренных микобактерий
Размер петли
Рис.2. Зависимость среднего расстояния между шпилькой и ближайшим к ней геном от размера петли для
разных размеров плеча шпильки в области между сходящимися генами
Рис.3. Зависимость среднего расстояния между шпилькой и ближайшим к ней геном от размера петли для
разных размеров плеча шпильки в области между расходящимися генами
Для последовательных генов заметен рост расстояния между шпильками всех размеров и
7-9
10-15
16+
началом гена при увеличении петли. Также с увеличением петли растет расстояние между
короткими шпильками и концом гена. При величине петли в 6-8 нуклеотидов, среднее расстояние
между короткими шпильками и началом гена, становится больше, чем между началом гена и
длинными или средними шпильками. В областях между расходящимися генами шпильки находятся
ближе к генам, чем в областях между сходящимися генами.</p>
      <p>Рис.4. Зависимость среднего расстояния между шпилькой и ближайшим к ней геном от размера петли для
разных размеров плеча шпильки и разных вариантов примыкания шпильки к гену в области между
последовательными генами
В областях между последовательными генами короткие шпильки в среднем находятся
ближе к началам генов, а средние и длинные ближе к концам. Средние длины некодирующих
областеи между последовательно расположенными и сходящимися генами приблизительно равны
для разных таксономических групп (табл.1). А некодирующие области между расходящимися
генами в среднем значительно длиннее у всех групп. В то время как среднее расстояние до
ближаишего гена более короткое именно для расходящихся генов. То есть этот эффект нельзя
объяснить простым увеличением длин некодирующих областеи.</p>
      <p>Табл.1. Среднее расстояние между генами в зависимости от
типа расположения генов для разных таксономических
групп
Последовательные гены
Расходящиеся гены
Сходящиеся гены
Микобактерии
Актинобактерии
Цианобактерии</p>
      <p>Фирмикуты
Выводы
77,1
100,4
135,9
112,9
174,6
211,0
251,8
259,0
71,4
104,7
124,4
146,4
Определены интервалы типичных значении параметров шпилек и расстоянии от них до
ближаиших генов у микобактерии. Полученные результаты могут служить основои для
дальнеишего предсказания регуляции экспрессии генов. Также полученные результаты могут быть
использованы для предсказания частоты хромосомных перестроек, в результате которых
возникают инвертированные повторы. Это позволяет уточнить ранее рассмотренную модель
эволюции генома.</p>
      <p>Работа выполнена за счёт гранта Российского научного фонда (проект 14-50-00150).
Литература</p>
    </sec>
  </body>
  <back>
    <ref-list>
      <ref id="ref1">
        <mixed-citation>
          1.
          <string-name>
            <surname>Levenshtein</surname>
            <given-names>V.I.</given-names>
          </string-name>
          <article-title>Binary codes capable of correcting deletions, insertions</article-title>
          , and reversals // Soviet Physics Doklady.
          <article-title>-</article-title>
          <year>1966</year>
          . -V.
          <volume>10</volume>
          , no. 8. -P.
          <fpage>707</fpage>
          -
          <lpage>710</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref2">
        <mixed-citation>2. Levenshtein distance. URL: https://en.wikibooks.org/wiki/Algorithm_Implementation/Strings/Levenshtein_distance</mixed-citation>
      </ref>
      <ref id="ref3">
        <mixed-citation>
          3.
          <string-name>
            <surname>Wagner</surname>
            <given-names>R.A.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Fischer M.J. The</surname>
          </string-name>
          string-to-string correction problem // J. ACM. -
          <year>1974</year>
          . - V.
          <volume>21</volume>
          , no. 1. - P.
          <fpage>168</fpage>
          -
          <lpage>173</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref4">
        <mixed-citation>
          4.
          <string-name>
            <surname>Lopatovskaya</surname>
            <given-names>K.V.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Seliverstov</surname>
            <given-names>A.V.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Lyubetsky</surname>
            <given-names>V.A.</given-names>
          </string-name>
          <article-title>Attenuation regulation of the amino acid and aminoacyl-tRNA biosynthesis operons in bacteria: a comparative genomic analysis // Molecular Biology</article-title>
          .
          <article-title>-</article-title>
          <year>2010</year>
          . - V.
          <volume>44</volume>
          , no. 1. - P.
          <fpage>128</fpage>
          -
          <lpage>139</lpage>
          . DOI:
          <volume>10</volume>
          .1134/S0026893310010164.
        </mixed-citation>
      </ref>
      <ref id="ref5">
        <mixed-citation>
          5.
          <string-name>
            <surname>Lyubetskaya</surname>
            <given-names>E.V.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Seliverstov</surname>
            <given-names>A.V.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Lyubetsky</surname>
            <given-names>V.A.</given-names>
          </string-name>
          <article-title>The number of long hairpins in intergenic trailer regions of actinobacteria is far greater than in other genomic regions</article-title>
          // Molecular Biology.
          <article-title>-</article-title>
          <year>2007</year>
          . - V.
          <volume>41</volume>
          , no. 4. - P.
          <fpage>670</fpage>
          -
          <lpage>673</lpage>
          . DOI:
          <volume>10</volume>
          .1134/S002689330704022X.
        </mixed-citation>
      </ref>
      <ref id="ref6">
        <mixed-citation>
          6.
          <string-name>
            <surname>Lyubetsky</surname>
            <given-names>V.A.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Pirogov</surname>
            <given-names>S.A.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Rubanov</surname>
            <given-names>L.I.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Seliverstov</surname>
            <given-names>A.V.</given-names>
          </string-name>
          <article-title>Modeling classic attenuation regulation of gene expression</article-title>
          in bacteria // Journal of Bioinformatics and
          <string-name>
            <given-names>Computational</given-names>
            <surname>Biology</surname>
          </string-name>
          .
          <article-title>-</article-title>
          <year>2007</year>
          . - V. 5, no. 1. - P.
          <fpage>155</fpage>
          -
          <lpage>180</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref7">
        <mixed-citation>
          7.
          <string-name>
            <surname>Seliverstov</surname>
            <given-names>A.V.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Lyubetsky</surname>
            <given-names>V.A.</given-names>
          </string-name>
          <article-title>Mechanism of manganese transport regulation in Brucella involving a long RNA helix /</article-title>
          / Biophysics. -
          <year>2009</year>
          . - V.
          <volume>54</volume>
          , no. 2. - P.
          <fpage>152</fpage>
          -
          <lpage>155</lpage>
          . DOI:
          <volume>10</volume>
          .1134/S0006350909020055.
        </mixed-citation>
      </ref>
      <ref id="ref8">
        <mixed-citation>
          8.
          <string-name>
            <surname>Seliverstov</surname>
            <given-names>A.V.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Putzer</surname>
            <given-names>H.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Gelfand</surname>
            <given-names>M.S.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Lyubetsky</surname>
            <given-names>V.A.</given-names>
          </string-name>
          <article-title>Comparative analysis of RNA regulatory elements of amino acid metabolism genes in Actinobacteria /</article-title>
          / BMC Microbiology. --
          <year>2005</year>
          . - V. 5, no.
          <volume>54</volume>
          , 14 pages.
          <source>DOI: 10</source>
          .1186/
          <fpage>1471</fpage>
          -2180-5- 54.
        </mixed-citation>
      </ref>
      <ref id="ref9">
        <mixed-citation>
          9.
          <string-name>
            <surname>Grundy</surname>
            <given-names>F.J.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Henkin</surname>
            <given-names>T.M.</given-names>
          </string-name>
          <article-title>The S box regulon: a new global transcription termination control system for methionine and cysteine biosynthesis genes in Gram-positive bacteria</article-title>
          . // Mol Microbiol. - 1998. - V.
          <volume>30</volume>
          , no. 4. - P.
          <fpage>737</fpage>
          -
          <lpage>749</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref10">
        <mixed-citation>
          10.
          <string-name>
            <surname>Lyubetsky</surname>
            <given-names>V.A.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Zverkov</surname>
            <given-names>O.A.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Pirogov</surname>
            <given-names>S.A.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Rubanov</surname>
            <given-names>L.I.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Seliverstov</surname>
            <given-names>A</given-names>
          </string-name>
          .V.
          <article-title>Modeling RNA polymerase interaction in mitochondria</article-title>
          of chordates // Biology Direct.
          <article-title>-</article-title>
          <year>2012</year>
          . - V. 7, no. 26. DOI:
          <volume>10</volume>
          .1186/
          <fpage>1745</fpage>
          -6150-7-26.
        </mixed-citation>
      </ref>
      <ref id="ref11">
        <mixed-citation>
          11.
          <string-name>
            <surname>Lyubetsky</surname>
            <given-names>V.A.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Zverkov</surname>
            <given-names>O.A.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Rubanov</surname>
            <given-names>L.I.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Seliverstov</surname>
            <given-names>A</given-names>
          </string-name>
          .V.
          <article-title>Modeling RNA polymerase competition: the effect of σ-subunit knockout and heat shock on gene transcription level // Biology Direct</article-title>
          .
          <article-title>-</article-title>
          <year>2011</year>
          .
          <article-title>- V. 6, no. 3</article-title>
          . DOI:
          <volume>10</volume>
          .1186/
          <fpage>1745</fpage>
          -6150-6- 3.
        </mixed-citation>
      </ref>
      <ref id="ref12">
        <mixed-citation>
          12.
          <string-name>
            <surname>Lyubetsky</surname>
            <given-names>V.A.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Gershgorin</surname>
            <given-names>R.A.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Seliverstov</surname>
            <given-names>A.V.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Gorbunov</surname>
            <given-names>K.</given-names>
          </string-name>
          <string-name>
            <surname>Yu</surname>
          </string-name>
          . Algorithms for reconstruction of chromosomal structures // BMC Bioinformatics.
          <article-title>-</article-title>
          <year>2016</year>
          . - V.
          <volume>17</volume>
          , no.
          <volume>40</volume>
          , 23 pages.
          <source>DOI: 10</source>
          .1186/s12859-016-0878-z.
        </mixed-citation>
      </ref>
      <ref id="ref13">
        <mixed-citation>
          <article-title>Об авторах: Королев Семен Александрович, лаборатория № 6 Института проблем передачи информации им</article-title>
          .
          <source>А.А</source>
          .
          <article-title>Харкевича Российской академии наук, korolev@iitp.ru; Горбунов Константин Юрьевич, лаборатория № 6 Института проблем передачи информации им</article-title>
          .
          <source>А.А</source>
          .
          <article-title>Харкевича Российской академии наук, кандидат физико-математических наук, gorbunov@iitp.ru; Зверков Олег Анатольевич, лаборатория № 6 Института проблем передачи информации им</article-title>
          .
          <source>А.А</source>
          .
          <article-title>Харкевича Российской академии наук, кандидат физико-математических наук, zverkov@iitp.ru; Селиверстов Александр Владиславович, лаборатория № 6 Института проблем передачи информации им</article-title>
          .
          <source>А.А</source>
          .
          <article-title>Харкевича Российской академии наук, кандидат физико-математических наук, slvstv@iitp</article-title>
          .ru;
        </mixed-citation>
      </ref>
    </ref-list>
  </back>
</article>