<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta />
    <article-meta>
      <title-group>
        <article-title>Об HTML версии полного текста научной статьи</article-title>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author">
          <string-name>D.E. Chebukov</string-name>
          <xref ref-type="aff" rid="aff0">0</xref>
        </contrib>
        <aff id="aff0">
          <label>0</label>
          <institution>Steklov Mathematical Institute of Russian Academy of Sciences</institution>
        </aff>
      </contrib-group>
      <fpage>487</fpage>
      <lpage>498</lpage>
      <kwd-group>
        <kwd>formats of the full-text scientific article</kwd>
        <kwd>scientific journal publisher website</kwd>
        <kwd>extra functionality of the HTML full-text article</kwd>
      </kwd-group>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>-</title>
      <p>Ключевые слова: форматы представления научной статьи, сайт издателя
научных журналов, расширенный функционал HTML версии научной статьи.</p>
      <p>Основной задачей научной публикации является изложение результатов
научного исследования, для подтверждения которых широко используются
иллюстрации, графики, таблицы, представляющие экспериментальные данные,
иногда довольно объемистые. Читатель, как правило, стремится не только
поверить на слово выводам автора, но и убедиться в их верности, анализируя
приведенные экспериментальные данные. Объем традиционной публикации в
печатном издании обычно регулируется правилами, принятыми в конкретном
журнале, что ограничивает автора при приведении экспериментальных данных,
и он отдает предпочтение обсуждению полученных результатов, но не
раскрывает детальной картины, каким образом эти результаты получены. Для
изложения подробностей могут использоваться дополнительные материалы,
которые, однако, не входят в саму публикацию и оказываются оторванными от
основного текста статьи, для их получения от читателя потребуются
дополнительные усилия.</p>
      <p>Структура научной статьи не меняется столетиями. С началом цифрового
века стандартом для публикации научной статьи в Internet стал PDF файл,
который является полной копией печатной версии и наследует все ее
преимущества и недостатки. Преимущества PDF неоспоримы: его легко создать
из разных источников, любые программы для редактирования и верстки
текстов имеют экспорт в PDF; формат публикации удобен для чтения на всех
устройствах, а также на печати, а PDF файл выглядит одинаково и именно так,
как был задуман автором или редактором; его легко распространять, в том
числе offline. Однако, несмотря на то, что функционал PDF файлов
совершенствовался, он остается привязанным к печатной версии, он сделан для
того, чтобы его распечатали на принтере. Любые интерактивные вставки,
иллюстрации высокого разрешения, анимация в PDF файле если и возможны,
то непропорционально увеличивают его размер и ограничивают его
совместимость с программами чтения. Полный просмотр возможен только в
Adobe Acrobat, в то время как многие современные браузеры (Google Chrome,
FireFox) имеют собственный функционал просмотра PDF, который не
поддерживает мультимедийные дополнения, аналогичная ситуация
наблюдается и с программами просмотра PDF сторонних производителей.</p>
      <p>
        Возможности добавления мультимедиа-материалов в PDF файл подробно
рассмотрены в работе [
        <xref ref-type="bibr" rid="ref1">1</xref>
        ].
      </p>
      <p>Подавляющее большинство традиционных новостных и аналитических
изданий, имеющих печатную версию, а также интернет версии газет и
журналов, публиковали и продолжают публиковать свои online материалы в
формате HTML. В HTML публикациях присутствуют анимированные
иллюстрации, видео и аудио блоки, важным компонентом является контекстная
реклама. Издатели могут дополнительно распространять PDF версии отдельных
статей или всего номера газеты-журнала, как правило, распространяя их по
подписке, но это является дополнением, а не основной версией публикации.</p>
      <p>
        Издатели (западных) научных журналов осознали, что им тоже нужна
большая гибкость в отображении публикуемого материала. В 2011-2013 гг. у
большинства западных издателей научных журналов появился устойчивый
тренд на представление полных текстов научных статей не только в формате
PDF, но и в HTML. При этом обе версии несут одну и ту же научную
информацию, но HTML версия призвана предоставлять дополнительные
возможности читателям. Проекты по созданию HTML версий носят кричащие
названия, они рекламируются среди подписчиков. Приведем несколько
примеров рекламных текстов:
• Elsevier, платформа ScienceDirect: "The Article of the Future initiative aims
to revolutionize the traditional linear format of the academic paper to make it
more dynamic and user-friendly" [
        <xref ref-type="bibr" rid="ref2">2</xref>
        ];
• IOP Publishing, платформа IOPScience: "The Article evolution project
designed to improve the online delivery of research articles, enabling readers to
interact with research in new ways" [
        <xref ref-type="bibr" rid="ref3">3</xref>
        ];
• American Physical Society, платформа Physics Review Journals: "A
highfidelity, robust full-text HTML display of content has been a long-term goal
for our journals" [
        <xref ref-type="bibr" rid="ref4">4</xref>
        ];
• Springer, платформа SpringerLink: "All content can be viewed in PDF and a
significant portion of our newer content is also available in full-text
HTML" [5].
Основной функционал PDF и HTML версий
      </p>
      <p>полных текстов научных статей
Рассмотрим основные требования, предъявляемые к полным текстам
современных научных публикаций, и возможность их реализации в форматах
PDF и HTML (табл. 1). Ячейки, подкрашенные зеленым цветом, указывают на
параметры, которые легче реализуются или имеют преимущество перед другим
форматом. Красным указан функционал, который сложнее реализуется или не
возможен. Белым цветом указаны равнозначные возможности реализации
функционала.
Распространение online
Распространение offline и</p>
      <p>хранение
Сходство с "оригинальной"
печатной версией
Все системы набора и
верстки: LaTeX, InDesign,</p>
      <p>MS Word.</p>
      <p>Необходимы специальные
утилиты для создания</p>
      <p>XML/HTML файла.
Можно распространять линк
на ресурс (URL).</p>
      <p>Можно распространять линк</p>
      <p>на ресурс (URL).</p>
      <p>Можно распространять
(пересылать по эл. почте, на
флешке). Можно хранить.
Доступ необходим только в
момент скачивания файла.</p>
      <p>Можно распространять линк</p>
      <p>на ресурс (URL), а не сам
файл. Хранить невозможно.</p>
      <p>Необходим постоянный</p>
      <p>доступ к ресурсу.
На всех устройствах
выглядит одинаково и
является копией печатной
версии.</p>
      <p>Вид может варьироваться в</p>
      <p>разных браузерах, при
разном разрешении экрана
или размере окна.
Наличие номеров страниц
да</p>
      <p>нет
Обновление, живая
публикация [6]. Индексация
поисковыми системами.
Навигация, гиперссылки
Удобство чтения с экрана</p>
      <p>монитора
Удобство чтения с экрана</p>
      <p>мобильного телефона
Дополнительные материалы.</p>
      <p>Вставки мультимедиа
материалов, анимации и
видео</p>
      <p>При обновлении текста
создается новый PDF файл
(новая версия). URL может</p>
      <p>быть изменен. Ранее
скаченная и сохраненная
offline версия не обновится.</p>
      <p>При сохранении старого
URL возможны проблемы с</p>
      <p>доступом - PDF файлы
кешируются браузерами.
Поисковые системы их
сканируют с задержкой.
Возможны гиперссылки
внутри PDF и внешние
гиперссылки из текста.
URL обновленной версии</p>
      <p>сохраняется прежним,
читатель всегда получает
обновленную версию.</p>
      <p>Быстрая индексация
поисковыми системами.
Возможны внутренние и
внешние гиперссылки,</p>
      <p>интерактивные
всплывающие меню,
всплывающие подсказки,
"share links" (ссылки на</p>
      <p>реферативные и
библиографические ресурсы)
Программа просмотра PDF Интернет браузер
предоставляет необходимый предоставляет необходимый</p>
      <p>функционал для функционал для
масштабирования и листания масштабирования и листания</p>
      <p>Чтение возможно, но не
удобно, если при создании</p>
      <p>PDF не была учтена
возможность просмотра на
маленьких экранах.</p>
      <p>
        Современные
информационные системы
адаптированы для просмотра
web-страниц на экранах
мобильных устройств.
Возможно, но сильно
утяжеляет PDF файл,
требуется дополнительное
программное обеспечение
[
        <xref ref-type="bibr" rid="ref1">1</xref>
        ]. Совместим не со всеми
программами просмотра
      </p>
      <p>PDF.</p>
      <p>Возможно добавление
мультимедиа файлов, видео,</p>
      <p>анимации, которые
проигрываются браузером.
Возможны доп. материалы в
виде отдельных файлов или
линков на внешние ресурсы.
Формулы создаются с
учетом требований системы
набора и верстки (LaTeX,
InDesign, MS Word) и их
расширений.</p>
      <p>Формулы оформляются в
виде картинок и/или в LaTeX
или MathML, отображение в
браузере осуществляется при
помощи библиотеки</p>
      <p>MathJax [7]
Только гиперлинки на DOI
или одну реферативную базу
данных
Просмотр ссылки из текста
статьи при наведении мыши,</p>
      <p>гиперлинки на различные
базы данных, экспорт списка
литературы
да
да
да
да
Отображение
математических формул
Обновляемая статистика
просмотров (article metrics)
Браузер иллюстраций и</p>
      <p>таблиц
Расширенный функционал</p>
      <p>списка литературы
Функция "Переслать" (Share
links) для элементов и всей</p>
      <p>публикации
Обновляемый список</p>
      <p>цитирования
Возможности экспорта
Обсуждение публикации
нет
нет
нет
нет
нет
нет</p>
      <p>Экспорт иллюстраций и
таблиц в PowePoint. Экспорт
метаданных и списка
литературы в форматы</p>
      <p>BIBTEX, RIS и т.п.
Возможна вставка блока
обсуждения публикации
Таблица 1. Основные требования, предъявляемые к современным научным публикациям,
и их реализация в форматах PDF и HTML
Важно отметить, что обе версии статьи (PDF и HTML) содержат одну и ту
же научную информацию и имеют идентичную научную ценность. При
цитировании не важно, какая версия была прочитана. Отличия носят
технический характер, каждая версия имеет свои преимущества и недостатки.</p>
      <p>PDF версия имеет следующие основные преимущества перед HTML:
1. Широко распространенные системы набора и верстки.
2. Хранение и распространение offline.
3. Полное сходство с "оригинальной" печатной версией при просмотре на
любых устройствах и при печати.</p>
      <p>HTML версия имеет следующие основные преимущества перед PDF:
1. Возможность добавлять (встраивать в текст статьи) мультимедиа
материалы - видео, аудио, анимированные рисунки, анимированные
графики.
2. Расширенный функционал гиперссылок и списка литературы.
3. Возможность экспорта элементов (иллюстраций и таблиц) публикации
в PowerPoint.
4. Функционал "share links" (ссылки на реферативные и
библиографические ресурсы).
5. Удобный просмотр с экранов мобильных устройств.
6. Добавление обновляемых статистических данных, списка
цитирования и других данных, могут изменяться во времени.</p>
      <p>Примеры расширенного функционала HTML версии можно увидеть в
статьях математических журналов, представленных в информационной системе
IOPScience [8].</p>
      <p>Какую версию предпочитают читатели?
В работе [9] описан опрос, проведенный компанией Elsevier среди
читателей научных журналов, представленных на платформе ScienceDirect,
какую версию статьи они предпочитают. Выяснилось, что читатели
предпочитают бегло просмореть HTML версию для того, чтобы понять,
соответствует ли публикация их ожиданиям, и какую научную ценность она
представляет. Для внимательного прочтения они предпочитают скачать и даже
распечатать PDF файл. Среди преимуществ PDF файла отмечалось то, что его
можно сохранить и переслать. HTML формат удобен для доступа online и
быстрого изучения материала. При этом если публикация содержит
интерактивные и мультимедиа материалы, HTML формат становится
предпочтительней PDF, но если таких материалов нет и статья "традиционная",
читатели выберут PDF. Также читатели отмечали расширенный функционал
литературных ссылок HTML версии, когда ссылку можно просмотреть, не
покидая текущий фрагмент публикации.
Таким образом, можно сделать вывод, что научное сообщество в целом
консервативно и предпочитает иметь дело со "старым добрым" PDF файлом, но
при этом готово изучать новый формат, если это необходимо.</p>
      <p>Создание HTML версии полного текста
Выше отмечалось, что создание PDF файла не представляет особого
труда, его можно экспортировать из любой современной издательской системы.
C HTML версий готовых решений не существует. HTML версия полного текста
- это часть информационной системы (веб-сайта) издателя, она должна
соответствовать общему дизайну и функционалу системы. Логично
предположить, что информационная система использует стандартный шаблон
для формирования HTML файлов всех статей, а сами статьи хранятся в формате
XML. Для преобразования XML в HTML, который отображается на сайте
издателя, используется XSLT преобразование. Таким образом, для каждой
статьи необходимо подготовить ее полный текст в формате XML, совместимом
с используемым XSLT преобразованием, то есть XML файл, стандартный для
информационной системы издателя.</p>
      <p>Издатели продолжают производить PDF файлы статей, процесс
производства статьи включает такие этапы как набор и верстка, редакторская
правка, авторская правка, внесение исправлений, верстка выпуска журнала.
Для того чтобы избежать двойной работы на каждом этапе, необходимо
объединить процессы получения PDF и XML файлов, сделать так, чтобы они
получались из одного источника, и таким источником должен стать файл
конечной версии статьи, подготовленный в используемой издательством
системе верстки, то есть LaTeX, InDesign или MS Word файл. Как InDesign, так
и MS Word имеют встроенные возможности экспорта в XML, поэтому
основной задачей, которую необходимо решить, является создание
соответствующего шаблона для экпорта документа в XML. В случае верстки в
LaTeX требуется написание конвертора из LaTeX файла в XML.</p>
      <p>HTML версии полных текстов российских математических журналов
Математические журналы Математический сборник, Известия РАН, серия
математическая и Успехи математических наук, издателем русской версии
которых является Математический институт им. В.А. Стеклова РАН, а также их
английские версии Sbornik: Mathematics, Izvestiya: Mathematics и Russian
Mathematical Surveys, издаваемые Turpion Ltd. (http://www.turpion.org) и
распространяемые IOP Publishing (http://iopscience.org), верстаются в LaTeX.
Уже несколько лет английские версии этих журналов представлены в системе
IOPScience в обоих форматах - как PDF, так и HTML. Для подготовки XML
файлов используется специальным образом написанный конвертор, затем XML
файлы одновременно с PDF файлами загружаются в информационную систему.
Исходным файлом для производства как PDF, так и XML является LaTeX файл,
подготовленный редакцией. Разметка LaTeX файла, в том числе блоки \section,
\subsection и т.п. переносятся в соответствующие блоки XML файла.
Математические формулы оформляются в виде картинок (gif файлов),
конвертор их производит автоматически, запуская команду pdflatex для каждой
формулы отдельно, а затем конвертируя pdf файл формулы в формат gif. Также
для отображения формул используется библиотека MathJax [7], для этого в
XML сохраняется исходный текст формулы в LaTeX. Ниже приведены
фрагменты XML файла, содержащие строчную и выносную математические
формулы, XML содержит и ссылку на картинку и исходный текст формулы в
LaTeX. На странице полного текста в формате XML есть переключатель между
режимами отображения формул в виде картинок или MathJax (рис. 1).
&lt;inline-formula&gt;
&lt;tex-math&gt;
&lt;?CDATA $p\geqslant 1$?&gt;&lt;/tex-math&gt;
&lt;inline-graphic xlink:href="MSB_209_5_605ieqn8.gif"/&gt;
&lt;/inline-formula&gt;
&lt;disp-formula&gt;
&lt;label&gt;1.6&lt;/label&gt;
&lt;tex-math&gt;&lt;?CDATA
\begin{equation}
M_n(f(\Gamma))\leqslant KM_n(\Gamma),
\end{equation}
?&gt;&lt;/tex-math&gt;
&lt;graphic xlink:href="MSB_209_5_605eqn6.gif"/&gt;
&lt;/disp-formula&gt;
Рисунок. 1. Переключатель “Turn on/off MathJax” на странице полного текста статьи
в формате HTML на сайте IOPScience.</p>
      <p>Cтруктура LaTeX файла русской и английской версий идентична, а
указанный конвертор можно применять как для конвертации английских, так и
русских версий статей. Для портала Math-Net.Ru, распространяющего русские
версии указанных журналов, подготовлен шаблон для вывода HTML версий
полных текстов статей математических журналов. Пример приведен на рис. 2.
Рисунок 2. Полный текст статьи в формате HTML на сайте Math-Net.Ru
Заключение</p>
      <p>PDF файл остается основным способом представления полного текста
научной публикации. Рассмотренный в данной работе функционал HTML
версии статьи в настоящее время является ценным дополнением к
"стандартному" PDF файлу, но пока не может заменить его. В ближайшем
будущем западные издатели будут продолжать выпускать обе версии статей. К
этому непременно придут и издатели русских версий научных журналов.</p>
      <p>Работа подготовлена при поддержке программы Президиума РАН № 01
"Фундаментальная математика и ее приложения" (грант PRAS-18-01).
5. M. Roncevic. E-book Platforms for Libraries. // Library Technology Reports,
2013, 49(3), p. 28.
6. M.M. Gorbunov-Posadov Live publication // Otkritye systemy, 2011, № 4, С.</p>
      <p>48–49. — URL: http://keldysh.ru/gorbunov/live.htm
7. MathJax Project. — URL: https://www.mathjax.org
8. Article evolution. IOPScience. — URL:</p>
      <p>http://iopscience.iop.org/info/page/articleevolution
9. I.J. Aalbersberg. PDF versus HTML - which do researchers prefer? // Elsevier
connect. 9 Jul 2013. — URL:
https://www.elsevier.com/connect/pdf-versus-htmlwhich-do-researchers-prefer</p>
    </sec>
  </body>
  <back>
    <ref-list>
      <ref id="ref1">
        <mixed-citation>
          1.
          <string-name>
            <surname>M.M. Gorbunov-Posadov</surname>
            ,
            <given-names>D.S.</given-names>
          </string-name>
          <string-name>
            <surname>Roldugin</surname>
            ,
            <given-names>D.S.</given-names>
          </string-name>
          <string-name>
            <surname>Slepenkov</surname>
            ,
            <given-names>I.V.</given-names>
          </string-name>
          <string-name>
            <surname>Tuzov</surname>
          </string-name>
          .
          <article-title>Animation and video in the scientific</article-title>
          publication // Preprint IPM №
          <fpage>104</fpage>
          , Moscow,
          <year>2014</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref2">
        <mixed-citation>
          2.
          <string-name>
            <given-names>E.</given-names>
            <surname>Zudilova-Seinstra</surname>
          </string-name>
          .
          <article-title>Designing the Article of the Future</article-title>
          . // Elsevier connect.
          <source>16 Jan</source>
          <year>2013</year>
          . - URL: https://www.elsevier.com/connect/designing
          <article-title>-the-article-ofthe-future</article-title>
        </mixed-citation>
      </ref>
      <ref id="ref3">
        <mixed-citation>
          3.
          <source>Article evolution starts here</source>
          .
          <source>12 Sep</source>
          <year>2011</year>
          . - URL: http://ioppublishing.org/article-evolution
          <string-name>
            <surname>-</surname>
          </string-name>
          starts-here/
        </mixed-citation>
      </ref>
      <ref id="ref4">
        <mixed-citation>
          4.
          <string-name>
            <given-names>APS</given-names>
            <surname>Launches Full-Text HTML</surname>
          </string-name>
          . - URL: https://journals.aps.org/edannounce/aps-launches
          <article-title>-full-text-html</article-title>
        </mixed-citation>
      </ref>
    </ref-list>
  </back>
</article>