<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta />
    <article-meta>
      <title-group>
        <article-title>Инженерная лингвистика в контексте современной “Информации 4.0” Language Engineering in the Framework of Modern “Information 4.0”</article-title>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author">
          <string-name>Larisa Beliaeva</string-name>
          <xref ref-type="aff" rid="aff0">0</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Sergey Bogdanov</string-name>
          <xref ref-type="aff" rid="aff0">0</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>T. Горностай</string-name>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Tatiana Gornostay</string-name>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Saint Petersburg</string-name>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Russian Federation</string-name>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Tilde Company</string-name>
          <email>gornostaja@tilde.com</email>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Latvia</string-name>
        </contrib>
        <aff id="aff0">
          <label>0</label>
          <institution>Herzen State Pedagogical University of Russia</institution>
        </aff>
      </contrib-group>
      <abstract>
        <p>Modern state of technology and science is defined by the potential of industrial automation processes (Industry 4.0) and appropriate presentation of information on the project under development and implementation. This potential is still determined by methods and principles of engineering linguistics. The paper considers the competences a linguist should have in this new situation and the necessity of special training courses.</p>
      </abstract>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>-</title>
      <p>Введение
Термин инженерная лингвистика был введен Раймондом Генриховичем
Пиотровским еще в середине 60-х годов прошлого века. Под инженерной лингвистикой им
понималось инженерное моделирование различных видов языковой компетенции –
лингвистические технологии, предполагающие компьютерную реализацию
разрабатываемых моделей. Подробное описание этой отрасли знаний и сути термина первым
опубликовал Александр Михайлович Кондратов [Кондратов 1966], блестящий
популяризатор науки, работу которого сам Р.Г. Пиотровский оценил очень высоко.
Теоретическое осмысление этого направления можно найти в монографии Раймонда
Генриховича [Пиотровский 1979]. В зарубежной лингвистике термину инженерная
лингвистикапо объему понятия практически соответствует термин language engineering.
Современные подходы к решению задач в этой области с одной стороны развивают
заложенные ранее принципы анализа и обработки текстов на естественном языке,
с другой – модифицируются на основе новых технологий и новых требований к
результатам создания и анализа текстов в различных гуманитарных и технических
системах.</p>
      <p>Лингвистические технологии, разрабатываемые в рамках инженерной
лингвистики, охватывали все направления исследования текстов, которые сам Р.Г.
Пиотровский объединял в своей концепции лингвистического автомата [Беляева,
Пиотровский 2012]. И в этой концепции можно выделить два основных направления:
вероятностное моделирование и исследование возможностей его применения для
решения различных задач автоматической переработки текста, и разработку
лингвистических технологий, эту переработку обеспечивающих. Сегодня оба эти
направления приобрели особую важность для решения задач, относящихся к прикладной
филологии в целом.
2
Основные направления инженерной лингвистики
в системе современных технологий
Лингвистические технологии, разрабатываемые в рамках инженерной лингвистики,
охватывали все направления исследования текстов, которые сам Р.Г. Пиотровский
объединял в своей концепции лингвистического автомата [Беляева, Пиотровский
2012]. В этой концепции можно выделить два основных направления:
вероятностное моделирование и исследование возможностей его применения
для решения различных задач автоматической переработки текста,
разработку лингвистических технологий, эту переработку обеспечивающих.
Сегодня оба эти направления приобрели особую важность для решения задач,
относящихся к прикладной филологии в целом.</p>
      <p>Если рассматривать проблемы вероятностного моделирования, то сегодня
появление современных вычислительных систем, мощность которых, как известно,
каждый год удваивается, особым образом повлияло на развитие инженерной лингвистики
в области применения вероятностных и статистических подходов. Применение
современных компьютеров и столь же современной периферии определило возможность
вычисления сложных оценок поведения слова в тексте с очень большой скоростью, а
также реальность сохранения огромных лингвистических данных (Big Data). Этим
во многом определяется новые подходы к смысловому анализу текста (sentiment
analysis) на основе таких моделей поведения отдельных слов и пар слов в тексте
как латентное размещение Дирихле (Latent Дирихле Allocation – LDA ), модель фон
Мизеса-Фишера (von-Mises Fisher – vMF ), дискриминативная вероятностная модель
(Discriminative Probabilistic Model – DPM ) и др. [He et al. 2009]. В то же время следует
учитывать, что большинство применяемых вероятностных оценок и статистических
метрик по сути являются эвристиками, их адекватный выбор требует не только
математического, но и лингвистического осмысления и обоснования. Так, например,
переход от представления документа или слова как точки в пространстве (вероятно,
текстов) к векторному представлению требует дополнительного рассмотрения (ср.,
например [Морозова 2013]) и лингвистического доказательства.</p>
      <p>Если говорить о современном развитии лингвистических технологий, то следует
учитывать, что сегодня развитие науки и техники во многом определяется степенью
внедрения информационных технологий при реализации новых научных проектов
и/или при разработке и внедрении конкретной научной и/или технической
продукции. Недавно введенный термин Промышленность 4.0 (Industry 4.0 ) относится к
современному подходу к автоматизации и обмену информацией в промышленном
производстве [Gollner 2016]. Особенностью этого подхода является достижение
максимальной гибкости производственных процессов за счет передачи оборудованию все
большего числа распределенных вычислений и независимых решений, принимаемых
на основе цифровой информации.</p>
      <p>Естественно, что уровень реализации принципов и методов Промышленности
4.0 зависит от того, насколько стандартизированы методы создания, обмена и
использования информации о разрабатываемом проекте, производстве, об
эксплуатации конкретного технического устройства и о материальном обеспечении. Подобная
информация создается в виде текстов на естественном языке – технической
документации на всех этапах реализации проектов, от Технического Задания до рекламного
проспекта, от инструкции по эксплуатации до руководств пользователя. От качества
этих документов, создаваемых на исходном естественном языке и затем
переводимых на все языки распространения продукции, зависит возможность применения
высоких уровней автоматизации при их интерпретации и публикации. В контексте
Промышленности 4.0 определяются следующие важные характеристик Информации
4.0:</p>
      <p>- молекулярность – нет отдельных документов, формируются
информационные молекулы, которые в дальнейшем могут соединяться в тексты в зависимости от
контекста и целей использования,</p>
      <p>- динамичность – непрерывность обновления и модификации молекул
информации и текстов в целом,</p>
      <p>- свобода выбора пользователем – информация предлагается, а не
поставляется вместе с продуктом,</p>
      <p>- глобальность – возможность доступа к информации через Интернет из любой
точки мира, интерактивная, доступная и удобная для поиска,</p>
      <p>- спонтанность – возможность свободного определения в зависимости от
контекста, цели и ситуации использования,</p>
      <p>- профилированность – автоматизация создания текстов определенной
структуры и лексического состава [Gallon, 2016].</p>
      <p>Следовательно, информация, представленная на естественном языке (как
правило, на языке контролируемом) в виде научной и/или технической документации,
должна быть подготовлена для использования в различных ситуациях, должна быть
сформулирована так, чтобы обеспечить возможность ее динамичного
приспособления к различным сценариям производства, эксплуатации и материального
обеспечения. Информация должна быть структурирована и сформирована так, чтобы ею
можно было обмениваться на любых этапах реализации проекта. Именно здесь и
возникает необходимость использования методов инженерной лингвистики в ее
сегодняшнем представлении.</p>
      <p>Сама структура доступа к информации и способы ее использования с новыми
интерфейсами и революционными подходами к информации, далеко ушедшими от
традиционного представления текста, активно меняется. Современные средства
работы с информацией (toolkits) должны в будущем объединить:</p>
      <p>самодокументирующие устройства (self-documented devices), позволяющие
извлекать из текста и формировать прогностические и контекстные указания,
дополненную реальность (Augmented Reality), уже имеющуюся на планшетах
и мобильных устройствах,</p>
      <p>встроенные инструментальные средства типа очков с искусственным
интеллектом (smart glasses).</p>
      <p>Особое значение обмен информацией и данными приобретает в рамках так
называемого Интернета вещей (Internet of Things - IoT), при организации которого
происходит обмен не просто информацией об объектах, а самими объектами.
Лингвистические и технологические проблемы, связанные с новыми формами и методами
представления информации, обсуждались на очередной конференции tcworld,
происходившей в 2016 г. в Штутгарте. В рамках этой конференции рассматривались
проблемы выбора инструментальных средств и подходов к новым технологиям, включая
разработку новых учебных программ, позволяющих подготовить переводчика,
способного решать новые задачи работы с информацией на естественном языке.</p>
      <p>Таким образом, для активного развития науки и техники необходима
информация, фиксируемая в текстах технической документации, которая может
сопутствовать всему жизненному циклу научной и/или технической продукции и
использоваться самыми разными способами. Такая информация, способная на
поддержку киберфизических систем Промышленности 4.0, называется Информацией 4.0
(Information 4.0) и создается с помощью специализированных систем создания
текстов с опорой на информационные технологии. Сегодня наиболее активно
используемой и столь же активно обсуждаемой специализированной системой является DITA
(Darwin Information Typing Architecture), базовая спецификация которой
определяет набор типов документов, предназначенных для создания документов авторами
и организации тематически-ориентированной информации, а также и набор
механизмов для объединения, распространения и ограничения типов документов [DITA
Forum 2016]. Система скачивается бесплатно и позволяет решать различные задачи
по созданию и форматированию текстовых документов.</p>
      <p>В основе представления научной и технической документации в рамках подхода
Информация 4.0 лежит понятие авторской разработки структурированного контента
(structured content authoring ), которая состоит в разбивке содержания на небольшие
части, называемые тематическими разделами (topics ), которые впоследствии
собираются с помощью карт (maps) для того, чтобы создать окончательный вариант
контента. Этот подход отличается от общепринятого варианта создания
неструктурированных документов с использованием инструментальных средств подготовки
текстов. Инструментальные средства разрабатывались и применялись для того, чтобы
оптимизировать продуцирование и поддержание больших массивов текстовых
документов на основе систем, которые позволяют создавать тексты параллельно, избегая
дублирования контента за счет повторяющихся тематических разделов. Тем самым
облегчается модификация текстов, связанная с разработкой новых версий изделия,
уменьшаются расходы на услуги переводчиков и т.д.</p>
      <p>В основе нового подхода лежит анализ продуктивности (productivist approach ),
при котором степень детализации конкретных тематических разделов определяется
задачами создания научной и технической документации и потенциально отделена от
самого содержания, т.е. от тех тем, которые реально обсуждаются в тексте [Lacroix
2016].
3
Подготовка современных специалистов в области
работы с информацией
Специалистам, работающим с новыми формами представления информации,
соответствует английский термин language worker, который можно приблизительно
перевести как специалист в области переработки текстов [Беляева 2016]. Такой
термин используется как объединяющая номинация для терминологов, переводчиков,
для всех тех, кто создает техническую документацию (технических писателей –
technical authors, technical writers), специалистов по передаче технической
информации (technical communicators), компьютерных лингвистов и т.д.</p>
      <p>Сегодня и обработка текста на естественном языке, а также научный и особенно
технический перевод включены в единый технологический процесс, осуществляемый
по заранее определенным правилам, в соответствии с графиком выполнения
работы и международными стандартами. Уровень развития лингвистических технологий
определяет необходимость уточнения места и функций технического перевода и
самого технического переводчика в особой технологической цепочке, включающей
использование систем машинного перевода, комплекса автоматизированных словарей,
предметно ориентированного корпуса текстов, комплекса прикладных программ
[Беляева 2016].</p>
      <p>Поскольку умение перевести специальный текст вырабатывается тогда, когда
человек способен создать этот текст на родном языке, то профессиональные
переводчики, терминологи, технические писатели должны обладать базовыми
компетенциями в области создания специальных текстов на родных и иностранных языках,
а также в области их перевода и обработки. В качестве такой обработки может
рассматриваться извлечение информации, а также создание вторичных текстов любого
типа и назначения.</p>
      <p>Выполнение всех этих видов работ требует от специалистов в области обработки
текстов</p>
      <p>1) знания типологии специальных и технических текстов на родном (русском)
языке и иностранных языках, их различий и особенностей;</p>
      <p>2) умения создавать все типы специальных текстов на родном языке и
иностранном языке;
3) умения переводить тексты с учетом различий в требованиях к специальным
текстам в различных культурах.</p>
      <p>К сожалению, в нашей стране специалистов в области разработки технической
документации не готовят. Необходимые сегодня специалисты должны обладать
рядом стандартных компетенций в области планирования своей работы, создания
специального текста, учитывая такие требования как ясность, краткость, простота
выбираемых выражений, использование корректной терминологии, активного залога,
полных синтаксических конструкций, отказ от использования синонимических
терминов; анализа и редактирования получаемого результата.</p>
      <p>Однако Информация 4.0 требует и совершенно новых компетенций, к которым
в рамках инженерной лингвистики относятся:</p>
      <p>способность собирать, анализировать и отбирать подходящую информацию,
чтобы разрабатывать информационный продукт,</p>
      <p>способность выбирать стратегию разработки продукта для того, чтобы
создавать соответствующие информационные продукты для различных целей и
потребителей,</p>
      <p>способность гарантировать, что информация является извлекаемой и
доступной, представляет связную ментальную модель и согласуется по продуктам и средам
умение выбирать аппаратные средства и программное обеспечение,
достаточное понимание предметных областей, которые являются
релевантными для специалистов по распространению технической информации (информатика,
машиностроение, физика и т.д.), чтобы быть способными сотрудничать с экспертами
в предметной области,
знание основных принципов и методов терминоведения,
способность формировать ресурсные и лексикографические базы данных и
корпуса текстов для решения профессиональных задач [ср. Meex, Karreman 2016].</p>
      <p>Две последние компетенции относятся к работе с терминологией, поскольку в
новой информационной среде технический писатель, менеджер по продукции и
терминолог выявляют новую терминологию, которая появляется по мере разработки
продукции, в результате ее сертификации и документирования. При этом
учитываются все виды документации: описания и спецификации, руководства пользователя
и отчеты, пользовательские интерфейсы, сообщения об ошибках и системные
сообщения и т.п., а также создаются словари, использование которых является
обязательным.
4</p>
      <p>Выводы
К сожалению, приходится констатировать, что подготовка технических писателей
далека от требований, которые предъявляются к ним новыми формами
представления информации и работы с ней. Все сказанное выше позволяет утверждать
необходимость введения специальной подготовки специалистов в области переработки
текстов, определяющей развитие специальных профессиональных компетенций в
работе с Информацией 4.0 и использования специальных информационных технологий
создания технической документации. Кроме того, следует подчеркнуть, что
современные специалисты должны учитывать принятое ¾разделение труда¿,
заключающееся в том, что, например, терминолог, переводчик и специалист по рекламе имеют
различный функционал, но все они должны уметь работать в команде.
Использование лингвистических технологий и конкретных систем подготовки
информации давно стало элементом профессиональной работы переводчика и
терминолога, а для специалиста - средством извлечения знаний из текста. Грамотное
использование ресурсов лингвистических технологий: электронных баз данных и
знаний, систем машинного перевода, тезаурусов, онтологий, систем проверки
орфографии, систем доступа к информации по различным сетям передачи данных давно
вошло в реальный обиход специалистов в различных областях знаний. Современный
специалист работает сегодня в высокотехнологичной среде и имеет возможность
выбора удобной для него конкретной информационной системы. Поэтому собственную
ресурсную базу любой профессионал должен научиться компоновать из различных
систем обработки информации, уметь подбирать автоматизированные словари в
соответствии со своими запросами и сферой деятельности, знать их ограничения и
возможности, знать, какие лексикографические источники отсутствуют в электронном
формате. И специалист, и терминолог, и переводчик должны хорошо представлять
себе ресурсы Интернета и требования, предъявляемые сегодня к тому, что
называется Информация 4.0.</p>
      <p>
        Таким образом, можно утверждать, что с развитием компьютерной техники и
технологий ее использования инженерная лингвистика как метод работы с текстом
на естественном языке обретает новое и важное звучание.
Список литературы
[Beliaeva 2015] Beliaeva, L.N. Lingvisticheskie tekhnologii v sovremennom setevom
prostranstve: language worker v industrii lokalizacii [Linguistic technologies in modern
network space: language worker in localization industry]. Sankt Peterburg: Knizhnyj
dom, 2016. – 134 s. (In Russian) = Беляева Л.Н. Лингвистические технологии
в современном сетевом пространстве: language worker в индустрии локализации.
СПб.: Книжный дом, 2016. – 134 с.
[Belyaeva, Piotrovskij 2012] Belyaeva L.N., Piotrovskij R.G. (2012) Inzhenernaya
lingvistika v Gercenovskom universitete: teoriya inzhenerno-lingvisticheskih
issledovanij i praktika razrabotki informacionnyh system [Language Engineering
in Herzen University: theory of Language Engineering research and informational
systems building practice] // Nauchnoe mnenie, [Scientific opinion] № 9. SPb.
S.37-45 (In Russian) = Беляева Л.Н., Пиотровский Р.Г. Инженерная лингвистика
в Герценовском университете: теория инженерно-лингвистических исследований
и практика разработки информационных систем // Научное мнение, № 9. СПб,
2012. С. 37-45
[DITTA FORUM 2016] DITA Forum // Towards a European Competence Framework
// tekom-Jahrestagungund tcworld conference in Stuttgart. Zusammenfassungen der
Referate – Stuttgart: tcworld GmbHVerantwortlich, 2016. Pp. 51-61
[He et al. 2013] He Q., Chang K., Lim E., Banerjee A. (
        <xref ref-type="bibr" rid="ref6">2013</xref>
        ) Keep It Simple with Time:
A Re-examination of Probabilistic Topic Detection Models. Retrieved 01.10.2017 from
http://wwwusers.cs.umn.edu/ banerjee/papers/09/pami-TD t.pdf
      </p>
    </sec>
  </body>
  <back>
    <ref-list>
      <ref id="ref1">
        <mixed-citation>
          <source>[Gallon 2016] Gallon R. Information</source>
          <volume>4</volume>
          .0, the Next Steps //Towards a European Competence Framework // tekom-Jahrestagungund tcworld conference in Stuttgart.
          <source>Zusammenfassungen der Referate . Stuttgart: tcworld GmbHVerantwortlich</source>
          ,
          <year>2016</year>
          . Pp.
          <volume>95</volume>
          -
          <fpage>97</fpage>
        </mixed-citation>
      </ref>
      <ref id="ref2">
        <mixed-citation>
          [Gollner et al.
          <source>2016] Gollner J. Information 4.0 for Industry 4</source>
          .0 // Towards a European Competence Framework // tekom-Jahrestagungund tcworld conference in Stuttgart.
          <source>Zusammenfassungen der Referate - Stuttgart: tcworld GmbHVerantwortlich</source>
          ,
          <year>2016</year>
          . Pp.
          <volume>93</volume>
          -
          <fpage>94</fpage>
        </mixed-citation>
      </ref>
      <ref id="ref3">
        <mixed-citation>
          [Kondratov 1966]
          <article-title>Kondratov A.M. Zvuki i znaki</article-title>
          .
          <source>[Sounds and Symbols] M.: Znanie</source>
          ,
          <year>1966</year>
          .
          <article-title>- 207 s. (In Russian) = Кондратов А</article-title>
          .М.
          <article-title>Звуки и знаки</article-title>
          .
          <source>М.: Знание</source>
          ,
          <year>1966</year>
          . -
          <fpage>207</fpage>
          с.
        </mixed-citation>
      </ref>
      <ref id="ref4">
        <mixed-citation>
          [Lacroix et al. 2016]
          <article-title>Lacroix F. Writing for the 21st Century // Towards a European Competence Framework // tekom-Jahrestagungund tcworld conference in Stuttgart</article-title>
          .
          <source>Zusammenfassungen der Referate - Stuttgart: tcworld GmbHVerantwortlich</source>
          ,
          <year>2016</year>
          . Pр.
          <volume>102</volume>
          -
          <fpage>106</fpage>
        </mixed-citation>
      </ref>
      <ref id="ref5">
        <mixed-citation>
          [Meex et al. 2016
          <string-name>
            <surname>] Meex</surname>
            <given-names>B.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Karreman</surname>
            <given-names>J.</given-names>
          </string-name>
          <string-name>
            <surname>TecCOMFrame</surname>
          </string-name>
          . Towards a European Competence Framework // Towards a European Competence Framework // tekomJahrestagungund tcworld conference in Stuttgart.
          <source>Zusammenfassungen der Referate - Stuttgart: tcworld GmbHVerantwortlich</source>
          ,
          <year>2016</year>
          . Pp.
          <volume>486</volume>
          -
          <fpage>489</fpage>
        </mixed-citation>
      </ref>
      <ref id="ref6">
        <mixed-citation>
          [Morozova 2013]
          <string-name>
            <given-names>Morozova</given-names>
            <surname>Yu</surname>
          </string-name>
          .I.
          <article-title>Postroenie semanticheskih vektornyh prostranstv razlichnyh predmetnyh oblastej [Building semantic vectorspace for different subject fields] // Informatika i ee primenenie [Informatics and</article-title>
          its application],
          <year>2013</year>
          . Vol.
          <volume>7</volume>
          , Issue 1. S.
          <volume>90</volume>
          -
          <fpage>93</fpage>
          (In Russian) =
          <article-title>Морозова Ю</article-title>
          .И.
          <article-title>Построение семантических век- торных пространств различных предметных областей // Информатика и ее при-</article-title>
          менение,
          <year>2013</year>
          . Т. 7,
          <issue>Вып</issue>
          . 1. C.
          <volume>90</volume>
          -
          <fpage>93</fpage>
        </mixed-citation>
      </ref>
      <ref id="ref7">
        <mixed-citation>
          [Piotrovskij 1979]
          <string-name>
            <surname>Piotrovskij</surname>
            <given-names>R.G.</given-names>
          </string-name>
          <article-title>Inzhenernaya lingvistika i teoriya yazyka . [Language Engineering</article-title>
          and Language Theory]. L.:
          <string-name>
            <surname>Nauka</surname>
          </string-name>
          ,
          <year>1979</year>
          .
          <article-title>- 112 s. (In Russian) = Пио- тровский Р</article-title>
          .Г.
          <article-title>Инженерная лингвистика и теория языка</article-title>
          .
          <source>Л.:Наука</source>
          ,
          <year>1979</year>
          . -
          <fpage>112</fpage>
          с.
        </mixed-citation>
      </ref>
    </ref-list>
  </back>
</article>