Инженерная лингвистика в контексте современной “Информации 4.0” Language Engineering in the Framework of Modern “Information 4.0” Л.Н. Беляева1 С.И. Богданов1 T. Горностай2 Larisa Beliaeva1 Sergey Bogdanov1 Tatiana Gornostay2 lauranbel@gmail.com rector@herzen.spb.ru gornostaja@tilde.com 1 Российский государственный педагогический университет им. А. И. Герцена, Санкт-Петербург, Российская Федерация 2 Тилде, Рига, Латвия 1 Herzen State Pedagogical University of Russia, Saint Petersburg, Russian Federation 2 Tilde Company, Riga, Latvia Abstract Modern state of technology and science is defined by the potential of industrial automation processes (Industry 4.0) and appropriate presentation of information on the project under development and implementation. This potential is still deter- mined by methods and principles of engineering linguistics. The paper considers the competences a linguist should have in this new situation and the necessity of special training courses. Keywords: Language engineering, language technologies, Information 4.0, com- petences Аннотация Современное состояние технологии и науки определяются потенциалом про- цессов автоматизации в промышленности (Промышленность 4.0) и соответству- ющими способами представления информации к разрабатываемым проектам (Информация 4.0). Этот потенциал по-прежнему определяется принципами и методами инженерной лингвистики. В статье рассматриваются компетенции лингвиста в этой новой ситуации и специфика разработки специальных учебных курсов. Ключевые слова:Инженерная лингвистика, лингвистические техноло- гии, Информация 4.0, компетенции специалиста 1 1 Введение Термин инженерная лингвистика был введен Раймондом Генриховичем Пиотров- ским еще в середине 60-х годов прошлого века. Под инженерной лингвистикой им понималось инженерное моделирование различных видов языковой компетенции – лингвистические технологии, предполагающие компьютерную реализацию разраба- тываемых моделей. Подробное описание этой отрасли знаний и сути термина первым опубликовал Александр Михайлович Кондратов [Кондратов 1966], блестящий попу- ляризатор науки, работу которого сам Р.Г. Пиотровский оценил очень высоко. Теоре- тическое осмысление этого направления можно найти в монографии Раймонда Ген- риховича [Пиотровский 1979]. В зарубежной лингвистике термину инженерная линг- вистикапо объему понятия практически соответствует термин language engineering. Современные подходы к решению задач в этой области с одной стороны развивают заложенные ранее принципы анализа и обработки текстов на естественном языке, с другой – модифицируются на основе новых технологий и новых требований к ре- зультатам создания и анализа текстов в различных гуманитарных и технических системах. Лингвистические технологии, разрабатываемые в рамках инженерной лингви- стики, охватывали все направления исследования текстов, которые сам Р.Г. Пио- тровский объединял в своей концепции лингвистического автомата [Беляева, Пио- тровский 2012]. И в этой концепции можно выделить два основных направления: вероятностное моделирование и исследование возможностей его применения для ре- шения различных задач автоматической переработки текста, и разработку лингви- стических технологий, эту переработку обеспечивающих. Сегодня оба эти направ- ления приобрели особую важность для решения задач, относящихся к прикладной филологии в целом. 2 Основные направления инженерной лингвистики в системе современных технологий Лингвистические технологии, разрабатываемые в рамках инженерной лингвистики, охватывали все направления исследования текстов, которые сам Р.Г. Пиотровский объединял в своей концепции лингвистического автомата [Беляева, Пиотровский 2012]. В этой концепции можно выделить два основных направления: • вероятностное моделирование и исследование возможностей его применения для решения различных задач автоматической переработки текста, • разработку лингвистических технологий, эту переработку обеспечивающих. Сегодня оба эти направления приобрели особую важность для решения задач, относящихся к прикладной филологии в целом. Если рассматривать проблемы вероятностного моделирования, то сегодня появ- ление современных вычислительных систем, мощность которых, как известно, каж- дый год удваивается, особым образом повлияло на развитие инженерной лингвистики в области применения вероятностных и статистических подходов. Применение совре- менных компьютеров и столь же современной периферии определило возможность вычисления сложных оценок поведения слова в тексте с очень большой скоростью, а также реальность сохранения огромных лингвистических данных (Big Data). Этим 2 во многом определяется новые подходы к смысловому анализу текста (sentiment analysis) на основе таких моделей поведения отдельных слов и пар слов в тексте как латентное размещение Дирихле (Latent Дирихле Allocation – LDA ), модель фон Мизеса-Фишера (von-Mises Fisher – vMF ), дискриминативная вероятностная модель (Discriminative Probabilistic Model – DPM ) и др. [He et al. 2009]. В то же время следует учитывать, что большинство применяемых вероятностных оценок и статистических метрик по сути являются эвристиками, их адекватный выбор требует не только ма- тематического, но и лингвистического осмысления и обоснования. Так, например, переход от представления документа или слова как точки в пространстве (вероятно, текстов) к векторному представлению требует дополнительного рассмотрения (ср., например [Морозова 2013]) и лингвистического доказательства. Если говорить о современном развитии лингвистических технологий, то следует учитывать, что сегодня развитие науки и техники во многом определяется степенью внедрения информационных технологий при реализации новых научных проектов и/или при разработке и внедрении конкретной научной и/или технической продук- ции. Недавно введенный термин Промышленность 4.0 (Industry 4.0 ) относится к современному подходу к автоматизации и обмену информацией в промышленном производстве [Gollner 2016]. Особенностью этого подхода является достижение мак- симальной гибкости производственных процессов за счет передачи оборудованию все большего числа распределенных вычислений и независимых решений, принимаемых на основе цифровой информации. Естественно, что уровень реализации принципов и методов Промышленности 4.0 зависит от того, насколько стандартизированы методы создания, обмена и ис- пользования информации о разрабатываемом проекте, производстве, об эксплуата- ции конкретного технического устройства и о материальном обеспечении. Подобная информация создается в виде текстов на естественном языке – технической докумен- тации на всех этапах реализации проектов, от Технического Задания до рекламного проспекта, от инструкции по эксплуатации до руководств пользователя. От качества этих документов, создаваемых на исходном естественном языке и затем переводи- мых на все языки распространения продукции, зависит возможность применения высоких уровней автоматизации при их интерпретации и публикации. В контексте Промышленности 4.0 определяются следующие важные характеристик Информации 4.0: - молекулярность – нет отдельных документов, формируются информацион- ные молекулы, которые в дальнейшем могут соединяться в тексты в зависимости от контекста и целей использования, - динамичность – непрерывность обновления и модификации молекул инфор- мации и текстов в целом, - свобода выбора пользователем – информация предлагается, а не постав- ляется вместе с продуктом, - глобальность – возможность доступа к информации через Интернет из любой точки мира, интерактивная, доступная и удобная для поиска, - спонтанность – возможность свободного определения в зависимости от кон- текста, цели и ситуации использования, - профилированность – автоматизация создания текстов определенной струк- туры и лексического состава [Gallon, 2016]. Следовательно, информация, представленная на естественном языке (как пра- 3 вило, на языке контролируемом) в виде научной и/или технической документации, должна быть подготовлена для использования в различных ситуациях, должна быть сформулирована так, чтобы обеспечить возможность ее динамичного приспособле- ния к различным сценариям производства, эксплуатации и материального обеспе- чения. Информация должна быть структурирована и сформирована так, чтобы ею можно было обмениваться на любых этапах реализации проекта. Именно здесь и возникает необходимость использования методов инженерной лингвистики в ее сего- дняшнем представлении. Сама структура доступа к информации и способы ее использования с новыми интерфейсами и революционными подходами к информации, далеко ушедшими от традиционного представления текста, активно меняется. Современные средства ра- боты с информацией (toolkits) должны в будущем объединить: • самодокументирующие устройства (self-documented devices), позволяющие из- влекать из текста и формировать прогностические и контекстные указания, • дополненную реальность (Augmented Reality), уже имеющуюся на планшетах и мобильных устройствах, • встроенные инструментальные средства типа очков с искусственным интел- лектом (smart glasses). Особое значение обмен информацией и данными приобретает в рамках так на- зываемого Интернета вещей (Internet of Things - IoT), при организации которого происходит обмен не просто информацией об объектах, а самими объектами. Линг- вистические и технологические проблемы, связанные с новыми формами и методами представления информации, обсуждались на очередной конференции tcworld, проис- ходившей в 2016 г. в Штутгарте. В рамках этой конференции рассматривались про- блемы выбора инструментальных средств и подходов к новым технологиям, включая разработку новых учебных программ, позволяющих подготовить переводчика, спо- собного решать новые задачи работы с информацией на естественном языке. Таким образом, для активного развития науки и техники необходима инфор- мация, фиксируемая в текстах технической документации, которая может сопут- ствовать всему жизненному циклу научной и/или технической продукции и ис- пользоваться самыми разными способами. Такая информация, способная на под- держку киберфизических систем Промышленности 4.0, называется Информацией 4.0 (Information 4.0) и создается с помощью специализированных систем создания тек- стов с опорой на информационные технологии. Сегодня наиболее активно использу- емой и столь же активно обсуждаемой специализированной системой является DITA (Darwin Information Typing Architecture), базовая спецификация которой определя- ет набор типов документов, предназначенных для создания документов авторами и организации тематически-ориентированной информации, а также и набор меха- низмов для объединения, распространения и ограничения типов документов [DITA Forum 2016]. Система скачивается бесплатно и позволяет решать различные задачи по созданию и форматированию текстовых документов. В основе представления научной и технической документации в рамках подхода Информация 4.0 лежит понятие авторской разработки структурированного контента (structured content authoring ), которая состоит в разбивке содержания на небольшие части, называемые тематическими разделами (topics ), которые впоследствии со- бираются с помощью карт (maps) для того, чтобы создать окончательный вариант контента. Этот подход отличается от общепринятого варианта создания неструктури- 4 рованных документов с использованием инструментальных средств подготовки тек- стов. Инструментальные средства разрабатывались и применялись для того, чтобы оптимизировать продуцирование и поддержание больших массивов текстовых доку- ментов на основе систем, которые позволяют создавать тексты параллельно, избегая дублирования контента за счет повторяющихся тематических разделов. Тем самым облегчается модификация текстов, связанная с разработкой новых версий изделия, уменьшаются расходы на услуги переводчиков и т.д. В основе нового подхода лежит анализ продуктивности (productivist approach ), при котором степень детализации конкретных тематических разделов определяется задачами создания научной и технической документации и потенциально отделена от самого содержания, т.е. от тех тем, которые реально обсуждаются в тексте [Lacroix 2016]. 3 Подготовка современных специалистов в области работы с информацией Специалистам, работающим с новыми формами представления информации, соот- ветствует английский термин language worker, который можно приблизительно пе- ревести как специалист в области переработки текстов [Беляева 2016]. Такой тер- мин используется как объединяющая номинация для терминологов, переводчиков, для всех тех, кто создает техническую документацию (технических писателей – technical authors, technical writers), специалистов по передаче технической инфор- мации (technical communicators), компьютерных лингвистов и т.д. Сегодня и обработка текста на естественном языке, а также научный и особенно технический перевод включены в единый технологический процесс, осуществляемый по заранее определенным правилам, в соответствии с графиком выполнения рабо- ты и международными стандартами. Уровень развития лингвистических технологий определяет необходимость уточнения места и функций технического перевода и са- мого технического переводчика в особой технологической цепочке, включающей ис- пользование систем машинного перевода, комплекса автоматизированных словарей, предметно ориентированного корпуса текстов, комплекса прикладных программ [Бе- ляева 2016]. Поскольку умение перевести специальный текст вырабатывается тогда, когда человек способен создать этот текст на родном языке, то профессиональные пере- водчики, терминологи, технические писатели должны обладать базовыми компетен- циями в области создания специальных текстов на родных и иностранных языках, а также в области их перевода и обработки. В качестве такой обработки может рас- сматриваться извлечение информации, а также создание вторичных текстов любого типа и назначения. Выполнение всех этих видов работ требует от специалистов в области обработки текстов 1) знания типологии специальных и технических текстов на родном (русском) языке и иностранных языках, их различий и особенностей; 2) умения создавать все типы специальных текстов на родном языке и иностран- ном языке; 3) умения переводить тексты с учетом различий в требованиях к специальным 5 текстам в различных культурах. К сожалению, в нашей стране специалистов в области разработки технической документации не готовят. Необходимые сегодня специалисты должны обладать ря- дом стандартных компетенций в области планирования своей работы, создания спе- циального текста, учитывая такие требования как ясность, краткость, простота вы- бираемых выражений, использование корректной терминологии, активного залога, полных синтаксических конструкций, отказ от использования синонимических тер- минов; анализа и редактирования получаемого результата. Однако Информация 4.0 требует и совершенно новых компетенций, к которым в рамках инженерной лингвистики относятся: • способность собирать, анализировать и отбирать подходящую информацию, чтобы разрабатывать информационный продукт, • способность выбирать стратегию разработки продукта для того, чтобы созда- вать соответствующие информационные продукты для различных целей и потреби- телей, • способность гарантировать, что информация является извлекаемой и доступ- ной, представляет связную ментальную модель и согласуется по продуктам и средам • умение выбирать аппаратные средства и программное обеспечение, • достаточное понимание предметных областей, которые являются релевантны- ми для специалистов по распространению технической информации (информатика, машиностроение, физика и т.д.), чтобы быть способными сотрудничать с экспертами в предметной области, • знание основных принципов и методов терминоведения, • способность формировать ресурсные и лексикографические базы данных и корпуса текстов для решения профессиональных задач [ср. Meex, Karreman 2016]. Две последние компетенции относятся к работе с терминологией, поскольку в новой информационной среде технический писатель, менеджер по продукции и тер- минолог выявляют новую терминологию, которая появляется по мере разработки продукции, в результате ее сертификации и документирования. При этом учитыва- ются все виды документации: описания и спецификации, руководства пользователя и отчеты, пользовательские интерфейсы, сообщения об ошибках и системные сооб- щения и т.п., а также создаются словари, использование которых является обяза- тельным. 4 Выводы К сожалению, приходится констатировать, что подготовка технических писателей далека от требований, которые предъявляются к ним новыми формами представле- ния информации и работы с ней. Все сказанное выше позволяет утверждать необ- ходимость введения специальной подготовки специалистов в области переработки текстов, определяющей развитие специальных профессиональных компетенций в ра- боте с Информацией 4.0 и использования специальных информационных технологий создания технической документации. Кроме того, следует подчеркнуть, что совре- менные специалисты должны учитывать принятое «разделение труда», заключаю- щееся в том, что, например, терминолог, переводчик и специалист по рекламе имеют различный функционал, но все они должны уметь работать в команде. 6 Использование лингвистических технологий и конкретных систем подготовки информации давно стало элементом профессиональной работы переводчика и тер- минолога, а для специалиста - средством извлечения знаний из текста. Грамотное использование ресурсов лингвистических технологий: электронных баз данных и зна- ний, систем машинного перевода, тезаурусов, онтологий, систем проверки орфогра- фии, систем доступа к информации по различным сетям передачи данных давно вошло в реальный обиход специалистов в различных областях знаний. Современный специалист работает сегодня в высокотехнологичной среде и имеет возможность вы- бора удобной для него конкретной информационной системы. Поэтому собственную ресурсную базу любой профессионал должен научиться компоновать из различных систем обработки информации, уметь подбирать автоматизированные словари в со- ответствии со своими запросами и сферой деятельности, знать их ограничения и воз- можности, знать, какие лексикографические источники отсутствуют в электронном формате. И специалист, и терминолог, и переводчик должны хорошо представлять себе ресурсы Интернета и требования, предъявляемые сегодня к тому, что называ- ется Информация 4.0. Таким образом, можно утверждать, что с развитием компьютерной техники и технологий ее использования инженерная лингвистика как метод работы с текстом на естественном языке обретает новое и важное звучание. Список литературы [Beliaeva 2015] Beliaeva, L.N. Lingvisticheskie tekhnologii v sovremennom setevom prostranstve: language worker v industrii lokalizacii [Linguistic technologies in modern network space: language worker in localization industry]. Sankt Peterburg: Knizhnyj dom, 2016. – 134 s. (In Russian) = Беляева Л.Н. Лингвистические технологии в современном сетевом пространстве: language worker в индустрии локализации. СПб.: Книжный дом, 2016. – 134 с. [Belyaeva, Piotrovskij 2012] Belyaeva L.N., Piotrovskij R.G. (2012) Inzhenernaya lingvistika v Gercenovskom universitete: teoriya inzhenerno-lingvisticheskih issledovanij i praktika razrabotki informacionnyh system [Language Engineering in Herzen University: theory of Language Engineering research and informational systems building practice] // Nauchnoe mnenie, [Scientific opinion] № 9. SPb. S.37-45 (In Russian) = Беляева Л.Н., Пиотровский Р.Г. Инженерная лингвистика в Герценовском университете: теория инженерно-лингвистических исследований и практика разработки информационных систем // Научное мнение, № 9. СПб, 2012. С. 37-45 [DITTA FORUM 2016] DITA Forum // Towards a European Competence Framework // tekom-Jahrestagungund tcworld conference in Stuttgart. Zusammenfassungen der Referate – Stuttgart: tcworld GmbHVerantwortlich, 2016. Pp. 51-61 [He et al. 2013] He Q., Chang K., Lim E., Banerjee A. (2013) Keep It Simple with Time: A Re-examination of Probabilistic Topic Detection Models. Retrieved 01.10.2017 from http://wwwusers.cs.umn.edu/ banerjee/papers/09/pami-TD t.pdf 7 [Gallon 2016] Gallon R. Information 4.0, the Next Steps //Towards a European Competence Framework // tekom-Jahrestagungund tcworld conference in Stuttgart. Zusammenfassungen der Referate . Stuttgart: tcworld GmbHVerantwortlich, 2016. Pp. 95-97 [Gollner et al. 2016] Gollner J. Information 4.0 for Industry 4.0 // Towards a European Competence Framework // tekom-Jahrestagungund tcworld conference in Stuttgart. Zusammenfassungen der Referate – Stuttgart: tcworld GmbHVerantwortlich, 2016. Pp. 93-94 [Kondratov 1966] Kondratov A.M. Zvuki i znaki. [Sounds and Symbols] M.: Znanie, 1966. – 207 s. (In Russian) = Кондратов А.М. Звуки и знаки. М.: Знание, 1966. – 207 с. [Lacroix et al. 2016] Lacroix F. Writing for the 21st Century // Towards a European Competence Framework // tekom-Jahrestagungund tcworld conference in Stuttgart. Zusammenfassungen der Referate – Stuttgart: tcworld GmbHVerantwortlich, 2016. Pр. 102-106 [Meex et al. 2016] Meex B., Karreman J. TecCOMFrame. Towards a European Competence Framework // Towards a European Competence Framework // tekom- Jahrestagungund tcworld conference in Stuttgart. Zusammenfassungen der Referate – Stuttgart: tcworld GmbHVerantwortlich, 2016. Pp. 486-489 [Morozova 2013] Morozova Yu.I. Postroenie semanticheskih vektornyh prostranstv razlichnyh predmetnyh oblastej [Building semantic vectorspace for different subject fields] // Informatika i ee primenenie [Informatics and its application], 2013. Vol. 7, Issue 1. S. 90-93 (In Russian) = Морозова Ю.И. Построение семантических век- торных пространств различных предметных областей // Информатика и ее при- менение, 2013. Т. 7, Вып. 1. C. 90-93 [Piotrovskij 1979] Piotrovskij R.G. Inzhenernaya lingvistika i teoriya yazyka . [Language Engineering and Language Theory]. L.: Nauka, 1979. – 112 s. (In Russian) = Пио- тровский Р.Г. Инженерная лингвистика и теория языка. Л.:Наука, 1979. – 112 с. 8