Formal Model of Explanatory Trilingual Terminology Dictionary Alona Dorozhynska Ukrainian Lingua-Information Fund of NAS of Ukraine,3, Holosiivskyi avenue, Kyiv, 03039, Ukraine Abstract The object of research is the academic trilingual (Ukrainian-Russian-English) "Dictionary of Ukrainian biological terminology" (SUBT) [1]. This dictionary is an authoritative terminographic work that embraces the normative general scientific and widely used and narrowly specialized terminology of biological sciences, recorded in encyclopedic, general language and special dictionaries, in scientific, popular science, educational and informative literature. The dictionary is published in small editions in traditional paper form; it is very popular among users - scientists, graduate students and students of biological specialties. The digital version of the dictionary in pdf-format was used in the research. The research process included the construction of a formal model of the lexicographic system of SUBT, the analysis of which provides an opportunity to generalize it to other terminological dictionaries. The developed model of the lexicographic system of SUBT was used to create a representation of the text of the Dictionary by means of XML markup language, which was used to convert the pdf-file of SUBT into XML-file, which completely reproduces the formal structure of the lexicographic system. The presence of an XML file allows you to build a database according to the structure of the dictionary article. The XML file is proposed to be used as an intermediary between the paper version of the dictionary and its implementation as an online lexicographic system. The possibility of building a formal model for dictionaries of this type is considered. Keywords 1 Computer lexicography, lexicographic system, parsing, XML, database, digital space, website. 1. Introduction As you know, the dictionary consists of dictionary articles, is a certain set of them. If the dictionary is built according to the canons of lexicographic science, then it has a certain structure to which all its dictionary articles are subject. Usually the structure of dictionary articles is described in the preface to the dictionary. But between different dictionary entries of the same dictionary there are many connections, relations, reflections, which reflect the content of the subject area that is the object of lexicography, and these relations are usually implicit. However, they are very important for users and those who want to use the dictionary to conduct their own research and create new dictionaries. Partially mentioned structural vocabulary effects are described in the works [2, 4, 6]. General theory of dictionary structures - the theory of lexicographic systems was created by V. A. Shirokov in the 90s of last century; The most complete presentation of this theory and its applications is published in the seven-volume edition "Linguistic and Information Studies", which is available for free on the website of the Ukrainian Linguistic Portal at https://www.ulif.org.ua/publication. In our work we will follow the principles of this theory. It is important to distinguish between the most formal model and the XML scheme (coding scheme). That is, it is necessary to consider the form and content of lexical information in the abstract, regardless of the requirements and restrictions imposed on its final presentation as a coded or printed object [7, 8]. This process is important, because dictionaries can be coded not only for the purposes of publication in COLINS-2021: 5th International Conference on Computational Linguistics and Intelligent Systems, April 22–23, 2021, Kharkiv, Ukraine EMAIL: alonochkatkachyk@gmail.com (A.Dorozhynska) ORCID: 0000-0001-6554-6731 (A.Dorozhynska) ©️ 2021 Copyright for this paper by its authors. Use permitted under Creative Commons License Attribution 4.0 International (CC BY 4.0). CEUR Workshop Proceedings (CEUR-WS.org) printed (book) or electronic form (website), but also to create computational lexicons. Therefore, it is very important to develop a model that can later be transformed into a variety of alternative formats [3]. In this paper, we outline the following stages: 1. Lexicographic system (L-system) development of dictionary structure 2. Marking the text of the Dictionary with XML tags according to the structure of its L-system (XML document) Using the examples of dictionary articles of the selected dictionary, we will demonstrate how the XML schema can be applied to any dictionary article. Due to its generality, we believe that our model can serve as a basis for presenting, combining and extracting information not only from dictionaries of the same type, but also from a wide range of terminological dictionaries [5]. 2. The steps 2.1. Lexicographic system development of Dictionary of Ukrainian biological terminology (SUBT) We introduce the notation: АВ it will mean, that А  В. Then, following the theory of lexicographic systems [ 2 ], the structure of the L-system of SUBT is presented in the form: СС L(T) C(T) ЗТ_У ТБi СМБi ТК_Уl ТК_Рm ТК_Аn БТj БПz Т_У ГРДУ ГРПУ НО ММУ Т_Р СРР ГРДР ГРПР ММР Т_А СРА ГРДА ГРПА ММА НТ ТЛ СРТ БТСk СИНn САНТ САТv МП ТБСЛp БТСЛw ТКС_Уq ТКС_Рr ТКС_Аs ТЛC НТЛС СН МС ТС_У ГРСДУ ГРСПУ ММУ ТС_Р ММР ТС_А ММА Figure 1. General scheme of the dictionary article of the SUBT In scheme 1, the structural elements mean the following: CС — dictionary article text ТСК_Уq — terminological complex of ЗТ_У — the title term is Ukrainian phrases ukr. ТБі — terminological block ТС_У — terminological phrase in the ТК_Уl — terminol. complex ukr. Ukrainian language ГРСДУ — grammatical remark to the phrase Т_У — the term is Ukrainian ГРСПУ — grammatical remark after the ГРДУ— grammatical remark to the term phrase ГРПУ — grammatical remark after the term ММУ — language marker (ukr) НО — homonym number ТСК_Рr — terminological complex of words. ММУ — language marker (ukr) Rus. ТК_Рm — terminol. complex of rus. ТС_Р — terminological phrase in Russian Т_Р — the term is Russian ММР — language marker (in Russian) ГРДР — grammatical remark to the term ТСК_Аs — terminological complex of ГРПР— grammatical remark after the term phrases in English. ММР — language marker (rus) ТС_А — terminological phrase in English СРР — semantic trailer ММА — language market ТК_Аn — terminol. English complex БТСЛp — block of interpretations of Т_А — English term phrases ГРДА — grammatical remark to the term ТЛС — interpretation ГРПА — grammatical remark after the term НТС — phrase interpretation number ММА — language marker СИНt — synonymous block СРА — semantic trailer СН — synonym СМБі — semantic block МС — synonym marker (Син.) БТj — interpretation block БПz — link block НТ — interpretation number САНТ — sender ТЛ — interpretation САТv — recipient (can be several) CPТ — semantic trailer to tl. МП — link token (див.) БТСk — block of terminological phrases ТБСЛp — terminological block of phrases Lexical information in dictionary articles can be represented in the form of a tree structure, which largely reflects the natural hierarchical organization of entries in printed dictionaries. Consider the examples in the notation of the scheme: Example 1. вy#са, -ів, мн., одн. вус, -а (рос. усы#, ед. ус., англ. whisker (у тварин), tendril (у рослин), moustache (у людини), antenna (у комах)) 1. Загальна назва розміщених біля рота чутливих волосин (вібрисів) у ссавців та щетинкоподібного пір’я у птахів, деякі дотикові утвори у безхребетних тварин; 2. Надземні виткі прикріплювальні пагони у рослин. Marking Representation in the SS ТБ вy#са, -ів, мн., одн. вус, -а (рос. усы#, ед. ус., англ. whisker (у тварин), tendril (у рослин), moustache (у людини), antenna (у комах)) ЗТ вy#са ТК_У 1 вy#са, -ів, мн. ММУ укр. Т_У вy#са ГРПУ -ів, мн., ТК_У2 одн. вус, -а ММУ укр. Т_У вус ГРДУ одн. ГРПУ -а ТК_Р 1 рос. усы# ММР рос. ТР усы# ТК_Р 2 ед. ус ММР рос. Т_Р ус ГРДР ед. ТК_А 1 англ. whisker (у тварин) ММА англ. ТА whisker СРА у тварин ТК_А 2 tendril (у рослин) ММА англ. ТА tendril СРА у рослин ТК_А 3 moustache (у людини) ММА англ. ТА moustache СРА у людини ТК_А 4 antenna (у комах) ММА англ. ТА antenna СРА у комах СБ 1. Загальна назва розміщених біля рота чутливих волосин (вібрисів) у ссавців та щетинкоподібного пір’я у птахів, деякі дотикові утвори у безхребетних тварин; 2. Надземні виткі прикріплювальні пагони у рослин. БТ1 1. Загальна назва розміщених біля рота чутливих волосин (вібрисів) у ссавців та щетинкоподібного пір’я у птахів, деякі дотикові утвори у безхребетних тварин НТ 1 ТЛ Загальна назва розміщених біля рота чутливих волосин (вібрисів) у ссавців та щетинкоподібного пір’я у птахів, деякі дотикові утвори у безхребетних тварин БТ2 2. Надземні виткі прикріплювальні пагони у рослин. НТ 2 ТЛ Надземні виткі прикріплювальні пагони у рослин. In the example, there is only one terminology block and one semantic block, respectively. It was found that in dictionary articles there are as many terminological blocks as semantic ones and vice versa. There are two Ukrainian complexes in the terminological block. Presented as: вy#са, -ів, мн.; одн. вус, -а. In the semantic block there can be some interpretations in an example of them two are found: 1. Загальна назва розміщених біля рота чутливих волосин (вібрисів) у ссавців та щетинкоподібного пір’я у птахів, деякі дотикові утвори у безхребетних тварин; 2. Надземні виткі прикріплювальні пагони у рослин. Example 2. новонаро#джений 1. прикм. (рос. новорождённый, англ. neonatus, neonate) який недавно або тільки що народився; 2. ім., -ого (рос. новорождённый, англ. newborn, infant) людина, яка недавно народилася. Marking Representation in the SS ТБ1 новонаро#джений 1. прикм. (рос. новорождённый, англ. neonatus, neonate) ЗТ новонаро#джений ТК_У новонаро#джений 1. прикм. ММУ укр. Т_У новонаро#джений ГРПУ прикм. ТК_Р рос. новорождённый ММР рос. ТР новорождённый ТК_А англ. neonatus ММА англ. ТА neonatus СБ1 1. який недавно або тільки що народився; БТ1 1. який недавно або тільки що народився; НТ 1 ТЛ який недавно або тільки що народився; ТБ2 ім., -ого (рос. новорождённый, англ. newborn, infant) ТК_У новонаро#джений ім., -ого ММУ укр. Т_У новонаро#джений ГРПУ ім., -ого ТК_Р рос. новорождённый Т_Р новорождённый ММР рос. ТК_А1 англ. newborn Т_А newborn ММА англ. ТК_А2 infant Т_А infant ММА англ. СБ2 2. людина, яка недавно народилася. БТ2 2. людина, яка недавно народилася. НТ 2. ТЛ людина, яка недавно народилася. The example reveals two terminological blocks and two semantic ones, respectively. The first terminological block is complete, it consists of Ukrainian, Russian and English complexes. The second block is cut. The terminological block Ukrainian in both complexes has a common Ukrainian term, which is the title word. Semantic blocks, respectively, consist only of interpretations. Example 3. ацидофi#льний (рос. ацидофи#льный, англ. acidophilic) 1. Який має здатність забарвлюватися кислими барвниками; ацидофi#льні органi#зми див. органi#зм: органi#зми ацидофi#льні. Син. кислотолю#бний; 2. Який росте тільки в кислому середовищі. Marking Representation in the SS ТБ ацидофi#льний (рос. ацидофи#льный, англ. acidophilic) ЗТ ацидофi#льний ТК_У ацидофi#льний ММУ укр. Т_У ацидофi#льний ТК_Р рос. ацидофи#льный ММР рос. ТР ацидофи#льный ТК_А англ. acidophilic ММА англ. ТА acidophilic СБ 1. Який має здатність забарвлюватися кислими барвниками; ацидофi#льні органi#зми див. органi#зм: органi#зми ацидофi#льні. Син. кислотолю#бний; 2. Який росте тільки в кислому середовищі. БТ1 1. Який має здатність забарвлюватися кислими барвниками; НТ 1 ТЛ Який має здатність забарвлюватися кислими барвниками; БТ2 2. Який росте тільки в кислому середовищі. НТ 2 ТЛ Який росте тільки в кислому середовищі. СИН Син. кислотолю#бний СН кислотолю#бний МС Син. БП ацидофi#льні органi#зми див. органi#зм: органi#зми ацидофi#льні. САНТ ацидофi#льні органi#зми САТ органi#зм МП див. The semantic block can be filled with blocks of terminological phrases, synonyms, blocks of references. Terminological blocks can be several, they can be presented in one or two complexes. The examples illustrate some variants of the structure in the notation of the scheme. 2.2. Marking the text of the Dictionary with XML tags according to the structure of its L-system (XML document) The next stage is the automatic conversion of the lexicographic structure of the dictionary into an XML document. However, it is obvious that the XML file explains and stores all the structural elements we have identified and the relationships between them. This is done using a special software procedure developed by us to automatically mark the text of the dictionary. The marking algorithm is developed based on polygraphic features of text identification of structural elements of the L-system (boundaries of the dictionary article (paragraphs), special symbols, positional characteristics, changes of language, fonts, case of letters, etc.). XML dictionary article schema (SS) Словникова стаття <ЗТУ>заголовний термін український <ТБ номер=p> Термінологічний блок <ТК_У номер=i> український термінологічний комплекс <ТУ> Термін український <НО> Номер омоніма <ГР> Граматична ремарка <ММУ> укр. <ТК_Р номер= j> російський термінологічний комплекс <ТР> Російський термін <СР> Семантична ремарка <ГР> Граматична ремарка <ММР> рос. <ТК_А номер=k> англійський термінологічний комплекс <ТА> Термін англійський <СР> Семантична ремарка <ГР> Граматична ремарка <ММА> англ. <СМБ номер=p> <БТ номер=m> Блок тлумачення <ТЛ> Тлумачення <СРT> Семантична ремарка <СИН номер=n> Синонімічний блок <ТУ> термін <ТСУ> термін <МС> Син. <БТС номер=l> Блок термінологічних словосполучень <ТБс номер =t> Термінологічний блок словосполучення <ТКС_У номер =f> Український термінологічний комплекс словосполучення <ТСУ> Термологічне словосполучення <ГРС> Граматична ремарка <ММУ> Маркер мови <ТКС_Р номер =g> Російський термінологічний комплекс словосполучення <ТСР> Термологічне словосполучення <ГРС> Граматична ремарка <ММР> Маркер мови <ТКС_А номер =h> Англійський термінологічний комплекс словосполучення <ТСР> Термологічне словосполучення <ГРС> Граматична ремарка <ММА> Маркер мови <БТсл номер =v> Блок тлумачення словосполучення <ТЛс> Тлумачення до словосполучення <БП> Блок посилань According to the scheme, all dictionary articles were marked. Consider the labeling by example 1,2. Example 1 СС> <текст_СС> вy#са, -ів, мн., одн. вус, -а (рос. усы#, ед. ус., англ. whisker (у тварин), tendril (у рослин), moustache (у людини), antenna (у комах)) 1. Загальна назва розміщених біля рота чутливих волосин (вібрисів) у ссавців та щетинкоподібного пір’я у птахів, деякі дотикові утвори у безхребетних тварин; 2. Надземні виткі прикріплювальні пагони у рослин. <текст_СС> <ТБ> <текст_ТБ> вy#са, -ів, мн., одн. вус, -а (рос. усы#, ед. ус., англ. whisker (у тварин), tendril (у рослин), moustache (у людини), antenna (у комах)) <ТК номер='1'_У> <Т_У> вy#са <ГРПУ> -ів, мн. <ММУ> укр. <ТК номер='2'_У> <Т_У> вyс <ГРПУ> -а <ГРДУ> одн. <ММУ> укр. <ТК номер='1'_Р> <Т_Р> усы# <ММР> рос. <ТК номер='2'_Р> <Т_Р> ус <ГРДР> ед. <ММР> рос. <ТК номер='1'_А> <Т_А> whisker <СР> у тварин <ТК номер='2'_А> <Т_А> tendril <СР> у рослин <ММА> англ. <ТК номер='3'_А> <Т_А> moustache <СР> у людини <ММА> англ. <ТК номер='4'_А> <Т_А> antenna <СР> у комах <ММА> англ. <СМБ> <БТ номер='1'> <ТЛ> Загальна назва розміщених біля рота чутливих волосин (вібрисів) у ссавців та щетинкоподібного пір’я у птахів, деякі дотикові утвори у безхребетних тварин; <БТ номер='2'> <ТЛ> Надземні виткі прикріплювальні пагони у рослин. Example 2 <СС> <текст_СС> новонаро#джений 1. прикм. (рос. новорождённый, англ. neonatus, neonate) який недавно або тільки що народився; 2. ім., -ого (рос. новорождённый, англ. newborn, infant) людина, яка недавно народилася. <ЗТ> новонаро#джений <ТБ номер='1'> <тест_ТБ> новонаро#джений 1. прикм. (рос. новорождённый, англ. neonatus, neonate) <ТК_У номер='1'> <Т_У> новонаро#джений <ГРПУ> прикм. <ММУ> укр. <ТК_Р номер='1'> <ТР> новорождённый <ММР> рос. <ТК_А номер='1' > <Т_А> neonatus <ММА> англ. <ТК_А номер='2' > <Т_А> neonate <ММА> англ. <ТБ номер='2'> <тест_ТБ> 2. ім., -ого (рос. новорождённый, англ. newborn, infant) <ТК_У номер='1'> <Т__У> новонаро#джений <ГРПУ> ім. <ГРПУ> -ого <ММУ> укр. <ТК номер='1'_Р> <Т_Р> новорождённый <ММР> рос. <ТК_А номер='1'> <Т_А> newborn <ММА> англ. <ТК_А номер='2'> <Т_А> infant <ММА> англ. <СМБ номер='1'> <БТ номер='1'> <НТ>1 <ТЛ> який недавно або тільки що народився; <СМБ номер='2'> <БТ номер='2'> <НТ>2 <ТЛ> людина, яка недавно народилася. The transition to an XML document is due to the need to define author tag sets and attribute names. Document XML structures can also be nested, providing any level of hierarchy, as long as the rules for embedding XML documents are followed. XML documents can contain any optional grammar descriptions of the document so that other programs can check its structure. The XML representation of the dictionary obtained in this way makes it possible to form its lexicographic database in automatic mode. This stage will be considered in a separate paper. 3. Discussion After going through a number of stages, we have achieved many benefits: 1. In the digital world, dictionaries will be given new life as they are presented in a modern way. 2. Working with the content showed many errors that the program highlighted. 3. Іn the future proper XML will help implement the right search engine on site. 4. Any changes that will need to be made to the site can be made through a modern editing system. 4. Conclusion Although there are still questions, it has been demonstrated that it is possible to digitize a paper dictionary and save it in XML and on the Internet. The key is to use standard components that can be reused in other projects and have simple data formats that are easy to edit with free tools 5. References [1] D. M. Grodzinsky, L. O. Simonenko and other. Ukrainian biological terminology Dictionary. – К.: КММ, 2012. – 746 p. [2] V. A. Shyrokov Computer lexicography: Monograph / Palagin O.V.; Ukrainian Lingua- Information Fund – Kyiv. : Nauk. dumka, 2011. – 351 p. [3] V. А. Shyrokov etc. Linguistic and information studies: works of the Ukrainian Language and Information Fund NAS of Ukraine: у 5 V. V. 1 : Scientific paradigm and basic language and information structures. Kyiv. Ukrainian Lingua-Information Fund of NAS of Ukraine. 2018. 271 p. URL: https://movoznavstvo.org.ua/files/tom_1_B5_print.pdf. doi: 10.33190/978-966- 02-8683-2/8684-9. [4] V. А. Shyrokov etc. Linguistic and information studies: works of the Ukrainian Language and Information Fund NAS of Ukraine: in 5 V. V. 2 : Grammar systems. Kyiv. Ukrainian Lingua- Information Fund of NAS of Ukraine. 2018. 300 p. [5] V. А. Shyrokov etc. Linguistic and information studies: works of the Ukrainian Language and Information Fund NAS of Ukraine: in 5 V. V. 5 : Virtualization of linguistic technologies. Kyiv. Ukrainian Lingua-Information Fund of NAS of Ukraine. 2018. 239 p. URL: https://movoznavstvo.org.ua/files/Ling_inf_studio_TOM_5_umif_B5.pdf. doi: 10.33190 /978-966-02-8683-2/8690-0 [6] V. A. Shyrokov Grammatical systems: phenomenological approach / V. A. Shyrokov, Т. P. Lyubchenko, І. V. Shevchenko, К. V. Shyrokov. – К. : Nauk. dumka, 2018. – 310 p. [7] O. Karpova Lexicography and Terminology: A Worldwide Outlook / Olga Karpova, Faina Kartashkova. – Cambridge : Cambridge Scholars Publishing, 2009. – 205 p. [8] I. Kernerman A multilingual trilogy: Developing three multi-language lexicographic datasets. Electronic Lexicography in the 21st Century: Linking lexical data in the digital age. Proceedings of eLex 2015, 11-13 August 2015. – 372-383p. URL: https://elex.link/elex2015/