=Paper= {{Paper |id=Vol-2870/paper35 |storemode=property |title=Formal Model of Explanatory Trilingual Terminology Dictionary |pdfUrl=https://ceur-ws.org/Vol-2870/paper35.pdf |volume=Vol-2870 |authors=Alona Dorozhynska |dblpUrl=https://dblp.org/rec/conf/colins/Dorozhynska21 }} ==Formal Model of Explanatory Trilingual Terminology Dictionary== https://ceur-ws.org/Vol-2870/paper35.pdf
Formal Model of Explanatory Trilingual Terminology Dictionary

Alona Dorozhynska
     Ukrainian Lingua-Information Fund of NAS of Ukraine,3, Holosiivskyi avenue, Kyiv, 03039, Ukraine


          Abstract
              The object of research is the academic trilingual (Ukrainian-Russian-English) "Dictionary of
          Ukrainian biological terminology" (SUBT) [1]. This dictionary is an authoritative terminographic
          work that embraces the normative general scientific and widely used and narrowly specialized
          terminology of biological sciences, recorded in encyclopedic, general language and special
          dictionaries, in scientific, popular science, educational and informative literature. The dictionary is
          published in small editions in traditional paper form; it is very popular among users - scientists,
          graduate students and students of biological specialties.
              The digital version of the dictionary in pdf-format was used in the research. The research process
          included the construction of a formal model of the lexicographic system of SUBT, the analysis of
          which provides an opportunity to generalize it to other terminological dictionaries. The developed
          model of the lexicographic system of SUBT was used to create a representation of the text of the
          Dictionary by means of XML markup language, which was used to convert the pdf-file of SUBT
          into XML-file, which completely reproduces the formal structure of the lexicographic system.
              The presence of an XML file allows you to build a database according to the structure of the
          dictionary article. The XML file is proposed to be used as an intermediary between the paper version
          of the dictionary and its implementation as an online lexicographic system. The possibility of
          building a formal model for dictionaries of this type is considered.

          Keywords 1
          Computer lexicography, lexicographic system, parsing, XML, database, digital space, website.

1. Introduction

    As you know, the dictionary consists of dictionary articles, is a certain set of them. If the dictionary
is built according to the canons of lexicographic science, then it has a certain structure to which all its
dictionary articles are subject. Usually the structure of dictionary articles is described in the preface to
the dictionary. But between different dictionary entries of the same dictionary there are many
connections, relations, reflections, which reflect the content of the subject area that is the object of
lexicography, and these relations are usually implicit. However, they are very important for users and
those who want to use the dictionary to conduct their own research and create new dictionaries. Partially
mentioned structural vocabulary effects are described in the works [2, 4, 6]. General theory of dictionary
structures - the theory of lexicographic systems was created by V. A. Shirokov in the 90s of last century;
The most complete presentation of this theory and its applications is published in the seven-volume
edition "Linguistic and Information Studies", which is available for free on the website of the Ukrainian
Linguistic Portal at https://www.ulif.org.ua/publication. In our work we will follow the principles of
this theory.
    It is important to distinguish between the most formal model and the XML scheme (coding scheme).
That is, it is necessary to consider the form and content of lexical information in the abstract, regardless
of the requirements and restrictions imposed on its final presentation as a coded or printed object [7, 8].
This process is important, because dictionaries can be coded not only for the purposes of publication in


COLINS-2021: 5th International Conference on Computational Linguistics and Intelligent Systems, April 22–23, 2021, Kharkiv, Ukraine
EMAIL: alonochkatkachyk@gmail.com (A.Dorozhynska)
ORCID: 0000-0001-6554-6731 (A.Dorozhynska)
            ©️ 2021 Copyright for this paper by its authors.
            Use permitted under Creative Commons License Attribution 4.0 International (CC BY 4.0).
            CEUR Workshop Proceedings (CEUR-WS.org)
printed (book) or electronic form (website), but also to create computational lexicons. Therefore, it is
very important to develop a model that can later be transformed into a variety of alternative formats [3].
   In this paper, we outline the following stages:
   1. Lexicographic system (L-system) development of dictionary structure
   2. Marking the text of the Dictionary with XML tags according to the structure of its L-system (XML
document)
   Using the examples of dictionary articles of the selected dictionary, we will demonstrate how the
XML schema can be applied to any dictionary article. Due to its generality, we believe that our model
can serve as a basis for presenting, combining and extracting information not only from dictionaries of
the same type, but also from a wide range of terminological dictionaries [5].

2. The steps
2.1. Lexicographic system development of Dictionary of Ukrainian biological
   terminology (SUBT)
   We introduce the notation: АВ it will mean, that А  В. Then, following the theory of
lexicographic systems [ 2 ], the structure of the L-system of SUBT is presented in the form:

                                 СС

                L(T)                              C(T)

                ЗТ_У                      ТБi                      СМБi


                        ТК_Уl     ТК_Рm     ТК_Аn                       БТj              БПz



Т_У ГРДУ ГРПУ НО ММУ Т_Р СРР ГРДР ГРПР ММР Т_А СРА ГРДА ГРПА ММА НТ ТЛ СРТ БТСk СИНn        САНТ САТv МП

                                                                    ТБСЛp        БТСЛw




                                                         ТКС_Уq ТКС_Рr ТКС_Аs ТЛC НТЛС           СН МС



                                          ТС_У ГРСДУ ГРСПУ ММУ ТС_Р ММР ТС_А ММА


Figure 1. General scheme of the dictionary article of the SUBT
In scheme 1, the structural elements mean the
following:

   CС — dictionary article text                                ТСК_Уq — terminological complex of
   ЗТ_У — the title term is Ukrainian                          phrases ukr.
   ТБі — terminological block                                  ТС_У — terminological phrase in the
   ТК_Уl — terminol. complex ukr.                              Ukrainian language
                                                               ГРСДУ — grammatical remark to the phrase
   Т_У — the term is Ukrainian                                 ГРСПУ — grammatical remark after the
   ГРДУ— grammatical remark to the term                        phrase
   ГРПУ — grammatical remark after the term                    ММУ — language marker (ukr)
   НО — homonym number                                         ТСК_Рr — terminological complex of words.
   ММУ — language marker (ukr)                                 Rus.
   ТК_Рm — terminol. complex of rus.                           ТС_Р — terminological phrase in Russian
   Т_Р — the term is Russian                                   ММР — language marker (in Russian)
   ГРДР — grammatical remark to the term                       ТСК_Аs — terminological complex of
   ГРПР— grammatical remark after the term                     phrases in English.
   ММР — language marker (rus)                                 ТС_А — terminological phrase in English
   СРР — semantic trailer                                      ММА — language market
   ТК_Аn — terminol. English complex                           БТСЛp — block of interpretations of
   Т_А — English term                                          phrases
   ГРДА — grammatical remark to the term                       ТЛС — interpretation
   ГРПА — grammatical remark after the term                    НТС — phrase interpretation number
   ММА — language marker                                       СИНt — synonymous block
   СРА — semantic trailer                                      СН — synonym
   СМБі — semantic block                                       МС — synonym marker (Син.)
   БТj — interpretation block                                  БПz — link block
   НТ — interpretation number                                  САНТ — sender
   ТЛ — interpretation                                         САТv — recipient (can be several)
   CPТ — semantic trailer to tl.                               МП — link token (див.)
   БТСk — block of terminological phrases
   ТБСЛp — terminological block of phrases

    Lexical information in dictionary articles can be represented in the form of a tree structure, which largely
reflects the natural hierarchical organization of entries in printed dictionaries. Consider the examples in the
notation of the scheme:

   Example 1.

вy#са, -ів, мн., одн. вус, -а (рос. усы#, ед. ус., англ. whisker (у тварин), tendril (у рослин), moustache
(у людини), antenna (у комах)) 1. Загальна назва розміщених біля рота чутливих волосин (вібрисів) у
ссавців та щетинкоподібного пір’я у птахів, деякі дотикові утвори у безхребетних тварин; 2.
Надземні виткі прикріплювальні пагони у рослин.

 Marking               Representation in the SS
 ТБ                    вy#са, -ів, мн., одн. вус, -а (рос. усы#, ед. ус., англ. whisker (у тварин), tendril
                       (у рослин), moustache (у людини), antenna (у комах))
 ЗТ                    вy#са
 ТК_У 1                вy#са, -ів, мн.
ММУ                укр.
Т_У                вy#са
ГРПУ               -ів, мн.,
ТК_У2              одн. вус, -а
ММУ                укр.
Т_У                вус
ГРДУ               одн.
ГРПУ               -а
ТК_Р 1             рос. усы#
ММР                рос.
ТР                 усы#
ТК_Р 2             ед. ус
ММР                рос.
Т_Р                ус
ГРДР               ед.
ТК_А 1             англ. whisker (у тварин)
ММА                англ.
ТА                 whisker
СРА                у тварин
ТК_А 2             tendril (у рослин)
ММА                англ.
ТА                 tendril
СРА                у рослин
ТК_А 3             moustache (у людини)
ММА                англ.
ТА                 moustache
СРА                у людини
ТК_А 4             antenna (у комах)
ММА                англ.
ТА                 antenna
СРА                у комах
СБ                 1. Загальна назва розміщених біля рота чутливих волосин (вібрисів) у ссавців
                   та щетинкоподібного пір’я у птахів, деякі дотикові утвори у безхребетних
                   тварин; 2. Надземні виткі прикріплювальні пагони у рослин.
БТ1                1. Загальна назва розміщених біля рота чутливих волосин (вібрисів) у ссавців
                   та щетинкоподібного пір’я у птахів, деякі дотикові утвори у безхребетних
                   тварин
НТ                 1
ТЛ                 Загальна назва розміщених біля рота чутливих волосин (вібрисів) у ссавців та
                   щетинкоподібного пір’я у птахів, деякі дотикові утвори у безхребетних тварин
БТ2                2. Надземні виткі прикріплювальні пагони у рослин.
НТ                 2
ТЛ                 Надземні виткі прикріплювальні пагони у рослин.

 In the example, there is only one terminology block and one semantic block, respectively. It was found
that in dictionary articles there are as many terminological blocks as semantic ones and vice versa. There
are two Ukrainian complexes in the terminological block. Presented as: вy#са, -ів, мн.; одн. вус, -а. In
the semantic block there can be some interpretations in an example of them two are found:
1. Загальна назва розміщених біля рота чутливих волосин (вібрисів) у ссавців та щетинкоподібного
пір’я у птахів, деякі дотикові утвори у безхребетних тварин; 2. Надземні виткі прикріплювальні
пагони у рослин.
   Example 2.
новонаро#джений 1. прикм. (рос. новорождённый, англ. neonatus, neonate) який недавно або тільки
що народився; 2. ім., -ого (рос. новорождённый, англ. newborn, infant) людина, яка недавно
народилася.

Marking              Representation in the SS
ТБ1                  новонаро#джений 1. прикм. (рос. новорождённый, англ. neonatus, neonate)
ЗТ                   новонаро#джений
ТК_У                 новонаро#джений 1. прикм.
ММУ                  укр.
Т_У                  новонаро#джений
ГРПУ                 прикм.
ТК_Р                 рос. новорождённый
ММР                  рос.
ТР                   новорождённый
ТК_А                 англ. neonatus
ММА                  англ.
ТА                   neonatus
СБ1                  1. який недавно або тільки що народився;
БТ1                  1. який недавно або тільки що народився;
НТ                   1
ТЛ                   який недавно або тільки що народився;
ТБ2                  ім., -ого (рос. новорождённый, англ. newborn, infant)
ТК_У                 новонаро#джений ім., -ого
ММУ                  укр.
Т_У                  новонаро#джений
ГРПУ                 ім., -ого
ТК_Р                 рос. новорождённый
Т_Р                  новорождённый
ММР                  рос.
ТК_А1                англ. newborn
Т_А                  newborn
ММА                  англ.
ТК_А2                infant
Т_А                  infant
ММА                  англ.
СБ2                  2. людина, яка недавно народилася.
БТ2                  2. людина, яка недавно народилася.
НТ                   2.
ТЛ                   людина, яка недавно народилася.

    The example reveals two terminological blocks and two semantic ones, respectively. The first
terminological block is complete, it consists of Ukrainian, Russian and English complexes. The second
block is cut. The terminological block Ukrainian in both complexes has a common Ukrainian term, which
is the title word. Semantic blocks, respectively, consist only of interpretations.

   Example 3.
ацидофi#льний (рос. ацидофи#льный, англ. acidophilic) 1. Який має здатність забарвлюватися
кислими барвниками; ацидофi#льні органi#зми див. органi#зм: органi#зми ацидофi#льні. Син.
кислотолю#бний; 2. Який росте тільки в кислому середовищі.

  Marking            Representation in the SS
  ТБ                 ацидофi#льний (рос. ацидофи#льный, англ. acidophilic)
  ЗТ                 ацидофi#льний
  ТК_У               ацидофi#льний
  ММУ                укр.
  Т_У                ацидофi#льний
  ТК_Р               рос. ацидофи#льный
  ММР                рос.
  ТР                 ацидофи#льный
  ТК_А               англ. acidophilic
  ММА                англ.
  ТА                 acidophilic
  СБ                 1. Який має здатність забарвлюватися кислими барвниками; ацидофi#льні
                     органi#зми див. органi#зм: органi#зми ацидофi#льні. Син. кислотолю#бний;
                     2. Який росте тільки в кислому середовищі.
  БТ1                1. Який має здатність забарвлюватися кислими барвниками;
  НТ                 1
  ТЛ                 Який має здатність забарвлюватися кислими барвниками;
  БТ2                2. Який росте тільки в кислому середовищі.
  НТ                 2
  ТЛ                 Який росте тільки в кислому середовищі.
  СИН                Син. кислотолю#бний
  СН                 кислотолю#бний
  МС                 Син.
  БП                 ацидофi#льні органi#зми див. органi#зм: органi#зми ацидофi#льні.
  САНТ               ацидофi#льні органi#зми
  САТ                органi#зм
  МП                 див.

    The semantic block can be filled with blocks of terminological phrases, synonyms, blocks of references.
Terminological blocks can be several, they can be presented in one or two complexes. The examples
illustrate some variants of the structure in the notation of the scheme.
2.2. Marking the text of the Dictionary with XML tags according to the structure
of its L-system (XML document)
    The next stage is the automatic conversion of the lexicographic structure of the dictionary into an XML
document. However, it is obvious that the XML file explains and stores all the structural elements we have
identified and the relationships between them. This is done using a special software procedure developed
by us to automatically mark the text of the dictionary. The marking algorithm is developed based on
polygraphic features of text identification of structural elements of the L-system (boundaries of the
dictionary article (paragraphs), special symbols, positional characteristics, changes of language, fonts, case
of letters, etc.).

XML dictionary article schema (SS)

 Словникова стаття
             <ЗТУ>заголовний термін український
   <ТБ номер=p> Термінологічний блок
          <ТК_У номер=i> український термінологічний комплекс
             <ТУ> Термін український
             <НО> Номер омоніма
             <ГР> Граматична ремарка
             <ММУ> укр.
          
          <ТК_Р номер= j> російський термінологічний комплекс
             <ТР> Російський термін
             <СР> Семантична ремарка
             <ГР> Граматична ремарка
             <ММР> рос.
          
          <ТК_А номер=k> англійський термінологічний комплекс
             <ТА> Термін англійський
             <СР> Семантична ремарка
             <ГР> Граматична ремарка
             <ММА> англ.
          
   
   <СМБ номер=p>
       <БТ номер=m> Блок тлумачення
                  <ТЛ> Тлумачення 
                  <СРT> Семантична ремарка 
                  <СИН номер=n> Синонімічний блок
                            <ТУ> термін
                            <ТСУ> термін
                            <МС> Син.
                  
       
       <БТС номер=l> Блок термінологічних словосполучень
          <ТБс номер =t> Термінологічний блок словосполучення
                     <ТКС_У номер =f> Український термінологічний комплекс словосполучення
                               <ТСУ> Термологічне словосполучення
                               <ГРС> Граматична ремарка
                               <ММУ> Маркер мови
                            
                            <ТКС_Р номер =g> Російський термінологічний комплекс словосполучення
                               <ТСР> Термологічне словосполучення
                               <ГРС> Граматична ремарка
                               <ММР> Маркер мови
                            
                            <ТКС_А номер =h> Англійський термінологічний комплекс словосполучення
                               <ТСР> Термологічне словосполучення
                               <ГРС> Граматична ремарка
                               <ММА> Маркер мови
                            
           
           <БТсл номер =v> Блок тлумачення словосполучення
             <ТЛс> Тлумачення до словосполучення
           
          
          <БП> Блок посилань
       
   

      According to the scheme, all dictionary articles were marked. Consider the labeling by example 1,2.

  Example 1
СС> <текст_СС> вy#са, -ів, мн., одн. вус, -а (рос. усы#, ед. ус., англ. whisker (у тварин), tendril (у
  рослин), moustache (у людини), antenna (у комах)) 1. Загальна назва розміщених біля рота чутливих
  волосин (вібрисів) у ссавців та щетинкоподібного пір’я у птахів, деякі дотикові утвори у
  безхребетних тварин; 2. Надземні виткі прикріплювальні пагони у рослин. <текст_СС>

   <ТБ> <текст_ТБ> вy#са, -ів, мн., одн. вус, -а (рос. усы#, ед. ус., англ. whisker (у тварин), tendril (у
   рослин), moustache (у людини), antenna (у комах)) 
   <ТК номер='1'_У>
                  <Т_У> вy#са
                  <ГРПУ> -ів, мн. 
                  <ММУ> укр. 
   
   <ТК номер='2'_У>
                  <Т_У> вyс
                  <ГРПУ> -а
                  <ГРДУ> одн.
                  <ММУ> укр. 

   

   <ТК номер='1'_Р>
                 <Т_Р> усы#
                 <ММР> рос. 
  
  <ТК номер='2'_Р>
                <Т_Р> ус
                <ГРДР> ед.
                <ММР> рос. 
  
  <ТК номер='1'_А>
                <Т_А> whisker
                <СР> у тварин
  
  <ТК номер='2'_А>
                <Т_А> tendril
                <СР> у рослин
                <ММА> англ. 
  
  <ТК номер='3'_А>
                <Т_А> moustache
                <СР> у людини
                <ММА> англ. 
  
  <ТК номер='4'_А>
                <Т_А> antenna
                <СР> у комах
                <ММА> англ. 
  
  
  <СМБ>

  <БТ номер='1'>
                <ТЛ> Загальна назва розміщених біля рота чутливих волосин (вібрисів) у ссавців та
  щетинкоподібного пір’я у птахів, деякі дотикові утвори у безхребетних тварин; 
  
  <БТ номер='2'>
                <ТЛ> Надземні виткі прикріплювальні пагони у рослин.
  
  
  

  Example 2
<СС>
     <текст_СС> новонаро#джений 1. прикм. (рос. новорождённый, англ. neonatus, neonate) який
  недавно або тільки що народився; 2. ім., -ого (рос. новорождённый, англ. newborn, infant) людина,
  яка недавно народилася. 
  <ЗТ> новонаро#джений 
  <ТБ номер='1'>
  <тест_ТБ> новонаро#джений 1. прикм. (рос. новорождённый, англ. neonatus, neonate) 
                 <ТК_У номер='1'>
                       <Т_У> новонаро#джений 
                       <ГРПУ> прикм. 
                       <ММУ> укр. 
                  
                  <ТК_Р номер='1'>
                         <ТР> новорождённый 
                         <ММР> рос. 
                  
                  <ТК_А номер='1' >
                         <Т_А> neonatus 
                         <ММА> англ. 
                  
                  <ТК_А номер='2' >
                         <Т_А> neonate 
                         <ММА> англ. 
                  
   
   <ТБ номер='2'>
   <тест_ТБ> 2. ім., -ого (рос. новорождённый, англ. newborn, infant)
                  <ТК_У номер='1'>
                           <Т__У> новонаро#джений 
                           <ГРПУ> ім. 
                           <ГРПУ> -ого 
                           <ММУ> укр. 
                  
                  <ТК номер='1'_Р>
                           <Т_Р> новорождённый 
                           <ММР> рос. 
                  
                  <ТК_А номер='1'>
                           <Т_А> newborn 
                           <ММА> англ. 
                  
                  <ТК_А номер='2'>
                           <Т_А> infant 
                           <ММА> англ. 
                  
   
   <СМБ номер='1'>

   <БТ номер='1'>
                   <НТ>1
                   <ТЛ> який недавно або тільки що народився; 
   
   
   <СМБ номер='2'>
   <БТ номер='2'>
                   <НТ>2
                   <ТЛ> людина, яка недавно народилася. 
   
   

      The transition to an XML document is due to the need to define author tag sets and attribute names.
   Document XML structures can also be nested, providing any level of hierarchy, as long as the rules for
embedding XML documents are followed. XML documents can contain any optional grammar descriptions
of the document so that other programs can check its structure. The XML representation of the dictionary
obtained in this way makes it possible to form its lexicographic database in automatic mode. This stage will
be considered in a separate paper.
3. Discussion
   After going through a number of stages, we have achieved many benefits:
   1. In the digital world, dictionaries will be given new life as they are presented in a modern way.
   2. Working with the content showed many errors that the program highlighted.
   3. Іn the future proper XML will help implement the right search engine on site.
   4. Any changes that will need to be made to the site can be made through a modern editing system.
4. Conclusion
    Although there are still questions, it has been demonstrated that it is possible to digitize a paper
dictionary and save it in XML and on the Internet. The key is to use standard components that can be reused
in other projects and have simple data formats that are easy to edit with free tools

5. References

[1] D. M. Grodzinsky, L. O. Simonenko and other. Ukrainian biological terminology Dictionary.
    – К.: КММ, 2012. – 746 p.
[2] V. A. Shyrokov Computer lexicography: Monograph / Palagin O.V.; Ukrainian Lingua-
    Information Fund – Kyiv. : Nauk. dumka, 2011. – 351 p.
[3] V. А. Shyrokov etc. Linguistic and information studies: works of the Ukrainian Language and
    Information Fund NAS of Ukraine: у 5 V. V. 1 : Scientific paradigm and basic language and
    information structures. Kyiv. Ukrainian Lingua-Information Fund of NAS of Ukraine. 2018.
    271 p. URL: https://movoznavstvo.org.ua/files/tom_1_B5_print.pdf. doi: 10.33190/978-966-
    02-8683-2/8684-9.
[4] V. А. Shyrokov etc. Linguistic and information studies: works of the Ukrainian Language and
    Information Fund NAS of Ukraine: in 5 V. V. 2 : Grammar systems. Kyiv. Ukrainian Lingua-
    Information Fund of NAS of Ukraine. 2018. 300 p.
[5] V. А. Shyrokov etc. Linguistic and information studies: works of the Ukrainian Language and
    Information Fund NAS of Ukraine: in 5 V. V. 5 : Virtualization of linguistic technologies.
    Kyiv. Ukrainian Lingua-Information Fund of NAS of Ukraine. 2018. 239 p. URL:
    https://movoznavstvo.org.ua/files/Ling_inf_studio_TOM_5_umif_B5.pdf. doi: 10.33190
    /978-966-02-8683-2/8690-0
[6] V. A. Shyrokov Grammatical systems: phenomenological approach / V. A. Shyrokov,
    Т. P. Lyubchenko, І. V. Shevchenko, К. V. Shyrokov. – К. : Nauk. dumka, 2018. – 310 p.
[7] O. Karpova Lexicography and Terminology: A Worldwide Outlook / Olga Karpova, Faina
    Kartashkova. – Cambridge : Cambridge Scholars Publishing, 2009. – 205 p.
[8] I. Kernerman A multilingual trilogy: Developing three multi-language lexicographic datasets.
    Electronic Lexicography in the 21st Century: Linking lexical data in the digital age.
    Proceedings of eLex 2015, 11-13 August 2015. – 372-383p. URL: https://elex.link/elex2015/