<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta />
    <article-meta>
      <contrib-group>
        <aff id="aff0">
          <label>0</label>
          <institution>Bilgisayar Mühendisliği, Kocaeli Üniversitesi</institution>
          ,
          <addr-line>41380 İzmit</addr-line>
          ,
          <country country="TR">Türkiye</country>
        </aff>
      </contrib-group>
      <fpage>297</fpage>
      <lpage>303</lpage>
      <abstract>
        <p>Detection and correction of phonological retardation is important for the development of the negative effect of individuals on personality and integration into social life. Speakers in pronunciation disorders often misrepresent some sounds or groups of sounds, although they can normally speak. In this study, we implement a mobile application to determine the level of impairment of some isolated sounds (r, s-ş, z) and a number of listening exercises are proposed according to the level of the person's impairment (beginning, middle, advanced). At the end of the relevant stages, the sound will be taken again and the quality will be assessed according to the actual necessity, and if it is improved, it will be raised to the upper level (from the beginning to the middle level). Thus, it is aimed to provide the development of individuals with impaired pronunciation.</p>
      </abstract>
      <kwd-group>
        <kwd>Articulation disorders</kwd>
        <kwd>rotasizm</kwd>
        <kwd>sigmatism</kwd>
      </kwd-group>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>-</title>
      <p>
        Pronunciation Disorders
Artikülasyon   (telaffuz   etme),   nefesin   gırtlaktan   çıktıktan   sonra   yutak,   ağız   ve
burundan   oluşan   üçüncü   küme   organlarında   (dil,   diş,   damak,   dudak)   konuşma
dilimizin geleneksel seslerine dönüşüp biçimlenmesidir. Artikülasyon bozukluğu ise
bireyin   yaşına   ve   konuşma   gelişimi   dönemine   uygun   olarak   beklenen   şekilde   ana
dilinin bağımsız ya da bileşik seslerini doğru ve anlaşılır biçimde çıkaramaması ve
birbirine gereği gibi ulayamaması şeklindedir. Konuşma üretiminde birbirleri ile ilgili
dört süreç vardır [
        <xref ref-type="bibr" rid="ref1">1</xref>
        ]. Bunlar;




      </p>
      <p>Seslenim (Fonasyon): Vokal kasların titreşimi ile seslerin üretilmesidir.
Solunum (Respirasyon): Konuşma için motive edici gücü sağlar.</p>
      <p>Yankılama (Rezonasyon): Kişinin sesinin niteliğini etkileyen konuşma sesinin
farkında önemli rol oynayan bir süreçtir.</p>
      <p>Söyleme­Eklemleme   (Artikülasyon):   Bireysel   konuşma   seslerinin   dil,   çene,
dudaklar   ve   yumuşak   damağın   yardımıyla   ses   tonu   ve   nefes   akışının
çıkarılmasında üretilen ve bu yolla sesin yankılanmasını da içeren bir süreçtir. 
Konuşma   seslerinin   etkilenmesine   göre   her   artikülasyon   bozukluğuna   özel   bir
terim verilmiştir: a­Rotasizm (r sesi bozukluğu), b­Sigmatizm (s ve z sesi bozukluğu),
c­Gamatizm   (g   sesi   bozukluğu),   d­Kapasizm   (k   sesi   bozukluğu).   Artikülasyon
bozukluğu çocuklarda dört değişik türde görülebilmektedir. Sesin düşürülmesi veya
atlanması,   (omissions)   bir   sözcüğü   oluşturan   seslerin   tümü   çıkarılmadan   sözcüğün
söylenmeye   çalışılması   durumunda   ortaya   çıkmaktadır   (hayır­ayır   gibi).   Ses
eklenmesi (addittions) sözcükte olmayan başka seslerin eklenmesi durumunda ortaya
çıkmaktadır   (Recep­irecep).   Sesin   değiştirilmesi   (substitülions),   sözcük   içinde
çıkarılması   güç   gelen   bir   sesin   çıkarılması   kolay   gelen   bir   sesle   değiştirilmesi
durumunda   ortaya   çıkar.   Değiştirmeler   bazen   sözcüğün   başındaki   seste,   bazen   de
ortasındaki   seslerde   olur.   Bazen   değiştirmeler,   sözcük   içindeki   seslerin   yerleri
değiştirilerek   de   yapılabilir   (Süleyman­Sümeylan,   yüzük­yüsük   gibi).   Sesin
bozulması (disturtions), bu üç duruma uymayan durumlar da olabilir. Burada sözcük
oluşturulurken   esas   çıkarılması   gereken   ses,   olduğundan   başka   ses   çıkarılarak
konuşulur. Bu da konuşmayı engelli hale getirir (Karagöz­Kaxgöz­Kağagöz gibi). Biz
bu   çalışmada   sesin   değiştirilmesi   durumuyla   ilgileneceğiz.   Konuşmanın
anlaşılmasının zorluğu artikülasyon bozukluğunun derecesi ile ilgilidir.</p>
      <p>
        Yukarıda   bahsi   geçen   bozukların   birtakım   farklı   nedenleri   olabilir:   Yapısal
(organik)   nedenler   konuşma   organlarındaki   özellikle   üçüncü   küme   organlarındaki
(dudak, diş, damak, dil vs.) bir ya da birkaç organik bozukluktan ötürü artikülasyon
bozukluğu   olabilir.   İşitme   engelli   ya   da   işitme   duyarlılığındaki   yetersizlik
artikülasyonu olumsuz yönde etkilemektedir. Evde konuşulan dil, çocuğun konuşma
şevkinin   kırılması,   konuşmanın   engellenmesi,   konuşmayı   pekiştirmeye   olanak
vermeyen ortam artikülasyon bozukluğuna neden olan etmenlerdir. Bazı durumlarda
konuşma bozuklukları duygusal  çatışmaya bağlı olarak gelişebilir. Sonuç olarak ne
sebeple olursa olsun artikülasyon engeli türleri (düşürme, ekleme, değiştirme, bozma)
erken yaşlarda saptanmalı ve artikülasyon derecesine göre önlemler alınmalıdır [
        <xref ref-type="bibr" rid="ref2">2</xref>
        ].
      </p>
      <p>
        Bu   güne   kadar   konuşmacı   ve   ses   tanıma   üzerine   pek   çok   çalışma   yapılmış   ve
günümüzde artık çok başarılı sonuçlar elde edilmektedir. Son yıllarda Türkçe sesler
üzerine yapılan   çalışmalarda belirgin  bir  artış görülmektedir.  Yörüklü ve  Koçal  [
        <xref ref-type="bibr" rid="ref4">4</xref>
        ]
Türkçe   Sesli   harflerin   SOM   (Self   Organizing   Maps­   Kendi   Kendini   Düzenleyen
Haritalar)   modellenmesi   yaptıktan   sonra   konuşmacı   ve   sesli   harf   sınıflandırmaları
incelenmiştir.   Çalışmada,   ses   ve   konuşmacı   tanıma   işlemlerinin   genelde
periyodiğimsi   bir   yapı   sergileyen   sesli   harfler   üzerinde   çalışılarak   yapıldığı
düşünülerek sesli harfleri baz almışlardır. Inge ve arkadaşları [
        <xref ref-type="bibr" rid="ref5">5</xref>
        ] da rotasizm üzerine
bir   çalışma   yapmışlardır.   Mel­süzgeci   (Mel­cepstrum)   katsayısını   özellik   çıkarma
metodu, kNN’ni de sınıflandırıcı olarak kullanmışlardır.  
      </p>
      <p>Bu çalışmanın geri kalanı şu şekilde organize edilmiştir. İkinci bölümde rotasizm
ve sigmatizmin derecesinin saptanması ve iyileştirilmesine yönelik geliştirilen mimari
açıklanmıştır.   Üçüncü   bölümde   geliştirilen   mobil   uygulamaya   ait   arayüzler
verilmiştir.   Son   kısımda   ise   gerçekleştirilen   birtakım   testler   ve   analizler   verilip
sonuçlar değerlendirilecek ve gelecek çalışmalardan bahsedilmiştir.</p>
    </sec>
    <sec id="sec-2">
      <title>2   Harf Çıkış Bozuklarını Saptama ve İyileştirme Mimarisi</title>
      <p>Bazı seslere ait  artikülasyon  bozukluklarının tespiti ve işlemi için önerilen sistemin
bileşenlerine   ilişkin   detaylı   açıklama   ve   önerilen   sistemde   kullanılacak   materyaller
takip eden alt bölümlerde verilmiştir.
2.1 Konuşma Örneklerinden Oluşan Veri Setinin Oluşturulması
Konuşma seslerinin etkilenmesine göre her artikülasyon bozukluğuna (r, s­ş, z) sahip
erkek   ve   kadınlardan   örnekler   alınmıştır.   Bu   örnekler   ilgili   harflerin   ve   bu   harfleri
içeren kelimelerin (izole edilmiş) en az 10’ar kere tekrar edilmesinden oluşmaktadır.
Aynı harf ve kelimeleri sağlıklı şekilde telaffuz eden erkek ve kadınlara ait örnekler
de veri setinde yer almaktadır. Artikülasyon bozukluğunun ilerleme seviyelerine göre
aynı kişilerden aynı harf ve kelimelerle setin genişletilmesi de düşünülmektedir. Veri
seti, eğitim ve test için kullanılmaktadır.</p>
      <sec id="sec-2-1">
        <title>2.2 Öznitelik Çıkarımı</title>
        <p>Ses   tanımada   en   önemli   şey,   konuşma   sinyalinden   özellikleri   çıkaran   özellik
çıkarımıdır. Özellik özütleme, girdi verisini özellik kümesine dönüştüren ve öznitelik
çıkarma denilen bir işlemdir. Öznitelik çıkarımı sırasında bir hoparlörün ayırt edici
özelliğini   korurken   giriş   vektörünün   boyutunu   küçültür.   Günümüzde   en   çok
kullanılan   özellik   cepstral   katsayısıdır.   Yaygın   kullanılan   iki   tip   cepstral   katsayısı
Linear predictive cepstral coefficient (LPCC) ve Mel frequency cepstral coefficient
(MFCC) dir. Aşağıda özellik çıkarımı ile ilgili alt adımlar verilmiştir.</p>
      </sec>
      <sec id="sec-2-2">
        <title>2.2.1. Ön İşlemler</title>
        <p>Konuşma   kaynağı   olarak   akıllı   telefonlardan   yararlanılacaktır.   Konuşma   tanıma
uygulamalarında ses işareti frekans dönüşümüne uğramadan önce bazı ön işlemlerden
geçirilmektedir. Uygulanan ön işlemler aşağıda belirtilmiştir.</p>
        <p>

</p>
        <p>Normalizasyon: Ses veri değerlerinin belirli bir aralığa çekilmesi
Ön vurgulama (Preemphasis): Yüksek frekanslı bölgelerin güçlendirilmesi
Dither: Giriş işaretinde büyük miktarda sıfır içermesi durumunda azaltma</p>
      </sec>
      <sec id="sec-2-3">
        <title>2.2.2 Çerçeve Üretimi ve Pencereleme</title>
        <p>Telaffuz   bozukluğu   olan   ilgili   harfin   tespitinde   çerçeve   üretimi   yapılması
gerekmektedir.   Ses   verisinin   tamamı   değil   kısa   harflere   karşılık   düşecek   küçük
parçaları ile işletilir. Bu nedenle ön işlemeden geçirilmiş konuşma işareti “çerçeve”
adı   verilen   sabit   uzunluklu   parçalara   bölünür.   (Pencereleme   işlemi   ile)   örtüşmüş
çerçeveler   üretilir.   Yani   ses   işareti   üzerinde   25ms   uzunluğundaki   bir   pencerenin
belirli bir süre mesafesince kaydırılması ile çerçeveler üretilir.</p>
      </sec>
      <sec id="sec-2-4">
        <title>2.2.3 Dönüşüm, Filtreleme ve Özelliklerin Belirlenmesi</title>
        <p>
          Ayrık   Fourier   dönüşümü   ile   zaman   düzlemindeki   işaretlerin   frekans   düzlemindeki
karşılıkları   elde   edilebilir.   Her   çerçeve   için   bu   işlemin   yapılması   gerektiğinden   bu
dönüşümü hızlı şekilde hesaplayan Hızlı Fourier Dönüşümü (FFT) kullanılmıştır. Mel
süzgeci   ile   FFT   sonucunda   ortaya   çıkan   enerji   değerlerinin   farklı   frekans
bantlarındaki  toplam  değerleri hesaplanır [
          <xref ref-type="bibr" rid="ref6">6</xref>
          ].  Bu şekilde  konuşma  sinyali parçasını
daha   az   sayıda   parametre   ile   ifade   edilmiş   olur.   Daha   sonra   Mel   Filtre   Bankası
analizi,  Kepstrumların elde edilmesi ve  kepstral  ağırlıklandırmadan  sonra  Karşılıklı
ilinti [
          <xref ref-type="bibr" rid="ref7">7</xref>
          ],   işlemiyle özilinti vektörü [
          <xref ref-type="bibr" rid="ref8">8</xref>
          ] hesaplanır. Sonuç olarak, her çerçeve için 8
LPC ve MFCC öznitelik değerleri elde edilir. Bu aşamalardan sonra ilgili artikülasyon
bozukluğunu saptamak için özellik vektörü elde edilmiştir.
        </p>
      </sec>
      <sec id="sec-2-5">
        <title>2.3 Sınıflandırma</title>
        <p>Sınıflandırma yöntemi olarak  gizli markov modeli (GMM) temelli bir sınıflandırıcı
kullanılmıştır.   GMM,   ses   sinyallerinin   istatistiksel   olarak   modelleyen   bir   metottur.
SMM,   en   başarılı   konuşma  tanıma   metotlarından   biri   olmuştur.   Çünkü,   GMM,   ses
sinyallerini   çok   uygun   bir   şekilde   matematiksel   olarak   karakterize   etme   özelliğe
sahiptir. Mobil platformda ses tanıma işlemlerini gerçekleştirmek için pocketsphinx­
android kütüphanesinden yararlanılmıştır.</p>
      </sec>
    </sec>
    <sec id="sec-3">
      <title>3 Kullanıcı Arayüzleri</title>
      <p>Kullanıcı   sisteme   ilk   kayıt   esnasında   birtakım   kişisel   bilgilerini   ve   zayıf   olduğu
karakterleri/kursları seçer (Şekil 1a). Daha sonraki oturumlarda alıştırma sekmesine
gelerek   kayıt   esnasında   seçilen   karekterle   alıştırma   yapabilir.   Bunun   için   alıştırma
yapılması istenilen harfi seçtikten sonra “start” butonuna basarak ses kaydını başlatır
ve   alıştırma   harfini   söyler   (Şekil   1b).  Yapılan   alıştırmalara   göre   kullanıcı   puanı
hesaplanır ve bu puanlar göz önüne alınarak belirli aralıklarla alıştırma yapılması için
kullanıcılara   bildirim   gönderilir.   Puanlar   ve   diğer   bilgiler   profil   sekmesinden
görüntülenebilir (Şekil 1c).</p>
      <p>(a)</p>
      <p>(b)
Şekil 1 Mobil uygulama arayüz görüntüleri
(c)
Geliştirilen   sistemde   r,s,z   harfleri   için   bay   ve   bayanlardan   çeşitli   seviyelerde
(düşük,orta ve yüksek) örnekler alınmış ve bu örnekler ile uygulama eğitilmiştir. Test
aşamasında   ise   rotasizm   ve   sigmatismli   kişiler   üzerinde   test   edilmiş   ve   sonuçları
Tablo 1'de gösterildiği gibidir. Elde edilen sonuçlara göre kesinlik ve recall değerleri
sırası ile %68.18, %65.20'dır. 
Tablo 1. Karışıklık Matrisi</p>
      <sec id="sec-3-1">
        <title>Pozitif Örnekler</title>
      </sec>
      <sec id="sec-3-2">
        <title>Negatif Örnekler</title>
      </sec>
      <sec id="sec-3-3">
        <title>Pozitif Sınıflandırma</title>
        <p>15
7</p>
      </sec>
      <sec id="sec-3-4">
        <title>Negatif Sınıflandırma</title>
        <p>8
10</p>
        <p>Artikülasyon bozukluğuna sahip bireyleri topluma kazandırabilmek, eğitim hayatına
daha iyi adaptasyon sağlayabilmeleri için mobil tabanlı olarak kullanıcıların sesleri
alınarak izole olmuş bazı seslerin (r, s-ş, z) telaffuzlarındaki bozukluk seviyesi tespit
edilmiş ve iyileştirilmesi sağlanmıştır. İleriki çalışmalarda daha fazla kişiden örnek
alınarak veriseti genişletilecek ve YSA, SVM gibi farklı sınıflandırıcılar ile
performans karşılaştırması yapılacaktır.</p>
        <p>Teşekkür</p>
      </sec>
      <sec id="sec-3-5">
        <title>Kaynaklar</title>
        <p>Bu çalışma, TÜBİTAK tarafından 1919B011602169 nolu proje ile desteklenmektedir.
Desteklerinden dolayı TÜBİTAK’a teşekkür ederiz.</p>
      </sec>
    </sec>
  </body>
  <back>
    <ref-list>
      <ref id="ref1">
        <mixed-citation>
          1. Konuşma   bozuklukları,   http://www.kekemelikegitimi.net/konusmabozukluklari/artikulasyon­harf­soyleyememe (Erişim Tarihi, 
          <volume>15</volume>
           Mart 
          <year>2017</year>
          )
        </mixed-citation>
      </ref>
      <ref id="ref2">
        <mixed-citation>
          2. Söyleme   kusurları,   http://www.kendinigelistir.com/soyleme­kusurlari/   (Erişim Tarihi, 
          <volume>15</volume>
           Mart 
          <year>2017</year>
          )
        </mixed-citation>
      </ref>
      <ref id="ref3">
        <mixed-citation>
          3.
          <string-name>
            <surname>A.O.</surname>
          </string-name>
           
          <article-title>Özcan  and </article-title>
          <string-name>
            <surname>A.F.</surname>
          </string-name>
            Özcan:  “Türk  Çocuklarının  Ses  Gelişim  Özellikleri  ve  İlk Okuma Yazma Öğrenme”, İstanbul Gelişim Üniversitesi Sosyal Bilimler Dergisi,
          <volume>1</volume>
          (
          <issue>2</issue>
          ): 
          <fpage>67</fpage>
          ­
          <lpage>86</lpage>
          , 
          <year>2014</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref4">
        <mixed-citation>
          4. E.   Yörüklü   and
          <string-name>
            <surname>  O.H.</surname>
          </string-name>
            Koçal:   “Kendi   Kendini   Düzenleyen   Haritalar   Yöntemiyle Türkçe   Sesli   Harflerin   Sınıflandırılması   Ve   Tanınması”,   Uludağ   Üniversitesi Mühendislik­Mimarlık Fakültesi Dergisi, 
          <volume>17</volume>
          (
          <issue>1</issue>
          ), 
          <year>2012</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref5">
        <mixed-citation>
          5. G.  Inge,  O.  Grigore,  V.  Velican:  “Imparied 
          <article-title>Speech  Recognition: Case Study on Recognition   of   Initial  </article-title>
          'r'   Consanant   in   Rhotacism   Affected   Pronuncşations”,
          <source>  in Proc.   of   6th   Conference  onSpeech   Technology   and  </source>
          Human­Computer   Dialogue, pp. 
          <fpage>1</fpage>
          ­
          <lpage>6</lpage>
          , 
          <year>2011</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref6">
        <mixed-citation>
          6.
          <string-name>
            <surname>S.K.</surname>
          </string-name>
            Gaikwad,  
          <string-name>
            <surname>B.W.</surname>
          </string-name>
            Gawali,   P.   Yannawar:
          <article-title>  “A   Review   on   Speech   Recognition Technique”</article-title>
          , International Journal of Computer Applications, 
          <volume>10</volume>
          (
          <issue>3</issue>
          ): 
          <fpage>16</fpage>
          ­
          <lpage>24</lpage>
          , 
          <year>2010</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref7">
        <mixed-citation>
          7.
          <string-name>
            <surname>J.G.</surname>
          </string-name>
            Proakis,   D.G.Manolakis,   Digital   Signal   Processing:   Principles   and Application, Prentice­Hall, Upper Saddle River, NJ, 
          <year>1996</year>
          . 
        </mixed-citation>
      </ref>
      <ref id="ref8">
        <mixed-citation>
          8. L.   Rabiner,  
          <string-name>
            <surname>B.H.</surname>
          </string-name>
            Juang,   Fundamentals   of   Speech   Recognition,   Prenctice­Hall, Englewood Cliffs, NJ, 
          <year>1993</year>
          . 
        </mixed-citation>
      </ref>
    </ref-list>
  </back>
</article>