<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta />
    <article-meta>
      <title-group>
        <article-title>Object Search with Smart Phone for Visually Impaired People</article-title>
      </title-group>
      <contrib-group>
        <aff id="aff0">
          <label>0</label>
          <institution>Hüsnü Mert Polat, Muhammed Ensar Özer</institution>
          ,
          <addr-line>Kevser Sertel, Sıdıka Tuğçe Yılmaz, Süleyman Eken, Ahmet Sayar</addr-line>
        </aff>
      </contrib-group>
      <abstract>
        <p>Visually impaired people face many difficulties in life. Although many institutions and organizations are working to overcome these diffuculties, unfortunately some problems have not yet been solved. One of them is that they can not find items that the blind people have lost or that they do not know where they are at the moment. The developed application works on mobile devices to find an object that the visually impaired wants to find through the camera. When the application is turned on, the camera is switched on and the user runs the smartphone on the floor or space to search. Firstly, objects in the image taken from the camera are detected with Tensorflow object detection API. Later, after the detected objects are positioned by the parsing taking place in the image, their names and positions are notified with Google text-to-speech.</p>
      </abstract>
      <kwd-group>
        <kwd>Anahtar kelimeler</kwd>
        <kwd>Nesne arama</kwd>
        <kwd>akıllı telefon</kwd>
        <kwd>Tensorflow</kwd>
        <kwd>nesne konumlandırma</kwd>
        <kwd>metin seslendirme</kwd>
      </kwd-group>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>1   Giriş</title>
      <p>Günlük hayatta hemen hemen hepimiz eşyalarımızı kaybederiz. Bu kaybettiğimiz
eşyalar beraberinde çok yüksek maliyetleri de getirebilir.  Pixie’nin kayıp eşyalar ile
ilgili   ABD’de   yaptığı   ankete   göre   Amerikalılar   kaybettikleri   eşyaların   yerine
yenilerini  almak   için   bir   yılda   yaklaşık   2.7   milyar   dolar   gibi   inanılmaz   bir   meblağ
harcamak   durumunda   kalıyor.   Kayıp   eşyalar   beraberinde   getirdiği   maddi   maliyetin
yanı sıra belki de hayattaki en değerli şey olan zamandan da ciddi ölçüde çalıyor.</p>
      <p>Pixie’nin   araştırması   kaybedilen   eşyaların   zaman   maliyeti   ile   ilgili   bir   takım
korkutucu   verileri   açığa   çıkarıyor.   Araştırmaya   göre   insanlar   kaybettikleri   eşyaları
bulabilmek   için   yılda   ortalama   2.5   günlerini   harcıyor.   Aynı   zamanda   araştırma,
eşyalarını kaybeden insanların zaman ile bağlantılı başka maliyetlere de katlandığını
ortaya   koyuyor.   Araştırma   sonuçları,   eşyalarını   kaybedenlerin   %60’ının   işe   veya
okula   geç   kaldığını,   %49’unun   önemli   toplantı   veya   iş   görüşmelerini   kaçırdığını,
%22’sinin   ise   binmesi   gereken   otobüs   veya   trene   yetişemediğini   gösteriyor.
Kaybedilen   bir   eşya   genellikle   20  saniye   ve   5   dakika   arasında   bulunabiliyor;  fakat
bazı eşyaları bulabilmek daha çok zaman alabiliyot. Ortalamaya göre bulunması 15
dakikadan fazla süren eşyalar şöyle: ev, araba anahtarları (%21.3), cüzdanlar (%20.2),
şemsiyeler (%19), pasaportlar (%18.9), sürücü ehliyetleri (%18.8) ve banka kartları
(%18.7)   [1].   Veriler,   günlük   yaşamda   sıklıkla   kullandığımız   eşyaları   sürekli
kaybettiğimizi   ve   onları   bulabilmek   için   ciddi   zaman   ve   enerji   harcadığımızı
gösteriyor.</p>
      <p>Sağlıklı   insanlar   bile   kaybettikleri   veya   çoğu   zaman   gözleri   önünde   olan
dikkatsizlik yüzünden göremediği eşyaları ararken bu kadar zaman kaybediyor ve o
gün yapması gereken işleri yapamıyorlar. </p>
      <p>Bu çalışmada yukarıdaki sonuçları verilen ankette de geçen, gündelik hayatta daha
fazla   kullanılan   nesnelerin   bulunması   sağlanmıştır.   Görme   engelli   kişinin   telefon
içerisinde uygulamayı kısa yolu kullanarak açması çok zor hatta imkansızdır. Bundan
dolayı   uygulama   ses   açma   tuşuna   beş   saniye   boyunca   basılı   tutunca   açılmaktadır.
Açıldığının   anlaşılması   için   bir   bildirim   sesi   verilmektedir.   Uygulama   açıldığında
kamera   devreye   girmekte   ve   kullanıcı   akıllı   telefonu   arama   yapacağı   mekan   veya
zemin   üzerinde   gezdirmektedir   Bu   sırada   akıllı   telefon   kamerasında   görüntülenen
nesneler   Tensorflow   nesne   saptama   API'si   ile   bulunmakta   ve   nesnenin   ismi   ve
konumu   kullanıcıya   Google  metin   seslendirme   uygulaması   yoluyla  sesli   olarak
bildirilmektedir.</p>
      <p>
        Çalışmanın geri kalan kısmı şu şekilde organize edilmiştir. 2. bölümde literatürdeki
çalışmalar   verilmiş,   3.   bölümde   geliştirilen   uygulamanın   detayları   sunulmuştur.   4.
bölümde uygulamanın arayüzleri verilmiştir. Son bölümde ise sonuçlar sunulmuş, ne
gibi geliştirmeler yapılabilir tartışılmıştır.
sağlanarak   farklı   renklerdeki   nesneleri   takip   edebilmesi   gerçeklenmiş   olup   tepki
verme süresi 96­106 ms aralığında ölçülmüştür [
        <xref ref-type="bibr" rid="ref1">2</xref>
        ].
      </p>
      <p>
        Gerçek   zamanlı   endüstriyel   nesne   tanımada   kameraların   kullanılması   konusunda
Sedat ve Bayram, kameralı bir sistemin renk algılayıcı bulunduran bir sisteme göre
gerçek   zamanlı   nesne   tanıma   işlemini   daha   hızlı   gerçekleştirebildiği
gözlemlemişlerdir. Renk algılayan sistemin yerine yerleştirilen bir kamera ile sistemin
yaklaşık üç kat daha başarılı sonuç verdiği sonucuna ulaşılmıştır [
        <xref ref-type="bibr" rid="ref2">3</xref>
        ].
      </p>
      <p>
        Gerçek   zamanlı  olarak,  Anfis   ile   renk  tabanlı  nesne  tespit  ve   motorlu   sistem  ile
takip  edilmesi projesinde  kamera  tarafından  alınan  görüntü MATLAB  programı ile
adaptif   bir   biçimde   işlenerek   hedef   nesnenin   merkezi   tespit   edilmektedir.   Tespit
edilen   merkezin   görüntünün   merkezine   olan   uzaklığı   bulunarak,   seri   porta   bağlı
bulunan mikrodenetleyicili devre aracılığı ile üzerinde kamera bulunan adım motora
hareket   vermesi   sağlanmıştır.   Böylece   hedef   nesnenin   kamera   tarafından   alınan
görüntünün merkezine çekilmesi sağlanarak, gerçek zamanlı nesne takip uygulaması
gerçekleştirilmiştir [
        <xref ref-type="bibr" rid="ref3">4</xref>
        ].
      </p>
      <p>
        Üç   boyutlu   sahneler   ve   nesne   tanıma   için   gürbüz   anahtar   nokta   eşleştirilmesi
çalışmasında yakın zamanda düzlemsel nesneler için ikilik betimleyiciler ile anahtar
nokta eşleme amacıyla önerilen bir yöntem üç boyutlu nesneler için uyarlanmıştır. Bu
yöntemin başarısı yüzden  fazla resim içeren  bir müze  nesne tanıma  uygulamasında
test   edilmiştir.   Ayrıca   sadece   eşlenme   başarısı   yüksek   betimleyicilerin
kullanılmasının nesne tanıma uygulamasının başarısına etkisi de ölçülmüştür [
        <xref ref-type="bibr" rid="ref4">5</xref>
        ].
      </p>
      <p>
        Günümüzde   Konvolüsyonel   Sinir   Ağları   (KSA),   sınıflandırma   ve   algılama
uygulamalarının ayrılmaz parçası haline gelmişlerdir. Konvolüsyonel Sinir Ağlarının
pratikte   kullanılmamasının   temel   nedenlerinden   biri,   onların   güçlü   hesaplamaları
yapabilen işlemcilere ihtiyaç duymalarıydı. Ekran kartlarının gelişmesi ile Krizhevsky
ve arkadaşları 2012 yılında gerçekleştirilmiş ILSVRC­2012 yarışmasını KSA yardımı
ile sınıflandırıcı bir model geliştirerek kazanmışlardır. İlerleyen zamanlarda R­CNN,
Fast R­CNN, Faster R­CNN, Mask R­CNN ve YOLO olmak üzere kendinden önceki
modelin   performansını   iyileştiren,   çeşitli   algılama   ve   sınıflandırma   modelleri
geliştirilmiştir   [
        <xref ref-type="bibr" rid="ref5 ref6 ref7 ref8">6­10</xref>
        ].   Bu   modeller   kullanılarak   çeşitli   nesne   tanıma   uygulamaları
geliştirilmiştir. Ayrıca farklı alanlarda çeşitli mobil uygulamalar görme engelliler için
geliştirilmişti. Full otonom market uygulamalarında görme engelli kimseler için yeni
bir   ürün   tanıtma   ve   bilgilendirme   yapılabilmektedir   [11].   TapTapSee,   CloudSight
Görüntü Tanıma API'sı tarafından desteklenen kör ve görme engelli kullanıcılar için
özel   olarak   tasarlanmış   bir   mobil   kamera   uygulamasıdır.   Uygulama,   nesneleri
fotoğraflamak   ve   kullanıcı   için   yüksek   sesle   tanımlamak   için   cihazın   kamera   ve
VoiceOver işlevlerini kullanmaktadır [12]. 
      </p>
    </sec>
    <sec id="sec-2">
      <title>3   Nesne Rehberim: Nesne Arama ve Konumlandırma</title>
      <p>Şekil   1'de   geliştirilen   sisteme   ait   akış   diyagramı   genel   hatlarıyla   verilmiştir.   Alt
başlıklarda sistemin detaylandırılması yapılacaktır.</p>
      <p>Şekil 1 Geliştirilen sistem akış diyagramı</p>
      <sec id="sec-2-1">
        <title>3.1 Görüntü Yakalama ve Ön İşlemler</title>
        <p>Akıllı   telefonun   kamerasından   nesne   çıkarımı   yapılacak   olan   yerin   görüntüsü
alınır. Bu görüntü derin öğrenme modeline girdi olacağından boyutları modelin girdi
boyutuna ([224, 224, 3]) göre düzenlenir, piksel değerleri [­1, 1] aralığına map edilir.</p>
      </sec>
      <sec id="sec-2-2">
        <title>3.2 Nesne Saptama</title>
        <p>KSA çeşitli katmanlardan oluşur. Her katmanın kendine ait bir sorumluluğu vardır.
Genel   olarak   KSA   mimarisinde   aşağıdaki   üç   ana   katman   kullanılır.   Bunlar   (i)
konvolüsyon, (ii) havuzlama (pooling) ve (iii) tam bağlı (fully connected) katmanları
olarak adlandırılmışlardır. Herhangi bir KSA mimarisi oluşturulurken bu üç katman
belli bir düzende toplanır. Bahsedilen katmanları kullanarak basit bir KSA mimarisi
geliştirilebilir. </p>
        <p>Konvolüsyon katmanındaki çıkışın nöron sayısı üç tane hiper parametre ile kontrol
edilir. Bunlar derinlik (depth), kaydırma adım uzunluğu (stride) ve sıfır­tamponlama
(zero­padding). Derinlik; kullanmak istenilen filtrelerin sayısına karşılık gelir ve her
bir filtre giriş görüntüsünde farklı birşeyleri aramayı öğrenir. Filtrelerin kaydırılacağı
adım   uzunluğu   belirtilmelidir.   Kaydırma   adım   uzunluğu   büyüdükçe   çıkışta   elde
edilecek   çıktının   boyutu   küçülür.   Kaydırma   adım   uzunluğu   ne   kadar   küçük   ise,
görüntüden daha fazla bilgi elde edilir. Bazı durumlarda girişin kenarlarını sıfırlar ile
doldurmak uygun görülür. Böylece çıkışın boyutunu kontrol edebilecek bir tane daha
hiper parametre sıfır­tamponlama yardıma gelir. </p>
        <p>Pratikte   ardışık   konvolüsyonel   katmanların   arasına   periyodik   olarak   bir   pooling
katmanı   eklemek   yaygın   bir   yöntemdir.   Pooling   katmanı;   ağ   mimarisindeki
parametrelerin ve hesaplamaların sayısını azaltan ve aşırı öğrenmeye engel olan bir
mekanizmadır. KSA'da en yaygın kullanılan pooling çeşidi ise max pooling’dir.</p>
        <p>Tam bağlı katman, çıktı katmanında bir softmax aktivasyon fonksiyonu kullanan
geleneksel   çok   katmanlı   perceptrondur.   Tam   bağlı   terimi,   önceki   katmandaki   her
nöronun sonraki katmandaki her nörona bağlı olduğunu ima eder. </p>
        <p>Görüntülerden nesne saptaması yapmak için Tensorflow nesne saptama API'sinden
yararlanılmıştır   [13].   İlgili   API   içinde   birçok   KSA   modeli   barındırmaktadır.   Bu
modellerden “ssd_mobilenet_v1_android_export” kullanıldı.</p>
      </sec>
      <sec id="sec-2-3">
        <title>3.3 Nesne Konum Bulma</title>
        <p>Bir   önceki   adımda   saptanan   nesnelerin   görüntü   içinde   konumlandırılması   bu
aşamada   yapılmaktadır.   Bu   işlem   çerçeve   içine   alınmış   nesnelerin   sınırları
kullanılarak   yapılmaktadır.   Konum   tespiti   yapılması   için   ekran   belirli   aralıklara
bölünerek atamalar yapılır. Başlangıç, sol bitiş, sağ başlangıç, sağ bitiş ve ön izleme
alanıdır. Ekranı bölümlendirdikten sonra ekranda, bulunan nesnelerin koordinatlarına
göre nesnenin ekranda kapladığı alan tespit edilir. Daha sonra tespit edilen bu alan
bölümlendirilmiş blokların hangisinin içerisinde yer aldığı kontrol edilir ve bu kontrol
sonucu nesne ile ilgili lokasyon tespit edilir.</p>
      </sec>
      <sec id="sec-2-4">
        <title>3.4 Seslendirme</title>
        <p>İsimleri   ve   konumları   belirlenmiş   nesnelerin   kullanıcılara   sesli   olarak   okunması
Google metin seslendirme API'si yardımyla yapılmaktadır. Google metin seslendirme,
Android   işletim   sistemi   için   Google   tarafından   geliştirilen   bir   ekran   okuyucu
uygulamasıdır. Birçok dil desteğiyle ekrandaki metni seslendirmeyi sağlar [14].</p>
      </sec>
    </sec>
    <sec id="sec-3">
      <title>4   Kullanıcı Arayüzleri</title>
      <p>Görme   engelli   olan   kullanıcı   telefon   ekranında   uygulamayı   bulup   açma   imkanı
bulamayabileceği için ses açma tuşuna basılı tuttuğunda uygulama açılır ve açıldığına
dair   kişiye  bildirim   sesi   gelir   Kullanıcı   daha  sonra  arama  yapmak   istediği   bölgeye
doğru telefon kamerasını tutarak bulmak istediği nesneyi arar. İsmi tespit edilen nesne
veya   nesneler   için   konum   bilgilerinin   belirlenmesi   sağlanır.   İsimleri   ve   konum
bilgileri tespit edilen nesneler görme engelli kişilere sözlü olarak aktarılır. Bu işlemler
ekranda algılanan nesne sayısı kadar tekrar eder ve ekranda algılanan tüm nesnelerin
isimleri ve konumları söylenmiş olur. Örnek bir arayüz Şekil 2'de verilmiştir.</p>
      <p>Şekil 2 Örnek bir uygulama arayüzü</p>
    </sec>
    <sec id="sec-4">
      <title>5   Sonuç ve Gelecekteki Çalışmalar</title>
      <p>Gerçekleştirdiğimiz   uygulama   ile   görme   engelli   kişilerin   yaşamlarını
kolaylaştırmayı   hedefledik   ve   uygulamamız   ile   görme   engelli   vatandaşlarımıza
yardımcı   olacak,   onlara   rehberlik   yapabilecek   bir   uygulama   geliştirmiş   olduk.
Uygulama   sayesinde   görme   engelli   kişiler   günlük   hayatta   sık   olarak   kullandıkları
nesneleri bulmada daha rahat edecek ve çeşitli yaralanmalara sebep olan kazaların bir
miktarda olsa önüne geçmiş olacaklardır.</p>
      <p>Gelecek çalışmalarda daha fazla nesnenin olduğu, daha hassas konumlandırmanın
yapıldığı   bir   mimari   geliştirmeyi   hedeflemekteyiz.   Ayrıca   görme   engelli   kişiler
üzerinde uygulamanın kullanılabilirliği ile ilgili deneyler yapılacaktır.
Teşekkür</p>
      <p>Bu   çalışma,   TÜBİTAK   tarafından   1919B011703287   nolu   proje   ile
desteklenmektedir. Desteklerinden dolayı TÜBİTAK’a teşekkür ederiz.
10.</p>
      <sec id="sec-4-1">
        <title>Redmon   and   A.   Farhadi:   “YOLO9000:   Better,   Faster,   Stronger”, Proceedings   of   Conference   on   Computer   Vision   and   Pattern   Recognition, 7263­7271, 2017. 11.</title>
      </sec>
      <sec id="sec-4-2">
        <title>Tensorflow   Object   Detection   API,</title>
        <p>https://github.com/tensorflow/models/tree/master/research/object_detection
(Erişim Tarihi, 14 Mayıs 2018)</p>
        <p>Google   Text­to­Speech,   https://cloud.google.com/text­to­speech/
(Erişim Tarihi, 14 Mayıs 2018)</p>
      </sec>
    </sec>
  </body>
  <back>
    <ref-list>
      <ref id="ref1">
        <mixed-citation>
          2.
          <string-name>
            <surname>M.</surname>
          </string-name>
            Serter  Uzer,  N.  Yılmaz,  M. Bayrak:  “Görme  Tabanlı  Mobil Robot  İle Farklı   Renklerde   Nesnelerin   Gerçek   Zamanlı   Takibi”,   Gazi   Üniv.   Müh. Mim. Fak. Der., 
          <volume>25</volume>
          (
          <issue>4</issue>
          ): 
          <fpage>759</fpage>
          ­
          <lpage>766</lpage>
          , 
          <year>2010</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref2">
        <mixed-citation>
          3.
          <string-name>
            <surname>S.</surname>
          </string-name>
            Meltek,   B.   Çetişli:   “Gerçek   Zamanlı   Endüstriyel   Nesne   Tanımada Kameraların Kullanılması”, Süleyman Demirel University Journal of Natural and Applied Sciences, 
          <volume>16</volume>
          (
          <issue>2</issue>
          ): 
          <fpage>212</fpage>
          ­
          <lpage>217</lpage>
          , 
          <year>2012</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref3">
        <mixed-citation>
          4. Ö. Altınkurt, M. Kahriman: “Gerçek Zamanlı Olarak, Anfis İle Renk Tabanlı Nesne   Tespit   Ve   Motorlu   Sistem   İle   Takip   Edilmesi”,   SDU   Journal   of Technical Sciences, 
          <volume>1</volume>
          (
          <issue>1</issue>
          ): 
          <fpage>1</fpage>
          ­
          <lpage>5</lpage>
          , 
          <year>2011</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref4">
        <mixed-citation>
          5.
          <string-name>
            <surname>A.</surname>
          </string-name>
            Köksal,  F.E.  Uzyıldırım,  M.  Özuysal:  “Üç  Boyutlu Sahneler  ve  Nesne Tanıma   için   Gürbüz   Anahtar   Nokta   Eşleştirilmesi”,   İzmir   İleri   teknoloji Enstitüsü, İzmir, 
          <year>2017</year>
           
        </mixed-citation>
      </ref>
      <ref id="ref5">
        <mixed-citation>
          6. R. Girshick, J. Donahue, T. Darrell, and J. Malik: “Rich 
          <article-title>feature hierarchies for accurate object detection and semantic segmentation”</article-title>
          ,
          <source> arXiv:1311.2524</source>
          ,
          <issue>22</issue>
           Ekim 
          <year>2014</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref6">
        <mixed-citation>
          7. R.   Girshick:   “
          <string-name>
            <surname>Fast   R­CNN</surname>
          </string-name>
          ”,
          <source>  Proceedings   of   the  </source>
          <year>2015</year>
            IEEE   International Conference on Computer Vision (ICCV), 
          <fpage>1440</fpage>
          ­
          <lpage>1448</lpage>
          , 
          <year>2015</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref7">
        <mixed-citation>
          8.
          <string-name>
            <given-names>S.</given-names>
             Ren, K. He, R. Girshick, and J. Sun: “
            <surname>Faster R­CNN</surname>
          </string-name>
          <article-title>: Towards Real­Time Object  Detection   with  Region   Proposal   Networks”</article-title>
          ,
          <source>  IEEE   Transactions   on Pattern Analysis and Machine Intelligence</source>
          <volume>,</volume>
           
          <volume>39</volume>
          (
          <issue>6</issue>
          ): 
          <fpage>1137</fpage>
          ­
          <lpage>1149</lpage>
          , 
          <year>2017</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref8">
        <mixed-citation>
          9.
          <string-name>
            <given-names>K.</given-names>
             He, G. Gkioxari, P. Dollár, and R. Girshick: “
            <surname>Mask R­CNN</surname>
          </string-name>
          <article-title> for object detection   and   instance   segmentation   on   Keras   and   TensorFlow”</article-title>
          , arXiv:
          <fpage>1703</fpage>
          .06870, 
          <volume>24</volume>
           Ocak 
          <year>2018</year>
          .
        </mixed-citation>
      </ref>
    </ref-list>
  </back>
</article>