=Paper= {{Paper |id=Vol-1483/7_Bildiri |storemode=property |title=Veri Madenciliğinde Özellik Seçim Tekniklerinin Bankacılık Verisine Uygulanması Üzerine Araştırma ve Karşılaştırmalı Uygulama |pdfUrl=https://ceur-ws.org/Vol-1483/7_Bildiri.pdf |volume=Vol-1483 |dblpUrl=https://dblp.org/rec/conf/uyms/YaziciYGTAK15 }} ==Veri Madenciliğinde Özellik Seçim Tekniklerinin Bankacılık Verisine Uygulanması Üzerine Araştırma ve Karşılaştırmalı Uygulama== https://ceur-ws.org/Vol-1483/7_Bildiri.pdf
  Veri Madenciliğinde Özellik Seçim Tekniklerinin
Bankacılık Verisine Uygulanması Üzerine Araştırma ve
              Karşılaştırmalı Uygulama

      Betül Yazıcı1, Fethiye Yaslı1, Hande Yıldız Gürleyik2, Umut Orçun Turgut2
                           Mehmet S. Aktas1,Oya Kalıpsız1

            1
             Bilgisayar Mühendisliği Bölümü, Elektrik-Elektronik Fakültesi
                         Yıldız Teknik Üniversitesi, İstanbul
                          2
                              Ar-Ge Merkezi, Cybersoft, İstanbul

 E-posta: {betulyazicii@gmail.com,fethiyeyasli@gmail.com, hande.gurleyik@cs.com.tr,
    umut.turgut@cybersoft.com.tr, mehmet@ce.yildiz.edu.tr, oya@ce.yildiz.edu.tr}




   Özet. Günümüzde pek çok kurum mevcut verilerini ilişkisel veri tabanlarında
   saklamakta ve modellemelerini bu verileri kullanarak gerçekleştirmektedir.
   Kurumsal veri modellerinin karmaşıklığı, veriye ait özelliklerin çokluğu ve veri
   miktarının fazlalığı, veri üzerinde her türlü analizin (kümeleme, regresyon, vb.)
   yapılmasını zorlaştırmaktadır. Bu nedenle veri kümeleri üzerinde tahmin gücü
   yüksek özelliklerin belirlenebilmesi için kolay kullanılabilir, yaygın kullanıma
   sahip mevcut araçlarla (R, Weka) entegre olabilecek ve karşılaştırmalı olarak en iyi
   tahmini üretebilecek yazılımlara ihtiyaç bulunmaktadır. Literatürde, özellikleri
   inceleyen üç temel yaklaşım vardır. Bunlar, entropi yöntemiyle belirsizliği ölçen
                               2
   Bilgi Teorisi Ki-kare (x ) istatistiğini kullanarak özelliklerin taşıdığı bilginin
   birbirinden farklılığını ölçen Geleneksel İstatistik ve negatif entropiyi kullanarak
   bilgi değerini ölçen Öngörüsel Analiz yaklaşımlarıdır. Bu araştırma kapsamında
   bahsedilen ihtiyaçlara yanıt verebilmek amacıyla Öngörüsel Analiz yaklaşımını
   kullanan ve tahmin gücü yüksek özellikleri belirleyen bir yazılım üretilmiştir. Bu
   bildiriyle yazılımın geliştirilmesi sürecinde kullanılan yöntemler, teknikler,
   algoritmalar ve geliştirilen yazılım detaylı olarak anlatılmıştır. Geliştirilen
   yöntemler aynı bankacılık veri kümesinde uygulanmış ve sonuçları karşılaştırmalı
   olarak analiz edilerek yorumlanmıştır.

   Anahtar Kelimeler: Veri Madenciliği, Öngörüsel Yaklaşım, Özellik Seçimi, Bilgi
   Kazancı, Bilgi Değeri, Kazanım Oranı




                                             72
    1. Giriş
Özellikler, gerek gözetimli gerekse de gözetimsiz yöntemler tercih edilerek bağımlı
değişkeni açıklamada kullanılan etkenlerdir. Özellik Seçimi işlemi, bağımlı değişkenle
ilgisi olmayan, tahminleyici bilgisi az veya hiç olmayan özellikleri eleyerek bağımlı
değişkeni açıklama kabiliyeti yüksek olan özelliklerin tespitini sağlamaktadır [1]. Bu
çalışmada gözetimli veri kümeleri üzerinde uygulanan özellik seçim yöntemleri
kullanılmıştır.

Son on yılda sınıflandırma algoritmalarının üstünde uygulandığı veri kümelerindeki
özellik sayıları binleri hatta on binleri bulmaktadır. Bu nedenle araştırmacılar özellik
seçme yöntemlerine her zamankinden daha fazla ihtiyaç duymaktadırlar [2]. Seçilen
özelliklerle yapılan sınıflandırmada, işlem sayısı azalmakta, gürültülü ve ilgisiz
özellikler özgün veriden çıkarılarak sınıflama başarısı arttırılmakta ve özellikler
üzerinden yapılabilen sınıflama yorumları artmakta veya kolaylaşmaktadır. Bunlara ek
olarak model eğitim zamanı kısalmakta, daha az ölçüm yapılmakta ve daha az bellek
kullanılmaktadır. Bu yararlar, modeli tanımanın anlamlı ve daha kolay olmasını
sağlamaktadır.

Korelasyonları yüksek birçok özelliğin bulunduğu ve örnek sayısının az olduğu veri
kümelerinde özellik seçme algoritmalarının önemi bir kat daha artmaktadır. Bu
durumlarda özellik seçme algoritmaları hem veri kümesi içindeki gürültülü, sapkın ve
gereksiz özellikleri eleyerek verilerin daha sağlıklı ifade edilmesini sağlamakta hem de
örneklemdeki kayıt sayısının az olduğu hallerde sınıflandırıcı algoritmanın başarı oranını
artırmaktadır [3].

Bu bildiride, bankacılık sektörüne ait örnek veri kümesi kullanılarak tahminleyici
özelliklerin belirlenmesi üzerine farklı algoritmalar (Bilgi Kazancı, Kazanım Oranı,
Bilgi Değeri) uygulama kapsamında geliştirilmiş, sonuçları Weka ve R kullanılarak
karşılaştırmalı biçimde irdelenmiştir.


    2. Özellik Seçimi
Özellik seçimi, kümeleme veya regresyon işlemleri için kullanılacak özelliklerin
belirlenmesi aşamasında, tüm özellik kümesi sütunlarından bağımlı değişkenle olan
ilişkiyi açıklamada, ilgisiz sütunların elenmesi ve açıklayıcı gücü yüksek sütun alt
kümelerinin belirlenmesi işlemidir. Özellik seçimi genel olarak doğruluk ve
ölçeklenebilirlik için kullanılmaktadır. İlk bakışta, veri kümesindeki tüm özelliklerin
analize konu edilmesiyle, sınıflandırma veya bağımlı değişkeni açıklayan regresyon
algoritmalarının başarılı sonuçlar vereceği akla gelmektedir. Oysa bu düşünce pek çok
özellik içeren veri kümelerinde her zaman doğru olmayabilir. Veri kümesindeki her
özellik bağımlı değişken hakkında açıklayıcı ya da tahminleyici bilgi taşımayabilir.
Dolayısıyla özelliklerin tahminleyici bilgi taşıma durumuna göre ayırt edilip analize
konu edilmesi gerekir. Genel bir ifadeyle aksi durum, regresyon modelinde bağımsız
değişken enflasyonu yaratırken modelin katsayıları açısından istatistiksel olarak
anlamlılığını azaltıcı etki yaratır [10]. Başka bir ifadeyle, veri kümesi içindeki bazı
                                           73
özellikler işlem performansını olumsuz etkileyecek gürültüye sahip olduğundan bu
özelliklerin veri kümesi içinden silinmesi, işlem sonucunun doğruluğunun artmasında
etkili olabilmektedir. Diğer taraftan algoritmalarda kullanılacak veri boyutunun
azaltılması da işlem gücü, hafıza ihtiyacı ve depolama alanı gibi işlem süreci üzerinde
etkili konularda zaman tasarrufu sağlar.


    2.1. Özellik Seçimi Yöntemleri
Bu bölümde özellik seçmede kullanılan yöntemler kısaca ele alınmaktadır. Bu yöntemler
sınıf etiketi olan gözetimli veri kümesi üzerinde uygulanan yöntemlerdir. Literatürde
kullanılan özellik seçme yöntemleri bunlarla sınırlı olmamakla birlikte veri kümesinin
pek çok özellik içerdiği durumlarda gözetimli analize konu olacak özelliklerin
belirlenmesinde sıklıkla kullanılan yöntemler bu başlık altında incelenmektedir.


   2.1.1 Bilgi Kazancı Yöntemi
Bilgi Kazancı entropiye dayalı özellik seçim yöntemidir. Entropi, bir sistemdeki
düzensizliğin ya da belirsizliğin ölçüsüdür ve (1) numaralı formüldeki gibi ifade
edilmektedir. Entropi 0 ve 1 aralığında değerler alır ve 1 değerine yaklaştıkça belirsizlik
artar. Yüksek entropiye sahip veri daha çok bilgi içerir.

𝐸(𝐷) = − ∑𝑚
          𝑘=1 𝑝𝑖 𝑙𝑜𝑔𝑖 (𝑝𝑖 )                                                             (1)

pi,, D veri kümesindeki “i” sınıfının olasılığıdır ve “i” sınıfına düşen örnek sayısının tüm
veri kümesindeki toplam örnek sayısına bölünmesiyle elde edilir.

Bilgi Kazancı yöntemi, en ayırt edici özelliği belirlemek için kullanılır ve veri
kümesindeki her bir özellik için ölçülür. D veri kümesi, n tane alt bölüme X özelliğinden
bölünecekse X’e ait bilgi kazancı hesaplanması (2) numaralı formülle gerçekleştirilir.

𝐵𝑖𝑙𝑔𝑖 𝐾𝑎𝑧𝑎𝑛𝑐𝚤 (𝐷, 𝑋) = 𝐸(𝐷) − ∑𝑛𝑘=1 𝑝(𝐷𝑖 )𝐸(𝐷𝑖 )                                        (2)

E(D); veri kümesinin X üzerinden bölünmeden önceki entropisini, E(Di); i alt
bölümünün X üzerinden bölünme olduktan sonraki entropisini ve p(Di) ise i alt
bölümünün X üzerinden bölünme olduktan sonraki olasılığını göstermektedir[4]. Veri
kümesinin bölünmeden önceki belirsizliğinin yüksek olması, verinin, bilgi verici
niteliğinin olduğunu göstermektedir. Bölünmeden sonraki belirsizliğinin düşük
çıkmasıysa bu yöntemin veriyi dallara ayırma işlemini düzgün yaptığını göstermektedir.
(2) numaralı formüle göre E(D)’nin yüksek çıkarken p(Di)E(Di) çarpımları toplamının
düşük çıkması bilgi kazancını artırmaktadır.




                                            74
   2.1.2 Kazanım Oranı Yöntemi
Bilgi Kazancı yöntemi çok çeşitli değerlere sahip özellikleri seçme eğiliminde
olduğundan sonuçları sapmalı bir yöntemdir[11]. Bu sapmanın azaltılması amacıyla
Kazanım Oranı yöntemi oluşturulmuştur. Sapmayı azaltmak için bölünme bilgisi (Split
Information) kullanılmaktadır. Bölünme Bilgisi (3) numaralı formülde gösterilmektedir.

                                    |𝑆 |        |𝑆 |
𝐵ö𝑙ü𝑛𝑚𝑒 𝐵𝑖𝑙𝑔𝑖𝑠𝑖 (𝑆) = − ∑𝑣𝑖=1 ( |𝑆|𝑖 ) 𝑙𝑜𝑔2 ( |𝑆|𝑖 )                                   (3)

Kazanım Oranı, bilgi kazancı değerlerini, bölünme bilgisine oranlayarak bir çeşit
normalizasyona tabi tutar. Bu terim nitelik değerinin veriyi nasıl böldüğü konusunda
hassastır[5].

𝐾𝑎𝑧𝑎𝑛𝚤𝑚 𝑂𝑟𝑎𝑛𝚤 (𝐴) = 𝐵𝑖𝑙𝑔𝑖 𝐾𝑎𝑧𝑎𝑛𝑐𝚤 (𝐴)⁄𝐵ö𝑙ü𝑛𝑚𝑒 𝐵𝑖𝑙𝑔𝑖𝑠𝑖 (𝑆)                              (4)

(3) ve (4) numaralı formüller kullanılarak en yüksek kazanım oranına sahip özellikler
belirlenmiş olur.


   2.1.3 Bilgi Değeri Yöntemi
Bilgi değeri, veri kümesindeki özelliklerin tahminleyici gücünü hesaplayan istatistiksel
bir yöntemdir. Özelliklerin taşıdığı bilgi değerine göre tahminleyici güçleri arasında
karşılaştırma yapmak mümkün olmaktadır. Bilgi değerinin ölçülmesinde bir hipotezi
destekleyen kanıtları birleştirmek için kullanılan ve niceliksel bir yöntem olan Kanıtsal
Ağırlık’a yer verilmektedir. Kanıtsal Ağırlık, özelliklerin tahmin gücünü hedeflenen
sınıfa göre analiz eder ve konuyu olumlu ve olumsuz olmak üzere iki taraflı olarak ele
alır. Burada bahsedilen iki taraflı durum, bireyin bir ürünü satın alma veya almama
ihtimali olabileceği gibi bir kredi müşterisinin kredi borcunu ödeyip ödeyememesi
durumu gibi kesikli, ayrık bir durum da olabilir. Kanıtsal Ağırlık tanımıyla özellik
bazında bu durumların birbirinden ne kadar ayrışık olduğu belirlenebilir[12, 13].

(5) numaralı denklemde pay ve paydada sırasıyla, kredi kartı alanların ve almayanların
olasılık dağılımı ifade edilmektedir. Olasılık dağılımlarının birbirine oranının doğal
logaritması bize Kanıtsal Ağırlık değerini vermektedir ve bu değer (6) numaralı
denklemde gösterildiği gibi Bilgi Değeri hesaplanırken kullanılmaktadır. Ürünü satın
alanların dağılımı satın almayanların dağılımına eşitse olasılık dağılımlarının oranı 1’e
eşit olacak ve bunun doğal logaritmadaki karşılığı sıfır olacaktır. Satın alan ve
almayanların dağılımının birbirinden ne kadar ayrışık olduğunu anlayabilmek için
olasılık dağılımlarının birbirinden o kadar farklı olması beklenmektedir. Böylece iki
kümenin birbirinden farklı bilgi taşıdığı ve ayrışık olduğu kanaatine varılabilir. Olasılık
dağılımlarının birbirine eşit olması, maksimum belirsizliğe işaret eder, Kanıtsal Ağırlığı
0’a yakınsatır, Bilgi Değerini azaltır [11,13].




                                              75
                            (𝑲𝒓𝒆𝒅𝒊 𝑲𝒂𝒓𝒕𝚤 𝑨𝒍𝒂𝒏𝒍𝒂𝒓𝚤𝒏 𝑫𝒂ğ𝚤𝒍𝚤𝒎𝚤)𝒊
𝑲𝒂𝒏𝚤𝒕𝒔𝒂𝒍 𝑨ğ𝚤𝒓𝒍𝚤𝒌 = 𝒍𝒏 (                                          )
                          (𝑲𝒓𝒆𝒅𝒊 𝑲𝒂𝒓𝒕𝚤 𝑨𝒍𝒎𝒂𝒚𝒂𝒏𝒍𝒂𝒓𝚤𝒏 𝑫𝒂ğ𝚤𝒍𝚤𝒎𝚤)𝒊
         (5)


𝐵𝑖𝑙𝑔𝑖 𝐷𝑒ğ. = ∑((𝐾. 𝐾𝑎𝑟𝑡𝚤𝐴𝑙𝑎𝑛𝑙𝑎𝑟𝚤𝑛 𝐷𝑎ğ. ) 𝑖 − (𝐾. 𝐾𝑎𝑟𝑡𝚤 𝐴𝑙𝑚𝑎𝑦𝑎𝑛𝑙𝑎𝑟𝚤𝑛 𝐷𝑎ğ. ) 𝑖 ) ∗ 𝐾𝑎𝑛𝚤𝑡𝑠𝑎𝑙 𝐴ğ𝚤𝑟𝑙𝚤𝑘   (6)

Veri kümesinde bilgi değeri yüksek çıkan özelliklerin tahminleyici gücü yüksektir. Bilgi
değeri yöntemi, (6) numaralı denklemden çıkan sonuçları (BD<0,02) tahminleyici gücü
yok, (0,02