=Paper=
{{Paper
|id=Vol-1483/7_Bildiri
|storemode=property
|title=Veri Madenciliğinde Özellik Seçim Tekniklerinin Bankacılık Verisine Uygulanması Üzerine Araştırma ve Karşılaştırmalı Uygulama
|pdfUrl=https://ceur-ws.org/Vol-1483/7_Bildiri.pdf
|volume=Vol-1483
|dblpUrl=https://dblp.org/rec/conf/uyms/YaziciYGTAK15
}}
==Veri Madenciliğinde Özellik Seçim Tekniklerinin Bankacılık Verisine Uygulanması Üzerine Araştırma ve Karşılaştırmalı Uygulama==
Veri Madenciliğinde Özellik Seçim Tekniklerinin Bankacılık Verisine Uygulanması Üzerine Araştırma ve Karşılaştırmalı Uygulama Betül Yazıcı1, Fethiye Yaslı1, Hande Yıldız Gürleyik2, Umut Orçun Turgut2 Mehmet S. Aktas1,Oya Kalıpsız1 1 Bilgisayar Mühendisliği Bölümü, Elektrik-Elektronik Fakültesi Yıldız Teknik Üniversitesi, İstanbul 2 Ar-Ge Merkezi, Cybersoft, İstanbul E-posta: {betulyazicii@gmail.com,fethiyeyasli@gmail.com, hande.gurleyik@cs.com.tr, umut.turgut@cybersoft.com.tr, mehmet@ce.yildiz.edu.tr, oya@ce.yildiz.edu.tr} Özet. Günümüzde pek çok kurum mevcut verilerini ilişkisel veri tabanlarında saklamakta ve modellemelerini bu verileri kullanarak gerçekleştirmektedir. Kurumsal veri modellerinin karmaşıklığı, veriye ait özelliklerin çokluğu ve veri miktarının fazlalığı, veri üzerinde her türlü analizin (kümeleme, regresyon, vb.) yapılmasını zorlaştırmaktadır. Bu nedenle veri kümeleri üzerinde tahmin gücü yüksek özelliklerin belirlenebilmesi için kolay kullanılabilir, yaygın kullanıma sahip mevcut araçlarla (R, Weka) entegre olabilecek ve karşılaştırmalı olarak en iyi tahmini üretebilecek yazılımlara ihtiyaç bulunmaktadır. Literatürde, özellikleri inceleyen üç temel yaklaşım vardır. Bunlar, entropi yöntemiyle belirsizliği ölçen 2 Bilgi Teorisi Ki-kare (x ) istatistiğini kullanarak özelliklerin taşıdığı bilginin birbirinden farklılığını ölçen Geleneksel İstatistik ve negatif entropiyi kullanarak bilgi değerini ölçen Öngörüsel Analiz yaklaşımlarıdır. Bu araştırma kapsamında bahsedilen ihtiyaçlara yanıt verebilmek amacıyla Öngörüsel Analiz yaklaşımını kullanan ve tahmin gücü yüksek özellikleri belirleyen bir yazılım üretilmiştir. Bu bildiriyle yazılımın geliştirilmesi sürecinde kullanılan yöntemler, teknikler, algoritmalar ve geliştirilen yazılım detaylı olarak anlatılmıştır. Geliştirilen yöntemler aynı bankacılık veri kümesinde uygulanmış ve sonuçları karşılaştırmalı olarak analiz edilerek yorumlanmıştır. Anahtar Kelimeler: Veri Madenciliği, Öngörüsel Yaklaşım, Özellik Seçimi, Bilgi Kazancı, Bilgi Değeri, Kazanım Oranı 72 1. Giriş Özellikler, gerek gözetimli gerekse de gözetimsiz yöntemler tercih edilerek bağımlı değişkeni açıklamada kullanılan etkenlerdir. Özellik Seçimi işlemi, bağımlı değişkenle ilgisi olmayan, tahminleyici bilgisi az veya hiç olmayan özellikleri eleyerek bağımlı değişkeni açıklama kabiliyeti yüksek olan özelliklerin tespitini sağlamaktadır [1]. Bu çalışmada gözetimli veri kümeleri üzerinde uygulanan özellik seçim yöntemleri kullanılmıştır. Son on yılda sınıflandırma algoritmalarının üstünde uygulandığı veri kümelerindeki özellik sayıları binleri hatta on binleri bulmaktadır. Bu nedenle araştırmacılar özellik seçme yöntemlerine her zamankinden daha fazla ihtiyaç duymaktadırlar [2]. Seçilen özelliklerle yapılan sınıflandırmada, işlem sayısı azalmakta, gürültülü ve ilgisiz özellikler özgün veriden çıkarılarak sınıflama başarısı arttırılmakta ve özellikler üzerinden yapılabilen sınıflama yorumları artmakta veya kolaylaşmaktadır. Bunlara ek olarak model eğitim zamanı kısalmakta, daha az ölçüm yapılmakta ve daha az bellek kullanılmaktadır. Bu yararlar, modeli tanımanın anlamlı ve daha kolay olmasını sağlamaktadır. Korelasyonları yüksek birçok özelliğin bulunduğu ve örnek sayısının az olduğu veri kümelerinde özellik seçme algoritmalarının önemi bir kat daha artmaktadır. Bu durumlarda özellik seçme algoritmaları hem veri kümesi içindeki gürültülü, sapkın ve gereksiz özellikleri eleyerek verilerin daha sağlıklı ifade edilmesini sağlamakta hem de örneklemdeki kayıt sayısının az olduğu hallerde sınıflandırıcı algoritmanın başarı oranını artırmaktadır [3]. Bu bildiride, bankacılık sektörüne ait örnek veri kümesi kullanılarak tahminleyici özelliklerin belirlenmesi üzerine farklı algoritmalar (Bilgi Kazancı, Kazanım Oranı, Bilgi Değeri) uygulama kapsamında geliştirilmiş, sonuçları Weka ve R kullanılarak karşılaştırmalı biçimde irdelenmiştir. 2. Özellik Seçimi Özellik seçimi, kümeleme veya regresyon işlemleri için kullanılacak özelliklerin belirlenmesi aşamasında, tüm özellik kümesi sütunlarından bağımlı değişkenle olan ilişkiyi açıklamada, ilgisiz sütunların elenmesi ve açıklayıcı gücü yüksek sütun alt kümelerinin belirlenmesi işlemidir. Özellik seçimi genel olarak doğruluk ve ölçeklenebilirlik için kullanılmaktadır. İlk bakışta, veri kümesindeki tüm özelliklerin analize konu edilmesiyle, sınıflandırma veya bağımlı değişkeni açıklayan regresyon algoritmalarının başarılı sonuçlar vereceği akla gelmektedir. Oysa bu düşünce pek çok özellik içeren veri kümelerinde her zaman doğru olmayabilir. Veri kümesindeki her özellik bağımlı değişken hakkında açıklayıcı ya da tahminleyici bilgi taşımayabilir. Dolayısıyla özelliklerin tahminleyici bilgi taşıma durumuna göre ayırt edilip analize konu edilmesi gerekir. Genel bir ifadeyle aksi durum, regresyon modelinde bağımsız değişken enflasyonu yaratırken modelin katsayıları açısından istatistiksel olarak anlamlılığını azaltıcı etki yaratır [10]. Başka bir ifadeyle, veri kümesi içindeki bazı 73 özellikler işlem performansını olumsuz etkileyecek gürültüye sahip olduğundan bu özelliklerin veri kümesi içinden silinmesi, işlem sonucunun doğruluğunun artmasında etkili olabilmektedir. Diğer taraftan algoritmalarda kullanılacak veri boyutunun azaltılması da işlem gücü, hafıza ihtiyacı ve depolama alanı gibi işlem süreci üzerinde etkili konularda zaman tasarrufu sağlar. 2.1. Özellik Seçimi Yöntemleri Bu bölümde özellik seçmede kullanılan yöntemler kısaca ele alınmaktadır. Bu yöntemler sınıf etiketi olan gözetimli veri kümesi üzerinde uygulanan yöntemlerdir. Literatürde kullanılan özellik seçme yöntemleri bunlarla sınırlı olmamakla birlikte veri kümesinin pek çok özellik içerdiği durumlarda gözetimli analize konu olacak özelliklerin belirlenmesinde sıklıkla kullanılan yöntemler bu başlık altında incelenmektedir. 2.1.1 Bilgi Kazancı Yöntemi Bilgi Kazancı entropiye dayalı özellik seçim yöntemidir. Entropi, bir sistemdeki düzensizliğin ya da belirsizliğin ölçüsüdür ve (1) numaralı formüldeki gibi ifade edilmektedir. Entropi 0 ve 1 aralığında değerler alır ve 1 değerine yaklaştıkça belirsizlik artar. Yüksek entropiye sahip veri daha çok bilgi içerir. 𝐸(𝐷) = − ∑𝑚 𝑘=1 𝑝𝑖 𝑙𝑜𝑔𝑖 (𝑝𝑖 ) (1) pi,, D veri kümesindeki “i” sınıfının olasılığıdır ve “i” sınıfına düşen örnek sayısının tüm veri kümesindeki toplam örnek sayısına bölünmesiyle elde edilir. Bilgi Kazancı yöntemi, en ayırt edici özelliği belirlemek için kullanılır ve veri kümesindeki her bir özellik için ölçülür. D veri kümesi, n tane alt bölüme X özelliğinden bölünecekse X’e ait bilgi kazancı hesaplanması (2) numaralı formülle gerçekleştirilir. 𝐵𝑖𝑙𝑔𝑖 𝐾𝑎𝑧𝑎𝑛𝑐𝚤 (𝐷, 𝑋) = 𝐸(𝐷) − ∑𝑛𝑘=1 𝑝(𝐷𝑖 )𝐸(𝐷𝑖 ) (2) E(D); veri kümesinin X üzerinden bölünmeden önceki entropisini, E(Di); i alt bölümünün X üzerinden bölünme olduktan sonraki entropisini ve p(Di) ise i alt bölümünün X üzerinden bölünme olduktan sonraki olasılığını göstermektedir[4]. Veri kümesinin bölünmeden önceki belirsizliğinin yüksek olması, verinin, bilgi verici niteliğinin olduğunu göstermektedir. Bölünmeden sonraki belirsizliğinin düşük çıkmasıysa bu yöntemin veriyi dallara ayırma işlemini düzgün yaptığını göstermektedir. (2) numaralı formüle göre E(D)’nin yüksek çıkarken p(Di)E(Di) çarpımları toplamının düşük çıkması bilgi kazancını artırmaktadır. 74 2.1.2 Kazanım Oranı Yöntemi Bilgi Kazancı yöntemi çok çeşitli değerlere sahip özellikleri seçme eğiliminde olduğundan sonuçları sapmalı bir yöntemdir[11]. Bu sapmanın azaltılması amacıyla Kazanım Oranı yöntemi oluşturulmuştur. Sapmayı azaltmak için bölünme bilgisi (Split Information) kullanılmaktadır. Bölünme Bilgisi (3) numaralı formülde gösterilmektedir. |𝑆 | |𝑆 | 𝐵ö𝑙ü𝑛𝑚𝑒 𝐵𝑖𝑙𝑔𝑖𝑠𝑖 (𝑆) = − ∑𝑣𝑖=1 ( |𝑆|𝑖 ) 𝑙𝑜𝑔2 ( |𝑆|𝑖 ) (3) Kazanım Oranı, bilgi kazancı değerlerini, bölünme bilgisine oranlayarak bir çeşit normalizasyona tabi tutar. Bu terim nitelik değerinin veriyi nasıl böldüğü konusunda hassastır[5]. 𝐾𝑎𝑧𝑎𝑛𝚤𝑚 𝑂𝑟𝑎𝑛𝚤 (𝐴) = 𝐵𝑖𝑙𝑔𝑖 𝐾𝑎𝑧𝑎𝑛𝑐𝚤 (𝐴)⁄𝐵ö𝑙ü𝑛𝑚𝑒 𝐵𝑖𝑙𝑔𝑖𝑠𝑖 (𝑆) (4) (3) ve (4) numaralı formüller kullanılarak en yüksek kazanım oranına sahip özellikler belirlenmiş olur. 2.1.3 Bilgi Değeri Yöntemi Bilgi değeri, veri kümesindeki özelliklerin tahminleyici gücünü hesaplayan istatistiksel bir yöntemdir. Özelliklerin taşıdığı bilgi değerine göre tahminleyici güçleri arasında karşılaştırma yapmak mümkün olmaktadır. Bilgi değerinin ölçülmesinde bir hipotezi destekleyen kanıtları birleştirmek için kullanılan ve niceliksel bir yöntem olan Kanıtsal Ağırlık’a yer verilmektedir. Kanıtsal Ağırlık, özelliklerin tahmin gücünü hedeflenen sınıfa göre analiz eder ve konuyu olumlu ve olumsuz olmak üzere iki taraflı olarak ele alır. Burada bahsedilen iki taraflı durum, bireyin bir ürünü satın alma veya almama ihtimali olabileceği gibi bir kredi müşterisinin kredi borcunu ödeyip ödeyememesi durumu gibi kesikli, ayrık bir durum da olabilir. Kanıtsal Ağırlık tanımıyla özellik bazında bu durumların birbirinden ne kadar ayrışık olduğu belirlenebilir[12, 13]. (5) numaralı denklemde pay ve paydada sırasıyla, kredi kartı alanların ve almayanların olasılık dağılımı ifade edilmektedir. Olasılık dağılımlarının birbirine oranının doğal logaritması bize Kanıtsal Ağırlık değerini vermektedir ve bu değer (6) numaralı denklemde gösterildiği gibi Bilgi Değeri hesaplanırken kullanılmaktadır. Ürünü satın alanların dağılımı satın almayanların dağılımına eşitse olasılık dağılımlarının oranı 1’e eşit olacak ve bunun doğal logaritmadaki karşılığı sıfır olacaktır. Satın alan ve almayanların dağılımının birbirinden ne kadar ayrışık olduğunu anlayabilmek için olasılık dağılımlarının birbirinden o kadar farklı olması beklenmektedir. Böylece iki kümenin birbirinden farklı bilgi taşıdığı ve ayrışık olduğu kanaatine varılabilir. Olasılık dağılımlarının birbirine eşit olması, maksimum belirsizliğe işaret eder, Kanıtsal Ağırlığı 0’a yakınsatır, Bilgi Değerini azaltır [11,13]. 75 (𝑲𝒓𝒆𝒅𝒊 𝑲𝒂𝒓𝒕𝚤 𝑨𝒍𝒂𝒏𝒍𝒂𝒓𝚤𝒏 𝑫𝒂ğ𝚤𝒍𝚤𝒎𝚤)𝒊 𝑲𝒂𝒏𝚤𝒕𝒔𝒂𝒍 𝑨ğ𝚤𝒓𝒍𝚤𝒌 = 𝒍𝒏 ( ) (𝑲𝒓𝒆𝒅𝒊 𝑲𝒂𝒓𝒕𝚤 𝑨𝒍𝒎𝒂𝒚𝒂𝒏𝒍𝒂𝒓𝚤𝒏 𝑫𝒂ğ𝚤𝒍𝚤𝒎𝚤)𝒊 (5) 𝐵𝑖𝑙𝑔𝑖 𝐷𝑒ğ. = ∑((𝐾. 𝐾𝑎𝑟𝑡𝚤𝐴𝑙𝑎𝑛𝑙𝑎𝑟𝚤𝑛 𝐷𝑎ğ. ) 𝑖 − (𝐾. 𝐾𝑎𝑟𝑡𝚤 𝐴𝑙𝑚𝑎𝑦𝑎𝑛𝑙𝑎𝑟𝚤𝑛 𝐷𝑎ğ. ) 𝑖 ) ∗ 𝐾𝑎𝑛𝚤𝑡𝑠𝑎𝑙 𝐴ğ𝚤𝑟𝑙𝚤𝑘 (6) Veri kümesinde bilgi değeri yüksek çıkan özelliklerin tahminleyici gücü yüksektir. Bilgi değeri yöntemi, (6) numaralı denklemden çıkan sonuçları (BD<0,02) tahminleyici gücü yok, (0,02