İstatistiksel ve Makine Öğrenimi Yöntemleriyle Kredi Skorlama Yunus Emre Demirbulut1, Mehmet S. Aktaş1, Oya Kalıpsız1, Selçuk Bayracı2 1 Bilgisayar Mühendisliği Bölümü, Elektrik-Elektronik Fakültesi Yıldız Teknik Üniversitesi, İstanbul 2 Ar-Ge Merkezi, Cybersoft, İstanbul yunus.emre.demirbulut@std.yildiz.edu.tr, aktas@yildiz.edu.tr, kalipsiz@yildiz.edu.tr, selcuk.bayraci@cybersoft.com.tr Özet. Kredi riski bankacılık sektöründe kritik risklerden bir tanesi olması sebe- biyle, finans kuruluşları kredi verme konusunda karar verme aşamasında banka personeline yardımcı olan sistemlerin geliştirilmesine önem vermektedir. Banka- lar, kredi talep eden müşterilerine kredi vermeden önce çeşitli kredi değerlen- dirme modellerine başvurmaktadır. Kredi skorlama çalışmalarında yaygın olarak kullanılan makine öğrenme ve istatistiksel teknikler incelenmiştir. Bu çalışmada kredi skorlama sistemlerinde kullanılabilecek farklı algoritmalar incelenmiştir. Bu araştırmada, kredi talebinde bulunan müşterilerin kredi isteğinin onaylanması veya geri çevrilmesi kararının verilmesini kolaylaştıracak bir sistem geliştirilmiş- tir. Geliştirilen sistem K En Yakın Komşu (KNN), C4.5 Ağacı, Yapay Sinir Ağı, Destek Vektör Makinesi (SVM), Lojistik Regresyon, Probit Regresyon, Poisson Regresyon ve Genelleştirilmiş Katkı Modeli (GAM) yöntemlerinin karşılaştırıl- masını sunmaktadır. Her bir algoritmadan elde edilen sonuçlar müşterinin kredi skorunun tespit edilmesine imkân sunmaktadır. Ayrıca geliştirilen sistem kuru- luşların kar oranının da artmasına olanak sağlamaktadır. Anahtar Kelimeler: Kredi Skorlama, Makine Öğrenimi, İstatistik, Regresyon, Kredi Riski 273 Credit Scoring With Statistical And Machine Learning Methods Yunus Emre Demirbulut1, Mehmet S. Aktaş1, Oya Kalıpsız1, Selçuk Bayracı2 1 Computer Engineering Department, Electrical-Electronic Faculty Yıldız Technical University, İstanbul 2 Ar-Ge Center, Cybersoft, İstanbul yunus.emre.demirbulut@std.yildiz.edu.tr, aktas@yildiz.edu.tr, kalipsiz@yildiz.edu.tr, selcuk.bayraci@cybersoft.com.tr Abstract. Since credit risk is one of the most crucial risks in the banking sector, financial institutions attach importance to the development of novel credit scor- ing techniques in loan application processes. Banks apply various credit assess- ment tools before granting loans to customers who demand credit. In this paper, we conduct a comparative study which evaluates the predicting accuracy of var- ious statistical and machine learning based algorithms in credit scoring. In this research, we developed a Java based desktop application that presents the com- parison of K-Nearest Neighbors (KNN), C4.5 Tree, Artificial Neural Network (ANN), Support Vector Machine (SVM), Logistic Regression, Probit Regres- sion, Poisson Regression and Generalized Additive Models (GAM) models. The results obtained from each algorithm allow to determine the credit score of the customer. In addition, the developed system allows organizations to increase their profit rate. Keywords: Credit Scoring, Machine Learning, Statistics, Regression, Credit Risk 274 1 Giriş Kredi endüstrisindeki genişleme müşteri sayısını ve buna bağlı olarak bankalara olan kredi talebini artırmıştır. Artan talepler tüketici kredisi piyasasındaki rekabeti ciddi bir boyuta getirmiştir. Finansal kuruluşların, başvuruda bulunan müşterilerin kredilerini zamanında ödeyip ödeyemeyeceğini öngörmesi kritik önem arz etmektedir. Çünkü, bankaların ana gelir kaynağı, müşterilerine verdiği kredilerden gelen faiz gelirleridir. Müşterilerin kredilerini ödeyememesi durumunda banka para kaybına uğramaktadır. Kredi skorlaması yukarıda bahsedilen sorunun yaşanmaması veya minimum seviyede yaşanması için kullanılan en yaygın çözümdür. Bankalar, kredi başvurusunda bulunan müşterinin nicel ve nitel verilerini kullanarak, çeşitli kredi skorlama modelleri vasıtasıyla müşterinin risk profilini çıkarmaktadır. Bu değerlendirmeler sonucunda kredi talebi onaylanmakta veya reddedilmektedir. Kredi skorlama modelleri aracılı- ğıyla müşterinin temerrüt olasılığı hesaplanabilmekte veya müşteriler farklı temerrüt gruplarına ayrılabilmektedir. Bireysel krediler için kredi skorlama modellerinin kullan- dığı müşteri özellikleri, gelir düzeyi, sahip olunan varlıklar, yaş ve iş bilgisi bulunmak- tadır. Kurumsal kredilerde ise borç-özsermaye gibi finansal oranlar önem kazanmakta- dır. Literatürde kredi skorlama için farklı yöntemler kullanılmasına rağmen, hangi yöntemin daha iyi sonuç verdiğine dair bir uzlaşı sağlanamamıştır. Bu açıdan, farklı yöntemler kullanmak ve performanslarını karşılaştırmalı olarak test etmek, sağlam ve doğru risk fiyatlaması yapmak açısından önemlidir. Bu çalışmada, bireysel tüketici kre- dilerinin riskini hesaplamak ve müşterileri geri ödeme durumlarına göre değerlendir- mek amacıyla istatistiksel ve makine öğrenimi bazlı 8 farklı sınıflandırma yöntemi kul- lanılmıştır. Araştırma kapsamında kullanılan istatistiksel algoritmalar; Lojistik Regres- yon, Probit Regresyon, Poisson Regresyon ve Genelleştirilmiş Katkı Modelidir. Ma- kine öğrenimi algoritmalarından; k-En Yakın Komşular, C4.5 Karar Ağacı, Destek Vektör Makineleri (DVM) ve Yapay Sinir Ağları (YSA) kullanılmıştır. Algoritmaların karartılmış bankacılık veri setleri üzerinde koşturulması sonucu elde edilen sonuçlar, Duyarlılık, Özgüllük, Doğruluk, ROC Eğrisi Altında Kalan Alan, Gini Katsayısı ve Zaman olmak üzere 6 farklı metriğe göre karşılaştırılmıştır. Bildirinin devam eden bölümlerinde sırasıyla; Bölüm 2’de; kredi skorlama hakkında daha önceden yapılmış benzer çalışmalar anlatılacaktır. Bölüm 3’te; kullanı- lan istatistiksel ve makine öğrenimi algoritmalarının tanımı yapılacak ve kredi skorlama modellerinin nasıl karşılaştırıldığı açıklanacaktır. Bölüm 4’te; yapılan çalışma değer- lendirilecek. Bölüm 5’te; uygulamaya ait sonuçlar incelenecek ve gelecek çalışmalar hakkında tavsiyelerde bulunulacaktır. 2 İlgili Çalışmalar Literatür incelendiğinde, kredi skorlama konusu üzerinde yapılmış birçok çalışma bu- lunmaktadır. 275 Altman [5] tarafından gerçekleştirilen bir başka çalışmada, kurumsal iflas ön- görüsü problemi için geleneksel oran analizi yöntemleri yerine diskriminant analiz yön- temi kullanılmıştır. Diskriminant analiz modeli, iflas etmiş ve iflas etmeyen grupların sınıflandırmasında %95 doğruluk oranına ulaşmıştır. Salome Tabagari [1] tarafında yapılan çalışmada, müşterilerin kredi skorları- nın nasıl hesaplanacağını göstermek için bir bankaya ait ve kredi talebinde bulunan 500 müşterinin bilgilerinden oluşan bir veri seti kullanılmıştır. Bu amaçla en sık kullanılan metotlardan bir tanesi olan lojistik regresyon yöntemi kullanılmıştır. Yapılan çalışma sonucunda %82,8 değerinde doğruluk elde edilmiştir. Desai [2] tarafından yapılan araştırmada, YSA, doğrusal diskriminant analizi (LDA) ve Lojistik Regresyon olmak üzere 3 farklı algoritma kullanılmıştır. Çalışmada kullanılan veri seti 3 farklı kredi birliğinden toplanan ve kredi talebinde bulunan müş- terilere ait bilgilerden oluşmaktadır. Çalışma sonucunda, kötü sınıfa ait kredilerin sınıf- landırılmasında YSA yüksek doğruluk oranı sunmaktadır. Bununla birlikte, iyi ve kötü sınıfa ait kredilerin sınıflandırılmasında Lojistik Regresyon ve YSA yakın sonuçlar içermektedir. LDA yönteminin sonuçları ise diğer algoritmaların oldukça gerisinde kal- mıştır. Moares [3] tarafından yapılan çalışmada, müşterilerin kredi profillerini iyi veya kötü olarak sınıflandırmak için C4.5 karar ağacı ve YSA kullanılmıştır. Yapılan çalışma sonucunda, C4.5 karar ağacı ile %90.07 doğruluk oranı elde edilmiştir. YSA ise %95,58’lik bir doğruluk oranı sunmuştur. Ceren [4] tarafından yapılan çalışmada, şirketlerin başarısızlığını finansal oranlara dayanarak öngörmek için DVM algoritmasını uygulamış ve sonuçları Lojistik Regresyon ile karşılaştırmıştır. DVM algoritmasının doğruluğunun artırılması için ça- lışmada ızgara arama yöntemi kullanılmıştır. Çalışma sonucunda DVM algoritması ile %75 oranında doğruluk değeri elde etmiştir. Buna karşın Lojistik Regresyon ile %71,8 oranında doğruluk değerine ulaşmıştır. Bart [6] tarafından yapılan araştırmada, kredi skorlaması için en gelişmiş sı- nıflandırma algoritmaları karşılaştırılmıştır. Çalışma sonucunda, 41 farklı sınıflandırı- cının sınıflandırma performansı, gerçek dünya kredi skorlama veri setleri ile karşılaştı- rılmıştır. Sonuçlara göre YSA algoritmalarının en güçlü sınıflandırıcı olduğu tespit edilmiştir. Yang [7] tarafında yapılan bir çalışmada ise, bir çekirdek öğrenme algoritması temelinde yeni bir uyarlanabilir kredi skorlama tekniği sunulmuştur. Bu yöntem, gerçek hayatta doğrusal olmayan kredi skorlama görevlerini kolaylaştırmaktadır. Ayrıca veri ön işleme ve değişken analiz için zaman maliyetinin azaltılmasına yardımcı olmaktadır. 3 Metodoloji Geliştirilen yazılımda, bankacılık alanındaki veri setleri aracılığıyla kredi skorlama mo- delleri oluşturmak ve bu modellerin uygunluğunu karşılaştırmak için sekiz farklı algo- ritma kullanılmıştır. Sekiz algoritmanın dört tanesi istatistiksel algoritmalardan, geri kalan dört tanesi ise makine öğrenimi algoritmalarından seçilmiştir. İstatistiksel algo- 276 ritmalar için Lojistik Regresyon, Probit Regresyon, Poisson Regresyon ve genelleşti- rilmiş katkı modeli yöntemleri tercih edilmiştir. Makine öğrenimi algoritmalarından ise K En Yakın Komşu, C4.5 Karar Ağacı, DVM ve YSA kullanılmıştır. Kullanılan algo- ritmalar ile ilgili bilgiler Bölüm 3.1 ve Bölüm 3.2’de yer almaktadır. Sistemin genel mimarisi Şekil 1’de gösterilmektedir. Girdi: Kredi Skorlama Veri Seti En İyi Özellik Belirleme Kütüphanesi Çıktı: En İyi Özellikli Veri Seti K En Yakın C4.5 Karar Genelleşmiş Lojistik Komşu Ağacı Katkı Modeli Regresyon Destek Vektör Yapay Sinir Poisson Probit Makinesi Ağı Regresyon Regresyon Doğruluk Duyarlılık Özgüllük AUC Gini Süre Şekil. 1. Sistemin Genel Mimarisi 3.1 Çalışmada Kullanılan İstatistiksel Algoritmalar Lojistik Regresyon [8] (Bknz. Şekil 2), bağımlı değişkeni ikili (binary) yapıda olan veri setleri üzerinde uygulanacak bir regresyon analizidir. Diğer tüm regresyon analiz- lerinde olduğu gibi, lojistik regresyon da bir tahmin analizidir. Lojistik regresyonda amaç, ikili yapıdaki bağımlı değişken ile bağımsız değişkenler arasındaki ilişkiyi en 277 uygun şekilde açıklayan modelin bulunmasıdır. Lojistik regresyon ile sınıflandırma ya- pılırken modele ait her bir beta katsayısı Formül 1’deki formülde yerine yazılarak elde edilir. Algoritma 1: Lojistik Regresyon 1. Başla 2. Her bir özellik için beta katsayısını sıfıra eşitle 3. Repeat a. Güncel beta katsayılarını kullanarak Logit fonksiyonunu (Formül 1) veri setindeki tüm örnekler için sırasıyla çalıştır ve elde edilen sınıf bilgile- rini gerçek sınıf bilgisinden çıkararak hata miktarını hesapla. b. Veri setindeki her bir örneğe ait hata miktarını topla. c. Toplam hata miktarını öğrenme katsayısı ile çarp ve sonucu tüm beta katsayılarından çıkar. d. Adım C’de elde edilen sonuç ile beta katsayılarını güncelle. 4. Until Beta katsayıları yakınsayana kadar. 5. Bitir Şekil. 2. Lojistik regresyona ait sözde kod # ln = 𝛽) + 𝛽$ Χ$ + 𝛽, Χ , + ⋯ + 𝛽. Χ . (1) $%# Poisson Regresyon [9] (Bknz. Şekil 3), düzenli çoklu regresyonlara benzemektedir. Bağımlı değişken ise Poisson dağılımını (Bknz. Formül 2) izleyen gözlenen bir sayıdır. Böylece bağımlı değişkenin olası değerleri negatif olmayan tamsayılardır. Dolayısıyla, Poisson regresyon, lojistik regresyona benzerlik göstermektedir. Fakat bağımlı değiş- kenler lojistik regresyondaki gibi sınırlı değildir. Algoritma 2: Poisson Regresyon 1. Başla 2. Her bir özellik için beta katsayısını sıfıra eşitle 3. Repeat a. Güncel beta katsayılarını kullanarak Poisson Dağılımı (Formül 2) fonk- siyonuna ait 𝝀 değerini 0 ve 1 çıktı değeri için hesapla. b. En yüksek olasılığa sahip sonucu seç. c. Adım B işlemini veri setindeki tüm örnekler için sırasıyla çalıştır ve elde edilen sonuçları gerçek sınıf bilgisinden çıkararak hata miktarını he- sapla. d. Veri setindeki her bir örneğe ait hata miktarını topla. e. Toplam hata miktarını öğrenme katsayısı ile çarp ve sonucu tüm beta katsayılarından çıkar. f. Adım E’de elde edilen sonuç ile beta katsayılarını güncelle. 4. Until Beta katsayıları yakınsayana kadar. 278 5. Bitir Şekil. 3. Poisson regresyona ait sözde kod 𝑃 𝑋 = 𝜆3 𝑒 56 𝑥! (2) Probit Regresyon [10] (Bknz. Şekil 4), ikili yapıdaki sonuç değişkenine sahip veri setleri üzerinde regresyon yapılmasını sağlar. Probit regresyon, bir değerin olası ikili sonucundan birine düşme ihtimalini hesaplar. Regresyon yöntemlerinden bir tanesi olan lojistik regresyona oldukça benzemektedir. Fakat probit regresyonda sınıflandırma standart normal dağılım (Bknz. Formül 3) ile hesaplanır. Algoritma 3: Probit Regresyon 1. Başla 2. Her bir özellik için beta katsayısını sıfıra eşitle 3. Repeat a. Güncel beta katsayılarını kullanarak Standart Normal Dağılım fonksiyo- nunu (Formül 3) veri setindeki tüm örnekler için sırasıyla çalıştır ve elde edilen sınıf bilgilerini gerçek sınıf bilgisinden çıkararak hata miktarını hesapla. b. Veri setindeki her bir örneğe ait hata miktarını topla. c. Toplam hata miktarını öğrenme katsayısı ile çarp ve sonucu tüm beta katsayılarından çıkar. d. Adım C’de elde edilen sonuç ile beta katsayılarını güncelle. 4. Until Beta katsayıları yakınsayana kadar. 5. Bitir Şekil. 4. Probit regresyona ait sözde kod <=. 𝜙 5$ 𝑝; = <=) 𝛽< 𝑋;< (3) Genelleştirilmiş Katkı Modeli [11] (Bknz. Şekil 5), lineer olmayan değişkenlerin smooth fonksiyonları ile hesaplandığı bir modelleme tekniğidir. Bu yöntemde lineer değişkenler lojistik regresyonda olduğu gibi logit fonksiyonu ile modellenir. Genelleş- tirilmiş katkı modeli ile sınıflandırma Formül 4’deki formül ile yapılmaktadır. Algoritma 4: Genelleştirilmiş Katkı Modeli 1. Başla 2. Nümerik özellikler ile kategorik özellikleri ayrı veri setlerine böl. 3. Nümerik özellikler için spline fonksiyonu hesapla. 4. Her bir kategorik özellik için beta katsayısını sıfıra eşitle 5. Repeat a. Güncel beta katsayılarını kullanarak Logit fonksiyonunu veri setindeki tüm örnekler için sırasıyla çalıştır ve elde edilen sınıf bilgilerini gerçek sınıf bilgisinden çıkararak hata miktarını hesapla. 279 b. Veri setindeki her bir örneğe ait hata miktarını topla. c. Toplam hata miktarını öğrenme katsayısı ile çarp ve sonucu tüm beta katsayılarından çıkar. d. Adım C’de elde edilen sonuç ile beta katsayılarını güncelle. 6. Until Beta katsayıları yakınsayana kadar. 7. Bitir Şekil. 5. Genelleştirilmiş katkı modeline ait sözde kod 𝑔 𝐸 𝑦 = 𝛼 + 𝑠$ 𝑋$ + 𝛽$ 𝑋, + ⋯ 𝑠. (𝑋. ) + 𝛽E 𝑋< (4) 3.2 Çalışmada Kullanılan Makine Öğrenimi Algoritmaları K En Yakın Komşu [13] algoritması (Bknz. Şekil 6), sınıflandırma işlemi esnasında veri setine ait özelliklerden, sınıflandırılacak olan yeni örneğin daha önceki örneklerden k tanesine olan yakınlığına bakılmasıdır. Algoritma 5: K En Yakın Komşu 1. Başla 2. K değerini belirle. 3. Sınıflandırılmak istenen örneğin veri setindeki tüm örnekler ile olan Öklid, Man- hattan veya Chebyshev uzaklığını hesapla. 4. Uzaklıkları küçükten büyüğe doğru sırala. 5. Sıralanmış uzaklıklardan ilk k tane komşuyu seç. 6. K tane komşunun kategorilerini topla. 7. En uygun kategoriyi seç. 8. Bitir Şekil. 6. K En yakın komşu algoritmasına ait sözde kod C4.5 Karar Ağacı [14] (Bknz. Şekil 7), bilgi entropisi kavramını temel alarak eğitim veri setini kullanarak bir karar ağacı üretir. Karar ağacında bölüm kriteri bilgi kazanımı değeridir. En yüksek bilgi kazanımına sahip özellik ağaca eklenir. Bu işlem veri setin- deki tüm özellikler için uygulanarak ağaç oluşturulur. Algoritma 6: C4.5 Karar Ağacı 1. Başla 2. MaxBilgi değişkenini sıfıra eşitle. 3. Repeat 4. Güncel veri setinin entropisini hesapla. 5. FOR veri setindeki her bir özelik a. Güncel veri setindeki özelliklerden bir tanesini seç. b. Seçilen özellik için bilgi değerini hesapla. c. Seçilen özellik için bilgi kazanımını hesapla. d. IF bilgi kazanımı > MaxBilgi then i. MaxBilgi değişkenine bilgi kazanımı değerini ata. 6. ENDFOR 280 7. MaxBilgi değerine sahip özelliği ağaca ekle. 8. MaxBilgi değerine sahip özeliği veri setinden sil. 9. Until veri setindeki özellik sayısı = 0 10. Bitir Şekil. 7. C4.5 Karar Ağacı sözde kod Destek Vektör Makineleri [12], girdi olarak verilen veri setindeki veriler arasındaki ilişkilerin bilinmediği durumlarda kullanılmak üzere geliştirilmiş bir sınıflandırma al- goritmasıdır. Destek vektör makinesinin amacı, veri setinde bulunan tüm sınıflara en uzak hyperplane bulmaktır. Test işlemi hyperplane kullanılarak gerçekleştirilir. Yapay sinir ağları [15], yapay nöronlardan oluşur ve insan beynin basit bir modelini gerçeklemektedirler. Fakat bu ağlar gerçek beyin yapısı işle karşılaştırıldığında çok basit kalmaktadır. Optimum ağırlık değerlerinin bulunması doğruluk oranını artırır. Yapay sinir ağları, eğitim veri setinden faydalanarak yapısında bulunan nöronlar ar- sındaki bağlantıların ağırlıklarını bulmaya çalışır. 3.3 İstatistiksel ve Makine Öğrenimi Modellerinin Karşılaştırılması Modellerin karşılaştırma işlemi için aşağıdaki adımlar takip edilmiştir. • Veri setine ait özelliklerin tipi belirlenir. İki tip özellik kullanılmak- tadır; nümerik ve kategorik. • Veri seti özellik seçimi işleminden geçirilir. • Veri seti dört tanesi istatistiksel, dört tanesi makine öğrenimi olmak üzere toplam sekiz algoritma üzerinde koşturulur. • Algoritmaların çalıştırılması sonucu elde edilen modeller test edi- lerek her bir algoritmaya ait karmaşıklık matrisi elde edilir. • Karmaşıklık matrisinden faydalanılarak modelin doğruluk, özgül- lük, duyarlılık, ROC eğrisi altında kalan alan ve gini katsayısı elde edilir. • ROC Eğrisi altından kalan alan ve her bir modelin oluşturulma sü- resi bir grafik ile sunulur. Karmaşıklık matrisi, bir sınıflandırma işleminin tahmini sonuçlarının özetidir. Her sınıfa ait doğru ve yanlış tahminlerin özetini sunar. Sınıflandırma modelinin test edil- mesi sonucu dört farklı çıktı elde edilir. Bu çıktılar; • True Positive (TP): Doğru pozitif tahminlerin sayısı. • False Positive (FP): Yanlış pozitif tahminlerin sayısı. • True Negative (TN): Doğru negatif tahminlerin sayısı. • False Negative (FN): Yanlış negatif tahminlerin sayısı. Doğruluk (Bknz. Formül 5), doğru tahminlerin sayısının, test veri setindeki tüm ör- neklerin sayısına bölümünden elde edilir. MN%MO 𝐷𝑜ğ𝑟𝑢𝑙𝑢𝑘 = (5) (MN%PN%MO%PO) 281 Duyarlılık (Bknz. Formül 6), doğru pozitif tahminlerin sayısının, test veri setindeki tüm pozitif örneklerin sayısına bölümünden elde edilir. MN 𝐷𝑢𝑦𝑎𝑟𝑙𝚤𝑙𝚤𝑘 = (6) (MN%PO) Özgüllük (Bknz. Formül 7), doğru negatif tahminlerin sayısının, test veri setindeki tüm negatif örneklerin sayısına bölümünden elde edilir. MO Ö𝑧𝑔ü𝑙𝑙ü𝑘 = (7) (MO%PN) 4 Değerlendirme Araştırma kapsamında geliştirilen uygulama üzerinde gerçekleştirilen testler, Intel Core i5 2.4 GHz işlemcili ve 8GB RAM sahip bilgisayar ile yapıldı. Testler uygulama içeri- sindeki tüm algoritmalar için gerçekleştirilmiştir. Algoritmalar 5KB ve 10KB olmak üzere iki farklı veri seti üzerinde 100 defa çalıştırılmıştır ve algoritmalara ait sonuçlar gösterilene kadar geçen süre ortalama ve standart sapma olarak Tablo 1’de gösterilmiş- tir. Çalışma süreleri hesaplanırken Java programlama dili içerisinde bulunan Timestamp sınıfı kullanılmıştır ve süreler nanosaniye olarak elde edilmiştir. Uygula- manın çalışma süresi açısından maliyeti veri setinin boyutuna göre değişkenlik göster- mektedir. Tablo 1. Algoritmalara Ait Zaman Maliyetleri 5 KB 10 KB Algoritmalar Ort. (sn) Std. (sn) Ort. (sn) Std. (sn) KNN 0.0013 0.0019 0.0047 0.003 C4.5 0.0458 0.028 0.1737 0.0899 SVM 0.0571 0.0339 0.0743 0.0372 ANN 0.2876 0.0381 0.5483 0.0481 GAM 0.8544 0.0277 4.0316 0.1881 Lojistik Regresyon 3.3540 0.0339 6.9897 0.352 Poisson Regresyon 3.7459 0.0370 3.5936 0.2026 Probit Regresyon 3.7104 0.0522 7.7404 0.3915 Sonuçlar incelendiğinde, makine öğrenimi algoritmalarının çalışma süreleri ile istatis- tiksel algoritmaların çalışma süreleri arasında belirgin bir fark olduğu görülmektedir. İstatistiksel algoritmalar, kategorik verileri kukla verilere dönüştürdüğü için veri setinin boyu enine büyümektedir dolayısıyla model oluşturma süresi artmaktadır. Makine öğ- renimi algoritmalarının istatistiksel algoritmalara oranla zaman maliyeti açısından daha verimli olduğu gözlemlenmiştir. 282 Tablo 2. Algoritmalara Ait Sonuçlar Algoritmalar Duyarlılık Özgüllük Doğruluk AUC Gini KNN 0.9588 0.2173 0.8614 0.622 0.244 C4.5 0.9161 0.1978 0.8209 0.5831 0.1662 SVM 1.0 0.0 0.8685 0.5 0.5 ANN 0.9638 0.2826 0.8742 0.8148 0.6296 GAM 0.9983 0.0869 0.8785 0.7319 0.4838 Lojistik Regresyon 0.9851 0.2826 0.8928 0.8027 0.6054 Poisson Regresyon 1.0 0.0 0.8685 0.5085 0.0171 Probit Regresyon 0.9819 0.3478 0.8985 0.8068 0.6837 Tablo 2, istatistiksel ve makine öğrenimi algoritmalarının karşılaştırılabilmesi için ge- rekli bilgileri içermektedir. Sekiz farklı sınıflandırma algoritmasının veri seti üzerinde koşturulması sonucu elde edilen karmaşıklık matrisleri sistem tarafından değerlendiri- lip tablodaki bilgiler elde edilmiştir. Bu sonuçlar incelendiğinde, istatistiksel yöntemler ile makine öğrenimi yöntemlerinin yakın sonuçlar elde ettiği görülmektedir. Sınıflama modellerinin doğruluğu açısından istatistiksel yöntemlerin makine öğrenimi yöntemle- rinden daha başarılı olduğu gözlemlenmiştir. Tablodaki AUC değerleri dikkate alındı- ğında, en yüksek skora sahip algoritmanın yapay sinir ağı olduğu görülmektedir. AUC değeri, hangi modelin sınıflandırma için daha başarılı olduğunu göstermektedir. Yapay sinir ağı algoritmasının AUC değeri en yüksek olmasına rağmen, istatistiksel algorit- maların AUC ortalamalarının, makine öğrenimi algoritmalarının AUC ortalamaların- dan daha yüksek olduğu gözlemlenmiştir. 5 Sonuçlar ve Gelecekteki Çalışmalar Bu araştırma kapsamında, bankacılık alanındaki veri setleri üzerinde koşturulan ve en uygun kredi skorlama modelinin tespitini sağlayan bir çözüm geliştirilmiştir. Araştırma kapsamında güncel makine öğrenimi ve istatistiksel sınıflandırma algoritmaları kulla- nılmıştır. Algoritmaların çalıştırılması sonucu elde edilen modellerden faydalanılarak bankaların müşterilerinin kredi taleplerini değerlendirme aşamasında karar verme sü- reçleri hızlandırabilmektedir. Üçüncü bölümde detaylı bir şekilde incelenen algoritmalar makine öğrenimi algoritmalarının süre maliyeti açısından daha verimli olduğu gözlemlenmiştir. Regres- yon algoritmaları kategorik verilerden ziyade nümerik verilerden oluşan veri setlerinde daha verimlidir. Regresyon algoritmaları kategorik verileri kukla verilere dönüştürerek veri setinin boyutunu enine artırmaktadır fakat makine öğrenimi algoritmaları veri se- tinin boyutunu sabit tutamaktadır. Sistemin doğru çalışabilmesi için, sisteme yüklenen veri setinin kredi skorlama işlemine uygun olması ve eksik veri analizi vb. ön inceleme işlemlerine tabii tutulmuş olması gerekmektedir. Gelecek çalışmalarda, Random Forest ve Naive Bayes gibi güncel ve sıkça kullanılan makine öğrenimi algoritmaları sisteme dahil edilebilir. Bunlara ek olarak, kümeleme analizi ve bulanık mantık (fuzyy logic) gibi metodolojilerin kullanılması sis- temin başarısını artırabilir. 283 Teşekkür Bu araştırma kapsamında veri ve çalışma ortamı sağlayan Cybersoft Ar-Ge birimine teşekkürlerimi sunarım. Kaynaklar 1. Tabagari, Salome. Credit scoring by logistic regression. Diss. Tartu Ülikool, 2015. 2. Desai, Vijay S., Jonathan N. Crook, and George A. Overstreet. "A comparison of neural networks and linear scoring models in the credit union environment." European Journal of Operational Research 95.1 (1996): 24-37. 3. Sousa, Marcos de Moraes, and Reginaldo Santana Figueiredo. "Credit analysis using data mining: application in the case of a credit union." JISTEM-Journal of Information Systems and Technology Management 11.2 (2014): 379-396. 4. Önder, Ceren. "Bankruptcy prediction with support vector machines." (2010). 5. E. I. Altman, “Financial ratios, discriminant analysis and the prediction of corporate bank- ruptcy”, The journal of finance, vol. 23, no. 4, pp. 589-609, 1968. 6. B. Baesens, T. Van Gestel, S. Viaene, M. Stepanova, J. Suykens and J. Vanthienen, “Bench- marking state-of-the-art classification algorithms for credit scoring”, Journal of the opera- tional research society, vol. 54, no. 6, pp. 627-635, 2003. 7. Y. Yang, “Adaptive credit scoring with kernel learning methods”, European Journal of Op- erational Research, vol. 183, no. 3, pp. 1521-1536, 2007. 8. Logistic Regression, http://www.statisticssolutions.com/what-is-logistic-regression/, son erişim 2017/06/16 9. Poisson Regression, https://ncss-wpengine.netdna-ssl.com/wp-con- tent/themes/ncss/pdf/Procedures/NCSS/Poisson_Regression.pdf, son erişim 2017/06/19 10. An Introduction to Logistic and Probit Regression Models, https://libera- larts.utexas.edu/prc/_files/cs/Fall2013_Moore_Logistic_Probit_Regression.pdf, son erişim 2017/06/18 11. GAM, http://multithreaded.stitchfix.com/blog/2015/07/30/gam/, son erişim 2017/06/19 12. Destek Vektör Makineleri, https://www.slideshare.net/ozgur_dolgun/destek-vektr-makinel- eri, son erişim 2017/06/16 13. KNN, K-En Yakın Komşu, http://bilgisayarkavramlari.sadie- vrenseker.com/2008/11/17/knn-k-nearest-neighborhood-en-yakin-k-komsu/, son erişim 2017/06/16 14. C4.5 Karar Ağaçları, http://bilgisayarkavramlari.sadievrenseker.com/2012/11/13/c4-5- agaci-c4-5-tree/, son erişim 2017/06/18 15. ANN, Artificial Neural Network, https://en.wikipedia.org/wiki/Artificial_neural_network, son erişim, 2017/06/18 284