-

Yazılım Hata Tahmininin Web Uygulamalarında Kullanılabilirlig˘i

Serdar Bi¸cer ve Banu Diri

banu@ce.yildiz.edu.tr mehmet.serdar.bicer@std.yildiz.edu.tr 0 0 Yıldız Teknik U

613 624

O¨ zet Yazılım testinde uygulanabilecek en basit yakla¸sım verilen bir kod par¸casındaki bu¨tu¨n olasılıkları test etmektir. Bu durum zaman ve bu¨tc¸e kısıtları nedeniyle pratikte imkansızdır. Yazılım hata tahmini yo¨ntemleri proje y¨oneticileri tarafından, test a¸samasında, kısıtlı olan kaynakları efektif bir ¸sekilde dag˘ıtmak i¸cin kullanılmaktadır. Bu alandaki ¸calı¸smalar o¨zellikle 2005 yılından itibaren artarak devam etmektedir. Bu c¸alı¸smada literatu¨rde var olan metriklerin web uygulamaları ic¸in yeterli olup olmadı˘gı sorgulanmı¸stır. Web uygulamaları u¨zerinde yaptıg˘ımız deneyler hata tahmininin web uygulamaları u¨zerinde optimum sonuc¸lar vermekten uzakta oldu˘gunu go¨stermektedir. Bu tip uygulamaları geli¸stirmede kullanılan ya¸sam d¨ongu¨su¨, dig˘er uygulamalar ic¸in kullanılanlarla aynı olsa da teknik bakımdan ayrı¸stıkları bazı noktalar bulunmaktadır. Bu nedenle yazılım hata tahmini alanında web uygulamalarına ¨ozel metrikler olu¸sturulmasını o¨nermekteyiz.

y¨ontemler yazılım testinde g¨orev yapan ki¸silere test senaryolarının ne ¸sekilde u¨retetilece˘gine ve organize edileceg˘ine karar vermelerine yardımcı olmaktadır. Hatalı modu¨llerin do˘gru tahmin edilmesi yazılım testinin masrafını azaltır ve proje y¨oneticileri kısıtlı kaynaklarını i¸slere atama konusunda daha rahat hareket edebilirler [ 34 ]. I˙dealde bir hata tahmini modeli bu¨tu¨n hataları dog˘ru tahmin ederken hatasız modu¨lleri hatalı olarak i¸saretlememelidir. Ancak pratikte bu duruma ¸cok az rastlanır [ 2 ]. En yeni tahmin modelleri bile bu noktaya eri¸smekten ¸cok uzaktadır [ 15, 23 ]. Yu¨ksek tahmin oranına sahip modeller yu¨ksek yanlı¸s alarm oranına sahiptir. Yu¨ksek yanlı¸s alarm oranları hatasız kodların bo¸s yere test edilmesine yol a¸car. Bu durum yu¨ksek gu¨venlik gerektiren uygulamalar i¸cin bir soruna yol ac¸maz c¸u¨nku¨ bu tip uygulamalarda kar¸sıla¸sılacak bir hatanın bedeli ¸cok yu¨ksektir. Ama bu durum kaynak a¸cısından kritik projeler i¸cin ciddi bir problemdir [ 13, 14, 20 ]. Kodun gereksiz yere go¨zden ge¸cirilmesi test a¸samasını uzattıg˘ından bu¨t¸ce ve zaman kısıtlarını a¸sma riskini arttırır. Bu nedenle mu¨hendisler do˘gru ve yanlı¸s tahmin oranlarını dengeleme yoluna gitmelidir [ 20 ].

Bu alanda c¸alı¸san ara¸stırmacılar ¸simdiye kadar hata tahmini modellerini kurarken statik kod metrikleri, kod deg˘i¸sim metrikleri, geli¸stirici ve modu¨l a˘gları gibi farklı metrik ku¨melerinden yararlandılar. Bunlar arasında statik kod metrikleri 1970’lerden beri kullanılmaktadır [ 1, 4, 19 ]. Otomatik arac¸lar yardımıyla da projelerden metrikleri ¸cıkarmak c¸ok daha kolay hale gelmi¸stir. Ge¸cen yıllarda ara¸stırmacılar kullanılan metrik setlerinin tavan performansa ula¸stı˘gını g¨ostermi¸stir [ 23 ]. Bu tavan etkisini ortadan kaldırmanın 2 yolu vardır: – Var olan metrik setlerine yeni veri madencili˘gi teknikleri uygulamak – Var olan veri madencili˘gi tekniklerini yeni metriklere uygulamak Ara¸stırmalarda hata tahmini modellerinin performansını arttırmak ic¸in yeni veri madencilig˘i teknikleri bulmaya ¸calı¸smanın harcanan emeg˘e de˘gmeyece˘gi g¨osterilmi¸stir [ 23 ]. Bundan dolayı eg˘itim verisinin kalitesini arttırmak veya kullanılan metrik setlerinde yenilik¸ci davranmak tahmin modellerinin performansını arttırmak i¸cin daha efektif bir y¨ontem olacaktır.

2012 yılı verilerine g¨ore Kuzey Amerika’nın %78’i, Avrupa’nın %63’u¨ Internet kullanmaktadır [ 40 ]. Du¨nya ¸capında yapılan Internet tabanlı i¸slemlerin yıllık tutarı trilyon dolarlarla o¨l¸cu¨lmektedir [ 35 ]. E-ticaret dı¸sında her gu¨n milyonlarca kullanıcının arama motorları (¨orn: Google), sosyal payla¸sım platformları (o¨rn: Facebook, Twitter), bilgi payla¸sımı (o¨rn: Wikipedia) gibi farklı ama¸clarla farklı web sitelerini kullandıkları bilinmektedir. Bu kadar bu¨yu¨k bir Internet kullanımı kar¸sısında firmalar a¸cısından eri¸silebilir olmak gu¨nu¨mu¨zde bu¨yu¨k bir ihtiya¸c halini almı¸stır. Son yıllarda kızı¸san tarayıcı sava¸sları ve buna paralel geli¸sen teknoloji ve performans artı¸sı geli¸stiricilerin bu alanda ilerlemesine imkan sag˘lamı¸stır. Bu alanda geli¸stirme yaparken kullanılan teknolojilerin de ilerlemesiyle web geli¸stiricileri artık daha ¨ozgu¨rce daha iyi uygulamalar c¸ıkarabilmektedir. Mobil cihaz kullanımındaki artı¸sla birlikte web uygulamalarına artık c¸ok daha farklı tipte ekranlardan eri¸silebilmek gibi gereksinimler eklenmeye ba¸slanmı¸stır.

Ancak web uygulamalarındaki hatalar firmalara milyonlarca dolar kaybettirmeye devam etmektedir. Web uygulamalarının masau¨stu¨ uygulamalardan farklı olarak yu¨ksek eri¸silebilirli˘ge sahip olması gerekmektedir. Uygulamada ya¸sanacak en ufak sıkıntıların firmalara faturası bu¨yu¨k olmaktadır. O¨ rne˘gin 2001 yılı ¸su¨kran gu¨nu¨ tatilinde Amazon’un ya¸sadıg˘ı sıkıntılar 20 dakikada 500 bin dolar kaybetmesine neden olmu¸stur [ 3 ]. Hataların go¨ru¨nmeyen faturası ise daha bu¨yu¨ktu¨r, her hata kullanıcı sadakatinin bozulmasına ve mu¨¸steri kaybına neden olmaktadır [ 30 ].

Web uygulamalarını geli¸stirmede kullanılan ya¸sam d¨ongu¨su¨, di˘ger uygulamalar i¸cin kullanılanlarla aynı olsa da teknik bakımdan ayrı¸stıkları bazı noktalar bulunmaktadır.

– O¨ ncelikle web uygulamalarının geli¸stirilmesinde birden fazla programlama dili, tasarım o¨zellig˘i, dı¸sarıdan kullanılmakta olan ku¨tu¨phane ve bile¸senler bulunur. Bunlara ¨ornek olarak geleneksel programlama dilleri, script dilleri, du¨z HTML sayfaları, XML tabanlı ¸sablon dosyaları, veritabanları, resimler ve CSS kodları verilebilir. – Geli¸stirilen uygulamalar tarayıcılara ba˘gımlı halde ¸calı¸smaktadır. Aynı kod farklı tarayıcıda farklı ¸sekilde c¸alı¸sabilmektedir. Bunu o¨nlemek i¸cin kodun tarayıcı ba˘gımsız ¸calı¸sacak ¸sekilde yazılması ve uygulamanın farklı tarayıcılar i¸cin test edilmesi gerekmektedir. – Gu¨venlik zafiyeti daha fazladır. O¨ ncelikle kullanıcı tarafında ¸calı¸san kodlara eri¸sip incelemek ¸cok kolaydır. Ayrıca Internet aracılıg˘ıyla daha geni¸s bir kullanıcı kitlesine hitap etti˘ginden daha fazla tehdite maruz kalmaktadır. – Dı¸s du¨nya deg˘i¸simlerinden daha ¸cok etkilenmektedir. Internet ba˘glantısının kaybolması veya yava¸slaması durumları geli¸stirme sırasında hesap edilmezse istenmeyen durumlarla kar¸sıla¸sma ¸sansı yu¨ksektir. – Uygulama bile¸senleri ger¸cek ortamda ve hatta geli¸stirme sırasında farklı makinelere da˘gıtılmı¸s halde bulunabilir ve bu halde birbirleriyle uyumlu ve bir bu¨tu¨n ¸calı¸smak durumundadırlar.

Bu¨tu¨n bunlar uygulamanın karma¸sıklı˘gını arttırıcı fakto¨rlerdir [ 29 ]. Bu ¸calı¸smada web uygulamaları ic¸in hata tahmini yapılarak performans de˘gerlendirmesi yapılmaktadır. Ara¸stırma sorumuz ”Kullanılmakta olan yazılım hata tahmini yo¨ntemleri web uygulamaları ic¸in ne kadar iyi sonuc¸lar vermektedir?” ¸seklindedir.

Ara¸stırma sorumuzu yanıtlayabilmek i¸cin a¸cık kaynak 6 web uygulamasının hataya yatkınlıklarını dosya bazında inceledik. Bu i¸slem i¸cin yaygın olarak kullanılmakta olan metrikler ve sınıflandırma algoritmalarını kullandık. Aldıg˘ımız sonu¸clar mevcut hata tahmini yo¨ntemlerinin web uygulamaları ic¸in halen du¨¸su¨k performansla c¸alı¸stı˘gını g¨ostermektedir. 2

I˙lgili C¸ alı¸smalar Yazılım hata tahmini alanındaki c¸alı¸smalar ¨ozellikle 2005 yılından itibaren artarak devam etmektedir [ 8 ]. Bu c¸alı¸smalarda farklı tipte metrikler kullanılmakla birlikte statik kod metrikleri yaygın olarak kullanılan metrik tiplerinin ba¸sında gelmektedir [ 1, 12, 15, 16, 18, 19, 21, 27, 33 ]. Literatu¨rdeki ilk hata tahmini ¸calı¸sması satır sayısı kullanılarak yapılmı¸stır [ 1 ]. Daha sonra Halstead metrikleri [ 12 ] ve McCabe metrikleri [ 16 ] kullanılmaya ba¸slanmı¸stır. Bu metrikler uygulamanın karma¸sıklı˘gı ve boyutu hakkında fikirler vermektedir. Gu¨nu¨mu¨zde en yaygın kullanılan metrik tipleri bunlardır. Ancak bu ¸calı¸smalarda genel olarak masau¨stu¨ uygulamalarından ¸cıkarılan metrikler kullanılmı¸s olup herhangi bir web uygulaması ic¸in ¸cıkarılmı¸s bir metrik seti bulunmamaktadır.

Yazılım hata tahmininde kullanılan metrik setlerinden bir dig˘eri kod deg˘i¸sim (code churn) metrikleridir [ 9, 10, 26, 28 ]. Bu metrik setleri Subversion ve GIT gibi versiyon kontrol sistemlerinden ¸cıkarılmaktadır. Geli¸stiricilerin kod u¨zerinde yaptı˘gı de˘gi¸siklikler kullanılarak, eklenen/silinen satır sayısı, yapılan deg˘i¸siklik sayısı, deg˘i¸siklik yapan geli¸stirici sayısı gibi ¨ozellikler ¸cıkarılmaktadır. Kod de˘gi¸sim metrig˘i ilk olarak Munson tarafından [ 26 ] ortaya atılmı¸stır. Yapılan ¸calı¸smalarda statik kod metriklerinden daha iyi sonuc¸ verdi˘gi g¨ozlenmi¸stir.

Bunlar dı¸sında dig˘erlerine go¨re nispeten daha yeni bir metrik tipi olarak sosyal a˘g metrikleri de yazılım hata tahmininde kullanılmaktadır [ 6,17,31,39,41 ]. Bu ¸calı¸smalarda kullanılan metrikler koddan ba˘gımsız olup, sosyal ag˘lar geli¸stirici veya dosyalardan olu¸sturulmaktadır. Bu alanda c¸alı¸sanlar birbirine ba˘gımlılı˘gı olan dosyalar veya aynı dosya u¨zerinde c¸alı¸smı¸s olan geli¸stiricileri birbirleriyle ba˘glayarak sosyal a˘glar kurmu¸s bu a˘glardan sosyal a˘g analizi y¨ontemleri ile metrikler ¸cıkarmı¸slardır. 3

Y¨ontem

3.1

Veri Ku¨meleri

Bu bo¨lu¨mde c¸alı¸smada kullanılan veri ku¨meleri ve ara¸stırma y¨ontemleri a¸cıklanmaktadır.

Ara¸stırma su¨recinde ilk olarak literatu¨rde var olan metriklerin web uygulamaları i¸cin yeterli olup olmadı˘gı sorgulanmı¸stır. Bu metrikler web uygulamalarına o¨zel ortaya atılmı¸s olmasa bile programlama dillerinin genel yapısından dolayı uygunluk g¨ostermeleri olasıdır. PHP tabanlı 6 uygulama incelenerek, statik kod metrikleri ve kod de˘gi¸sim metrikleri kullanılarak uygulamalardaki hatalar tahmin edilmeye c¸alı¸sılmı¸stır. Uygulamalar hakkında bazı istatistikler Tablo 1’den g¨oru¨lebilir. Yapılan denemelerde her proje ic¸in 2 farklı tipte metrik seti ic¸in farklı algoritmalar kullanılmı¸stır. Sonu¸cların deg˘erlendirilmesi ic¸in 10 katlı ¸capraz gec¸erleme kullanılmı¸stır. 3.2

Hata Tahmin Modeli

Bu c¸alı¸smada makine ¨o˘grenmesi yo¨ntemlerine dayanan bir hata tahmin y¨ontemi uygulanmı¸stır. Kullanılan y¨ontemin g¨orsel temsili S¸ekil 1’de g¨oru¨lebilir. Versiyon kontrol sistemleri kodlara ve kod ge¸cmi¸slerine ula¸smak, buralardan metrikler c¸ıkarmak i¸cin kullanılmı¸stır. Uygulamalarda yer alan dosyaların hataya

Tablo 1: I˙ncelenen Uygulamalar

Uygulama Adı Su¨ru¨m Geli¸stirici Sayısı Satır Sayısı Dosya Sayısı Commit Sayısı Hatalı Dosya Oranı Laravel 3.0 54 51448 308 2559 %34 Symfony 2.2 753 285875 4048 13144 %49 phpMyAdmin 3.5 330 1140741 1142 70113 %24

Guzzle 3.0 29 48052 413 632 %15 Wordpress 3.0 53 382600 1246 25712 %44

Joomla 3.1 239 581606 5573 15726 %30 meyilli olup olmadıkları farklı tipte metrikler ve sınıflandırma algoritmaları kullanılarak tahmin edilmeye ¸calı¸sılmı¸stır. Sınıflandırma i¸cin Naive Bayes, Bayes Net ve Random Forest algoritmaları kullanılmı¸stır. Bu algoritmalar yazılım hata tahmini alanında yaygın olarak kullanıldıkları ve genelde iyi sonu¸c verdikleri g¨ozlendi˘gi i¸cin tercih edilmi¸stir [ 8, 15, 19, 23 ]. Girdi olarak statik kod metrikleri ve kod de˘gi¸sim metrikleri kullanılmı¸stır. O¨ rnekleme sapmasını engellemek i¸cin 10 katlı c¸apraz ge¸cerleme kullanılmı¸stır. Deneylerin ger¸ceklenmesi i¸cin Weka uygulaması [ 11 ] kullanılmı¸stır. Veri setlerine e˘gitim ve test i¸slemlerinin uygulanması ile hata tahmini sonu¸cları elde edilmi¸stir. Bu sonu¸clar performans ¨ol¸cu¨mu¨ a¸samasına girdi olarak kullanılmı¸stır.

S¸ekil 1: O¨ ˘grenme tabanlı hata tahmini sistemi mimarisi

Veri C¸ ıkarma Veri c¸ıkarma i¸slemi her proje i¸cin benzer ¸sekilde ilerlemi¸stir. O¨ ncelikle proje kodları Tablo 1’de belirtilen su¨ru¨mler ic¸in Github sayfalarından indirilmi¸stir. Hatalı modu¨llerin i¸saretlenmesi ic¸in indirilen su¨ru¨mler temel alınarak 1 sene i¸cinde hata olarak i¸saretlenmi¸s kod deg˘i¸simleri ¸cıkarılmı¸stır ve de˘gi¸stirilmi¸s dosyalar hatalı olarak i¸saretlenmi¸stir. Bir kod deg˘i¸simini hata olarak i¸saretleyebilmek i¸cin kod teslim mesajında (bug, error, fix, fail) gibi anahtar kelimeler aranmı¸stır.

Statik kod metriklerini ¸cıkarmak i¸cin Understand [ 38 ] adlı uygulama kullanılmı¸stır. Bu metrik tipleri sadece programlama dilleri i¸cin kullanılabildi˘ginden, veri setine sadece PHP ve JavaScript dosyaları dahil edilmi¸stir. Kod de˘gi¸sim metriklerini ¸cıkarmak ic¸in basit bir script yazılmı¸stır. Bu metrik tipi i¸cin PHP ve JavaScript dosyalarının yanında HTML, CSS ve XML dosyaları da veri setine dahil edilebilmi¸stir. Sadece temel alınan su¨ru¨mden 1 sene o¨ncesine kadar u¨zerinde deg˘i¸siklik yapılmı¸s dosyalar veri setine dahil edilmi¸stir. Metrik Tipleri C¸ alı¸smada kullanılmak u¨zere statik kod metrikleri ve kod de˘gi¸sim metrikleri se¸cilmi¸stir. Bu metrikler ara¸stırmalarda en yaygın kullanılan metrik tipleri oldukları ve genelde iyi sonu¸c verdikleri g¨ozlendi˘gi ic¸in sec¸ilmi¸stir. Kullanılan metrikler Tablo 2’de listelenmi¸stir.

Tablo 2: Kullanılan Metrikler

Statik Kod Metrikleri

Satır sayısı Kod satır sayısı

Bo¸s satır sayısı Yorum satır sayısı Yorum/kod oranı

I˙fade sayısı D¨ongu¨sel karma¸sıklık Tasarımsal karma¸sıklık Temel karma¸sıklık

Yol sayısı Kod blok seviyesi

Kod Deg˘i¸sim Metrikleri

Kod teslimi sayısı Kod teslim eden ki¸si sayısı

Eklenen satır sayısı

Silinen satır sayısı

Son su¨ru¨mde kod teslimi sayısı Son su¨ru¨mde kod teslim eden ki¸si sayısı

Son su¨ru¨mde eklenen satır sayısı

Son su¨ru¨mde silinen satır sayısı

Popu¨ler kod teslim eden ki¸si yu¨zdesi Performans O¨ l¸cu¨mu¨ C¸ alı¸smada tahmin modellerinin performansı hata tahmini ¸calı¸smalarında yaygın olarak kullanılan do˘gru pozitif oranı (DPO) ve yanlı¸s pozitif oranı (YPO) ¨ol¸cu¨mleri kullanılmaktadır [ 6, 13, 15, 19, 36 ]. Bu ¨ol¸cu¨mler tahmin algoritmalarının veri setleri kullanılarak eg˘itilmesi ve olu¸san tahmin modellerinin test edilmesiyle elde edilmektedir. DPO modelin ger¸cekten hataya yatkın olan modu¨lleri bulmadaki ba¸sarısını g¨osterirken YPO aslında hatasız olan modu¨lleri hatalı i¸saretledig˘ini belirtir. Hata tahmininde DPO oranını yu¨kseltip YPO oranını du¨¸su¨ren y¨ontemler daha de˘gerli bulunmaktadır. Bu nedenle mu¨mku¨n oldu˘gunca (DPO, YPO) c¸iftini (1,0) ideal noktasına yakla¸stıran tahmin yo¨ntemlerine ula¸smaya ihtiya¸c vardır. Maalesef bu ideal durum pratikte ¸cok nadir g¨oru¨lmektedir. O¨ l¸cu¨mlerin ideal duruma yakınlı˘gını o¨lc¸mek i¸cin denge adı verilen performans o¨l¸cu¨tu¨ kullanılmaktadır. Belirtilen ¨ol¸cu¨tler (1), (2) ve (3) kullanılarak Tablo 3’deki karı¸sıklık matrisi yardımıyla hesaplanmaktadır.

S¸ekil 2: ROC e˘grisinde bo¨lgeler

Dog˘ru tahmin bir modelin ba¸sarısını belirlemek ic¸in ¨onemli bir etkendir ancak yanlı¸s tahmin de olduk¸ca ¨onemlidir. Bu durum S¸ekil 2’de g¨osterilmi¸stir. Risk odaklı b¨olgedeki tahmin modelleri yu¨ksek DPO’ya sahip olmakla beraber YPO’ları da oldukc¸a yu¨ksektir. Bu durum hata i¸cermeyen c¸ok sayıda dosyanın hatalı olarak i¸saretlenmesi anlamına gelip, gereg˘inden fazla dosyanın incelenmesi sonucunu do˘gurur. Bu da test a¸samasının masrafının artmasına neden olmaktadır. Hatasızlı˘gın c¸ok o¨nemli oldug˘u projeler i¸cin bu kabul edilebilir bir durum olmakla beraber projelerin c¸o˘gu bu kategoride yer almamaktadır. Masraf odaklı b¨olge orta-du¨¸su¨k DPO’ya ve ¸cok du¨¸su¨k YPO’ya sahiptir. Bu b¨olgeye du¨¸sen tahmin modelleri sınırlı kaynaklara sahip projeler ic¸in daha kullanı¸slıdır [ 13 ].

Veri da˘gılımının normal da˘gılıma uyaca˘gını do˘grudan farz edemeyeceg˘imiz i¸cin uygulanacak farklı yo¨ntemlerle bulunan sonuc¸ların birbirinden farklı olup olmadı˘gının kontrolu¨ Mann-Whitney U testi kullanarak yapıldı.

DP O = Y P O =

DP DP + Y N

Y P

Y P + DN Denge = 1 −

Y P O2 + (1 − DP O)2

√2

Tablo 3: Karma¸sıklık matrisi Tahmin Edilen

Gerc¸ek Durum

Hatalı Hatasız Hatalı DP YP

Hatasız YN DN 4

Sonuc¸lar

Ara¸stırma sorumuzu cevaplayabilmek i¸cin 6 veri seti u¨zerinde 10 katlı ¸capraz ge¸cerleme ile 3 farklı sınıflandırma algoritması kullanılmı¸stır. Sonu¸clar Tablo 4 ve 5’de go¨ru¨lebilir. Tahmin modellerinin ba¸sarılarına denge o¨l¸cu¨mu¨ kullanılarak karar verilmi¸stir. Sonu¸clar kar¸sıla¸stırılırken Mann-Whitney U testi kullanılmı¸stır. Bu sonu¸clardan bazı ¸cıkarımlar yapmak mu¨mku¨ndu¨r. Uygulama bazında kullanılan farklı algoritmalar arasında ba¸sarısı daha yu¨ksek olanlar koyu yazılmı¸stır. Sınıflandırma algoritmaları arası performans kar¸sıla¸stırması yapıldıg˘ında Random Forest ve Bayes Net algoritmalarının Naive Bayes’e g¨ore daha iyi sonuc¸lar verdig˘i g¨oru¨lebilir.

Metrik setleri ac¸ısından baktıg˘ımızda kod deg˘i¸sim metriklerinin statik kod metriklerine go¨re daha iyi sonuc¸lar verdi˘gi g¨oru¨lebilir. Ortalama denge sonu¸cları arasındaki farklar istatistiksel a¸cıdan anlamlı bulunmu¸stur. Bu sonu¸clar ¨onceki ¸calı¸smaları [ 9, 15, 24, 25 ] do˘grulamaktadır. Ancak en ba¸sarılı olan skorların bu¨yu¨k ¸co˘gunlu˘gunda, tahmin oranı ¸co˘gu projede yu¨ksek c¸ıkmasına ra˘gmen hatalı tahmin oranı da oldukc¸a yu¨ksektir. Bu durumun kaynak a¸cısından kısıtlı projeler ic¸in pratikte sa˘gladıg˘ı bir yarar bulunmamaktadır. C¸ u¨nku¨ bu durum hata ic¸ermeyen ¸cok sayıda modu¨lu¨n de hatalı olarak i¸saretlenmesine neden olaca˘gı i¸cin test a¸samasında yu¨ksek efor harcanmasına sebep olup, hata tahmininin kullanılma amacıyla o¨rtu¨¸smemektedir. Ortalama de˘gerlere bakıldıg˘ı zaman DPO, YPO ve denge deg˘erlerinin bu alanda benzer performans kriterleri kullanılarak yapılmı¸s di˘ger ¸calı¸smalarda bulunan o¨lc¸u¨mlerden [ 9,19,22,24,25,37 ] daha du¨¸su¨k oldu˘gu g¨oru¨lebilir. Bu sonu¸clar web uygulamalarına ¨ozel bir hata tahmini ¸calı¸sması yapılmasının gerekli oldug˘u y¨onu¨ndeki du¨¸su¨ncemizi kuvvetlendirmi¸stir. 5

Tartı¸sma

Bu ara¸stırmada yazılım hata tahmininde uygulanmakta olan tekniklerin web uygulamalarında ne kadar uygulanabilir oldug˘u ara¸stırılmı¸stır. Web paradigması yu¨kseli¸sini 2000’li yılların ba¸sında yapmı¸s olsa da gu¨nu¨mu¨zde halen gayet revac¸ta olan bir alandır. Bu tip uygulamalarda yapılan hatalar firmalara ¸cok daha pahalıya mal olmaktadır. Dog˘aları gereg˘i barındırdıkları teknik detaylar nedeniyle web uygulamalarınının ayrı bir yere konması gerekmektedir. Yazılım hata tahmini alanında bugu¨ne kadar yapılmı¸s ¸cok sayıda ¸calı¸sma var olsa

Tablo 4: Statik Kod Metrikleri

Naive Bayes Bayes Net Random Forest

DPO YPO Denge DPO YPO Denge DPO YPO Denge Laravel 0.39 0.21 0.54 0.78 0.44 0.65 0.88 0.48 0.65 Symfony 0.90 0.65 0.53 0.72 0.32 0.70 0.88 0.65 0.53 phpMyAdmin 0.40 0.16 0.56 0.42 0.20 0.57 0.42 0.14 0.58

Guzzle 0.90 0.53 0.62 0.78 0.31 0.73 0.94 0.70 0.50 Wordpress 0.89 0.72 0.48 0.76 0.60 0.54 0.73 0.42 0.65

Joomla 0.12 0.03 0.38 0.75 0.19 0.78 0.89 0.30 0.77 Ortalama 0.6 0.38 0.52 0.70 0.34 0.66 0.79 0.45 0.61

Tablo 5: Kod Deg˘i¸sim Metrikleri bile bu ¸calı¸smalar ara¸stırmanın ana fikrinden farklı nitelikler ortaya koymaktadır. Var olan yo¨ntemlerin farklı uygulamalar ic¸in kullanılmasından ¸cıkarılan sonu¸c, yazılım hata tahmini yo¨ntemlerinden bu alanda yeterince faydalanamadıg˘ı kanısı dog˘urmu¸s ve bu alana ¨ozel bir ¸calı¸sma yapılması gerekti˘gi y¨onu¨ndeki fikrimizi gu¨¸clendirmi¸stir. I˙lgili c¸alı¸smalarda ortaya c¸ıkarılmı¸s olan veri setinin zenginle¸stirilmesi fikrine paralel olarak ilerisi ic¸in web uygulamalarında hata tahmini yapılması i¸cin ¨ozel bir metrik seti ¸cıkarılması, bu sayede hata tahmininde kullanılan veri setlerinin iyile¸stirilip bu tip uygulamalarda daha iyi sonuc¸lar alınması tavsiye edilmektedir. O¨ zellikle kozmetik hataların o¨ne c¸ıktıg˘ı bu tip uygulamalarda HTML/CSS ic¸in metrik seti ¸cıkarılması du¨¸su¨nu¨lebilir.

Kaynaklar

[1] Akiyama , F. : An example of software system debugging . In: IFIP Congress (1) . pp. 353 - 359 ( 1971 ), http://dblp.uni-trier.de/db/conf/ifip/ifip71- 1 .html# Akiyama71

[2] Alpaydın , E. : Introduction to Machine Learning . The MIT Press, 2nd edn. ( 2010 )

[3] California power outages suspended-for now . http://news.cnet.com/ 2100-1017-251167.html, accessed: 2014 -04-12

[4] Basili , V.R. , Perricone , B.T. : Software errors and complexity: An empirical investigation . Commun. ACM 27 ( 1 ), 42 - 52 ( 1984 ), http://doi.acm. org/10 .1145/ 69605.2085

[5] Basili , V. , McGarry , F. , Pajerski , R. , Zelkowitz , M. : Lessons learned from 25 years of process improvement: the rise and fall of the nasa software engineering laboratory . In: Software Engineering , 2002 . ICSE 2002 . Proceedings of the 24rd International Conference on . pp. 69 - 79 ( 2002 )

[6] Bic¸er, S. , Bener , A.B. , C¸ a˘glayan, B .: Defect prediction using social network analysis on issue repositories . In: Proceedings of the 2011 International Conference on Software and Systems Process . pp. 63 - 71 . ICSSP '11, ACM , New York, NY, USA ( 2011 ), http://doi.acm. org/10 .1145/1987875.1987888

[7] Boehm , B. , Basili , V.R. : Software defect reduction top 10 list. Computer 34 ( 1 ), 135 - 137 ( 2001 ), http://dx.doi.org/10.1109/2.962984

[8]

¸ atal , C. , Diri , B. : Review: A systematic review of software fault prediction studies . Expert Syst. Appl . 36 ( 4 ), 7346 - 7354 (May 2009 ), http://dx.doi.org/10. 1016/j.eswa. 2008 . 10 .027

[9]

¸ ag˘layan , B. , Bener , A. , Koch , S. : Merits of using repository metrics in defect prediction for open source projects . In: Emerging Trends in Free/Libre/Open Source Software Research and Development , 2009 . FLOSS '09. ICSE Workshop on. pp. 31 - 36 (May 2009 )

[10] Graves , T.L. , Karr , A.F. , Marron , J.S. , Siy , H.: Predicting fault incidence using software change history . IEEE Trans. Softw. Eng . 26 ( 7 ), 653 - 661 ( Jul 2000 ), http: //dx.doi.org/10.1109/32.859533

[11] Hall , M. , Frank , E. , Holmes , G. , Pfahringer , B. , Reutemann , P. , Witten , I.H. : The weka data mining software: An update . SIGKDD Explor. Newsl . 11 ( 1 ), 10 - 18 ( Nov 2009 ), http://doi.acm. org/10 .1145/1656274.1656278

[12] Halstead , M.H. : Elements of Software Science (Operating and Programming Systems Series) . Elsevier Science Inc., New York, NY, USA ( 1977 )

[13] Jiang , Y. , Cukic , B. , Menzies , T. : Fault prediction using early lifecycle data . In: Software Reliability , 2007 . ISSRE '07. The 18th IEEE International Symposium on . pp. 237 - 246 ( 2007 )

[14] Jiang , Y. , Cukic , B. , Menzies , T. : Cost curve evaluation of fault prediction models . In: Software Reliability Engineering , 2008 . ISSRE 2008 . 19th International Symposium on. pp. 197 - 206 ( 2008 )

[15] Lessmann , S. , Baesens , B. , Mues , C. , Pietsch , S. : Benchmarking classification models for software defect prediction: A proposed framework and novel findings . IEEE Trans. Softw. Eng . 34 ( 4 ), 485 - 496 ( 2008 ), http://dx.doi.org/10.1109/ TSE. 2008 .35

[16] McCabe , T. : A complexity measure . Software Engineering, IEEE Transactions on SE-2 ( 4 ), 308 - 320 ( Dec 1976 )

[17] Meneely , A. , Williams , L. , Snipes , W. , Osborne , J.: Predicting failures with developer networks and social network analysis . In: Proceedings of the 16th ACM SIGSOFT International Symposium on Foundations of Software Engineering . pp. 13 - 23 . SIGSOFT '08/FSE-16, ACM, New York, NY, USA ( 2008 ), http://doi.acm. org/10 .1145/1453101.1453106

[18] Menzies , T. , Di

Stefano

, J. , Chapman , M. , McGill , K. : Metrics that matter . In: Software Engineering Workshop , 2002 . Proceedings. 27th Annual NASA Goddard/IEEE . pp. 51 - 57 ( Dec 2002 )

[19] Menzies , T. , Greenwald , J. , Frank , A. : Data mining static code attributes to learn defect predictors . Software Engineering, IEEE Transactions on 33(1) , 2 - 13 ( 2007 )

[20] Menzies , T. , Stefano , J. , Ammar , K. , McGill , K. , Callis , P. , Davis , J. , Chapman , R. : When can we test less? In: Software Metrics Symposium , 2003 . Proceedings. Ninth International. pp. 98 - 110 ( 2003 )

[21] Menzies , T. , Distefano , J., S , A.O. , (mike Chapman , R. : Assessing predictors of software defects . In: in Proceedings, workshop on Predictive Software Models ( 2004 )

[22] Menzies , T. , Milton , Z. , Turhan , B. , Cukic , B. , Jiang , Y. , Bener , A. : Defect prediction from static code features: current results, limitations, new approaches . Automated Software Engineering 17 ( 4 ), 375 - 407 ( 2010 )

[23] Menzies , T. , Turhan , B. , Bener , A. , Gay , G. , Cukic , B. , Jiang , Y. : Implications of ceiling effects in defect predictors . In: Proceedings of the 4th International Workshop on Predictor Models in Software Engineering . pp. 47 - 54 . PROMISE '08, ACM , New York, NY, USA ( 2008 ), http://doi.acm. org/10 .1145/1370788. 1370801

[24] Mısırlı , A.T. , C¸ag˘layan, B. , Miranskyy , A.V. , Bener , A. , Ruffolo , N.: Different strokes for different folks: A case study on software metrics for different defect categories . In: Proceedings of the 2Nd International Workshop on Emerging Trends in Software Metrics . pp. 45 - 51 . WETSoM '11, ACM , New York, NY, USA ( 2011 ), http://doi.acm. org/10 .1145/1985374.1985386

[25] Moser , R. , Pedrycz , W. , Succi , G.: A comparative analysis of the efficiency of change metrics and static code attributes for defect prediction . In: Proceedings of the 30th International Conference on Software Engineering . pp. 181 - 190 . ICSE '08, ACM , New York, NY, USA ( 2008 ), http://doi.acm. org/10 .1145/1368088. 1368114

[26] Munson , J.C. , Elbaum , S.G. : Code churn: A measure for estimating the impact of code change . In: Proceedings of the International Conference on Software Maintenance . pp. 24 -. ICSM '98 , IEEE Computer Society, Washington, DC, USA ( 1998 ), http://dl.acm.org/citation.cfm?id= 850947 . 853326

[27] Nagappan , N. , Ball , T. : Static analysis tools as early indicators of pre-release defect density . In: Proceedings of the 27th International Conference on Software Engineering . pp. 580 - 586 . ICSE '05, ACM , New York, NY, USA ( 2005 ), http: //doi.acm. org/10 .1145/1062455.1062558

[28] Nagappan , N. , Ball , T. : Use of relative code churn measures to predict system defect density . In: Proceedings of the 27th International Conference on Software Engineering . pp. 284 - 292 . ICSE '05, ACM , New York, NY, USA ( 2005 ), http: //doi.acm. org/10 .1145/1062455.1062514

[29] Offutt , J. : Quality attributes of web software applications . IEEE Softw . 19 ( 2 ), 25 - 32 ( 2002 ), http://dx.doi.org/10.1109/52.991329

[30] Pertet , S. , Narasimhan , P. : Causes of failure in web applications . Tech. Rep. CMUPDL-05-109 , Parallel Data Laboratory, Carnegie Mellon University ( 2005 )

[31] Pinzger , M. , Nagappan , N. , Murphy , B. : Can developer-module networks predict failures? In: Proceedings of the 16th ACM SIGSOFT International Symposium on Foundations of Software Engineering . pp. 2 - 12 . SIGSOFT '08/FSE-16, ACM, New York, NY, USA ( 2008 ), http://doi.acm. org/10 .1145/1453101.1453105

[32] Pressman , R.S. : Software Engineering: A Practitioner's Approach. McGraw-Hill Higher Education, 6th edn . ( 2005 )

[33] Shull , F. , Basili , V. , Boehm , B. , Brown , A.W. , Costa , P. , Lindvall , M. , Port , D. , Rus , I. , Tesoriero , R. , Zelkowitz , M. : What we have learned about fighting defects . In: Proceedings of the 8th International Symposium on Software Metrics . pp. 249 -. METRICS '02 , IEEE Computer Society, Washington, DC, USA ( 2002 ), http://dl.acm.org/citation.cfm?id= 823457 . 824031

[34] Song , Q. , Shepperd , M. , Cartwright , M. , Mair , C. : Software defect association mining and defect correction effort prediction . IEEE Trans. Softw. Eng . 32 ( 2 ), 69 - 82 ( 2006 ), http://dx.doi.org/10.1109/TSE. 2006 .1599417

[35] Sprenkle , S.E. : Strategies for Automatically Exposing Faults in Web Applications . Ph.D. thesis , University of Delaware, Newark, DE, USA ( 2007 )

[36] Tosun , A. , Turhan , B. , Bener , A. : Practical considerations in deploying ai for defect prediction: A case study within the turkish telecommunication industry . In: Proceedings of the 5th International Conference on Predictor Models in Software Engineering . pp. 11 : 1 - 11 : 9 . PROMISE '09, ACM , New York, NY, USA ( 2009 ), http://doi.acm. org/10 .1145/1540438.1540453

[37] Turhan , B. , Menzies , T. , Bener , A.B. , Di

Stefano

, J.: On the relative value of crosscompany and within-company data for defect prediction . Empirical Softw. Engg . 14 ( 5 ), 540 - 578 ( Oct 2009 ), http://dx.doi.org/10.1007/s10664-008-9103-7

[38] Understand - source code analysis & metrics . http://scitools.com, accessed: 2014 -05-03

[39] Wolf , T. , Schroter , A. , Damian , D. , Nguyen , T. : Predicting build failures using social network analysis on developer communication . In: Proceedings of the 31st International Conference on Software Engineering . pp. 1 - 11 . ICSE '09, IEEE Computer Society, Washington, DC, USA ( 2009 ), http://dx.doi.org/10.1109/ICSE. 2009 .5070503

[40] World internet users statistics usage and population stats . http://www. internetworldstats.com/stats.htm, accessed: 2014 -04-12

[41] Zimmermann , T. , Nagappan , N.: Predicting defects using network analysis on dependency graphs . In: Proceedings of the 30th International Conference on Software Engineering . pp. 531 - 540 . ICSE '08, ACM , New York, NY, USA ( 2008 ), http://doi.acm. org/10 .1145/1368088.1368161