<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta />
    <article-meta>
      <title-group>
        <article-title>İnsan ve Makine Bulutları Sinerjisi: Kitle Kaynaklı Çalışma ile Veri Temizleme Örnek Uygulaması</article-title>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author">
          <string-name>Deniz İren</string-name>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Gökhan Kul</string-name>
          <email>2gkul@metu.edu.tr</email>
          <xref ref-type="aff" rid="aff0">0</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>ve Semih Bilgen</string-name>
          <email>3bilgen@metu.edu.tr</email>
          <xref ref-type="aff" rid="aff1">1</xref>
        </contrib>
        <aff id="aff0">
          <label>0</label>
          <institution>Bilgi İşlem Daire Başkanlığı, Orta Doğu Teknik Üniversitesi</institution>
          ,
          <addr-line>Ankara</addr-line>
        </aff>
        <aff id="aff1">
          <label>1</label>
          <institution>Elektrik ve Elektronik Mühendisliği, Orta Doğu Teknik Üniversitesi</institution>
          ,
          <addr-line>Ankara</addr-line>
        </aff>
      </contrib-group>
      <fpage>571</fpage>
      <lpage>579</lpage>
      <abstract>
        <p>Öz. Kitle Kaynaklı Çalışma (KKÇ) ve Bulut Bilişim bilgi teknolojilerinde önem kazanan kavramlar arasında yer almaktadır. İnsan ve makine bulutlarının karma kullanımıyla bir sinerji oluşturulması ve bu şekilde iki dünyanın güçlü tarafları öne çıkarılırken zayıf noktalarının da üstesinden gelinmesi mümkün kılınabilir. Bu makale Orta Doğu Teknik Üniversitesi'nde kullanılmakta olan, ancak kullanım ömrünü tamamlamaya yakın bir akademik yayın kayıt takip yazılımının güncel sürümünün geliştirilmesi sürecinde karma bir çözüm kullanımını konu almaktadır. Bu yöntem yazılımın yeni sürümünün geliştirilmesine paralel olarak, kayıtlı tutulan büyük miktarda verinin temizlenerek yeni sisteme aktarılmasında kullanılmıştır. Veri aktarımı için geliştirilmiş olan kullan-at prototip sistem ile 53,822 akademik kayıt temizlenmiş ve aktarılmıştır. Bu çözümün ilk adımı harici web servislerinden Sayısal Nesne Kimliği (Digital Object Identifier) sorgulanması ve kayıtların etiketlenmesinden oluşmaktadır. İkinci adımda ise bu çözüm için özel tasarlanmış dizgi benzerlik algoritması ile kalan kayıtlar filtrelenmiştir. Son olarak benzer ancak birebir aynı olmayan kayıtlar KKÇ yöntemi kullanılarak analiz edilmiş ve veri kümesindeki tekrarlar elenmiştir. Bu karma yöntem sayesinde projede, yalnızca makinelerin kullanıldığı bir çözüm ile ulaşılamayacak bir doğruluk seviyesine erişilebilmiş ve iş yalnızca insanların kullanıldığı bir çözüm ile erişilemeyecek bir hızda sonuçlanmıştır. Çözümün KKÇ fazında ulaşılan hata payı 6.4% olarak gözlemlenmiş ve insan ve makine bulutlarının sinerjisine Türkiye'deki kamu üniversitelerinde bir ilk örnek olan bu çalışmanın başarısı belgelenmiştir.</p>
      </abstract>
      <kwd-group>
        <kwd>Anahtar kelimeler</kwd>
        <kwd>Kitle Kaynaklı Çalışma</kwd>
        <kwd>bulut bilişim</kwd>
        <kwd>dizgi benzeştirme</kwd>
      </kwd-group>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>Giriş</title>
      <p>
        uygulandığında, makine bulutları ve insan bulutlarının oluşturacağı bir küresel beyin
[
        <xref ref-type="bibr" rid="ref1">1</xref>
        ] kurgusunda bu sinerji daha da vurgulanacaktır.
      </p>
      <p>1900’lerde uygulanmaya başlayan ve işçilerin basit görevlerde uzmanlaşması
yaklaşımı, son yıllarda yazılım ve sistemlerin küçük, sınırları tanımlı, niş sorunlara
çözüm üreten servisler şeklinde geliştirilmesine önayak olmuştur. Son on yıl içinde
gerçekleşen bir diğer önemli gelişme ise Kitle Kaynaklı Çalışma’nın (KKÇ) ortaya
çıkmasıdır. KKÇ’nin bir iş modeli olarak yaygın olarak uygulanmaya başlamasıyla
birlikte kalabalığın bilgeliği ve insan bilişselliği faydalanılabilir ve ölçeklenmesi
mümkün kaynaklar arasında yer almaya başlamıştır. Günümüzde KKÇ, tişört
tasarımından ansiklopedi makalesi yazılmasına, uydu görüntülerinden kaza enkaz
belirlemeden, orman yangınlarının tespitine çok değişik tipte sorunların çözüme
kavuşturulmasında kullanılmaktadır. Bazı KKÇ platform sağlayıcılarının sunduğu
program arayüzleri (API) ile, yazılımın işleyişi sırasında çeşitli işler insan bulutuna
yaptırılıp, sonuçları yazılım tarafından kullanılmakta ve böylece gerçek zamanlı,
karma bir insan – makine bulut çözümü oluşturulabilmektedir.</p>
      <p>Bu makale Orta Doğu Teknik Üniversitesi’nde (ODTÜ) yürütülen bir veri
temizleme ve aktarım işi sırasında uygulanan karma çözümü konu almaktadır.
ODTÜ’de yaklaşık 2,500 akademik, 3,000 idari personel görev yapmaktadır.
Öğrenciler de hesaba katıldığında ODTÜ Bilgi İşlem Daire Başkanlığı (BİDB) tarafından
sunulan BT servislerinden yararlanan kullanıcıların sayısı 30,000’in üzerine
çıkmaktadır. Yerleşkedeki BT yapısı bünyesinde çok sayıda güncellenmesi gereken eski
uygulamalar ve bu uygulamalar tarafından kullanılan büyük miktarda veri
barındırmaktadır. Yakın geçmişte bu uygulamaların güncellenmesi ve süreç
otomasyon yaklaşımı ile bütünleştirilmesi için bir program başlatılmıştır. Bu büyük değişim
bazı eski verilerin yeni geliştirilen sistemlere aktarılması gereksinimini
doğurmaktadır.</p>
      <p>Bu uygulamalardan biri olan CV-Akademik, 1990’larda hayata geçirilmiş olup,
ODTÜ’nün kurulduğu tarihten beri üniversite bünyesinde yapılmış yayınların takibi
için kullanılmaktadır. Bu uygulama kullanıcıların serbest metin biçiminde yayın
başlıkları ve diğer bilgilerini girmesini gerektirmektedir. Ayrıca birden fazla yazar
tarafından yazılmış yayınların bilgisi, yazarlar tarafından sisteme ayrı ayrı
girilebildiğinden veriler tekrarlanmaktadır. Serbest metin girişinde yapılan yazım hataları ve
tekrarlı kayıtların bu sebeple tutarsız olması, yeni geliştirilen uygulamaya veri
aktarımı ve veri tabanının normalizasyonu için aşılması gereken bir güçlük teşkil
etmektedir. Aktarılması ve temizlenmesi gereken 53,822 kayıt satırı bulunmaktadır.</p>
      <p>Bu makalede anlatılan karma çözüm yaklaşımı harici bir servis olan CrossRef DOI
sorgu web servislerini, kurum bünyesinde iyileştirilmiş dizi benzerlik hesaplama
algoritmalarını ve KKÇ kullanımını içermekte ve bahsedilen, gerçek hayatta karşılaşılmış,
veri aktarım sorununun çözülmesinde uygulanmıştır. Bu araştırmanın çözmeyi
hedeflediği iş sorunu veri kümesinde bulunan hatalı kayıtların tespit edilmesi ve
düzeltilmesi, ayrıca gereksiz tekrarların elenerek normalize edilmesi ve harici ya yın
depolarındaki standart yayın kimlikleri ile etiketlenmesidir. Araştırma hedefi ise
KKÇ’nin yazılım mühendisliği pratiklerinin bir parçası olarak etkili ve verimli bir
biçimde kullanılabileceğine dair bir kavramsal tanıt sunmaktır.</p>
      <p>
        Makale şu şekilde düzenlenmiştir: Bölüm 1 araştırma ortamı, çözülmek istenen
sorun ve önerilen çözüm yöntemini anlatarak konuya giriş yapmaktadır. Bölüm 2
literatüre geçmiş olan benzer uygulamalar hakkında bilgi sunmakta, Bölüm 3 ise önerilen
karma çözüm hakkında detaylı bilgi vererek uygulanan yöntemi anlatmaktadır. Son
olarak, Bölüm 4 araştırma sonuçlarını ve gelecekte yapılması hedeflenen çalışmaları
belirtmektedir.
İlgili Çalışmalar
KKÇ ve bulut bilişim bileşenlerini içeren karma sistemler çağdaş BT
uygulamalarında öncü bir etmen olarak değerlendirilmektedir [
        <xref ref-type="bibr" rid="ref2">2</xref>
        ]. Karma sistemleri ifade etmek için
çok farklı terimler kullanılsa bile altta yatan fikir benzerdir: İnsan ve bilgisayar
servislerinin sinerjisi ile katma değer yaratılmaktadır. İnsan ve bilgisayar servislerinin
bütünleştirilmesi ile her iki tipte servisin sunabileceklerinin ötesinde, artırılmış bir
servisin sunulması mümkün kılınabilmektedir [
        <xref ref-type="bibr" rid="ref3">3</xref>
        ]. Büyük ölçekli insan-bilgisayar
iletişimi ile mümkün kılınan bu yeni varlık A. Bernstein tarafından küresel beyin
olarak adlandırılmıştır [
        <xref ref-type="bibr" rid="ref1">1</xref>
        ]. Bulut ekosistemini servis katmanlarının bir yığıtı olarak
tarif eden Lenk, KKÇ’yi bu katmanların en üstünde göstermeyi uygun görmüş ve
servis-olarak-insan (human-as-a-service) olarak adlandırmıştır [
        <xref ref-type="bibr" rid="ref4">4</xref>
        ]. Lackermeir
tarafından e-ticarete uyarlanarak tasvir edilen karma bulut mimarisi de
servis-olarakinsan katmanı içermektedir [
        <xref ref-type="bibr" rid="ref5">5</xref>
        ]. Vukovic araştırmalarında bulut bilişim ile
güçlendirilmiş bir KKÇ servisinden bahsetmiştir [
        <xref ref-type="bibr" rid="ref6">6</xref>
        ]. M. Bernstein internet aramaları
için kullanıcı tecrübesinin iyileştirilmesi amacıyla otomatik sorgu madenciliği ve
KKÇ içeren karma bir yapı kullanmıştır [
        <xref ref-type="bibr" rid="ref7">7</xref>
        ]. Bunların yanı sıra, literatürde karma
yöntemlerin büyük veri sorunları [
        <xref ref-type="bibr" rid="ref8">8</xref>
        ], bilgi yönetimi [
        <xref ref-type="bibr" rid="ref9">9</xref>
        ], piyasa tahmin [
        <xref ref-type="bibr" rid="ref10">10</xref>
        ], kitlesel
ortak çalışma [
        <xref ref-type="bibr" rid="ref11">11</xref>
        ], açık yenilikçilik [
        <xref ref-type="bibr" rid="ref12">12</xref>
        ] ve bilimsel sorunların çözümünde [
        <xref ref-type="bibr" rid="ref13">13</xref>
        ]
kullanıldığına rastlanmaktadır.
      </p>
      <p>
        Karma çözümler her zaman başarılı olmak zorunda değildir. Bernestein başarılı
karma sistemler geliştirmek için, bu sistemlerin önemli özelliklerinin farkında
olunması ve karma çözümleri geliştirmek ile geleneksel bilgisayar sistemlerini geliştirmek
arasındaki farkların çok iyi anlaşılması gerektiğini vurgulamaktadır [
        <xref ref-type="bibr" rid="ref1">1</xref>
        ].
      </p>
    </sec>
    <sec id="sec-2">
      <title>Karma Bir Çözüm Yaklaşımı</title>
      <p>53,822 kaydın temizlenmesi işi, bir uzman tarafından el ile yapıldığında durumunda
çok uzun zaman alacaktır. Bu sebeple KKÇ kullanımının zaman ve maliyet açısından
verimlilik sağlayacağı öngörülmektedir.</p>
      <p>CrossRef Veri Servislerinde DOI Sorguları
İlk aşamada CrossRef DOI sorgulama web servisleri kullanılmıştır. Bu harici web
servislerini kullanan basit bir uygulama geliştirilmiştir. Uygulama, taşınan veri ve
başlık boyutu verimliliği sağlamak için, her web servis çağrısında 20 kayıt gönderip,
yanıt almaktadır. Web servisinin parametrelerinden biri olan “bulanık arama”
seçeneğinin seçilmesi sayesinde aramalar bire bir eş olan kayıtların yanı sıra benzer
kayıtları da bulacak şekilde işletilmektedir. Web servis çağrısının yanıtları geldiğinde
DOI bilgisi bulunan kayıtlar bu bilgi ile eşleştirilmektedir. İleriki aşamalarda DOI
bilgisi var olan kayıtların benzerlik veya eşlik durumu bu alanların karşılaştırılması ile
yapılabilecektir.</p>
      <p>Tüm kayıtlar için DOI çözümleme süreci 40 saatte tamamlanmıştır. Web servis ile
DOI sorgulama sürecinin sonunda 5,681 kayıt geçerli bir DOI ile eşleştirilmiş, 39,415
kayıt için DOI kaydı bulunamamış, 391 kayıt ise içerdikleri özel karakterler sebebiyle
işlem görmemiştir. Geri kalan 8,335 kayıt ise DOI kaydı olması beklenmeyen (ör:
ulusal yayınlar) yayınlar içermeleri sebebiyle işlem gören kayıt kümesine dâhil
edilmemiştir.</p>
      <p>Dizgi Benzerlik Hesaplamaları
İkinci aşamada kayıt benzerliği çeşitli algoritmalar ile değerlendirilmiştir. Bu durum
özelinde kayıt eşitliği DOI bilgisi olmayan kayıtlar için başlık, yazar ve yayıncı
alanlarının aynı olması olarak tanımlanmıştır. DOI’nin küresel geçerlilikte eşsiz olarak
belirlenmiş bir anahtar veri olması sebebiyle karşılaştırmalarda öncelikli alan olarak
kullanılmaktadır. Öyle ki, DOI bilgisi olan kayıtlar için yalnızca DOI alanlarının aynı
olması yeterlidir. Bununla birlikte, dizgi karşılaştırma yoluyla benzer kayıtları tespit
ederken doğru olmayan sonuçlara varmak da mümkün olmaktadır. Kayıt kümesinde
aynı yayın için olmasına rağmen hatalı yazılmış kelimeler veya kısaltmalar yüzünden
farklı olarak kabul edilen kayıtlar bulunabilmektedir. Bu yüzden kayıtların aynılığının
değil, benzerliğinin tespit edilmesi hedeflenmiştir. Her kayıt diğer tüm kayıtlarla
karşılaştırılarak her bir benzerlik durumuna bir benzerlik skoru ile benzerlik anahtar
verisi atanmaktadır. Benzerlik skorunu hesaplamak için, Levenshtein Distance (LD)
yöntemi ve bir Jaccard Index varyantı (JI’) birlikte kullanılmıştır.</p>
      <p>Hesaplanan benzerlik skorları hem LD hem de JI’ için 1’e eşit olan kayıtlar, aynı
kabul edilerek kayıt kümesinden çıkarılmıştır. Benzerlik skorları bir eşik değerle
karşılaştırılarak hem LD hem de JI’ değerleri belirli bir eşik değerden daha yüksek
olanlar bir araya getirilerek benzerlik grupları oluşturulmuştur. Kullanılan eşik değer,
büyük ölçüde kullanılan dile göre belirlenmektedir. Belirtilen algoritmalar çeşitli eşik
değerleriyle 50 kayıtlık örnek gruplarla denenmiş ve sonuç olarak LD ve JI’ için en
uygun eşik değerlerinin sırasıyla 0.7 ve 0.5 olduğu gözlemlenmiştir. Test sonuçlarına
göre, aynı yayına ait olan kayıtların tamamı aynı benzerlik grubunda yer almaktayken,
gerçekte farklı yayınlara ait olmasına rağmen hatalı şekilde benzer kabul edilen
kayıtların oranı yalnızca % 18 olarak hesaplanmıştır. Farklı olmasına rağmen benzer
kabul edilme hatası, bir diğer hata olan, gerçekte benzer olan kayıtların farklı kabul
edilme hatasına tercih edilmiştir. Bu tercihin nedeni, birinci tipteki hataların sonraki
aşamalarda giderilebilir olmasına karşın, ikinci tip hata durumunda böyle bir olanağın
olmamasıdır.</p>
      <p>LD skoru 0.7 den küçük olan kayıtlar farklı kayıt olarak kabul edildiğinden
benzerlik skoru 0.7 ye eşit veya daha büyük olanların dışında kalan kayıtlar, benzeri
olmayan kayıtlar olarak nitelendirilip, kayıt kümesinden çıkarılmıştır.</p>
      <p>Benzerlik skoru hesaplama aşaması tamamlandığında, 4.558 kayıt aynı olarak
değerlendirilirken 38.830 kaydın benzersiz olduğu belirlenmiştir. Bu kayıtlar
normalize edilmiş ve kayıt kümesinden çıkarılmıştır. Geriye kalan 10.434 kayıt daha tekrar
değerlendirilmek üzere diğer aşamalara aktarılmıştır.</p>
      <sec id="sec-2-1">
        <title>Levhenstein Distance (Levhenstein Aralığı).</title>
        <p>LD değeri ile karşılaştırma yapılmadan önce dizgiler büyük harflere dönüştürülür.
Özel karakterler ASCII karşılıklarına dönüştürülür veya dizgiden çıkartılır. Yazar
(Author) alanı basit dizgi işlemleri kullanılarak standart hale getirilir.</p>
        <p>
          LD, dizgileri karşılaştırmak ve bir dizgiyi diğerine çevirmek için yapılması
gereken işlem sayısını temsil eden aralık değerini hesaplamak için kullanılır. LD
Algoritması literatürde tanımlandığı şekliyle kullanılır [
          <xref ref-type="bibr" rid="ref14">14</xref>
          ], [
          <xref ref-type="bibr" rid="ref15">15</xref>
          ].
        </p>
      </sec>
      <sec id="sec-2-2">
        <title>Jaccard Index Variant (Jaccard İndisi Varyantı).</title>
        <p>LD hesaplama işlemi tamamlandıktan sonra kayıtları, içerdiği kelimelere göre
karşılaştırmak için JI’ kullanılır. Algoritmayı kullanmadan önce, “THE”, “FROM”,
“FOR” kelimeleri ile 1 ve 2 harfli kelimeler kayıtlardan çıkartılır.</p>
        <p>
          Jaccard İndisi’nin [
          <xref ref-type="bibr" rid="ref16">16</xref>
          ] bir varyantı olan JI’, aynı kelimeleri farklı sıralama ile
kullanmış olan dizgilerle ilgili hatalı sonuçlara varmayı engellemek amacı ile LD ile
birlikte kullanılarak onu tamamlar.
        </p>
        <p>Jaccard Göstergesi ile JI’ arasındaki fark (1) ve (2) de gösterilmektedir.
(1) Jaccard İndisi = A ∩ B / A U B
(2) JI’ = A ∩ B / A, |A| ≥ |B|</p>
        <p>JI’ algoritmasında farklılaşmaya gidilmesinin sebebi, algoritmanın yeni biçimiyle
daha yüksek kesinlik ile kayıt farklılıklarını tespit edebilmesidir. Bu değişiklik
sayesinde sık rastlanan hatalardan biri olan başlık, yayıncı ve yıl bilgilerinin tümünün
bir arada başlık alanına girilmesi durumu elenebilmektedir. Jaccard İndisi, A U B
kümesinde bulunan kelime sayısının fazla olmasından dolayı JI’ya kıyasla daha düşük
bir benzerlik skoru hesaplar. Bu durum için JI’, Jaccard İndisi’nden daha doğru sonuç
vermektedir.</p>
      </sec>
      <sec id="sec-2-3">
        <title>Kitle Kaynaklı Çalışma</title>
        <p>Hem özelleştirilmiş web servisleri hem de algoritmalar tarafından sınıflandırılamayan
kayıtlar, bir sonraki aşama olan KKÇ aşamasına aktarılmıştır. Bu aşamada insan
algısının, benzer metin alanlarındaki farklılıkları teşhis edebilme yeteneğinden
faydalanılması hedeflenmiştir.</p>
        <p>Söz konusu 10,434 kayıt, benzerlik anahtar verilerine göre 4,359 gruba ayrılmıştır.
Çeşitli büyüklüklerdeki bu gruplara ait olan kayıt sayıları Tablo 1’de gösterilmektedir.
Tablo 1. Benzerlik gruplarındaki yayın sayıları</p>
        <p>Gro
up Size</p>
        <p>KKÇ’nin tasarımının, işçilerin görev performansı üzerinde önemli etkisi
olduğundan benzerlik grupları çiftler halinde yeniden düzenlenmiştir. Böylelikle, “İki kayıt
aynı mı yoksa farklı mı?” biçiminde basit ve ikili yanıtlı sorular sorabilme olanağı
bulunmuştur.</p>
        <p>Kayıtları çiftler haline getirmek KKÇ görev sayısında artışa neden olmuştur. Bir
grupta bulunan benzer kayıtlardan oluşturulacak benzerlik çitlerinin sayısı aşağıdaki
formülle hesaplanabilir.</p>
        <p># Benzerlik Çiftleri = Grup Boyu . (Grup Boyu – 1) / 2</p>
        <p>Böylece toplam görev sayısı 9.308 olarak hesaplanmıştır. Bu görevler Amazon
Mechanical Turk (AMT) platformunda yayınlanmıştır. Her görevde işçilerden dört
benzerlik çifti içeren kayıt kümesini değerlendirmeleri istenmiştir. Başarıyla
tamamlanan her görev için 0.02$ ödenmiştir. Görevlerdeki dörtlü çiftlerden birisi altın
standart kümesinden seçilerek elde edilmiş iken kalan çiftler olağan kayıt çiftleri
kümesinden seçilmiştir. Görevin başarılı olup olmadığı altın standart kümesinden
seçilen çift için verilen cevabın doğruluğuna bakılarak değerlendirilmiştir.</p>
        <p>
          İşveren-Çalışan ilişkilerinin zayıf olması, anonimlik özelliği ve beceri
düzeylerindeki çeşitlilik, bekleneceği üzere KKÇ ile üretilen nihai ürün kalitesinde düşüklüğe
neden olmaktadır. Bu yüzden, KKÇ uygulayıcıları bazı kalite güvence yöntemleri
[
          <xref ref-type="bibr" rid="ref17">17</xref>
          ] kullanmak durumundadırlar.
        </p>
        <p>
          Bu çalışmada altın standart, tekrarlama (redundancy) ve otomatik kontrol [
          <xref ref-type="bibr" rid="ref17">17</xref>
          ],
[
          <xref ref-type="bibr" rid="ref18">18</xref>
          ] kalite güvence yöntemleri ile bir arada kullanılmıştır.
        </p>
        <p>Birinci düzey kalite kontrol yöntemi olarak altın standart mikro-görevleri
kullanılmıştır. KKÇ öncesi, 100 çiftten oluşan bir altın standart çiftler kümesi
geliştirilmiştir. Bu kümedeki çiftlerin yarısı kolay bir şekilde aynılığı saptanabilecek
şekilde olumlu örneklerden oluşturulmuştur. Kümedeki çiftlerin diğer yarısı ise,
olumsuz örnek olarak, belirgin bir biçimde farklı kayıtlardan oluşturulmuştur.
Çalışanlara atanacak görevlerin her birinde bulunan 4 kayıt çiftinin birisi altın standart
kümesinden seçilmiştir. Sorulan 4 soru içindeki altın standart çiftine ait soruya verilen
yanıtın doğruluğuna göre tüm yanıtlar kabul edilmiş veya reddedilmiştir.</p>
        <p>Her bir görev 3 defa, 3 farklı çalışana atanmıştır. Daha sonra çoğunluk kararı
tekniği kullanılarak, söz konusu yayın kayıtlarının doğruluğu ile ilgili nihai karar
verilmiştir.</p>
        <p>Son olarak, aynı benzerlik gruplarında bulunan kayıtların geçişkenliklerinin tutarlı
olup olmadığı otomatik olarak kontrol edilmiştir. Örneğin, birbirine benzediği
belirlenen üç yayın kaydından (A, B, C) üç oluşturulan üç benzerlik çifti
((A,B),(A,C),(A,D)) hakkında verilen karara göre A, B ile aynı ise, ve A, C ile aynı
ise, B ile C benzerlik çiftinin de aynı olarak değerlendirilmiş olması beklenmektedir.</p>
        <p>Bu otomatik geçişkenlik kontrolünün sonucunda az sayıda tespit edilen tutarsızlık,
çoğunluk kararı tekniği ile ortadan kaldırılmıştır.</p>
        <p>KKÇ fazı 17 günde tamamlanmıştır ve 186$’a mal olmuştur. 1.385 işçi, 9.308
mikro-görev icra etmiş ve çalışma esnasında toplam 27.924 karar toplanmıştır.
Bunlardan 1.920’si altın standart görev başarısızlığı yüzünden kabul edilmemiştir. Bir
günde tamamlanan ortalama görev sayısı 1.643 olarak tespit edilmiştir. Bir
mikrogörevin tamamlanma süresi ortalama olarak 52 saniye olarak hesaplanmıştır.</p>
        <p>6.224 kayıt çifti aynı, 3.084 kayıt çifti ise farklı olarak değerlendirilmiştir. Bu
kararlar, her bir benzerlik grubundaki kayıtlar aynı olsun olmasın, otomatik olarak,
nihai yargıyı oluşturmakta doğrudan kullanılmıştır.</p>
        <p>Kitle kaynaklı çalışmanın doğruluk derecesi, rastgele örnekleme yoluyla uzman
değerlendirmeleri kullanılarak saptanmıştır. Karşılaştırma işine temel oluşturması
amacı ile uzman değerlendirmelerinden oluşan bir küme geliştirmek için, 1.500
rastgele seçilmiş mikro-görev uzmanlar tarafından el ile icra edilmiştir. Uzman
değerlendirmeleri sonucunda uymazlık gösteren 96 kayıt tespit edilmiştir. Bu da seçilen
örneklemin 6.4%’üne denk gelmektedir.</p>
      </sec>
    </sec>
    <sec id="sec-3">
      <title>Sonuç ve Gelecekteki Çalışmalar</title>
      <p>Bu çalışmada veri temizleme sorununu çözmeye yönelik bir yazılım prototipi
geliştirilmiştir. Bu karma çözümde, harici kaynaklardan DOI sorgulanması, dizgi
benzerlik hesaplama algoritmaları ve KKÇ kullanılmıştır.</p>
      <p>Böyle bir işin, firma çalışanına atanması yerine, KKÇ ile yapılması önemli ölçüde
zaman ve maliyet tasarrufu sağlamaktadır.</p>
      <p>Ayrıca, aynı mikro-görevlerin tekrar tekrar yapılmasının çok sıkıcı ve psikolojik
olarak zorlayıcı olduğu gözlemlenmiştir. Böylece mikro-görevler üzerinde çok sayıda
işçinin çalışması ve psikolojik yükü paylaşıyor olmaları açısından KKÇ kullanımını
avantajlı kılmaktadır.</p>
      <p>KKÇ, tasarım açısından bakıldığında mükemmel olmaktan uzaktır. KKÇ ile vasat
kalitede ürünler kolaylıkla elde edilebilir. Bu çalışmanın KKÇ aşamasında gözlenen
hata oranı 6.4%’dür. Bu özellikteki bir iş için kabul edilebilen bir hata oranı olarak
değerlendirilmiştir. Doğruluk oranını yükseltmek için daha iyi kalite güvencesi
sağlayabilen tasarımlar gerekmektedir. KKÇ aşaması tamamlandığında elimizde
kalan hatalı kayıtlar (53.822’de 596), yeni geliştirilen sisteme aktarılacaktır. Yeni sistem
yazarların kendi yayın bilgilerini düzeltebilmelerine olanak sağlayacaktır.</p>
      <p>KKÇ’nin etkinliğini yönetmek kadar kalite maliyetini yönetmek de önemlidir. Bu
yüzden, kalite maliyetlerini kestirmek için bazı maliyet modellerinin kullanılması ve
maliyet açısından en iyileştirilmiş kalite güvence yönteminin seçilmesi
önerilmektedir.</p>
      <p>Sonuç olarak, bazı problemlerin çözümü için karma yaklaşımların uygun
olabileceği kararına varılmıştır. Bilgisayarların veri işleme gücü ile insanların algı ve
kavrayış becerilerinin bir arada kullanılmasının her iki yöntemin güçlü yönlerinin,
zayıf yönlerini dengelemesi yoluyla, daha iyi sonuçlar alınmasına katkıda bulunacağı
öngörülmektedir. KKÇ’nin sadece yazılım geliştirme veya veri analizinde değil ayrıca
üniversite araştırmalarının önemli bir bölümünde problem çözümü için
kullanılabilecek değerli bir yöntem olarak görülmesi tarafımızca önerilmektedir.</p>
      <p>Bu çalışmanın birincil katkısı veri temizleme ve aktarım sorununun çözülmesi için
uygulanan çözümün çıktılarıdır. KKÇ kullanmanın avantajlı olacağı durumlarla
karşılaşan araştırmacılar veya uygulamacılara yol göstereceği düşünülmektedir.
Kaliteyle ilgili olarak sunulan gözlemler, uygulamacılara gerçekçi beklentiler
oluşturmalarında fayda sağlayacaktır. Ayrıca, yazılım geliştirme süreçlerindeki problemlere
çözüm olarak karma yaklaşımların faydalı olabileceğine dair bir örnek gösterilmiştir.
Bu örneklerin sayısının artmasıyla uygulamacıların karma yöntemlerin kullanılması
yönünde karar vermeleri beklenmektedir.</p>
      <p>Bu çalışmanın ikincil katkısı ise özel olarak uyarlanmış JI’ algoritması ve bu
algoritmanın LD ve belirtilen eşik değerlerle bir arada kullanılmasının örneklenmesidir.
Öyle ki, belirtilen yöntem benzer veri temizleme problemlerinde doğrudan
kullanılabilecektir.</p>
      <p>Bu alandaki araştırmalarımız birbiriyle ilişkili iki odak ekseninde sürdürülecektir.
Bunlar, KKÇ ile büyük veri analizi süreçlerinin bütünleştirilmesi için etkin ve
elverişli yöntemler geliştirmek ve KKÇ kalite güvence maliyetlerinin kestirilmesi ve kalite
güvence yöntemlerinin seçilmesi konusunda ilkelerin oluşturulmasıdır.
Teşekkür. Bu araştırma projesi ODTÜ Bilimsel Araştırma Projeleri (BAP)
kapsamında desteklenmiştir. Proje ODTÜ Bilgi İşlem Daire Başkanlığı’nda
gerçekleştirilmiştir.</p>
    </sec>
    <sec id="sec-4">
      <title>Kaynakça</title>
    </sec>
  </body>
  <back>
    <ref-list>
      <ref id="ref1">
        <mixed-citation>
          1.
          <string-name>
            <given-names>A.</given-names>
            <surname>Bernstein</surname>
          </string-name>
          ,
          <string-name>
            <given-names>M.</given-names>
            <surname>Klein</surname>
          </string-name>
          , and T. W. Malone, “
          <article-title>Programming the Global Brain,” Commun</article-title>
          . ACM, vol.
          <volume>55</volume>
          , no.
          <issue>5</issue>
          , pp.
          <fpage>41</fpage>
          -
          <lpage>43</lpage>
          , May
          <year>2012</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref2">
        <mixed-citation>
          2.
          <string-name>
            <given-names>S.</given-names>
            <surname>Amer-Yahia</surname>
          </string-name>
          ,
          <string-name>
            <given-names>A.</given-names>
            <surname>Doan</surname>
          </string-name>
          ,
          <string-name>
            <given-names>J.</given-names>
            <surname>Kleinberg</surname>
          </string-name>
          ,
          <string-name>
            <given-names>N.</given-names>
            <surname>Koudas</surname>
          </string-name>
          , and
          <string-name>
            <given-names>M.</given-names>
            <surname>Franklin</surname>
          </string-name>
          , “Crowds, Clouds, and
          <article-title>Algorithms: Exploring the Human Side of 'Big Data' Applications,”</article-title>
          <source>in Proceedings of the 2010 ACM SIGMOD International Conference on Management of Data</source>
          ,
          <year>2010</year>
          , pp.
          <fpage>1259</fpage>
          -
          <lpage>1260</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref3">
        <mixed-citation>
          3.
          <string-name>
            <given-names>J. G.</given-names>
            <surname>Davis</surname>
          </string-name>
          , “From Crowdsourcing to Crowdservicing,”
          <source>Internet Comput. IEEE</source>
          , vol.
          <volume>15</volume>
          , no.
          <issue>3</issue>
          , pp.
          <fpage>92</fpage>
          -
          <lpage>94</lpage>
          , May
          <year>2011</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref4">
        <mixed-citation>
          4.
          <string-name>
            <given-names>A.</given-names>
            <surname>Lenk</surname>
          </string-name>
          ,
          <string-name>
            <given-names>M.</given-names>
            <surname>Klems</surname>
          </string-name>
          ,
          <string-name>
            <given-names>J.</given-names>
            <surname>Nimis</surname>
          </string-name>
          ,
          <string-name>
            <given-names>S.</given-names>
            <surname>Tai</surname>
          </string-name>
          , and T. Sandholm, “
          <article-title>What's Inside the Cloud? An Architectural Map of the Cloud Landscape</article-title>
          ,”
          <source>in Proceedings of the 2009 ICSE Workshop on Software Engineering Challenges of Cloud Computing</source>
          ,
          <year>2009</year>
          , pp.
          <fpage>23</fpage>
          -
          <lpage>31</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref5">
        <mixed-citation>
          5. G. Lackermair, “
          <article-title>Hybrid cloud architectures for the online commerce,” Procedia Comput</article-title>
          . Sci., vol.
          <volume>3</volume>
          , no.
          <issue>0</issue>
          , pp.
          <fpage>550</fpage>
          -
          <lpage>555</lpage>
          ,
          <year>2011</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref6">
        <mixed-citation>
          6.
          <string-name>
            <given-names>M.</given-names>
            <surname>Vukovic</surname>
          </string-name>
          and
          <string-name>
            <given-names>J.</given-names>
            <surname>Laredo</surname>
          </string-name>
          , “
          <article-title>PeopleCloud Service for Enterprise Crowdsourcing,”</article-title>
          <source>in IEEE International Conference on Services Computing</source>
          ,
          <year>2010</year>
          , pp.
          <fpage>538</fpage>
          -
          <lpage>545</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref7">
        <mixed-citation>
          7.
          <string-name>
            <given-names>M. S.</given-names>
            <surname>Bernstein</surname>
          </string-name>
          ,
          <string-name>
            <given-names>J.</given-names>
            <surname>Teevan</surname>
          </string-name>
          ,
          <string-name>
            <given-names>S.</given-names>
            <surname>Dumais</surname>
          </string-name>
          ,
          <string-name>
            <given-names>D.</given-names>
            <surname>Liebling</surname>
          </string-name>
          , and E. Horvitz, “
          <article-title>Direct Answers for Search Queries in the Long Tail,”</article-title>
          <source>in Proceedings of the SIGCHI Conference on Human Factors in Computing Systems</source>
          ,
          <year>2012</year>
          , pp.
          <fpage>237</fpage>
          -
          <lpage>246</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref8">
        <mixed-citation>
          8. L. von Ahn and L. Dabbish, “
          <article-title>Labeling images with a computer game</article-title>
          ,
          <source>” Proc. 2004 Conf. Hum. factors Comput. Syst. - CHI '04</source>
          , pp.
          <fpage>319</fpage>
          -
          <lpage>326</lpage>
          ,
          <year>2004</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref9">
        <mixed-citation>
          9.
          <string-name>
            <given-names>E.</given-names>
            <surname>Fast</surname>
          </string-name>
          ,
          <string-name>
            <given-names>D.</given-names>
            <surname>Steffee</surname>
          </string-name>
          ,
          <string-name>
            <given-names>L.</given-names>
            <surname>Wang</surname>
          </string-name>
          ,
          <string-name>
            <given-names>J.</given-names>
            <surname>Brandt</surname>
          </string-name>
          , and
          <string-name>
            <given-names>M. S.</given-names>
            <surname>Bernstein</surname>
          </string-name>
          , “Emergent,
          <article-title>Crowd-scale Programming Practice in the IDE</article-title>
          ,”
          <year>2014</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref10">
        <mixed-citation>
          10. G.
          <article-title>Tziralis and I. Tatsiopoulos, “Prediction Markets: An Extended Literature Review,”</article-title>
          <string-name>
            <given-names>J.</given-names>
            <surname>Predict</surname>
          </string-name>
          . Mark., vol.
          <volume>1</volume>
          , no.
          <issue>1</issue>
          , pp.
          <fpage>75</fpage>
          -
          <lpage>91</lpage>
          ,
          <year>2007</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref11">
        <mixed-citation>11. “Wikipedia.” [Online]. Available: www.wikipedia.org.</mixed-citation>
      </ref>
      <ref id="ref12">
        <mixed-citation>12. “Innocentive.” [Online]. Available: www.innocentive.com.</mixed-citation>
      </ref>
      <ref id="ref13">
        <mixed-citation>13. “Fold-it.” [Online]. Available: fold.it.</mixed-citation>
      </ref>
      <ref id="ref14">
        <mixed-citation>
          14. V. Levenshtein, “
          <article-title>Binary codes capable of correcting spurious insertions and deletions of ones,” Probl</article-title>
          . Inf. Transm., vol.
          <volume>1</volume>
          , pp.
          <fpage>8</fpage>
          -
          <lpage>17</lpage>
          ,
          <year>1965</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref15">
        <mixed-citation>
          15. G. Navarro, “
          <article-title>A Guided Tour to Approximate String Matching,” ACM Comput</article-title>
          . Surv., vol.
          <volume>33</volume>
          , no.
          <issue>1</issue>
          , pp.
          <fpage>31</fpage>
          -
          <lpage>88</lpage>
          ,
          <year>2001</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref16">
        <mixed-citation>
          16.
          <string-name>
            <given-names>M.</given-names>
            <surname>Levandowsky</surname>
          </string-name>
          and
          <string-name>
            <given-names>D.</given-names>
            <surname>Winter</surname>
          </string-name>
          , “Distance between Sets,
          <source>” Nature</source>
          , vol.
          <volume>234</volume>
          , no.
          <issue>5323</issue>
          , pp.
          <fpage>34</fpage>
          -
          <lpage>35</lpage>
          , Nov.
          <year>1971</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref17">
        <mixed-citation>
          17.
          <string-name>
            <given-names>D.</given-names>
            <surname>Iren</surname>
          </string-name>
          and
          <string-name>
            <given-names>S.</given-names>
            <surname>Bilgen</surname>
          </string-name>
          , “
          <article-title>Cost models of crowdsourcing quality assurance mechanisms</article-title>
          ,”
          <year>2013</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref18">
        <mixed-citation>
          18.
          <string-name>
            <given-names>A.</given-names>
            <surname>Quinn</surname>
          </string-name>
          and
          <string-name>
            <given-names>B.</given-names>
            <surname>Bederson</surname>
          </string-name>
          , “
          <article-title>Human computation: a survey and taxonomy of a growing field</article-title>
          ,” in … Conference on Human Factors in Computing …,
          <year>2011</year>
          .
        </mixed-citation>
      </ref>
    </ref-list>
  </back>
</article>