=Paper= {{Paper |id=Vol-1721/UYMS16_paper_12 |storemode=property |title=Akademik Calismalara Hakem Atamasi icin Buyuk Veri Altyapisi |pdfUrl=https://ceur-ws.org/Vol-1721/UYMS16_paper_12.pdf |volume=Vol-1721 |authors=Ahmet Yavuz,Suleyman Eken,Ahmet Sayar |dblpUrl=https://dblp.org/rec/conf/uyms/YavuzES16 }} ==Akademik Calismalara Hakem Atamasi icin Buyuk Veri Altyapisi== https://ceur-ws.org/Vol-1721/UYMS16_paper_12.pdf
Akademik Çalışmalara Hakem Ataması için Büyük
               Veri Altyapısı

                Ahmet Yavuz, Süleyman Eken, Ahmet Sayar

              Bilgisayar Mühendisliği, Kocaeli Üniversitesi,
                         41380 İzmit, Türkiye
                   yavuz1ahmet@gmail.com,
       {suleyman.eken, ahmet.sayar}@kocaeli.edu.tr



Özet. Birçok karmaşık işlemin yapılmasını gerektiren akademik çalışma (maka-
le, bildiri vs.) değerlendirme işlemi, çalışmanın uzmanlarca yeterliliğinin, öne-
minin ve orijinalliğinin değerlendirilmesi için yapılmaktadır. Akademik çalış-
malara alanlarına uygun hakemlerin atanması bu işlemlerden biridir. Akademik
çalışma yazarları; çalışmalarını, yapılan çalışmanın başlığı, özeti ve konferans
konularından hangilerine uygun olduğu gibi bilgiler ile birlikte konferans yöne-
tim aracılığı ile konferans yönetimine bildirirler. Hakemler ise konferans yöne-
timine uzmanlık alanlarını belirterek kayıt işlemlerini gerçekleştirirler. Konfe-
rans başkanları da yazarlar ve hakemler tarafından gönderilen bilgilere göre her
akademik çalışmaya manuel olarak hakem ataması yapmaktadırlar. Bu işlem
oldukça zaman almakta ve can sıkıcı hale gelebilmektedir. Geliştirilen yazılım
ürünü ile birlikte hakem atama işleminin otomatik olarak ve dağıtık mimaride
birçok akademik çalışmanın hızlı bir şekilde değerlendirmesi mümkün hale
gelmiştir.
Anahtar kelimeler: Otomatik hakem atama, MapReduce, dağıtık yazılım geliş-
tirme, NoSQL, CouchDB



Abstract. Peer review is an evaluation process for the competence, significance
and originality of researches by experts. Assigning qualified and relavant
reviewers to papers is one of the such diffucult tasks. Authors submit the papers
with their paper title, abstract, and keywords. Reviewers are needed to register
and declare their expertise on the conference topics. Eventully, the conference
chair has to realize assignment process by regarding information provided by
both the authors and the reviewers. All these tasks are now done by all actors
manually. This process takes quite some time and can become annoying. With
developed distributed system, paper-to-review assigment is done automatically
and evaluation process of many papers become possible in seconds.
Keywords: Otomatik hakem atama, MapReduce, dağıtık yazılım geliştirme,
NoSQL, CouchDB




                                      544
1 Giriş

   Akademik çalışma (makale, bildiri vs.) değerlendirme işlemi çalışmanın uzmanlar-
ca yeterliliğinin, öneminin ve orijinalliğinin değerlendirilmesi için yapılmaktadır [1].
Daha öncesinde yazarlar, akademik çalışma ile ilgili bilgileri (başlık, özet, anahtar
kelimeler vs.) sisteme yüklerler. Değerlendirme sürecinde hakemler; araştırmanın
bilimsel hatalarını saptama yoluyla geçerliliğini kontrol etme, sonuçların önemini
değerlendirerek yapacağı katkıyı araştırma ve özgünlüğünü kontrol etme gibi bir
takım işlemler yapmaktadırlar. Yapılan değerlendirmeler sonucunda çalışmalar, kabul
edilmekte veya reddedilmektedir. Birçok bildirinin/makalenin kısa sürede değerlendi-
rilmesi gereken durumlarda hakem atama, değerlendirme ve sonuçların alınması çok
zaman alan bir süreç olmaktadır. Çalışmanın amacı, efektif bir biçimde uygun hakem-
lerin hızlı bir biçimde otomatik olarak atanmasını sağlayan dağıtık bir mimarinin
geliştirilmesidir.
   Hali hazırda var olan uygulamalarda akademik çalışma gönderim süreci başlama-
dan önce konferans başkanı veya editörler, konferans veya derginin ilgilendiği konu-
ları belirlerler. Daha sonra hakemlerden ilgilendikleri konuları belirlemeleri istenir.
Çalışmanın gönderilme sürecinde ise yazarlardan konferans/dergi konularından han-
gi(leri) ile çalışmanın uyuştuğu bilgisi alınır. Anlatılan bu sistemde yazarların belirle-
diği konular çalışmanın konusu ile alakasız olabilmekte bu da hakem atama ve değer-
lendirme sürecinin uzamasına sebep olmaktadır [2]. Bu çalışmada, birçok akademik
dokümanın hızlı bir şekilde ilgili konularıyla ilişkilendirilmesi ve indekslenmesi işle-
mi gerçeklenmiştir. Böylece bilimsel konferans sistemlerine geliştirilen modülle akıllı
bir çözüm getirilmiştir. Bu çalışma ile aşağıdaki katkılaı sağlanmıştır:

    Akademik çalışmanın başlık, özet ve metninden doğal dil işleme yöntemleri ile
     konusunun tespitinin yapılması,
    Belirlenen çalışma konusuna göre alanı/konusu belli, sisteme kayıtlı hakemlerin
     atanması veya DBLP bibliyografyasındaki çalışma başlıklarına göre hakemlerin
     bulunması,
    Büyük veri analizi kapsamında birçok çalışmanın aynı anda değerlendirilmesi,

    Çalışmanın geri kalanı şu şekilde organize edilmiştir. 2 bölümde, dağıtık mimari
tabanlı olarak akademik çalışmalara hakem atanması yazılımı detaylı bir şekilde anla-
tılacaktır. 3. bölümde, önerilen mimari üzerinde gerçekleştirilen birtakım testler veri-
lip tartışılacaktır. 4. bölümde literatürde hakem ataması ile ilgili var olan çalışmalar
irdelenip son kısımda ise sonuçlar sunulacaktır.


2 Metodoloji

   Geliştirilen sistem temel olarak iki modülden oluşmaktadır: (1) Sistem kayıt ve yö-
netim modülü ve (2) Akademik çalışmaların değerlendirilmesi ve hakem ataması
modülü. İlerleyen kısımlarda her bir aşama detaylı olarak açıklanacaktır.




                                           545
2.1 Sisteme Kayıt ve Yönetim Modülü

   Sisteme kullanıcılar rollerine gore (editor, hakem ve yazar) kayıt olabilmektedir.
Hakem kayıtlarında, kişisel ve iletişim bilgileri ile birlikte hakem çalışma konularının
da sisteme girilmesi istenmektedir. Yazar rolündeki kişilerden ise kişisel ve iletişim
bilgileri ile birlikte yaptıkları akademik çalışmayı (pdf veya word formatında) sisteme
yüklenmesi beklenmaktedir. Tüm bilgiler ve akademik çalışmalar, Javascript Obje
Notasyonu (JSON) formatında NoSQL veritabanlarından doküman tabanlı CouchDB
veritabanı üzerinde tutulmaktadır. NoSQL kavramı 2009 sonları 2010 başlarında
ortaya çıkmıştır. Bu sistemler klasik veritabanlarından büyük verileri kontrol edebil-
me, ölçeklenebilme, veri formatları, yönetebilme, sorgulara daha hızlı cevap alabilme,
eş zamanlı kayıt ve güncelleme işlemlerini gerçekleyebilme, açık kaynak kodlu geliş-
tirme sağlayabilme gibi yönlerden farklılıklar arz etmektedir [3, 4].


2.2 Akademik Çalışmaların Değerlendirilmesi ve Hakem Atanması
Modülü

   Bu kısım çalışmanın özgün yanını oluşturmaktadır. Konuların tespit edilmesi dağı-
tık mimari yapısında gerçeklenmiştir. Burada MapReduce programlama paradigma-
sından yararlanılmıştır [5]. MapReduce uygulaması için Apache açık kaynak Hadoop
projesinden faydalanılmıştır.
   Çalıştırılacak algoritmanın çalıştığı düğüm ile kullanacağı verinin farklı makine-
lerde olması dağıtık sistemlerde paralel işlemede yavaşlığa neden olan bir durumdur.
HDFS’de [6] işleyicinin çalışacağı düğüm ile işleyeceği veri setinin bulunduğu dü-
ğümün yakın olması hedeflenmiştir. Veri yerelliği denen bu durum paralel işleme
hızını artırmaktadır. MapReduce, dağıtık dosya sisteminin üstünde olduğundan veri
yerelliği avantajından yararlanmaktadır. Bu modüle ait alt adımlar aşağıdaki gibidir:
   1. Akademik çalışmadaki konular; direk çalışma başlığından veya özetinden elde
edilebildiği gibi metin içinde en çok tekrar eden kelimelerin bulunması ve zarf-edat
gibi etkisiz kelimelerin (stop words) elenmesi ile geriye kalanlar şeklinde de elde
edilmiştir.
   2. Akademik çalışma ataması yapılacak hakemlerin yaptıkları çalışma başlıkları
dikkate alınarak tespit edilmesi gerçekleştirilmiştir. Burada bilgisayar bilimleri yayın-
ların bir çoğunun tutulduğu DBLP kütüphanesinden [7] yararlanılmıştır. DBLP verile-
rine resmi sitesinden erişmek mümkündür. XML formatında verilen bilgileri ayrıştıra-
rak yayın başlıklarından hakem bilgisine erişilmiştir.
   3. Bu aşamada elimizde şu şekilde kelime kümeleri vardır: hakem ataması yapıla-
cak yayına ait ayırt edici anahta kelimeler {Y1, Y2, .....Ym} ve bir önceki adımda elde
edilen herbir çalışmaya ait kelimeler {H1, H2, .....Hn}. Yukarıdaki örnek için B seti
şunlardır: {kd-tree, and, quad-tree, decompositions, for, declustering, of, 2D, range,
queries, over, uncertain, space,}. Hakem ataması işlemi Eşitlik 1’de verilen benzerlik
faktörüne (BFYmHn) göre yapılmaktadır [8].

                                        adet(Ym Hn )                                 (1)
                             BFYmHn
                                        adet(Ym Hn )




                                          546
3 Deneysel Sonuçlar ve Tartışma

   Sonuç olarak geliştirdiğimiz yazılım sayesinde akademik çalışmalara otomatik ola-
rak hakem ataması yapılabilmektedir. Bu eşleştirme yapılırken akademik çalışma
içerisinde en fazla geçen kelimeler, özet ve başlık bölümlerindeki kelimeler dikkate
alınmaktadır. Her bir kelime grubu üzerinde ayrı ayrı eşleştirme yapılabildiği gibi
bunların kombinasyonları dikkate alınarak atama yapılabilir. Örnek veriseti olarak
2014 IEEE 27th Conference on Software Engineering Education and Training
(CSEE&T) konferansında yer alan çalışmalar kullanılmıştır. Bu çalışmalar pdf forma-
tında olup 35 tanedir (60 MB). Her bir çalışmanın konusu bölüm 2.2’de anlatıldığı
gibi başlık, özet ve metinden elde edilmiştir. Bu çalışmalara hakem ataması yapmak
için hakemler (64 kişi) konferansın web sayfasında yer alan komiteden elde edilmiştir
(http://conferences.computer.org/cseet/2014/). Hakemlere ait ilgi alanları DBLP tara-
fından sunulan XML dosyasından elde edilmiştir. Atama işlemi çalışmanın metni,
başığı ve özetine göre ayrı ayrı değerlendirildiği gibi hepsini birden dikkate alarak
yapılmıştır. Toplam 35 dokumana hakem atama işleminin ne kadar sürede yapıldığı
Tablo 1’de özetlenmiştir. Burada hakem sayısının doküman sayısından fazla olması
herhangi bir sorun teşkil etmemektedir. Önemli olan hakemlerin çalışma alanlarına
uygun olarak atama işleminin yapılabilmesidir.
Tablo 1. Performans karşılaştırması
                      Atama Kriteri                             Ortalama Atama
                                                                 Süresi (ms)
      Özet, Başlık ve En Fazla Geçen Kelimelere Göre                  4414
                         Atama
                Özet Kısmına Göre Atama                               4247
          En Fazla Geçen Kelimelere Göre Atama                         82
                   Başlığa Göre Atama                                  63

   En fazla sürede özet, başlık ve metinde geçen kelimelere göre atama yapılmasının
sebebi hakem çalışma alanları ile benzerlik araştırmasının yapıldığı kelime sayısının
daha fazla olmasındandır. Diğerleri de kelime sayılarının karşılaştırılmasına göre
değişik süreler tutmuştur. Bu sistem sayesinde akademik çalışmalara hakem ataması
konusunda büyük zaman kazanımı sağlanmıştır. Bu kolaylık ile birlikte bu sistemin
geliştirilmesi aşamasında büyük verilerin analizi konusunda bilgi birikimi edinilmiş
ve deneyim kazanılmıştır [9, 10].


4 İlgili Çalışmalar

   Genel olarak hakem atama yöntemleri literatürde iki kategoride incelenmektedir:
(1) tercih tabanlı ve (2) konu tabanlı veya bilgi bulma tabanlı yaklaşımlar. Tercih
tabanlı sistemlerde genelde sisteme yüklenen tüm çalışmalar veya hakemlerin ilgi
alanlarına kısmen daha yakın olanlar listelenir. Hakemlere bu çalışmalar gönderilir,
onlardan ilgilendiklerini seçmeleri beklenir. Bu sistemin zayıf yönü, çalışmalar gön-




                                        547
derildikten sonra hemen hakemler tarafından değerlendirmeye kabul edilmemeleri ve
sürecin iyice uzamasıdır. Rigaux [11] işbirlikçi filtrelemeye dayalı tercih tabanlı bir
sistem önermiştir. Temel mantık, aynı akademik çalışmaları değerlendirmeyi kabul
eden hakemler muhtemelen diğer çalışmalar için de aynı tercihte bulunacaktır şeklin-
dedir. Konu tabanlı yaklaşımda, belirli bir derecede akademik çalışmanın konusundan
haberdar olan hakemlere çalışmalar atanmaktadır. Bu yaklaşımda her hakem ilgili
çalışmanın konularına göre derecelendirilir ve en yüksek puana/dereceye sahip ha-
kem(ler) çalışmayı incelemek için atanır. Buradaki problemse akademik çalışmanın
kapsadığı konuları otomatik olarak sapmaktır. Literatürde ikinci kısımla ilgili çalış-
malarda genellikle akademik çalışmanın özetinden ve anahtar kelimelerinden yararla-
nılmıştır. Dumais ve Nielsen [12] hakem atama işlemini, terim ve metinler arasındaki
kalıpları bulmaya çalışan Gizli Anlamsal İndeksleme yöntemi ile gerçeklemişlerdir.
Basu ve diğ. [13] çalışmalarında web üzerinden arama motoru yardımıyla potansiyel
hakemler tarafından yazılan çalışmalardan özetler çıkarılıp Vektör Uzay Modeli ile
eşleştirme işlemi gerçekleştirilmiştir. Literatürde ayrıca her iki yaklaşımı kullanan
çalışmalar da mevcuttur [14]. Yaptığımız araştırmalar neticesinde literatürdeki çalış-
malarda akademik çalışmaların hakem ataması sıralı olarak yapılmaktadır. Yani sis-
teme yüklenen her bir çalışma için önerilen yöntemler çalıştırılmaktadır. Bu çalışma-
da ise konu tabanlı olarak dağıtık sistem mimarisinde birçok çalışma için aynı anda
hakem ataması yapılmaktadır.


5 Sonuçlar

   Geliştirilen yazılım sayesinde akademik çalışmalara hakem ataması konusunda bü-
yük zaman kazanımı sağlanmıştır. Bu kolaylık ile birlikte bu sistemin geliştirilmesi
aşamasında büyük verilerin analizi konusunda bilgi birikimi edinilmiş ve deneyim
kazanılmıştır. Benzer şekilde hakem ataması yapılacak yayının anahtar kelimeleri de
işin içine katılabilir veya yayından elde edilen kelime setinin anahtar kelimelere olan
uygunluğu araştırılabilir. Ayrıca sisteme kayıtlı hakemlere adil veya adile yakın sayı-
da çalışmayı incelemesi için gönderilmesi gelecek çalışmalar arasındadır. Kullanılan
benzerlik faktörü, sadece iki kelime seti içinde geçen ortak kelimelere bakmaktadır.
Kelimelerin üst çalışma alanlarında ortaklığı da dikkate alınarak daha gürbüz bir ben-
zerlik indeksi elde edilebilir.


Kaynaklar


1. B.T. Sense, “Peer Review and the Acceptance of New Scientific Ideas”, Sense
   about Science, ISBN: 0-9547974-0-X, 2004.

2. S. Ferilli, N. Di Mauro, T.M.A. Basile, F. Esposito, and M. Biba, “Automatic
   topics identication for reviewer assignment”, Lecture Notes in Computer Science,
   4031: 721-730, 2006.




                                         548
3. J. Lennon, Beginning CouchDB. Apress Publisher, 1st edition, NY:U.S.A., 2009.

4. S. Eken, F. Kaya, A. Sayar, A. Kavak, “Doküman Tabanlı NoSQL Veritabanları:
   MongoDB ve CouchDB yatay ölçeklenebilirlik karşılaştırması,” 7. Mühendislik ve
   Teknoloji Sempozyumu, 2014.

5. Dean, J., Ghemawat, S., MapReduce: A Flexible Data Processing Tool,
   Communications of ACM, 53(1), 72-77, 2010.

6. Hadoop, http://hadoop.apache.org/ (Erişim Tarihi: 1 Haziran 2016)

7. dblp: DBLP Bibliography. http://www.informatik.uni-trier.de/~ley/db/ (Erişim
   Tarihi: 1 Eylül 2015)

8. Y. Kalmukov, “An algorithm for automatic assignment of reviewers to papers”,
   International Conference on Computer Systems and Technologies, pp. 1-7, 2006.

9. G. C. Fox, ve diğ. “Algorithms and the Grid”, Computing and visualization in
   science, pp. 115-124, 2009.

10. M. Aktaş, ve diğ. “Implementing Geographical Information System Grid Services
   to Support Computational Geophysics in a Service-Oriented Environment”, in
   Proc.of NASA Earth-Sun System Technology Conference, pp. 1-9, 2005.

11. P. Rigaux: “An Interactive Rating Method: Application to Web-based Conference
   Management”, in Proc.of ACM Symposium on Applied Computing, pp.1682-
   1687, 2004.

12. S.T.Dumais and J.Nielsen: “Automating the Assignment of Submitted
   Manuscripts to Reviewers”, in Proc.of 15th ACM International Conference on
   Research and Development in Information Retrieval, pp.233-244, 1992.

13. C.Basu, H.Hirsh, W.Cohen and C.N.Manning: ”Technical Paper
   Recommendation: A Study in Combining Multiple Information Sources”, Journal
   of Artificial Intelligence Research, pp.231-252, 2001.

14. X. Li, T. Watanabe, “Automatic Paper-to-reviewer Assignment, Based on the
   Matching Degree of the Reviewers”, Procedia Computer Science, 22: 633-642,
   2013.




                                        549