<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta />
    <article-meta>
      <title-group>
        <article-title>Call Center Text Mining Framework</article-title>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author">
          <string-name>İbrahim Onuralp Yiğit</string-name>
          <xref ref-type="aff" rid="aff0">0</xref>
          <xref ref-type="aff" rid="aff1">1</xref>
          <xref ref-type="aff" rid="aff2">2</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>İbrahim Onuralp Yiğit</string-name>
          <xref ref-type="aff" rid="aff0">0</xref>
          <xref ref-type="aff" rid="aff1">1</xref>
          <xref ref-type="aff" rid="aff2">2</xref>
        </contrib>
        <aff id="aff0">
          <label>0</label>
          <institution>Anahtar Kelimeler: Yazılım Çerçevesi</institution>
          ,
          <addr-line>Yazılım Bileşenleri, Yeniden Kullanım, Metin Madenciliği, Makine Öğrenmesi, Duygu Analizi, Konu Modelleme, Bilgi Çıkarımı</addr-line>
        </aff>
        <aff id="aff1">
          <label>1</label>
          <institution>Turk Telekom</institution>
          ,
          <addr-line>Istanbul</addr-line>
          ,
          <country country="TR">Turkey</country>
        </aff>
        <aff id="aff2">
          <label>2</label>
          <institution>Türk Telekom</institution>
          ,
          <addr-line>İstanbul</addr-line>
          ,
          <country country="TR">Türkiye</country>
        </aff>
      </contrib-group>
      <fpage>562</fpage>
      <lpage>573</lpage>
      <abstract>
        <p>In these days, the ability to convert call records from voice to text allows the application of text mining techniques on the call center text data. This study proposes a reusable software framework that automatically extracts subject and vocabulary from the conversation records that have been translated into sentences and whose contents are evaluated emotionally (positive / negative), customer satisfaction and customer representative performance. In consequence of this study, it is aimed to use the developed software framework for call center applications within Türk Telekom.</p>
      </abstract>
      <kwd-group>
        <kwd>Software Framework</kwd>
        <kwd>Software Components</kwd>
        <kwd>Software Reuse</kwd>
        <kwd>Text Mining</kwd>
        <kwd>Machine Learning</kwd>
        <kwd>Sentiment Analysis</kwd>
        <kwd>Topic Modeling</kwd>
        <kwd>Information Retrieval</kwd>
      </kwd-group>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>-</title>
      <p>Şirketler, çağrı merkezlerine gelen çağrılar sayesinde müşterilerin şikâyetlerini,
görüşlerini ve isteklerini öğrenebilmekte ve müşterilerden gelen geri bildirimlere göre
ürünlerini ve/veya hizmetlerini iyileştirebilmektedirler. Bundan dolayı çağrı merkezleri
şirketler için en önemli iletişim kanallarının başında gelmektedir.</p>
      <p>Şirketler müşterilerin geri bildirimlerine ulaşmak için gelen çağrıları incelemesi
gerekmektedir. Çağrı merkezlerine gelen çağrılar gün içerisinde yüz binleri bulmaktadır.
Mevcut durumda çağrı merkezi yetkililerinin tek tek tüm çağrıları incelemesi mümkün
olmadığı için büyük bir çağrı kümesi rastgele çağrılar seçilmektedir. Bundan dolayı
şirketlerin tam anlamıyla müşteri geri bildirimlere ulaştıklarını söylemek oldukça
güçtür.</p>
      <p>Günümüzde, sesten metne dönüşüm teknolojileri giderek daha başarılı bir hale
gelmesi ve çağrı merkezlerine gelen çağrıların sesten metne dönüştürülüp saklanabilmesi
müşterilerin yaşadıkları sorunlarla ilgili bilgilere erişilebilmesini kolaylaştırmaktadır.
Bu çalışma kapsamında müşteri memnuniyeti ve hizmet kalitesinin arttırılması için
metin madenciliği teknikleri kullanılarak Çağrı Merkezi Metin Madenciliği Yazılım
Çerçevesi geliştirilmiştir. Geliştirilen yazılım çerçevesi kullanılarak çağrı merkezi görüşme
kaydı metinleri üzerinden görüşmenin içeriğinin duygu yönünden (olumlu/olumsuz)
değerlendirilmesi, müşteri memnuniyetinin ve müşteri temsilcisinin performansının
ölçülmesi, konu ve kelime ağaçlarının otomatik olarak çıkartılması amaçlanmaktadır.</p>
      <p>Bildirinin bundan sonraki bölümleri şu şekilde düzenlenmiştir: İkinci bölümde
literatürde bulunan benzer çalışmalar hakkında bilgi verilmiştir. Üçüncü bölümde
geliştirilen Çağrı Merkezi Metin Madenciliği Yazılım Çerçevesi ile ilgili detaylar
paylaşılmıştır. Dördüncü bölümde geliştirilen yazılım çerçevesini kullanılarak yapılan örnek
çalışmaya ve bu çalışmanın sonuçlarına yer verilmiştir. Son bölümde yapılan çalışma
sonucunda gelinen noktanın değerlendirmesi yapılmış ve gelecek dönemde yapılacak
çalışmalardan bahsedilmiştir.
2</p>
      <p>
        Benzer Çalışmalar
Duygu analizi, metin içerisinden görüş, duygu ve tutum gibi öznel bilgilerinin
çıkarılması için doğal dil işleme, metin madenciliği gibi yapay zekâ tekniklerinin kullanıldığı
bir araştırma alanıdır [
        <xref ref-type="bibr" rid="ref1">1</xref>
        ]. Duygu analizi alanında makine öğrenmesi ve sözlük tabanlı
yöntemlerle birçok akademik çalışma yapılmıştır. Makine öğrenmesi tabanlı yöntemler
kullanılarak duygu analizi gerçekleştirilirken, duygu yönünden olumlu/olumsuz olarak
etiketlenmiş veri kümesi üzerinde makine öğrenmesi algoritmaları uygulanarak
sınıflandırma modeli oluşturulmaktadır. Ardından oluşturulan model yeni örneklerin
sınıflandırılmasında kullanılmaktadır. Sözlük tabanlı yöntemler ise daha önceden
oluşturulmuş duygu sözcükleri içeren bir duygu sözlüğüne dayalı olarak duygu analizini
gerçekleştirmektedir. Metinde geçen sözcük ve cümlelerin anlamsal yönelimlerine dayalı bir
hesaplama gerçekleştirilerek duygusal sınıflandırma yapılmaktadır.
      </p>
      <p>
        Duygu analizi alanında makine öğrenmesine dayalı yöntemler kullanılarak yapılan
temel çalışmalardan biri Pang ve diğerleri [
        <xref ref-type="bibr" rid="ref2">2</xref>
        ] tarafından gerçekleştirilmiştir. Bu
çalışmada, çeşitli makine öğrenmesi yöntemleri (SVM, Naïve Bayes ve maksimum entropi)
IMDB platformundaki film yorumlarını içeren veri kümesine uygulanarak film
yorumları olumlu-olumsuz olarak sınıflandırılmıştır. Uygulanan yöntemlerin başarımları ve
performansları kıyaslanmıştır. En yüksek doğru sınıflandırma oranının %82,9 ile destek
vektör makinesi (SVM) yöntemi uygulandığında elde edildiği görülmüştür. Türkçe için
benzer yüksek lisans tez çalışmaları gerçekleştirilmiştir. Eroğlu çalışmasında destek
vektör makineleri yöntemini ve N-gram modelini kullanarak %85 başarı ile Beyazperde
platformundaki film yorumları olumlu-olumsuz olarak sınıflandırılmıştır [
        <xref ref-type="bibr" rid="ref3">3</xref>
        ]. Akbaş ise
çalışmasında Türkçe tweetler üzerinde kişiler ve başlıklar hakkındaki alt konuları
çıkarıp bu konuları duygu kutbuna göre gruplayabilmiştir [
        <xref ref-type="bibr" rid="ref8">8</xref>
        ].
      </p>
      <p>
        Vural ve diğerleri [
        <xref ref-type="bibr" rid="ref4">4</xref>
        ] çalışmalarında Türkçe filim yorumlarını sözlük tabanlı
yöntemle duygu analizi yapmışlardır. SentiStrength Kütüphanesini Türkçe’ye çevirerek
film yorumlarını olumlu-olumsuz olarak sınıflandırmışlardır. Eroğlu’nun çalışmasında
kullandığı Beyazperde platformundan alınan veri kümesine kendi yöntemlerini
uygulayarak %76 başarı elde etmişlerdir.
      </p>
      <p>
        Ergün ve arkadaşları [
        <xref ref-type="bibr" rid="ref5">5</xref>
        ] yaptıkları çalışmada, sözcük tabanlı yöntemlerden
yararlanarak internetteki tüketici yorumları üzerinden duygu analizi yapmışlardır. Tüketici
yorumlarının metinleri içerisinde ürün özelliğini gösteren kelimeler ve olumlu-olumsuz
anlamlı sıfatlar belirlenmiştir. Ürünü niteleyen sıfatlar temsil ettikleri memnuniyet
derecelerine göre puanlanmıştır. Niteleyen ve nitelenen kelimelerin tespiti için açık
kaynak kodlu Zemberek Kütüphanesi [
        <xref ref-type="bibr" rid="ref6">6</xref>
        ] kullanılmış ve Türkçe dilbilgisine göre ağaç
yapısı oluşturulmuştur. Ağaç yapısı üzerinde Derinlik Öncelikli Arama algoritması
kullanılarak ürünün herhangi bir özelliğine ilişkin memnuniyet derecesini ifade eden sayısal
bilgiler hesaplanmıştır.
      </p>
      <p>
        Eliaçık ve Erdoğan [
        <xref ref-type="bibr" rid="ref7">7</xref>
        ] çalışmalarında makine öğrenmesi tabanlı bir yöntemle
Twitter’daki Türkçe finans iletilerinin duygu kutbunu (pozitif, negatif) belirlemişlerdir.
Çalışma kapsamında finans konusunda uzman kişiler tarafından 1501 negatif, 907 pozitif
Türkçe kısa iletinin bulunduğu veri kümesi oluşturulmuştur. Özellik çıkartmak için
unigram ve bigram, özellik seçmek için PMI (Point-wise Mutual Information) yöntemi
kullanılmıştır. Özellik çıkarma ve seçme işlemlerinden sonra 35030 özellikten oluşan
özellik kümesi elde edilmiştir. Bu çalışmada, destek vektör makinesi tabanlı bir duygu
sınıflandırma yöntemi kullanılarak %73,63 başarı oranı ile duygu kutbu belirlenmiştir.
      </p>
      <p>Literatürde yapılan benzer çalışmalar duygu kutbuna göre kategorize etme ve
sınıflandırmayla ilgilidir. Bu çalışmadaysa çağrı merkezlerindeki görüşmelerin duygu
yönünden (olumlu/olumsuz) değerlendirilmesi yanında müşteri memnuniyeti ve temsilci
performansının ölçümlenmesi, görüşmelerde geçen konuların tespit edilmesi
hedeflenmiştir. Ayrıca bu işlevlerin yeniden kullanılabilir bir yazılım çerçevesi tarafından
sunulması çalışmamızda önerilmektedir.
Bu çalışma kapsamında ses kayıtlarına ilişkin sesten dönüştürülmüş metinlerin
sınıflandırılması ve içeriklerinin değerlendirilmesi için Çağrı Merkezi Metin Madenciliği
Yazılım Çerçevesi geliştirilmiştir1.</p>
      <p>Şekil 1. Çağrı Merkezi Metin Madenciliği Yazılım Çerçevesi</p>
      <p>
        Bu çalışma kapsamında ses kaydı metinlerinin üzerinde metin madenciliği teknikleri
uygulanarak metinlere ilişkin yeni özellikler elde edilmektedir. Metinlerden çıkarılan
yeni özelliklerle beraber gözetimli makine öğrenmesi algoritmaları kullanılarak
görüşmenin havasının, müşteri memnuniyetinin ve temsilci performansının tahmin edilmesi
için sınıflandırma ve regresyon modelleri oluşturulmuştur. Sınıflandırma ve regresyon
modellerini oluşturup çıktıları elde etmek için Çağrı Merkezi Metin Madenciliği
Yaklaşımı [
        <xref ref-type="bibr" rid="ref10">10</xref>
        ] uygulanmıştır. Ayrıca sorun/şikayet başlıklarının belirlenmesi için konu ve
kelime ağaçlarının otomatik olarak çıkarılmıştır.
      </p>
      <p>Bu bölümün alt başlıklarında Çağrı Merkezi Metin Madenciliği Yazılım Çerçevesi
ile sınıflandırma ve regresyon modellerine eklenen özelliklere ve sorun/şikayet
başlıklarının belirlenmesine ilişkin ayrıntılı bilgilere yer verilmiştir.
3.1</p>
      <p>Ses Kayıtlarının Meta Özelliklerinin Eklenmesi
Veri kümesinde yer alan ses kayıtlarının meta özellikleri müşteriyle, müşteri
temsilcisiyle veya doğrudan görüşmenin kendisiyle ilgili tanımlayıcı istatistiksel özelliklerdir.
Ses kayıtlarının meta özellikleri sesin analizi sonucunda ortaya çıkmıştır. Çalışma
kapsamında meta özelliklerin tamamı gözden geçirilmiş ve tahmin modellerinde
kullanıl1</p>
      <p>Bu çalışmada kullanılan sesten metne dönüştürülmüş veriler Türk Telekom Grubu
şirketlerinden AssisTT A.Ş. tarafından sağlanmıştır.
maya uygun olanlar belirlenmiştir. Görüşmenin analizi sonucunda çıkarılan meta
özelliklere konuşma süresi, konuşmaların üst üste gelme süreleri, monotonluk, sinirlilik
yerleri ve sinirlilik yüzdeleri örnek olarak verilebilir.</p>
      <p>Veri kümesindeki bütün özellikler tahmin modellerinde kullanılması için uygun
değildir. Özelliklerin bir kısmı sayısal değerler içermektedir ve doğrudan sınıflandırma
modeline girecek durumdadırlar. Sayısal olmayan özellikler önişlemeden geçirilerek
sayısal hale getirilmiştir. Böylece sayısal olmayan özellikler de tahmin modellerine
girebilecek duruma getirilmiştir.
3.2</p>
      <p>Ses Kayıtlarının Metin Tabanlı Özelliklerinin Eklenmesi
Çalışma kapsamında veri kümesindeki meta özelliklerin yanı sıra konuşmanın müşteri
ve temsilci metinlerinden çıkarılan özelliklerle birlikte özellik kümesi
zenginleştirilmiştir ve tahmin doğruluğu artırılmaya çalışılmıştır. Metin tabanlı özellikler
çıkarılırken üç farklı metin madenciliği tekniği uygulanmıştır. Uygulanan metin madenciliği
tekniklerine ilişkin ayrıntılar aşağıda verilmiştir. Bu başlık altında verilen metin tabanlı
özellikler örnek olmakla birlikte eldeki veriye göre daha farklı özellikler
eklenebilecektir veya bu özelliklerden bazıları kullanılamayabilecektir.</p>
      <p>
        Duygu analizi ile yeni özellikler elde etme. Duygu analizi modelleri serbest metin
verileri üzerinde oluşturulmaktadır ve metinlerin duygu yönünü tahmin etmede
kullanılmaktadır. Bu modeller kullanılarak bir cümlenin duygu yönü pozitif/negatif
ekseninde tahmin edilebilmekte ve bu tahminin kuvvet derecesini gösteren skorlar elde
edilebilmektedir. Duygu analizi modelleri gözetimli [
        <xref ref-type="bibr" rid="ref11">11</xref>
        ][
        <xref ref-type="bibr" rid="ref12">12</xref>
        ][
        <xref ref-type="bibr" rid="ref13">13</xref>
        ] veya gözetimsiz
[
        <xref ref-type="bibr" rid="ref13">13</xref>
        ][
        <xref ref-type="bibr" rid="ref14">14</xref>
        ][
        <xref ref-type="bibr" rid="ref15">15</xref>
        ] sınıflandırma modelleri olarak oluşturulabilmektedir. Duygu analizi
modelleri oluşturulduktan sonra ses kaydı metinlerindeki cümlelerin duygu yönü ölçülerek
her ses kaydına ait çeşitli istatistikler çıkarılmaktadır. Çıkarılan bu istatistikler elde
edilmeye çalışılan özellik kümesinde birer özellik olarak değerlendirilmektedir.
      </p>
      <p>Ses kaydı metinlerindeki bütün cümleler duygu analizi modelinden geçirilmektedir
ve bu modelin verdiği skorlar (0 ile 1 arasında) kullanılarak yeni özellikler
hesaplanmaktadır. Yeni özellikler hem müşteri hem de temsilci metinleri için ayrı ayrı
çıkarılmaktadır. Aşağıda duygu analizi ile elde edilen özellikler açıklamalarıyla birlikte
verilmektedir.
─ Negatif/Pozitif yüzdesi: Negatif/Pozitif olarak tahmin edilen cümlelerin sayısının
metin içinde geçen toplam cümlelerin sayısına oranıyla hesaplanmaktadır.
─ Ortalama negatif/pozitif skoru: Negatif/Pozitif olarak tahmin edilen cümlelerin
skorlarının metin içinde geçen tüm cümleler bazında ortalaması alınarak
hesaplanmaktadır.
─ Toplam negatif/pozitif skoru: Negatif/Pozitif olarak tahmin edilen cümlelerin
skorlarının toplamı alınarak hesaplanmaktadır.</p>
      <p>
        Ayırt edici kelimeler ile yeni özellikler elde etme. Ses kaydı metinleri için özellik
kümesi oluşturma sürecinde kullanılan diğer bir metot ayırt edici kelimeleri tespit etme
yöntemidir. Bu metodun uygulanabilmesi için ses kaydı metinlerinin olumlu/olumsuz
olarak etiketlenmiş olması gerekmektedir. Etiketlenmiş ses kaydı metinleri üzerinde
WLLR (Weighted Log Likelihood Ratio) [
        <xref ref-type="bibr" rid="ref16">16</xref>
        ][
        <xref ref-type="bibr" rid="ref17">17</xref>
        ] tekniği uygulanarak her bir etiket
sınıfı için ayırt edici kelimeler tespit edilebilir ve daha sonra bu kelimeler her sınıf için
oluşturulacak tahmin modelleri için birer özellik olarak kullanılabilir.
Metin üzerinden önceden belirlenmiş kurallar ile yeni özellikler elde etme. Ses
kaydı metinleri üzerinden önceden belirlenmiş kurallara göre yeni özellikler
çıkarılmaktadır. Aşağıda tahmin modellerinde bulunan özellikler açıklamalarıyla birlikte
verilmektedir.
─ Kelime sayısı: Ses dosyasındaki toplam kelime sayısını yansıtmaktadır.
─ Temsilcinin görüşmeyi olumlu sonlandırması: Temsilcinin görüşmenin sonuna
doğru müşterinin sorununa yardımcı olacak veya yönlendirici şekilde davranıp
davranmadığına, son cümlelerde bazı kelimelerin söylenip söylenilmediğine bakılır.
─ Müşterinin görüşmeyi olumlu sonlandırması: Konuşmanın sonuna doğru
müşterinin olumlu cümleler söyleyip söylemediğinin tespiti için kullanılır. Müşteri
konuşmayı kapatırken naziklik içeren bazı kelimeleri söyleyip söylemediğine bakılır.
─ Görüşmenin olumlu sonlandırması: Yukarıdaki iki özellik dikkate alınarak
konuşmanın sonuna doğru hem müşterinin hem de temsilcinin davranışı ölçülür.
─ Negatiflik/Pozitiflik: Konuşmadaki olumsuzluk/olumluluk sayısını belirten
özelliktir. Önceden belirlenen kötü/iyi kelime listesi kullanılarak belirlenir. Görüşmedeki
herhangi bir cümlede kötü/iyi kelimelerden birisi geçiyorsa bu özelliğin değeri bir
artırılır.
─ Kibarlık: Temsilcinin müşteriye karşı ne kadar kibar davrandığına, kibarlık ifade
eden kelimeleri kullanıp kullanmadığına bakılır.
─ Telefonun kapanması: Müşterinin konuşmayı olağan bir biçimde sonlandırıp
sonlandırmadığına bakılır.
3.3
      </p>
      <p>
        Sorun/Şikayet Başlıklarının Belirlenmesi
Çağrı merkezlerinde elde edilen veri kümelerinin büyüklüğü oldukça fazladır. Buna
rağmen bu veri genellikle etiketlenmemiş haldedir. Diğer yandan ses kayıtlarında geçen
müşteri sorunlarının sınıflandırılması ve daha önceden belirlenmiş sorun başlıklarıyla
ilişkilendirilmesi oldukça önemlidir. Hali hazırda hangi konuşmanın hangi sorun
başlığıyla ilişkili olduğunu belirlemek için her bir sorun başlığı için kelime ağaçları
oluşturulması gerekmektedir. Hem etiketsiz veri üzerinde çalışması hem de belirli bir
doküman kümesi üzerinde konu başlıklarını gözetimsiz bir şekilde tespit etmesi nedeniyle
konu modelleme [
        <xref ref-type="bibr" rid="ref19">19</xref>
        ] tekniğinin bu veri seti üzerine uygulanmasına karar verilmiştir.
Konu modelleme tekniğinin uygulanması için Mallet [
        <xref ref-type="bibr" rid="ref20">20</xref>
        ] kütüphanesinden
yararlanılmıştır. Bu tekniğin uygulanması neticesinde bütün doküman kümesinde yer alabilecek
konu başlıklarının tespiti, bu konu başlıklarını temsil edecek kelime listeleri ve her bir
dokümanın her bir konu başlığıyla ilişkili olma oranları elde edilmektedir. Belirlenen
konu başlıkları çağrı merkezi alanındaki sorun başlıklarıyla eşleştirilebilir ve böylelikle
sorun başlıklarıyla ilgili kelime ağaçları otomatik olarak elde edilmiş olunur. Diğer
yandan her bir ses kaydının daha çok hangi sorunla ilgili konuşmayı içerdiği tespiti
yapılabilir.
4
      </p>
      <p>Örnek Çalışma
Tahmin modellerinin oluşturulması için ilk olarak ses kayıt dosyalarının etiketlemesi
ve metin madenciliği teknikleri kullanılarak özellik vektörlerine dönüştürülmesi
işlemleri tamamlanmıştır. Özellik vektörlerine dönüştürme sürecinde bir önceki bölümde
anlatılan özellik çıkarma yöntemleri ve yine aynı bölümde bahsedilen özellikler
kullanılmıştır. Etiketleme işlemi ise görüşmenin havası olumlu/olumsuz, müşteri memnuniyeti
ve temsilci performansı ise 1 ile 5 arasında olacak şekilde derecelendirerek
tamamlanmıştır. Etiketleme çalışmaları sonucunda 400 tane ses kaydı olumlu/olumsuz olarak
etiketlenmiştir. Bu örneklerden 92 tanesi olumsuz, kalan 308 tanesi ise olumlu olarak
tespit edilmiştir. Bu aşamada iki farklı deney gerçekleştirilmiştir. Her iki deneyde de
çapraz doğrulama (cross validation) tekniği kullanılarak eğitim ve test veri kümeleri
belirlenmiştir.</p>
      <p>Birinci deneyde Karar Ağacı (Decision Tree), Destek Vektör Makineleri (SVM), K
En Yakın Komşu (KNN), Lojistik Regresyon (Logistic Regression), Rasgele Orman
(Random Forest) algoritmaları denenerek görüşmenin havasını tespit etmek için en
başarılı sınıflandırma algoritması belirlenmeye çalışılmıştır. Şekil 2'de denenen
algoritmaların sınıflandırma başarılarıyla ilgili sonuçlar gösterilmektedir. Bu sonuçlara göre
%82 doğruluk ile az bir farkla en başarılı sınıflandırma SVM algoritması olmuştur.
Şekil 2. Dengesiz veri kümesi başarı yüzdeleri
İkinci deneyde olumlu ve olumsuz sayısının dengeli/eşit olacak şekilde veri kümesi
düzenlenmiştir. Veri kümesi düzenlikten sonra sınıflandırma algoritmaları tekrar
karşılaştırılmıştır. Karşılaştırma sonuçları incelendiğinde SVM ve Lojistik Regresyon
metotlarının diğerlerine göre daha başarılı sonuçlar elde ettiği gözlemlenmiştir.</p>
      <p>Şekil 3. Dengeli veri kümesi başarı yüzdeleri
Şekil 4'deki grafikte algoritmaların olumsuz görüşmelerin tahminine ilişkin dengeli ve
dengesiz veri kümeleriyle yapılan deneylerdeki başarı yüzdeleri yer almaktadır.
Dengeli veri kümesi kullanılarak oluşturulan sınıflandırma modellerinde genel tahmin
başarısı açısından düşüş görülse bile olumsuz görüşmelerin tahmin etmedeki başarı
yüzdesinde kayda değer artış olduğu görülmektedir. Olumsuz görüşmeleri sınıflandırmada
en başarılı algoritmaların Karar Ağacı ve Lojistik Regresyon olduğu tespit edilmiştir.
Ayrıca, tüm sınıflandırma algoritmalarının dengeli veri kümeleriyle beraber
kullanıldığında olumsuz görüşmeleri tahmin etmedeki başarı yüzdeleri dengesiz veri kümelerinin
kullanıma göre artış göstermiştir. Örneğin, genel başarı açısından en iyi algoritma olan
SVM sonuçları incelendiğinde dengesiz veri kümesi kullanıldığı zaman olumsuz
görüşmeleri doğru tahmin etme başarısı %27 iken dengeli veri kümesi ile yapılan deneyde
başarının %67’e çıktığı gözlemlenmiştir.
Şekil 4. Olumsuz görüşme tahmininde başarı yüzdeleri
Etiketleme sürecinde konuşmanın içeriği dikkate alınarak 1 ile 5 arasında
derecelendirilen müşteri memnuniyeti ve temsil performansı değişkenlerinin tahmini için Lineer
Regresyon algoritması kullanılarak regresyon modelleri oluşturulmuştur. Müşteri
memnuniyeti ve temsilci performansı değişkenlerinin bağımlı, özellik kümesinde yer
alan diğer özelliklerin bağımsız değişken olduğu regresyon modellerinde ilk 320 örnek
öğrenim kümesi için son 80 örnek ise test kümesi için kullanılmıştır. Müşteri
memnuniyeti ve temsilci performansı değişkenleri için bu deneyle ilgili sonuçlar aşağıdaki
tabloda verilmiştir.</p>
      <p>Tablo 1. Regresyon modeli sonuçları
Değişken</p>
      <p>Varyans</p>
      <p>Ort. Mutlak Hata</p>
      <p>Ort. Karesel Hata
Müşteri Memnuniyeti
Temsilci Performansı
-0,06
-0,01
0,68
1,12
0,66
1,81
Regresyon modelinin sonuçları incelendiğinde müşteri memnuniyetinin ve temsilci
performansının düşük varyans değeri ile tahmin edilebildiği görülmektedir. Ortalama
mutlak hata ve ortalama karesel hata metriklerine bakıldığında regresyon modelinin
müşteri memnuniyetini temsilci performansına göre daha başarılı bir şekilde ölçebildiği
gözlemlenmektedir.
Ses kayıtlarını içeriğinde geçen sorun/şikayet başlıklarının tespit edilmesi için Mallet
kütüphanesinden faydalanarak konu modelleme tekniği uygulanmıştır. Bu yaklaşımı
uygulamak için her bir ses kaydı bir doküman olarak düşünülmüştür. Farklı bir
yaklaşım olarak müşterinin konuşma metni veya temsilcinin konuşma metni ayrı ayrı
doküman olarak da düşünülebilir. Gözetimsiz olarak gerçekleşen ve etiketsiz 6000 ses kaydı
üzerinde inşa edilen bu modelle ilgili konu başlıklarını temsil eden kelime listeleri ve
bu konuların tahmini isimlendirmesi aşağıdaki şekilde gösterilmiştir.</p>
      <p>Şekil 5. Konu modelleme sonucu tespit edilen konular ve kelimeler
Çağrı merkezi görüşme kayıtlarına ilişkin veriler günümüzde birçok kurum tarafından
elde edilmekte ve sesten metne dönüştürülerek saklanmaktadır. Bu çalışma kapsamında
geliştirilen Çağrı Merkezi Metin Madenciliği Çerçevesi, metin madenciliği ve makine
öğrenmesi algoritmaları kullanılarak görüşme kaydı metinlerinin analiz edilmesini için
bir altyapı sunmaktadır. Bu çalışma sonucunda ortaya çıkan yazılım çerçevesi
kullanılarak Türk Telekom Çağrı Merkezine gelen çağrıların görüşmenin havasının
olumlu/olumsuz olması, müşteri memnuniyeti ve temsilci performansı açılarından
değerlendirilebilecek bir platform geliştirilmesi amaçlanmaktadır. Önümüzdeki dönemde
Türk Telekom bünyesinde geliştirilecek Ar-Ge proje sonunda kapsamlı bir ürün
çıkarılması planlanmaktadır. Ayrıca çağrı merkezi verileri dışında farklı kaynaklardan
(sosyal medya, e-posta, anketler vb.) elde edilecek müşteri görüşlerini içeren metin tabanlı
verilerinin de geliştirilecek platforma entegre edilmesi değerlendirilecektir.</p>
      <p>Kaynakça</p>
    </sec>
  </body>
  <back>
    <ref-list>
      <ref id="ref1">
        <mixed-citation>
          1.
          <string-name>
            <surname>Onan</surname>
            ,
            <given-names>A.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Korukoğlu</surname>
            ,
            <given-names>S.</given-names>
          </string-name>
          :
          <article-title>Makine öğrenmesi yöntemlerinin görüş madenciliğinde kullanılması üzerine bir literatür araştırması</article-title>
          .
          <source>Pamukkale Univ Muh Bilim Derg</source>
          , cilt
          <volume>22</volume>
          , no.
          <issue>2</issue>
          , pp.
          <fpage>111</fpage>
          -
          <lpage>122</lpage>
          ,
          <year>2016</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref2">
        <mixed-citation>
          2.
          <string-name>
            <surname>Pang</surname>
            ,
            <given-names>B.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Lee</surname>
            ,
            <given-names>L.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Vaithyanathan</surname>
            ,
            <given-names>S.</given-names>
          </string-name>
          :
          <article-title>Thumbs up? Sentiment classification using machine learning techniques</article-title>
          .
          <source>Proceedings of EMNLP</source>
          ,
          <year>2002</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref3">
        <mixed-citation>
          3.
          <string-name>
            <surname>Eroğlu</surname>
            ,
            <given-names>U.</given-names>
          </string-name>
          :
          <article-title>Sentiment Analysis in Turkish</article-title>
          .
          <source>The Graduate School of Natural and Applied Sciences of Middle</source>
          East Technical University, Ankara,
          <year>2009</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref4">
        <mixed-citation>
          4.
          <string-name>
            <surname>Vural</surname>
            ,
            <given-names>A.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Cambazoglu</surname>
            ,
            <given-names>B.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Senkul</surname>
            ,
            <given-names>P.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Tokgoz</surname>
            ,
            <given-names>Z.</given-names>
          </string-name>
          :
          <article-title>A Framework for Sentiment Analysis in Turkish: Application to Polarity Detection of Movie Reviews in Turkish</article-title>
          .
          <source>Computer and Information Sciences III</source>
          , Springer, pp.
          <fpage>437</fpage>
          -
          <lpage>445</lpage>
          ,
          <year>2012</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref5">
        <mixed-citation>
          5.
          <string-name>
            <surname>Ergün</surname>
            ,
            <given-names>K.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Kubat</surname>
            ,
            <given-names>C.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Çağıl</surname>
            ,
            <given-names>G.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Cesur</surname>
          </string-name>
          , R. :
          <article-title>İnternet ortamındaki tüketici yorumlarından özet bilgi çıkarımı</article-title>
          .
          <source>SAÜ. Fen Bil</source>
          . Der., cilt
          <volume>17</volume>
          , no.
          <issue>1</issue>
          , pp.
          <fpage>33</fpage>
          -
          <lpage>40</lpage>
          ,
          <year>2013</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref6">
        <mixed-citation>
          6.
          <string-name>
            <surname>Akın</surname>
            ,
            <given-names>M.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Akın</surname>
            ,
            <given-names>A.</given-names>
          </string-name>
          :
          <string-name>
            <surname>Türk Dilleri İçin Açık Kaynaklı Doğal Dil İşleme Kütüphanesi</surname>
          </string-name>
          : Zemberek. Elektrik mühendisliği,
          <source>cilt 431</source>
          , pp.
          <fpage>38</fpage>
          -
          <lpage>44</lpage>
          ,
          <year>2007</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref7">
        <mixed-citation>
          7.
          <string-name>
            <surname>Eliaçık</surname>
            ,
            <given-names>A.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Erdoğan</surname>
          </string-name>
          , N.:
          <article-title>Mikro Bloglardaki Finans Toplulukları için Kullanıcı Ağırlıklandırılmış Duygu Analizi Yöntemi</article-title>
          . UYMS, İzmir,
          <year>2015</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref8">
        <mixed-citation>
          8.
          <string-name>
            <surname>Akbaş</surname>
          </string-name>
          , E.:
          <source>Aspect Based Opinion Mining on Turkish Tweets</source>
          . The Graduate School of Engineering and Science of Bilkent University, Ankara,
          <year>2012</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref9">
        <mixed-citation>
          9.
          <string-name>
            <surname>Caputo</surname>
            ,
            <given-names>B.</given-names>
          </string-name>
          :
          <article-title>Using text mining to understand the call center customers' claims</article-title>
          .
          <source>WIT Transactions on Information and Communication Technologies</source>
          , Vol
          <volume>37</volume>
          ,
          <year>2006</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref10">
        <mixed-citation>
          10.
          <string-name>
            <surname>Yiğit</surname>
          </string-name>
          , İ.,
          <string-name>
            <surname>Ateş</surname>
            ,
            <given-names>A.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Güvercin</surname>
            ,
            <given-names>M.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Ferhatosmanoğlu</surname>
            ,
            <given-names>H.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Gedik</surname>
            ,
            <given-names>B.</given-names>
          </string-name>
          :
          <source>Çağrı Merkezi Metin Madenciliği Yaklaşımı. 25. Sinyal İşleme ve İletişim Uygulamaları Kurultayı</source>
          ,
          <year>2017</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref11">
        <mixed-citation>
          11.
          <string-name>
            <surname>Go</surname>
            ,
            <given-names>A.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Bhayani</surname>
            ,
            <given-names>R.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Huang</surname>
            ,
            <given-names>L.</given-names>
          </string-name>
          :
          <article-title>Twitter sentiment classification using distant supervision</article-title>
          .
          <source>CS224N Project Report</source>
          , Stanford,
          <year>2009</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref12">
        <mixed-citation>
          12.
          <string-name>
            <surname>Maas</surname>
            ,
            <given-names>A.</given-names>
          </string-name>
          :
          <article-title>Learning word vectors for sentiment analysis</article-title>
          .
          <source>Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language TechnologiesVolume 1</source>
          , Association for Computational Linguistics,
          <year>2011</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref13">
        <mixed-citation>
          13.
          <string-name>
            <surname>Pang</surname>
            ,
            <given-names>B.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Lee</surname>
            ,
            <given-names>L.</given-names>
          </string-name>
          :
          <article-title>Opinion mining and sentiment analysis</article-title>
          .
          <source>Foundations and trends in information retrieval 2</source>
          .
          <fpage>1</fpage>
          -
          <issue>2</issue>
          ,
          <fpage>1</fpage>
          -
          <lpage>135</lpage>
          ,
          <year>2008</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref14">
        <mixed-citation>
          14.
          <string-name>
            <surname>Hu</surname>
            ,
            <given-names>X.</given-names>
          </string-name>
          :
          <article-title>Unsupervised sentiment analysis with emotional signals</article-title>
          .
          <source>Proceedings of the 22nd international conference on World Wide Web, International World Wide Web Conferences Steering Committee</source>
          ,
          <year>2013</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref15">
        <mixed-citation>
          15.
          <string-name>
            <surname>Turney</surname>
            ,
            <given-names>P.</given-names>
          </string-name>
          :
          <article-title>Thumbs up or thumbs down?: semantic orientation applied to unsupervised classification of reviews. Proceedings of the 40th annual meeting on association for computational linguistics</article-title>
          ,
          <source>Association for Computational Linguistics</source>
          ,
          <year>2002</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref16">
        <mixed-citation>
          16.
          <string-name>
            <surname>Ng</surname>
            ,
            <given-names>V.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Sajib</surname>
            ,
            <given-names>D.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Arifin</surname>
            ,
            <given-names>S.</given-names>
          </string-name>
          ,
          <article-title>Examining the role of linguistic knowledge sources in the automatic identification and classification of reviews</article-title>
          .
          <source>Proceedings of the COLING/ACL on Main conference poster sessions, Association for Computational Linguistics</source>
          ,
          <year>2006</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref17">
        <mixed-citation>
          17.
          <string-name>
            <surname>Nigam</surname>
            ,
            <given-names>K.</given-names>
          </string-name>
          ,
          <article-title>Text classification from labeled and unlabeled documents using EM</article-title>
          .
          <source>Machine learning 39.2-3</source>
          ,
          <fpage>103</fpage>
          -
          <lpage>134</lpage>
          ,
          <year>2000</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref18">
        <mixed-citation>
          18.
          <string-name>
            <surname>Yiğit</surname>
          </string-name>
          , İ.,
          <string-name>
            <surname>Dogru</surname>
            ,
            <given-names>A.</given-names>
          </string-name>
          :
          <string-name>
            <surname>Yazılım Ürun Hatlarında Alana Özgü Bileşenleri Belirleme Yaklasımı. Ulusal Yazılım Mühendisliği Sempozyumu</surname>
          </string-name>
          , İzmir, Türkiye,
          <year>2015</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref19">
        <mixed-citation>
          19.
          <string-name>
            <surname>Blei</surname>
            ,
            <given-names>D.</given-names>
          </string-name>
          :
          <article-title>Probabilistic topic models</article-title>
          .
          <source>Communications of the ACM 55.4</source>
          (
          <year>2012</year>
          ):
          <fpage>77</fpage>
          -
          <lpage>84</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref20">
        <mixed-citation>
          20.
          <string-name>
            <surname>McCallum</surname>
            ,
            <given-names>A.</given-names>
          </string-name>
          :
          <article-title>Mallet: A machine learning for language toolkit</article-title>
          .
          <year>2002</year>
          .
        </mixed-citation>
      </ref>
    </ref-list>
  </back>
</article>