=Paper= {{Paper |id=Vol-1594/paper4 |storemode=property |title=Anwendung der Regressions-SVM zur Vorhersage studentischer Leistungen |pdfUrl=https://ceur-ws.org/Vol-1594/paper4.pdf |volume=Vol-1594 |authors=Alexander Askinadze |dblpUrl=https://dblp.org/rec/conf/gvd/Askinadze16 }} ==Anwendung der Regressions-SVM zur Vorhersage studentischer Leistungen== https://ceur-ws.org/Vol-1594/paper4.pdf
          Anwendung der Regressions-SVM zur Vorhersage
                   studentischer Leistungen

                                                      Alexander Askinadze
                                                       Institut für Informatik
                                               Heinrich-Heine-Universität Düsseldorf
                                                         Universitätsstr. 1
                                                  40225 Düsseldorf, Deutschland
                                                alexander.askinadze@hhu.de

ABSTRACT                                                               oder des Studiums haben, haben die Bildungseinrichtungen
Um als Bildungsanbieter bei gefährdeten Studenten rechts-             unter anderem aus Vergleichszwecken und finanziellen Grün-
zeitig intervenierend eingreifen zu können, sind Verfahren            den Interesse daran, möglichst viele Lernende zu einem er-
zur Vorhersage studentischer Leistungen notwendig. Viele               folgreichen Abschluss zu führen. Eine automatische Vorher-
Arbeiten haben den Einsatz des SVM-Klassifikators vor-                 sage über die Leistungen der einzelnen Studenten kann daher
geschlagen. Allerdings wurden unzureichende Angaben zur                helfen, rechtzeitig bei gefährdeten Studenten einzugreifen.
Wahl eines geeigneten Kernel gegeben. Außerdem kann der                   Die Vorhersage der studentischen Leistungen ist eines der
SVM-Klassifikator bei fehlenden Trainingsdaten zu allen                beliebtesten Themen innerhalb des junges Forschungsgebie-
möglichen Noten nicht erfolgreich trainiert werden. Zur Lö-          tes Education Data Mining” (EDM). Bei dem Begriff Data
                                                                           ”                                                  ”
sung dieser Probleme untersuchen wir die Regressions-SVM               Mining“ handelt es sich grob um eine Disziplin, die sich mit
mit verschiedenen geeigneten Kernel. Dabei erreichen wir               der Extraktion von impliziten Mustern aus großen Datenbe-
mit dem RBF-Kernel und einer σ-Parameter Heuristik auf                 ständen beschäftigt. Hierbei werden statistische Verfahren
einem öffentlichen Datensatz eines Mathematikkurses besse-            und Algorithmen aus dem maschinellen Lernen verwendet.
re Ergebnisse als in [3] mit einer SVM erreicht wurden. Für           EDM kann laut der internationalen EDM-Gesellschaft1 so
den Fall, dass zusätzlich zu den privaten Daten der Studen-           definiert werden:
ten auch vorherige Noten bekannt waren, konnte die Vor-                       Aufkommende Disziplin, die sich mit der Ent-
hersage von bestanden oder nicht bestanden” mit einer Ge-                     wicklung von Methoden zur Erforschung der Da-
             ”
nauigkeit von 90.57% erreicht werden. Das ermöglicht eine                    ten aus Bildungsumgebungen befasst und diese
praktische Anwendbarkeit der Regressions-SVM zur Erken-                       Methoden einsetzt, um Studenten und ihre Ler-
nung gefährdeter Studenten.                                                  numgebungen besser zu verstehen.

Categories and Subject Descriptors                                     Einer der beliebtesten Algorithmen aus dem Bereich Data
                                                                       Mining ist die Support Vector Machine (SVM). Dieser Klas-
K.3.1 [Computers and Education]: Computer Uses in                      sifikator lässt sich auch für Multiklassen-Probleme, wie sie
Education; H.2.8 [Database Applications]: Data Mining                  bei der Noten-Vorhersage gegeben sind, verwenden. Wird je-
                                                                       de mögliche Note als Klasse betrachtet, so benötigt die SVM
Keywords                                                               für jede Klasse Trainingsdaten. Bei kleinen Trainingsmengen
Education data mining, learning analytics, student perfor-             mit einer großen Anzahl an möglichen Noten (beispielswei-
mance prediction, support vector machines, regression, ker-            se bei einer Notenskala von 1-20) kann es vorkommen, dass
nel                                                                    es zu einigen Noten keine Trainingsdaten gibt, sodass die
                                                                       SVM mit den üblichen Multiklassen-Ansätzen one-vs-one
                                                                       oder one-vs-all nicht trainiert werden kann. Hierfür eignet
1.   EINFÜHRUNG                                                        sich der Einsatz einer Regressions-SVM, welche auch ohne
   Die Leistungen von Studenten sind ein wichtiger Faktor              Existenz aller nötigen Trainingsdaten in der Lage ist alle
für Bildungseinrichtungen. Mit Hilfe der erreichten Noten             Notenstufen zu approximieren.
der Schüler und Studenten wird entschieden, ob ein Fach                  Im Kapitel 2 werden verschiedene Arbeiten vorgestellt,
oder gar eine Abschlussarbeit bestanden wurde. Da die No-              welche die SVM zur Vorhersage von studentischen Leistun-
ten einen Einfluss auf das erfolgreiche Absolvieren der Schule         gen eingesetzt haben. Die Ergebnisse zeigen, dass die SVM
                                                                       sich gut für diese Aufgabe eignet. Im Kapitel 3 werden die
                                                                       theoretischen Hintergründe von SVM und SVM-Kernel, so-
                                                                       wie die für weitere Versuche notwendige Regressions-SVM
                                                                       vorgestellt. Das Kapitel 4 stellt den in der Evaluation ver-
                                                                       wendeten Datensatz mit allen Attributen vor. Im Kapitel
                                                                       5 werden die untersuchten Klassifikations- und Regressions-
                                                                       probleme erläutert und die verwendeten Evaluationsmaße
28th GI-Workshop on Foundations of Databases (Grundlagen von Daten-    dargestellt. Im Kapitel 6 wird auf einer öffentlichen Da-
banken), 24.05.2016 - 27.05.2016, Nörten-Hardenberg, Germany.          1
Copyright is held by the author/owner(s).                                  http://www.educationaldatamining.org/




                                                                  15
         Anwendung der Regressions-SVM zur Vorhersage studentischer Leistungen



tenbank [3] mit privaten Attributen, Zwischennoten und             es mehr Studenten, die durchfallen, als Studenten, die beste-
Abschlussnoten von portugiesischen Schülern untersucht,           hen) verbessern lässt. Die SVM hat hierbei in Kombination
wie mit geeigneten SVM-Kernel und geeigneter Kernel-               mit den vorgestellten Methoden zur Lösung des Klassenun-
Parameter-Auswahl bessere SVM-Ergebnisse als in [3] er-            gleichgewichts vergleichsweise gute Ergebnisse geliefert. Als
reicht werden können. Schließlich wird im Kapitel 7 ein Fazit     SVM-Kernel wurde der Polynom- und der RBF-Kernel ver-
gezogen.                                                           wendet. Zur Parameterwahl der Kernel wurde die grid search
                                                                   verwendet.
2.   RELATED WORK                                                     In [14] werden die Klassifikatoren SVM, NN, ELM (extre-
                                                                   me learning machine) zur Vorhersage der Durchschnittsnote
   Es gibt bereits viele Arbeiten, die verschiedene Klassifika-
                                                                   verglichen. Der Autor zeigt, dass mit der SVM die besten
toren wie Decision Tree (DT), Random Forest (RF), kNN,
                                                                   Werte erreicht werden. Es wurde der RBF-Kernel mit einer
Neuronale Netze (NN) und SVM zur Vorhersage studenti-
                                                                   grid search zur Auswahl der Kernel-Parameter verwendet.
scher Leistungen verwendet haben. In diesem Kapitel unter-
                                                                      Anders als bei den oben genannten Arbeiten kommen die
suchen wir eine Auswahl der Arbeiten zur Vorhersage von
                                                                   Autoren in [8] zu dem Ergebnis, dass der MLP-Klassifikator
studentischen Leistungen, welche die SVM verwendet oder
                                                                   (Mult-Layer-Perceptron) im Vergleich zur SVM bessere Er-
diese mit anderen Klassifikatoren verglichen haben [1, 3, 6,
                                                                   gebnisse zur Vorhersage der studentischen Leistungen liefert.
8, 9, 10, 13, 14, 15, 16, 19]. Eine Zusammenfassung der Ar-
                                                                   Auch hier wird nicht erläutert, welcher SVM-Kernel verwen-
beiten ist in Tabelle 1 dargestellt. Die Klassifikationsergeb-
                                                                   det wurde.
nisse der untersuchten Arbeiten sind schwer miteinander zu
                                                                      Die Arbeit [3] untersucht den Einsatz von DT, NN, RF
vergleichen, da diese auf unterschiedlichen und nicht stan-
                                                                   und SVM zur Vorhersage von gefährdeten Studenten und
dardisierten Datensätzen mit verschiedenen Eigenschaften
                                                                   der Vorhersage von Notenstufen. Die Autoren kommen dabei
durchgeführt wurden.
                                                                   zum Ergebnis, dass die Entscheidungsbaum-Klassifikatoren
   Die Arbeiten [6, 9] nutzen die SVM, um aus Daten zur stu-
                                                                   bessere Ergebnisse liefern als die SVM. Als SVM-Kernel
dentischen Forum-nutzung die Abschlussnoten vorhersagen
                                                                   wird der RBF-Kernel mit einer grid search zur Auswahl der
zu können. In beiden Arbeiten lieferten die SVM-Ergebnisse
                                                                   Parameter verwendet.
im Vergleich zu anderen Klassifikatoren gute Ergebnisse, wo-
                                                                      Der Tabelle 1 können wir entnehmen, dass die SVM in
bei in beiden Arbeiten nicht erwähnt wird, welcher SVM-
                                                                   vielen Arbeiten erfolgreich eingesetzt wurde und die Wahl
Kernel und welche entsprechenden Parameter verwendet
                                                                   der SVM-Kernel oder die Wahl der zugehörigen Kernel-
wurden.
                                                                   Parameter oftmals nicht angegeben wird. Die Unklarheit
   In der Arbeit [10] wurde eine spezielle SVM-Variante, die
                                                                   über die Wahl geeigneter Kernel und das Problem, dass es
SSVM [5] zur Vorhersage der studentischen Leistungen ein-
                                                                   keine Trainingsdaten zu einigen Noten geben könnte, moti-
gesetzt. Die SVM hat hier gute Ergebnisse zur Vorhersa-
                                                                   viert die Untersuchung der Regressions-SVM und zugehöri-
ge von Studenten mit sehr guten und Studenten mit sehr
                                                                   ger geeigneter Kernel zur Vorhersage der studentischen Leis-
schlechten Leistungen geliefert (über 90% Genauigkeit). Als
                                                                   tungen.
SVM-Kernel wurde der RBF-Kernel mit zwei festen Parame-
tern trainiert, wobei nicht erläutert wird, wie die Parameter
des RBF-Kernels ausgewählt wurden.                                3.   SVM
   Die Arbeit [1] untersucht ebenfalls die SVM zur Vorher-            In diesem Kapitel werden wir die theoretischen Hinter-
sage studentischer Leistungen. Zwar hat die SVM im Ver-            gründe von Regressions-SVM und Kernel beleuchten, da die-
gleich die besten Ergebnisse, jedoch wird von den Autoren          se die zentralen Aspekte dieser Publikation darstellen.
der Einsatz von Entscheidungsbäumen empfohlen. Dies wird             Die SVM [2] ist ein binärer Klassifikator f : Rn →
damit begründet, dass die Entscheidungsbäume nicht signi-        {−1, +1}, der für zwei linear trennbare Punktmengen eine
fikant schlechtere Ergebnisse liefern und gleichzeitig besser      Trenn-Hyperebene findet.
verständlich sind. Hier wird keine Angabe zur Wahl des SVM           Die Klassifikation eines neues Punktes x∗ auf eine der bei-
Kernels gegeben.                                                   den Klassen {+1, −1} kann mit Hilfe einer gefundenen Hy-
   In der Arbeit [16] hat die SVM im Vergleich zu ei-              perebene in Rn mit dem Vektor w ∈ Rn und b ∈ R folgen-
nem Entscheidungsbaum- und einem NN-Klassifikator eben-            derweise ausgedrückt werden:
falls die besten Ergebnisse zur Vorhersage des Notendurch-                                          (
schnitts geliefert. Auch hier wurden keine Angaben zur Wahl              ∗              T ∗           +1, wenn wT x∗ > b
des Kernels und der entsprechender Parameter gemacht.                f (x ) = signum(w x − b) =                               (1)
                                                                                                      −1, wenn wT x∗ < b
   In [19] wird der Einsatz der SVM zur Vorhersage der Ab-
schlussarbeitsnote verwendet. Die SVM wird hier mit neuro-         Die        Trainingsmenge             der     SVM     sei     mit
nalen Netzen, Entscheidungsbäumen und Naive Bayes ver-            {(x1 , y1 ), ..., (xL , yL )|xi ∈ Rn , yi ∈ {−1, +1}}     angege-
glichen und liefert die besten Ergebnisse. Auch in dieser Ar-      ben, wobei xi die Trainingspunkte und yi die zugehörigen
beit wird nichts zur Wahl des SVM-Kernels angegeben.               Klassen sind. Um die Hyperebene zu finden, muss für die
   Die Arbeit [13] hat verschiedene Klassifikatoren wie kNN,       L Trainingstupel das folgende Optimierungsproblem gelöst
Entscheidungsbäume und SVM zur Vorhersage von studen-             werden [17]:
tischen Leistungen verglichen. Hierbei hat die SVM sowohl
das Problem bestehen oder durchfallen“, als auch für die                        ||w||2
                ”                                                            min
Regression der Noten vergleichsweise die besten Ergebnisse                         2                                            (2)
geliefert. In dieser Arbeit wird ebenfalls nicht näher auf den             u.d.N. yi (wT xi − b) − 1 ≥ 0 ∀i ∈ {1, .., L}
eingesetzten SVM-Kernel eingegangen.
   In [15] wurde untersucht, wie sich bei der Vorhersage der       Dieses Quadratic Programming” (QP)-Problem lässt sich
                                                                            ”
Leistungen, im Fall eines Klassenungleichgewichts (z. B. gibt      in ein äquivalentes Problem mit linearen Nebenbedingungen




                                                              16
         Anwendung der Regressions-SVM zur Vorhersage studentischer Leistungen




 Tabelle 1: Übersicht über bisherige Publikationen zur Vorhersage von studentischen Leistungen mit SVM
                                                                       SVM-Ergebnisse unter            Kernel-
 Publikation Jahr         Vorhersage von                Daten                                  Kernel
                                                                      den besten Ergebnissen?         parameter
                                                 Durchschnittsnoten
    [19]      2015     Abschlussarbeitsnote                                      ja             k.A.  k.A.
                                              keine genauen Angaben
                     Bestehen, nicht bestehen     pers. Daten und
    [13]      2015                                                               ja             k.A.  k.A.
                          Abschlussnote        bish. Studienlaufbahn
                            Abschluss-           Durchschnittsnoten
    [14]      2014                                                               ja             RBF   grid search
                         Durchschnittsnote       der ersten 3 Jahre
                                                  pers. Daten und
    [1]       2014        Abschlussnote                                          ja             k.A.  k.A.
                                                  vorherige Noten
                                                  pers. Daten und
    [16]      2014       Durchschnittsnote                                       ja             k.A.  k.A.
                                                  vorherige Noten
                                                  pers. Daten und
    [8]       2013         Examensnote                                          nein            k.A.  k.A.
                                                     bish. Noten
              2012,
   [6, 9]                 Abschlussnote        Forum-Nutzungsdaten               ja             k.A.  k.A.
              2013
    [10]      2011        Abschlussnote         psychometric factors“            ja             RBF   k.A.
                                               ”
                     Bestehen, nicht bestehen                                                 Polynom
    [15]      2009                               versch. Datensätze             ja                   grid search
                         Absolventenquote                                                       RBF
                     Bestehen, nicht bestehen
                                                  pers. Daten und
    [3]       2008         Notenstufen                                          nein            RBF   grid search
                                                     bish. Noten
                          Abschlussnote


(NB) umschreiben, dass einfacher gelöst werden kann:                                3.2   SVM-Kernel
                     L                   L   L                                         Das Skalarprodukt φ(x∗ )T φ(xi ) in Gleichung 5 kann von
                     X              1 XX
              max            αi −             αi αj yi yj xTi xj                     einer Kernelfunktion ersetzt werden:
                                    2 i=1 j=1
                     i=1
                                                                              (3)                          K(x, y) = φ(x)T φ(y)                  (6)
                                     L
                                     X                                               Auf diese Weise muss φ(x) nicht explizit ausgerechnet wer-
              u.d.N. αi ≥ 0,               αi yi = 0
                                                                                     den. Dies wird Kerneltrick genannt. Die Klassifikationsregel
                                     i=0
                                                                                     ergibt sich damit zu:
Dieses QP-Problem lässt sich mit dem SMO-Verfahren (Se-                                                      L
                                                                                                                                      !
                                                                                                             X
quential Minimal Optimization) [7] auch für große Trainings-                                   ∗
                                                                                            f (x ) = signum               ∗
                                                                                                                 αi yi K(x , xi ) − b
daten effizient lösen, indem ein großes QP-Problem in eine                                                     i=1
Reihe von kleinen QP-Problemen zerlegt wird.                                                         (              PL                           (7)
                                                                                                                                  ∗
                                                                                                         +1,   wenn  i=1 αi yi K(x , xi ) > b
                                                                                                 =                  PL
3.1    Nicht separierbarer Fall                                                                          −1,   wenn               ∗
                                                                                                                     i=1 αi yi K(x , xi ) < b
   Ist die Trainingsmenge nicht linear separierbar, so ist ei-                       Es gibt sehr viele verschiedene Kernel. Einige bekannte Ex-
ne Abbildung φ(x) : Rn → Rd notwendig, welche einen n-                               emplare, die wir in Kapitel 6 untersuchen werden, sind:
dimensionalen Vektor x ∈ Rn in einen d-dimensionalen Vek-
tor φ(x) ∈ Rd mit φ(x) = (φ1 (x), ..., φd (x)) transformiert.                           • RBF-Kernel:
Mit einer geeigneten Funktion φ(x) können die Daten in dem                                                                   1
                                                                                                         K(x, y) = exp(−        ||x − y||2 )     (8)
höherdimensionalen Raum mit größerer Wahrscheinlichkeit                                                                    2σ
linear getrennt werden.
   Die Klassifikationsregel von Gleichung 1 lässt sich entspre-                        • χ2 -Kernel:
chend umschreiben zu:                                                                                                    n
                                                                                                                         X (xi − yi )2
                                                                                                         K(x, y) = 1 −       1                   (9)
               f (x∗ ) = signum(wT φ(x∗ ) − b)                                                                           i=1 2
                                                                                                                               (xi + yi )
                         (
                           +1, wenn wT φ(x∗ ) > b                             (4)
                                                                                        • Histogrammschnitt (HS)-Kernel:
                       =
                           −1, wenn wT φ(x∗ ) < b                                                                      n
                                                                                                                       X
                     T
                                                                                                           K(x, y) =         min(xi , yi )      (10)
Das Produkt w φ(x) aus Gleichung 4 kann mit der Glei-                                                                  i=1
chung 5 angegeben werden:
                                                         L
                                                                                     3.3   Regressions-SVM
                                                         X
          T      ∗
        w φ(x ) = φ(x ) w = φ(x )  ∗ T             ∗ T
                                                               αi yi φ(xi )             Die SVM kann nicht nur zur Lösung von Klassifikations-
                                                         i=1                         problemen, sondern auch zur Regression eingesetzt werden.
                                                                              (5)    Mit Hilfe der Regression-SVM erhalten wir also keine Tren-
                             L
                             X
                         =                   ∗ T
                                   αi yi φ(x ) φ(xi )                                nebene, sondern eine Hyperebene, die unsere Daten mög-
                             i=1
                                                                                     lichst gut beschreibt. Der Algorithmus bleibt dabei seiner




                                                                                17
          Anwendung der Regressions-SVM zur Vorhersage studentischer Leistungen



                                                                           course preference or other), home to school travel time
                                                                           (numeric: 1 – < 15 min., 2 – 15 to 30 min., 3 – 30 min.
                                                                           to 1 hour or 4 – > 1 hour), weekly study time (numeric:
                                                                           1 – < 2 hours, 2 – 2 to 5 hours, 3 – 5 to 10 hours or 4 –
                                                                           > 10 hours), number of past class failures (numeric: n
                                                                           if 1 ≤ n < 3, else 4), extra educational school support
                                                                           (binary: yes or no), family educational support (bina-
                                                                           ry: yes or no), extra-curricular activities (binary: yes
                                                                           or no), extra paid classes (binary: yes or no), Internet
                                                                           access at home (binary: yes or no), attended nursery
                                                                           school (binary: yes or no), wants to take higher educa-
                                                                           tion (binary: yes or no), with a romantic relationship
Abbildung 1: Kernel-Vergleich zur SVM-Regression                           (binary: yes or no), free time after school (numeric:
                                                                           from 1 – very low to 5 – very high), going out with
                                                                           friends (numeric: from 1 – very low to 5 – very high),
Ursprungsform ähnlich. In [11] wird die Idee für diese Vor-              weekend alcohol consumption (numeric: from 1 – very
gehensweise beschrieben.                                                   low to 5 – very high), workday alcohol consumption
   Sei {(x1 , y1 ), ..., (xl , yl )} ⊂ X × R die Trainingsmenge,           (numeric: from 1 – very low to 5 – very high), current
wobei ein xi ∈ X ⊂ Rd beispielsweise ein d-dimensionaler                   health status (numeric: from 1 – very bad to 5 – very
numerischer Vektor ist, der die studentischen Attribute be-                good), number of school absences (numeric: from 0 to
schreibt und yi die zugehörige Abschlussnote.                             93)
   Wir suchen eine Funktion f , die möglichst gut unsere
Trainingsmenge approximiert, d.h. bis auf kleine Fehler soll             • G1: first period grade (numeric: from 0 to 20)
f (xi ) = yi gelten. Um die Regressionsgerade f (x) = wT x+b
mit w ∈ Rd und b ∈ R für unsere Trainingsmenge zu erhal-                • G2: second period grade (numeric: from 0 to 20)
ten, muss das folgende Optimierungsproblem gelöst werden:
                                                                         • G3: final grade (numeric: from 0 to 20)
                        ||w||2
                    min                                             Die Notenskala hat insgesamt 21 Stufen, 0 ist die schlech-
                          (2                               (11)     teste und 20 die beste Note.
                                 yi − f (xi ) ≤ 
                   u.d.N
                                 f (xi ) − yi ≤                    5.    EVALUATIONS-FRAMEWORK
  Für das Optimierungsproblem in (11) wird angenommen,                Als Evaluationsmaße werden wie in [3] die Genauigkeit
dass eine solche Funktion f existiert, welche alle Punktepaa-       PCC und die Wurzel der mittleren quadratischen Abwei-
re unserer Trainingsmenge mit einer Genauigkeit  approxi-          chung RMSE (Root Mean Square Error) verwendet. Sei yˆi
miert. In der Regel ist es nicht der Fall, sodass auch hier mit     die Vorhersage für das i-te Test-Exemplar und yi die tat-
Kernel und sogenannten Schlupfvariablen ξ gearbeitet wird.          sächliche Note, dann sind die Maße folgenderweise definiert:
  In der Abbildung 1 ist die Regression mit der Auswahl                                       (
einiger Kernel auf einer Datenmenge mit zweidimensiona-                                         1, wenn yi = yˆi
                                                                                       Φ(i) =
len Punkten visualisiert. Die Punkte sind zufällig aus einer                                   0, wenn
Sinus-ähnlichen Funktion mit hinzugefügter Streuung ent-                                      N
                                                                                                X Φ(i)
nommen. Wir können bereits hier sehen, wie sich die Wahl                              P CC =             × 100(%)
                                                                                                      N                         (12)
eines geeigneten Kernel auf die Güte der Regression aus-                                       i=1
wirkt. Mit dem RBF-Kernel können die Daten hier viel bes-                                  v
                                                                                            uN
ser approximiert werden, als mit dem Polynom-Kernel.                                        uX (yi − yˆi )2
                                                                                    RM SE = t
                                                                                                   N
4.    DATENSATZ                                                                               i=1


  In dieser Arbeit wird der Datensatz aus [3] verwendet. Es         Um aussagekräftigere Ergebnisse zu erhalten und um die
handelt sich um die Daten einer portugiesischen Schule mit          Ergebnisse mit [3] vergleichen zu können, wird eine 10-fache
395 Schülerdaten einer Mathematik-Klasse. Die gesammel-            Kreuzvalidierung angewandt. Das bedeutet, der Datensatz
ten Daten umfassen folgende Attribute:                              wird zufällig auf 10 möglichst gleich große Teile aufgeteilt.
                                                                    Jede der 10 Teilmengen wird einmal als Testmenge und die
     • student’s age (numeric: from 15 to 22), student’s school     restlichen 9 Teilmengen als Trainingsmenge verwendet. Die-
       (binary: Gabriel Pereira or Mousinho da Silveira), stu-      ser Prozess wird insgesamt 20 Mal wiederholt, sodass das
       dent’s home address type (binary: urban or rural), pa-       Endergebnis für jeden einzelnen Versuch ein Mittelwert aus
       rent’s cohabitation status (binary: living together or       insgesamt 200 Durchläufen ist.
       apart), mother’s education (numeric: from 0 to 4), mo-         Für die Implementierung der Regressions-SVM wird das
       ther’s job (nominal), father’s education (numeric: from      Accord.NET Framework [12] verwendet.
       0 to 4), father’s job (nominal), student’s guardian (no-       Die Studentenvektoren werden normiert, wie in [18] emp-
       minal: mother, father or other), family size (binary:        fohlen. Für den Vektor xi = (xi1 , .., xin , yi ) mit yi = G3
       ≤ 3 or > 3), quality of family relationships (numeric:                                                                xi1
                                                                    wird folgende Normierung durchgeführt: xˆi1 = Pn               .
       from 1 – very bad to 5 – excellent), reason to choose                                                   Pn           j=1 xij
       this school (nominal: close to home, school reputation,      Für den normierten Vektor xˆi gilt dann j xˆij = 1.




                                                               18
             Anwendung der Regressions-SVM zur Vorhersage studentischer Leistungen



6.          EVALUATION                                                    des RBF-Kernels erkennen. Insbesondere bringt die verwen-
  Um die Ergebnisse möglichst gut mit [3] zu vergleichen,                dete σ-Heuristik für das binäre Klassifikationsproblem mit
werden gleiche Evaluationsbedingungen verwendet. Es wer-                  einer Genauigkeit von 90.57% eine Verbesserung gegenüber
den drei verschiedene Probleme betrachtet:                                der σ-Wahl aus [3] mit 86.3%. Auch für das 5-Level Problem
                                                                          ist eine Verbesserung um etwa 10% gegeben. Beim Problem
     1. Binäre Klassifikation - bestanden, falls G3 ≥ 10, sonst          der genauen Vorhersage kann der RMSE Wert gegenüber
        durchgefallen                                                     [3] leicht verbessert werden. Die naive Wahl σ = 1 wie sie
                                                                          als Standard-Parameter im Accord.NET Framework für den
     2. 5-Level Klassifikation - (basierend auf dem Erasmus
                                                                          RBF-Kernel gegeben ist, liefert beim binären Problem eine
        Noten-Umwandlungs-System wird die Notenskala auf
                                                                          deutlich schlechtere Genauigkeit von 69.79% und ist damit
        5 Level aufgeteilt)
                                                                          um mehr als 20% schlechter. Beim 5-Level Problem liefert
     3. Genaue Vorhersage - numerische Ausgabe des G3-                    die naive Wahl gegenüber der σ-Heuristik sogar eine um et-
        Wertes                                                            wa 40% schlechtere Genauigkeit. Beim Problem der genauen
                                                                          Vorhersage liefert die naive σ-Wahl einen mehr als doppelt
Zusätzlich werden wir die folgenden 3 Fälle unterscheiden:              so großen RMSE-Wert und ist damit deutlich schlechter als
                                                                          die σ-Heuristik.
     1. A: Alle Features werden verwendet
                                                                             Da die naive Wahl σ = 1 offensichtlich keine guten Ergeb-
     2. B: Alle Features außer G2 werden verwendet                        nisse liefert, vergleichen wir in den nächsten Versuchen nur
                                                                          die σ-Heuristik und die σ-Wahl von [3] auf den Fällen B (alle
     3. C: Alle Feautures außer G1 und G2 werden verwendet                Features außer G2) und C (alle Features außer G1 und G2)
                                                                          für das binäre und das 5-Level Problem miteinander. Die
Als Erstes untersuchen wir den Einfluss der σ-Wahl für den
                                                                          Ergebnisse sind in Abbildung 4 visualisiert. In Fall B (al-
RBF-Kernel und der Regressions-SVM. Wir verwenden die
                                                                          le Features außer G3) liefert die σ-Heuristik für das binäre
σ-Heuristik aus [4] σ = median({dist(u, v)|u 6= v}) und ver-
                                                                          Klassifkations-Problem mit 84.64% eine um etwa 4% bessere
gleichen diese mit einer naiven Wahl σ = 1 und den SVM-
                                                                          Genauigkeit. Für das 5-Level Problem liefert die σ-Heuristik
RBF-Ergebnissen aus [3]. Diese Evaluation führen wir zu-
                                                                          mit 58.23% eine um mehr als 10% bessere Genauigkeit. Im
nächst für den Fall A (alle Features) aus.
                                                                          Fall C (alle Features außer G1 und G2) werden die Wer-
                                                                          te bereits schlechter. Die σ-Heuristik eignet sich somit bei
                             σ=1        σ aus [3]      σ-Heuristik        dem binären und dem 5-Level Problem ausschließlich für die
                                                                          Fälle A und B.
             100
                           86.3 90.57
              80                                                                                              σ aus [3]      σ-Heuristik
                   69.79                                      69.3
                                                       59.6                       100
     PCC




              60
                                                                                        80.5 84.64
                                                                                   80                70.6 68.77
              40
                                               28.95
                                                                                                                         58.23
                                                                            PCC




                                                                                   60
              20                                                                                                  47.9
                                                                                   40                                            31
                      binär (A)                5-Level (A)                                                                           24.94
                                                                                   20
Abbildung 2: Vergleich der σ-Auswahl für das binäre
und das 5-Level Problem (A: Alle Features verwen-
                                                                                           (B)          (C)       el (
                                                                                                                      B)
                                                                                                                               el (
                                                                                                                                   C)
det)                                                                                i när        inär        e v           ev
                                                                                   b             b          5-L          5-L

                             σ=1        σ aus [3]      σ-Heuristik        Abbildung 4: Vergleich der σ-Auswahl für das binäre
                                                                          und das 5-Level Problem (B: alle Features außer G2,
              5                                                           C: alle Features außer G1 und G2)
                                4.04
              4
     RMSE




              3                                                             Die Fälle B und C vergleichen wir auch für die genaue
                                        2.09   1.97                       Vorhersage der Note G3. Die Ergebnisse sind in Abbildung
              2                                                           5 visualisiert. Im Fall B ist die σ-Heuristik noch etwas besser
              1                                                           und im Fall C sind die Ergebnisse identisch.
                                                                            Zusätzlich wollen wir den RBF-Kernel mit dem χ2 -Kernel
                            genaue Vorhersage (A)
                                                                          und dem Histogrammschnitt-Kernel vergleichen. Die Ergeb-
                                                                          nisse dieser beiden Kernel sind in Tabelle 6 abgebildet. Wir
Abbildung 3: Vergleich der σ-Auswahl für die genaue                      sehen, dass sich die Werte nicht signifikant von den Ergeb-
Vorhersage (A: Alle Features verwendet)                                   nissen des RBF-Kernels mit der σ-Heuristik unterscheiden.
                                                                          Diese beiden Kernel sind also ebenso einsetzbar, wenn ein
  Aus den Abbildungen 2 und 3 können wir für den Fall A                 Kernel verwendet werden soll, der keine zusätzlichen Para-
die Wichtigkeit einer geeigneten Wahl für den σ-Parameter                meterangaben braucht.




                                                                     19
              Anwendung der Regressions-SVM zur Vorhersage studentischer Leistungen



                   binäre Vorhersage                              5-Level Vorhersage                        genaue Vorhersage
         Fall A           Fall B        Fall C             Fall A         Fall B       Fall C         Fall A        Fall B      Fall C
        χ2    HS         χ2    HS      χ2    HS           χ2    HS      χ2     HS     χ2    HS       χ2    HS      χ2    HS    χ2    HS
       90% 90%          85% 85%       67% 70%            68% 69%       56% 57%       26% 28%        2.34 2.14     3.06 2.9    4.4 4.34

                       Tabelle 2: Ergebnisse des χ2 -Kernel und des Histogrammschnitt-Kernel (HS)


                                       σ aus [3]      σ-Heuristik                20(1):5–22, 2001.
                                                                             [6] M. I. Lopez, J. Luna, C. Romero, and S. Ventura.
                                                   4.37 4.37                     Classification via clustering for predicting final marks
                                                                                 based on student participation in forums.
               4                                                                 International Educational Data Mining Society, 2012.
     RMSE




                                                                             [7] J. C. Platt. fast training of support vector machines
                                                                                 using sequential minimal optimization. Advances in
               3         2.9                                                     kernel methods, pages 185–208, 1999.
                               2.74
                                                                             [8] V. Ramesh, P. Parkavi, and K. Ramar. Predicting
                                                                                 student performance: a statistical and data mining
                           B                         C                           approach. International journal of computer
                                                                                 applications, 63(8), 2013.
                                genaue Vorhersage
                                                                             [9] C. Romero, M.-I. López, J.-M. Luna, and S. Ventura.
                                                                                 Predicting students’ final performance from
Abbildung 5: Vergleich der σ-Auswahl für die genaue                             participation in on-line discussion forums. Computers
Vorhersage von G3 (B: alle Features außer G2, C:                                 & Education, 68:458–472, 2013.
alle Features außer G1 und G2)                                              [10] S. Sembiring, M. Zarlis, D. Hartama, and E. Wani.
                                                                                 Prediction of student academic performance by an
                                                                                 application of data mining techniques. International
7.          FAZIT                                                                Proceedings of Economics Development & Research,
  Wir haben in dieser Arbeit die Anwendung der                                   6:110–114, 2011.
Regressions-SVM zur Vorhersage studentischer Leistungen                     [11] A. J. Smola and B. Schölkopf. A tutorial on support
mit unterschiedlichen Kernel untersucht. Eine Regressions-                       vector regression. Statistics and Computing,
SVM ermöglicht das Training auch, wenn aufgrund weni-                           14(3):199–222.
ger Trainingsdaten z. B nicht alle Noten abgedeckt sind. Die                [12] C. R. Souza. The Accord.NET Framework.
Evaluation wurde auf den Schülerdaten eines Mathematik-                         http://accord-framework.net/, 2014.
kurses durchgeführt. Mit dem Einsatz einer σ-Heuristik für                [13] P. Strecht, L. Cruz, C. Soares, J. Mendes-Moreira, and
den RBF-Kernel konnten die Ergebnisse einer früheren Ar-                        R. Abreu. A comparative study of classification and
beit auf diesen Daten verbessert werden. Für den Fall, dass                     regression algorithms for modelling students’ academic
zusätzlich zu den privaten Daten auch vorherige Noten be-                       performance. In 8th Conference on Educational Data
kannt waren, konnte die Vorhersage von bestanden oder                            Mining (EDM2015), 2015.
                                            ”
nicht bestanden“ mit einer Genauigkeit von 90.57% erreicht
                                                                            [14] A. Tekin. Early prediction of students’ grade point
werden, was eine praktische Anwendbarkeit ermöglicht. Bei
                                                                                 averages at graduation: a data mining approach.
einer Unterteilung der 21 möglichen Noten in 5 Notenstu-
                                                                                 Eurasian Journal of Educational Research,
fen konnte die richtige Notestufe mit einer Genauigkeit von
                                                                                 (54):207–226, 2014.
69.3% bestimmt werden. Waren weniger vorherige Noten be-
kannt, so war die erreichte Genauigkeit kleiner. Wir haben                  [15] N. Thai-Nghe, A. Busche, and L. Schmidt-Thieme.
zusätzlich den χ2 - und HS-Kernel untersucht. Mit ähnlich                      Improving academic performance prediction by dealing
guten Ergebnissen eignen sich diese ebenfalls.                                   with class imbalance. In Intelligent Systems Design
                                                                                 and Applications, 2009. ISDA’09. Ninth International
                                                                                 Conference on, pages 878–883. IEEE, 2009.
8.          REFERENCES                                                      [16] K. Watkins. An improved recommendation models on
 [1] A. Acharya and D. Sinha. Early prediction of students                       grade point average prediction and postgraduate
     performance using machine learning techniques.                              identification using data mining. In Advances in
     International Journal of Computer Applications,                             Neural Networks, Fuzzy Systems and Artificial
     107(1), 2014.                                                               Intelligence, pages 186–194. WSEAS Press, May 2014.
 [2] C. Cortes and V. Vapnik. Support-Vector Networks.                      [17] A. Webb and K. Copsey. Statistical Pattern
     Machine Learning, 20(3):273–297, 1995.                                      Recognition. Wiley, 2011.
 [3] P. Cortez and A. M. G. Silva. Using data mining to                     [18] C. wei Hsu, C. chung Chang, and C. jen Lin. A
     predict secondary school student performance. 2008.                         practical guide to support vector classification.
 [4] T. S. Jaakkola, M. Diekhans, and D. Haussler. Using                         https://www.csie.ntu.edu.tw/~cjlin/papers/
     the fisher kernel method to detect remote protein                           guide/guide.pdf, 2010.
     homologies. In ISMB, volume 99, pages 149–158, 1999.                   [19] W. Zhang, S. Zhang, and S. Zhang. Predicting the
 [5] Y.-J. Lee and O. L. Mangasarian. Ssvm: A smooth                             graduation thesis grade using svm. International
     support vector machine for classification.                                  Journal of Intelligent Information Processing, 5(3):60,
     Computational optimization and Applications,                                2015.




                                                                      20