<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta />
    <article-meta>
      <title-group>
        <article-title>Anwendung der Regressions-SVM zur Vorhersage studentischer Leistungen</article-title>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author">
          <string-name>Alexander Askinadze Institut für Informatik</string-name>
          <email>alexander.askinadze@hhu.de</email>
          <xref ref-type="aff" rid="aff0">0</xref>
        </contrib>
        <aff id="aff0">
          <label>0</label>
          <institution>Heinrich-Heine-Universität Düsseldorf Universitätsstr.</institution>
          <addr-line>1 40225 Düsseldorf</addr-line>
          ,
          <country country="DE">Deutschland</country>
        </aff>
      </contrib-group>
      <pub-date>
        <year>2016</year>
      </pub-date>
      <fpage>15</fpage>
      <lpage>20</lpage>
      <abstract>
        <p>Um als Bildungsanbieter bei gefa¨hrdeten Studenten rechtszeitig intervenierend eingreifen zu ko¨nnen, sind Verfahren zur Vorhersage studentischer Leistungen notwendig. Viele Arbeiten haben den Einsatz des SVM-Klassifikators vorgeschlagen. Allerdings wurden unzureichende Angaben zur Wahl eines geeigneten Kernel gegeben. Außerdem kann der SVM-Klassifikator bei fehlenden Trainingsdaten zu allen mo¨glichen Noten nicht erfolgreich trainiert werden. Zur Lo¨sung dieser Probleme untersuchen wir die Regressions-SVM mit verschiedenen geeigneten Kernel. Dabei erreichen wir mit dem RBF-Kernel und einer σ-Parameter Heuristik auf einem o¨ffentlichen Datensatz eines Mathematikkurses bessere Ergebnisse als in [3] mit einer SVM erreicht wurden. Fu¨r den Fall, dass zusa¨tzlich zu den privaten Daten der Studenten auch vorherige Noten bekannt waren, konnte die Vorhersage von ”bestanden oder nicht bestanden” mit einer Genauigkeit von 90.57% erreicht werden. Das ermo¨glicht eine praktische Anwendbarkeit der Regressions-SVM zur Erkennung gefa¨hrdeter Studenten.</p>
      </abstract>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>Categories and Subject Descriptors</title>
      <p>K.3.1 [Computers and Education]: Computer Uses in
Education; H.2.8 [Database Applications]: Data Mining
Education data mining, learning analytics, student
performance prediction, support vector machines, regression,
kernel</p>
    </sec>
    <sec id="sec-2">
      <title>EINFÜHRUNG</title>
      <p>Die Leistungen von Studenten sind ein wichtiger Faktor
fu¨r Bildungseinrichtungen. Mit Hilfe der erreichten Noten
der Schu¨ler und Studenten wird entschieden, ob ein Fach
oder gar eine Abschlussarbeit bestanden wurde. Da die
Noten einen Einfluss auf das erfolgreiche Absolvieren der Schule</p>
      <p>Aufkommende Disziplin, die sich mit der
Entwicklung von Methoden zur Erforschung der
Daten aus Bildungsumgebungen befasst und diese
Methoden einsetzt, um Studenten und ihre
Lernumgebungen besser zu verstehen.</p>
      <p>Einer der beliebtesten Algorithmen aus dem Bereich Data
Mining ist die Support Vector Machine (SVM). Dieser
Klassifikator la¨sst sich auch fu¨r Multiklassen-Probleme, wie sie
bei der Noten-Vorhersage gegeben sind, verwenden. Wird
jede mo¨gliche Note als Klasse betrachtet, so beno¨tigt die SVM
fu¨r jede Klasse Trainingsdaten. Bei kleinen Trainingsmengen
mit einer großen Anzahl an mo¨glichen Noten
(beispielsweise bei einer Notenskala von 1-20) kann es vorkommen, dass
es zu einigen Noten keine Trainingsdaten gibt, sodass die
SVM mit den u¨blichen Multiklassen-Ansa¨tzen one-vs-one
oder one-vs-all nicht trainiert werden kann. Hierfu¨r eignet
sich der Einsatz einer Regressions-SVM, welche auch ohne
Existenz aller no¨tigen Trainingsdaten in der Lage ist alle
Notenstufen zu approximieren.</p>
      <p>
        Im Kapitel 2 werden verschiedene Arbeiten vorgestellt,
welche die SVM zur Vorhersage von studentischen
Leistungen eingesetzt haben. Die Ergebnisse zeigen, dass die SVM
sich gut fu¨r diese Aufgabe eignet. Im Kapitel 3 werden die
theoretischen Hintergru¨nde von SVM und SVM-Kernel,
sowie die fu¨r weitere Versuche notwendige Regressions-SVM
vorgestellt. Das Kapitel 4 stellt den in der Evaluation
verwendeten Datensatz mit allen Attributen vor. Im Kapitel
5 werden die untersuchten Klassifikations- und
Regressionsprobleme erla¨utert und die verwendeten Evaluationsmaße
dargestellt. Im Kapitel 6 wird auf einer o¨ffentlichen
Da1http://www.educationaldatamining.org/
tenbank [
        <xref ref-type="bibr" rid="ref3">3</xref>
        ] mit privaten Attributen, Zwischennoten und
Abschlussnoten von portugiesischen Schu¨lern untersucht,
wie mit geeigneten SVM-Kernel und geeigneter
KernelParameter-Auswahl bessere SVM-Ergebnisse als in [
        <xref ref-type="bibr" rid="ref3">3</xref>
        ]
erreicht werden ko¨nnen. Schließlich wird im Kapitel 7 ein Fazit
gezogen.
      </p>
    </sec>
    <sec id="sec-3">
      <title>RELATED WORK</title>
      <p>
        Es gibt bereits viele Arbeiten, die verschiedene
Klassifikatoren wie Decision Tree (DT), Random Forest (RF), kNN,
Neuronale Netze (NN) und SVM zur Vorhersage
studentischer Leistungen verwendet haben. In diesem Kapitel
untersuchen wir eine Auswahl der Arbeiten zur Vorhersage von
studentischen Leistungen, welche die SVM verwendet oder
diese mit anderen Klassifikatoren verglichen haben [
        <xref ref-type="bibr" rid="ref1 ref10 ref13 ref14 ref15 ref16 ref19 ref3 ref6 ref8 ref9">1, 3, 6,
8, 9, 10, 13, 14, 15, 16, 19</xref>
        ]. Eine Zusammenfassung der
Arbeiten ist in Tabelle 1 dargestellt. Die
Klassifikationsergebnisse der untersuchten Arbeiten sind schwer miteinander zu
vergleichen, da diese auf unterschiedlichen und nicht
standardisierten Datensa¨tzen mit verschiedenen Eigenschaften
durchgefu¨hrt wurden.
      </p>
      <p>
        Die Arbeiten [
        <xref ref-type="bibr" rid="ref6 ref9">6, 9</xref>
        ] nutzen die SVM, um aus Daten zur
studentischen Forum-nutzung die Abschlussnoten vorhersagen
zu ko¨nnen. In beiden Arbeiten lieferten die SVM-Ergebnisse
im Vergleich zu anderen Klassifikatoren gute Ergebnisse,
wobei in beiden Arbeiten nicht erwa¨hnt wird, welcher
SVMKernel und welche entsprechenden Parameter verwendet
wurden.
      </p>
      <p>
        In der Arbeit [
        <xref ref-type="bibr" rid="ref10">10</xref>
        ] wurde eine spezielle SVM-Variante, die
SSVM [
        <xref ref-type="bibr" rid="ref5">5</xref>
        ] zur Vorhersage der studentischen Leistungen
eingesetzt. Die SVM hat hier gute Ergebnisse zur
Vorhersage von Studenten mit sehr guten und Studenten mit sehr
schlechten Leistungen geliefert (u¨ber 90% Genauigkeit). Als
SVM-Kernel wurde der RBF-Kernel mit zwei festen
Parametern trainiert, wobei nicht erla¨utert wird, wie die Parameter
des RBF-Kernels ausgewa¨hlt wurden.
      </p>
      <p>
        Die Arbeit [
        <xref ref-type="bibr" rid="ref1">1</xref>
        ] untersucht ebenfalls die SVM zur
Vorhersage studentischer Leistungen. Zwar hat die SVM im
Vergleich die besten Ergebnisse, jedoch wird von den Autoren
der Einsatz von Entscheidungsba¨umen empfohlen. Dies wird
damit begru¨ndet, dass die Entscheidungsba¨ume nicht
signifikant schlechtere Ergebnisse liefern und gleichzeitig besser
versta¨ndlich sind. Hier wird keine Angabe zur Wahl des SVM
Kernels gegeben.
      </p>
      <p>
        In der Arbeit [
        <xref ref-type="bibr" rid="ref16">16</xref>
        ] hat die SVM im Vergleich zu
einem Entscheidungsbaum- und einem NN-Klassifikator
ebenfalls die besten Ergebnisse zur Vorhersage des
Notendurchschnitts geliefert. Auch hier wurden keine Angaben zur Wahl
des Kernels und der entsprechender Parameter gemacht.
      </p>
      <p>
        In [
        <xref ref-type="bibr" rid="ref19">19</xref>
        ] wird der Einsatz der SVM zur Vorhersage der
Abschlussarbeitsnote verwendet. Die SVM wird hier mit
neuronalen Netzen, Entscheidungsba¨umen und Naive Bayes
verglichen und liefert die besten Ergebnisse. Auch in dieser
Arbeit wird nichts zur Wahl des SVM-Kernels angegeben.
      </p>
      <p>
        Die Arbeit [
        <xref ref-type="bibr" rid="ref13">13</xref>
        ] hat verschiedene Klassifikatoren wie kNN,
Entscheidungsba¨ume und SVM zur Vorhersage von
studentischen Leistungen verglichen. Hierbei hat die SVM sowohl
das Problem ”bestehen oder durchfallen“, als auch fu¨r die
Regression der Noten vergleichsweise die besten Ergebnisse
geliefert. In dieser Arbeit wird ebenfalls nicht na¨her auf den
eingesetzten SVM-Kernel eingegangen.
      </p>
      <p>
        In [
        <xref ref-type="bibr" rid="ref15">15</xref>
        ] wurde untersucht, wie sich bei der Vorhersage der
Leistungen, im Fall eines Klassenungleichgewichts (z. B. gibt
es mehr Studenten, die durchfallen, als Studenten, die
bestehen) verbessern la¨sst. Die SVM hat hierbei in Kombination
mit den vorgestellten Methoden zur Lo¨sung des
Klassenungleichgewichts vergleichsweise gute Ergebnisse geliefert. Als
SVM-Kernel wurde der Polynom- und der RBF-Kernel
verwendet. Zur Parameterwahl der Kernel wurde die grid search
verwendet.
      </p>
      <p>
        In [
        <xref ref-type="bibr" rid="ref14">14</xref>
        ] werden die Klassifikatoren SVM, NN, ELM
(extreme learning machine) zur Vorhersage der Durchschnittsnote
verglichen. Der Autor zeigt, dass mit der SVM die besten
Werte erreicht werden. Es wurde der RBF-Kernel mit einer
grid search zur Auswahl der Kernel-Parameter verwendet.
      </p>
      <p>
        Anders als bei den oben genannten Arbeiten kommen die
Autoren in [
        <xref ref-type="bibr" rid="ref8">8</xref>
        ] zu dem Ergebnis, dass der MLP-Klassifikator
(Mult-Layer-Perceptron) im Vergleich zur SVM bessere
Ergebnisse zur Vorhersage der studentischen Leistungen liefert.
      </p>
      <p>Auch hier wird nicht erla¨utert, welcher SVM-Kernel
verwendet wurde.</p>
      <p>
        Die Arbeit [
        <xref ref-type="bibr" rid="ref3">3</xref>
        ] untersucht den Einsatz von DT, NN, RF
und SVM zur Vorhersage von gefa¨hrdeten Studenten und
der Vorhersage von Notenstufen. Die Autoren kommen dabei
zum Ergebnis, dass die Entscheidungsbaum-Klassifikatoren
bessere Ergebnisse liefern als die SVM. Als SVM-Kernel
wird der RBF-Kernel mit einer grid search zur Auswahl der
Parameter verwendet.
      </p>
      <p>Der Tabelle 1 ko¨nnen wir entnehmen, dass die SVM in
vielen Arbeiten erfolgreich eingesetzt wurde und die Wahl
der SVM-Kernel oder die Wahl der zugeho¨rigen
KernelParameter oftmals nicht angegeben wird. Die Unklarheit
u¨ber die Wahl geeigneter Kernel und das Problem, dass es
keine Trainingsdaten zu einigen Noten geben ko¨nnte,
motiviert die Untersuchung der Regressions-SVM und
zugeho¨riger geeigneter Kernel zur Vorhersage der studentischen
Leistungen.
3. SVM</p>
      <p>In diesem Kapitel werden wir die theoretischen
Hintergru¨nde von Regressions-SVM und Kernel beleuchten, da
diese die zentralen Aspekte dieser Publikation darstellen.</p>
      <p>
        Die SVM [
        <xref ref-type="bibr" rid="ref2">2</xref>
        ] ist ein bina¨rer Klassifikator f : Rn →
{−1, +1}, der fu¨r zwei linear trennbare Punktmengen eine
Trenn-Hyperebene findet.
      </p>
      <p>Die Klassifikation eines neues Punktes x∗ auf eine der
beiden Klassen {+1, −1} kann mit Hilfe einer gefundenen
Hyperebene in Rn mit dem Vektor w ∈ Rn und b ∈ R
folgenderweise ausgedru¨ckt werden:
f (x∗) = signum(wT x∗ − b) =
(+1, wenn wT x∗ &gt; b
−1, wenn wT x∗ &lt; b</p>
      <p>
        (1)
Die Trainingsmenge der SVM sei mit
{(x1, y1), ..., (xL, yL)|xi ∈ Rn, yi ∈ {−1, +1}}
angegeben, wobei xi die Trainingspunkte und yi die zugeho¨rigen
Klassen sind. Um die Hyperebene zu finden, muss fu¨r die
L Trainingstupel das folgende Optimierungsproblem gelo¨st
werden [
        <xref ref-type="bibr" rid="ref17">17</xref>
        ]:
      </p>
      <p>
        u.d.N. yi(wT xi − b) − 1 ≥ 0 ∀i ∈ {1, .., L}
Dieses ”Quadratic Programming” (QP)-Problem la¨sst sich
in ein a¨quivalentes Problem mit linearen Nebenbedingungen
min ||w||2
2
(2)
Tabelle 1: U¨ bersicht u¨ber bisherige Publikationen zur Vorhersage von studentischen Leistungen mit SVM
Publikation Jahr Vorhersage von Daten dSeVn Mbe-sEtregnebEnrgisesbenuisnsteenr? Kernel paKrearmneetl-er
[
        <xref ref-type="bibr" rid="ref19">19</xref>
        ]
      </p>
      <p>Das Skalarprodukt φ(x∗)T φ(xi) in Gleichung 5 kann von
einer Kernelfunktion ersetzt werden:</p>
      <p>K(x, y) = φ(x)T φ(y)
Auf diese Weise muss φ(x) nicht explizit ausgerechnet
werden. Dies wird Kerneltrick genannt. Die Klassifikationsregel
ergibt sich damit zu:
f (x∗) = signum</p>
      <p>L
X αiyiK(x∗, xi) − b
i=1</p>
      <p>!
=
(+1, wenn PiL=1 αiyiK(x∗, xi) &gt; b
−1, wenn PL</p>
      <p>i=1 αiyiK(x∗, xi) &lt; b
Es gibt sehr viele verschiedene Kernel. Einige bekannte
Exemplare, die wir in Kapitel 6 untersuchen werden, sind:
• RBF-Kernel:
• χ2-Kernel:
• Histogrammschnitt (HS)-Kernel:</p>
      <p>1
K(x, y) = exp(− 2σ ||x − y||2)
K(x, y) = 1 −
n
X (xi − yi)2
i=1 21 (xi + yi)
n
K(x, y) = X min(xi, yi)
i=1
(6)
(7)
(8)
(9)
(10)
3.3</p>
    </sec>
    <sec id="sec-4">
      <title>Regressions-SVM</title>
      <p>
        Die SVM kann nicht nur zur Lo¨sung von
Klassifikationsproblemen, sondern auch zur Regression eingesetzt werden.
Mit Hilfe der Regression-SVM erhalten wir also keine
Trennebene, sondern eine Hyperebene, die unsere Daten
mo¨glichst gut beschreibt. Der Algorithmus bleibt dabei seiner
Abbildung 1: Kernel-Vergleich zur SVM-Regression
Ursprungsform a¨hnlich. In [
        <xref ref-type="bibr" rid="ref11">11</xref>
        ] wird die Idee fu¨r diese
Vorgehensweise beschrieben.
      </p>
      <p>Sei {(x1, y1), ..., (xl, ydl)}bei⊂spielsweise ein d-dimensionaler
X × R die Trainingsmenge,
wobei ein xi ∈ X ⊂ R
numerischer Vektor ist, der die studentischen Attribute
beschreibt und yi die zugeho¨rige Abschlussnote.</p>
      <p>Wir suchen eine Funktion f , die mo¨glichst gut unsere
Trainingsmenge approximiert, d.h. bis auf kleine Fehler soll
f (xi) = yi gelten. Um die Regressionsgerade f (x) = wT x+b
mit w ∈ Rd und b ∈ R fu¨r unsere Trainingsmenge zu
erhalten, muss das folgende Optimierungsproblem gelo¨st werden:
min ||w||2
2
(
u.d.N
yi − f (xi) ≤
f (xi) − yi ≤
(11)</p>
      <p>Fu¨r das Optimierungsproblem in (11) wird angenommen,
dass eine solche Funktion f existiert, welche alle
Punktepaare unserer Trainingsmenge mit einer Genauigkeit
approximiert. In der Regel ist es nicht der Fall, sodass auch hier mit
Kernel und sogenannten Schlupfvariablen ξ gearbeitet wird.</p>
      <p>In der Abbildung 1 ist die Regression mit der Auswahl
einiger Kernel auf einer Datenmenge mit
zweidimensionalen Punkten visualisiert. Die Punkte sind zufa¨llig aus einer
Sinus-a¨hnlichen Funktion mit hinzugefu¨gter Streuung
entnommen. Wir ko¨nnen bereits hier sehen, wie sich die Wahl
eines geeigneten Kernel auf die Gu¨te der Regression
auswirkt. Mit dem RBF-Kernel ko¨nnen die Daten hier viel
besser approximiert werden, als mit dem Polynom-Kernel.</p>
    </sec>
    <sec id="sec-5">
      <title>DATENSATZ</title>
      <p>
        In dieser Arbeit wird der Datensatz aus [
        <xref ref-type="bibr" rid="ref3">3</xref>
        ] verwendet. Es
handelt sich um die Daten einer portugiesischen Schule mit
395 Schu¨lerdaten einer Mathematik-Klasse. Die
gesammelten Daten umfassen folgende Attribute:
• student’s age (numeric: from 15 to 22), student’s school
(binary: Gabriel Pereira or Mousinho da Silveira),
student’s home address type (binary: urban or rural),
parent’s cohabitation status (binary: living together or
apart), mother’s education (numeric: from 0 to 4),
mother’s job (nominal), father’s education (numeric: from
0 to 4), father’s job (nominal), student’s guardian
(nominal: mother, father or other), family size (binary:
≤ 3 or &gt; 3), quality of family relationships (numeric:
from 1 – very bad to 5 – excellent), reason to choose
this school (nominal: close to home, school reputation,
course preference or other), home to school travel time
(numeric: 1 – &lt; 15 min., 2 – 15 to 30 min., 3 – 30 min.
to 1 hour or 4 – &gt; 1 hour), weekly study time (numeric:
1 – &lt; 2 hours, 2 – 2 to 5 hours, 3 – 5 to 10 hours or 4 –
&gt; 10 hours), number of past class failures (numeric: n
if 1 ≤ n &lt; 3, else 4), extra educational school support
(binary: yes or no), family educational support
(binary: yes or no), extra-curricular activities (binary: yes
or no), extra paid classes (binary: yes or no), Internet
access at home (binary: yes or no), attended nursery
school (binary: yes or no), wants to take higher
education (binary: yes or no), with a romantic relationship
(binary: yes or no), free time after school (numeric:
from 1 – very low to 5 – very high), going out with
friends (numeric: from 1 – very low to 5 – very high),
weekend alcohol consumption (numeric: from 1 – very
low to 5 – very high), workday alcohol consumption
(numeric: from 1 – very low to 5 – very high), current
health status (numeric: from 1 – very bad to 5 – very
good), number of school absences (numeric: from 0 to
93)
• G1: first period grade (numeric: from 0 to 20)
• G2: second period grade (numeric: from 0 to 20)
• G3: final grade (numeric: from 0 to 20)
Die Notenskala hat insgesamt 21 Stufen, 0 ist die
schlechteste und 20 die beste Note.
5.
      </p>
    </sec>
    <sec id="sec-6">
      <title>EVALUATIONS-FRAMEWORK</title>
      <p>
        Als Evaluationsmaße werden wie in [
        <xref ref-type="bibr" rid="ref3">3</xref>
        ] die Genauigkeit
PCC und die Wurzel der mittleren quadratischen
Abweichung RMSE (Root Mean Square Error) verwendet. Sei yˆi
die Vorhersage fu¨r das i-te Test-Exemplar und yi die
tatsa¨chliche Note, dann sind die Maße folgenderweise definiert:
Φ(i) =
(1, wenn yi = yˆi
      </p>
      <p>0, wenn
i=1</p>
      <p>N
P CC = X Φ(i) × 100(%)</p>
      <p>N
uv N
RM SE = tuX (yi − yˆi)2</p>
      <p>
        N
i=1
(12)
Um aussagekra¨ftigere Ergebnisse zu erhalten und um die
Ergebnisse mit [
        <xref ref-type="bibr" rid="ref3">3</xref>
        ] vergleichen zu ko¨nnen, wird eine 10-fache
Kreuzvalidierung angewandt. Das bedeutet, der Datensatz
wird zufa¨llig auf 10 mo¨glichst gleich große Teile aufgeteilt.
Jede der 10 Teilmengen wird einmal als Testmenge und die
restlichen 9 Teilmengen als Trainingsmenge verwendet.
Dieser Prozess wird insgesamt 20 Mal wiederholt, sodass das
Endergebnis fu¨r jeden einzelnen Versuch ein Mittelwert aus
insgesamt 200 Durchla¨ufen ist.
      </p>
      <p>
        Fu¨r die Implementierung der Regressions-SVM wird das
Accord.NET Framework [
        <xref ref-type="bibr" rid="ref12">12</xref>
        ] verwendet.
      </p>
      <p>
        Die Studentenvektoren werden normiert, wie in [
        <xref ref-type="bibr" rid="ref18">18</xref>
        ]
empfohlen. Fu¨r den Vektor xi = (xi1, .., xin, yi) mit yi = G3
xi1
wird folgende Normierung durchgefu¨hrt: xˆi1 =
      </p>
    </sec>
    <sec id="sec-7">
      <title>EVALUATION</title>
      <p>
        Um die Ergebnisse mo¨glichst gut mit [
        <xref ref-type="bibr" rid="ref3">3</xref>
        ] zu vergleichen,
werden gleiche Evaluationsbedingungen verwendet. Es
werden drei verschiedene Probleme betrachtet:
1. Bina¨re Klassifikation - bestanden, falls G3 ≥ 10, sonst
      </p>
      <p>durchgefallen
2. 5-Level Klassifikation - (basierend auf dem Erasmus</p>
      <p>Noten-Umwandlungs-System wird die Notenskala auf
5 Level aufgeteilt)
3. Genaue Vorhersage - numerische Ausgabe des
G3</p>
      <p>
        Wertes
Zusa¨tzlich werden wir die folgenden 3 Fa¨lle unterscheiden:
1. A: Alle Features werden verwendet
2. B: Alle Features außer G2 werden verwendet
3. C: Alle Feautures außer G1 und G2 werden verwendet
Als Erstes untersuchen wir den Einfluss der σ-Wahl fu¨r den
RBF-Kernel und der Regressions-SVM. Wir verwenden die
σ-Heuristik aus [
        <xref ref-type="bibr" rid="ref4">4</xref>
        ] σ = median({dist(u, v)|u 6= v}) und
vergleichen diese mit einer naiven Wahl σ = 1 und den
SVMRBF-Ergebnissen aus [
        <xref ref-type="bibr" rid="ref3">3</xref>
        ]. Diese Evaluation fu¨hren wir
zuna¨chst fu¨r den Fall A (alle Features) aus.
      </p>
      <p>
        σ = 1
des RBF-Kernels erkennen. Insbesondere bringt die
verwendete σ-Heuristik fu¨r das bina¨re Klassifikationsproblem mit
einer Genauigkeit von 90.57% eine Verbesserung gegenu¨ber
der σ-Wahl aus [
        <xref ref-type="bibr" rid="ref3">3</xref>
        ] mit 86.3%. Auch fu¨r das 5-Level Problem
ist eine Verbesserung um etwa 10% gegeben. Beim Problem
der genauen Vorhersage kann der RMSE Wert gegenu¨ber
[
        <xref ref-type="bibr" rid="ref3">3</xref>
        ] leicht verbessert werden. Die naive Wahl σ = 1 wie sie
als Standard-Parameter im Accord.NET Framework fu¨r den
RBF-Kernel gegeben ist, liefert beim bina¨ren Problem eine
deutlich schlechtere Genauigkeit von 69.79% und ist damit
um mehr als 20% schlechter. Beim 5-Level Problem liefert
die naive Wahl gegenu¨ber der σ-Heuristik sogar eine um
etwa 40% schlechtere Genauigkeit. Beim Problem der genauen
Vorhersage liefert die naive σ-Wahl einen mehr als doppelt
so großen RMSE-Wert und ist damit deutlich schlechter als
die σ-Heuristik.
      </p>
      <p>
        Da die naive Wahl σ = 1 offensichtlich keine guten
Ergebnisse liefert, vergleichen wir in den na¨chsten Versuchen nur
die σ-Heuristik und die σ-Wahl von [
        <xref ref-type="bibr" rid="ref3">3</xref>
        ] auf den Fa¨llen B (alle
Features außer G2) und C (alle Features außer G1 und G2)
fu¨r das bina¨re und das 5-Level Problem miteinander. Die
Ergebnisse sind in Abbildung 4 visualisiert. In Fall B
(alle Features außer G3) liefert die σ-Heuristik fu¨r das bina¨re
Klassifkations-Problem mit 84.64% eine um etwa 4% bessere
Genauigkeit. Fu¨r das 5-Level Problem liefert die σ-Heuristik
mit 58.23% eine um mehr als 10% bessere Genauigkeit. Im
Fall C (alle Features außer G1 und G2) werden die
Werte bereits schlechter. Die σ-Heuristik eignet sich somit bei
dem bina¨ren und dem 5-Level Problem ausschließlich fu¨r die
Fa¨lle A und B.
      </p>
      <p>C
C
P
100
80
60
40
20
bina¨r (B)</p>
      <p>bina¨r (C) 5-Level (B) 5-Level (C)
Abbildung 4: Vergleich der σ-Auswahl fu¨r das bin¨are
und das 5-Level Problem (B: alle Features außer G2,
C: alle Features außer G1 und G2)</p>
      <p>Die Fa¨lle B und C vergleichen wir auch fu¨r die genaue
Vorhersage der Note G3. Die Ergebnisse sind in Abbildung
5 visualisiert. Im Fall B ist die σ-Heuristik noch etwas besser
und im Fall C sind die Ergebnisse identisch.</p>
      <p>Zusa¨tzlich wollen wir den RBF-Kernel mit dem χ2-Kernel
und dem Histogrammschnitt-Kernel vergleichen. Die
Ergebnisse dieser beiden Kernel sind in Tabelle 6 abgebildet. Wir
sehen, dass sich die Werte nicht signifikant von den
Ergebnissen des RBF-Kernels mit der σ-Heuristik unterscheiden.</p>
      <p>Diese beiden Kernel sind also ebenso einsetzbar, wenn ein
Kernel verwendet werden soll, der keine zusa¨tzlichen
Parameterangaben braucht.
bina¨r (A)</p>
      <p>5-Level (A)
Abbildung 2: Vergleich der σ-Auswahl fu¨r das bin¨are
und das 5-Level Problem (A: Alle Features
verwendet)
σ = 1
Fall A
χ2 HS
90% 90%
bin¨are Vorhersage</p>
      <p>Fall B
χ2 HS
85% 85%</p>
      <p>Fall C
χ2 HS
67% 70%</p>
      <p>Fall A
χ2 HS
68% 69%</p>
      <p>Tabelle 2: Ergebnisse des χ2-Kernel und des Histogrammschnitt-Kernel (HS)</p>
      <p>2.74
B
genaue Vorhersage</p>
      <p>C
Abbildung 5: Vergleich der σ-Auswahl fu¨r die genaue
Vorhersage von G3 (B: alle Features außer G2, C:
alle Features außer G1 und G2)</p>
    </sec>
    <sec id="sec-8">
      <title>FAZIT</title>
      <p>Wir haben in dieser Arbeit die Anwendung der
Regressions-SVM zur Vorhersage studentischer Leistungen
mit unterschiedlichen Kernel untersucht. Eine
RegressionsSVM ermo¨glicht das Training auch, wenn aufgrund
weniger Trainingsdaten z. B nicht alle Noten abgedeckt sind. Die
Evaluation wurde auf den Schu¨lerdaten eines
Mathematikkurses durchgefu¨hrt. Mit dem Einsatz einer σ-Heuristik fu¨r
den RBF-Kernel konnten die Ergebnisse einer fru¨heren
Arbeit auf diesen Daten verbessert werden. Fu¨r den Fall, dass
zusa¨tzlich zu den privaten Daten auch vorherige Noten
bekannt waren, konnte die Vorhersage von ”bestanden oder
nicht bestanden“ mit einer Genauigkeit von 90.57% erreicht
werden, was eine praktische Anwendbarkeit ermo¨glicht. Bei
einer Unterteilung der 21 mo¨glichen Noten in 5
Notenstufen konnte die richtige Notestufe mit einer Genauigkeit von
69.3% bestimmt werden. Waren weniger vorherige Noten
bekannt, so war die erreichte Genauigkeit kleiner. Wir haben
zusa¨tzlich den χ2- und HS-Kernel untersucht. Mit a¨hnlich
guten Ergebnissen eignen sich diese ebenfalls.</p>
    </sec>
  </body>
  <back>
    <ref-list>
      <ref id="ref1">
        <mixed-citation>
          [1]
          <string-name>
            <given-names>A.</given-names>
            <surname>Acharya</surname>
          </string-name>
          and
          <string-name>
            <given-names>D.</given-names>
            <surname>Sinha</surname>
          </string-name>
          .
          <article-title>Early prediction of students performance using machine learning techniques</article-title>
          .
          <source>International Journal of Computer Applications</source>
          ,
          <volume>107</volume>
          (
          <issue>1</issue>
          ),
          <year>2014</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref2">
        <mixed-citation>
          [2]
          <string-name>
            <given-names>C.</given-names>
            <surname>Cortes</surname>
          </string-name>
          and
          <string-name>
            <given-names>V.</given-names>
            <surname>Vapnik</surname>
          </string-name>
          .
          <string-name>
            <surname>Support-Vector Networks</surname>
          </string-name>
          .
          <source>Machine Learning</source>
          ,
          <volume>20</volume>
          (
          <issue>3</issue>
          ):
          <fpage>273</fpage>
          -
          <lpage>297</lpage>
          ,
          <year>1995</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref3">
        <mixed-citation>
          [3]
          <string-name>
            <given-names>P.</given-names>
            <surname>Cortez</surname>
          </string-name>
          and
          <string-name>
            <given-names>A. M. G.</given-names>
            <surname>Silva</surname>
          </string-name>
          .
          <article-title>Using data mining to predict secondary school student performance</article-title>
          .
          <year>2008</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref4">
        <mixed-citation>
          [4]
          <string-name>
            <given-names>T. S.</given-names>
            <surname>Jaakkola</surname>
          </string-name>
          ,
          <string-name>
            <given-names>M.</given-names>
            <surname>Diekhans</surname>
          </string-name>
          , and
          <string-name>
            <given-names>D.</given-names>
            <surname>Haussler</surname>
          </string-name>
          .
          <article-title>Using the fisher kernel method to detect remote protein homologies</article-title>
          .
          <source>In ISMB</source>
          , volume
          <volume>99</volume>
          , pages
          <fpage>149</fpage>
          -
          <lpage>158</lpage>
          ,
          <year>1999</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref5">
        <mixed-citation>
          [5]
          <string-name>
            <given-names>Y.-J.</given-names>
            <surname>Lee</surname>
          </string-name>
          and
          <string-name>
            <given-names>O. L.</given-names>
            <surname>Mangasarian</surname>
          </string-name>
          .
          <article-title>Ssvm: A smooth support vector machine for classification</article-title>
          .
          <source>Computational optimization and Applications</source>
          ,
          <volume>20</volume>
          (
          <issue>1</issue>
          ):
          <fpage>5</fpage>
          -
          <lpage>22</lpage>
          ,
          <year>2001</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref6">
        <mixed-citation>
          [6]
          <string-name>
            <given-names>M. I.</given-names>
            <surname>Lopez</surname>
          </string-name>
          ,
          <string-name>
            <given-names>J.</given-names>
            <surname>Luna</surname>
          </string-name>
          ,
          <string-name>
            <given-names>C.</given-names>
            <surname>Romero</surname>
          </string-name>
          , and
          <string-name>
            <given-names>S.</given-names>
            <surname>Ventura</surname>
          </string-name>
          .
          <article-title>Classification via clustering for predicting final marks based on student participation in forums</article-title>
          .
          <source>International Educational Data Mining Society</source>
          ,
          <year>2012</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref7">
        <mixed-citation>
          [7]
          <string-name>
            <given-names>J. C.</given-names>
            <surname>Platt</surname>
          </string-name>
          .
          <article-title>fast training of support vector machines using sequential minimal optimization</article-title>
          .
          <source>Advances in kernel methods</source>
          , pages
          <fpage>185</fpage>
          -
          <lpage>208</lpage>
          ,
          <year>1999</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref8">
        <mixed-citation>
          [8]
          <string-name>
            <given-names>V.</given-names>
            <surname>Ramesh</surname>
          </string-name>
          ,
          <string-name>
            <given-names>P.</given-names>
            <surname>Parkavi</surname>
          </string-name>
          , and
          <string-name>
            <given-names>K.</given-names>
            <surname>Ramar</surname>
          </string-name>
          .
          <article-title>Predicting student performance: a statistical and data mining approach</article-title>
          .
          <source>International journal of computer applications</source>
          ,
          <volume>63</volume>
          (
          <issue>8</issue>
          ),
          <year>2013</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref9">
        <mixed-citation>
          [9]
          <string-name>
            <given-names>C.</given-names>
            <surname>Romero</surname>
          </string-name>
          , M.-I. Lo´pez, J.
          <string-name>
            <surname>-M. Luna</surname>
            , and
            <given-names>S.</given-names>
          </string-name>
          <string-name>
            <surname>Ventura</surname>
          </string-name>
          .
          <article-title>Predicting students' final performance from participation in on-line discussion forums</article-title>
          .
          <source>Computers &amp; Education</source>
          ,
          <volume>68</volume>
          :
          <fpage>458</fpage>
          -
          <lpage>472</lpage>
          ,
          <year>2013</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref10">
        <mixed-citation>
          [10]
          <string-name>
            <given-names>S.</given-names>
            <surname>Sembiring</surname>
          </string-name>
          ,
          <string-name>
            <given-names>M.</given-names>
            <surname>Zarlis</surname>
          </string-name>
          ,
          <string-name>
            <given-names>D.</given-names>
            <surname>Hartama</surname>
          </string-name>
          , and
          <string-name>
            <given-names>E.</given-names>
            <surname>Wani</surname>
          </string-name>
          .
          <article-title>Prediction of student academic performance by an application of data mining techniques</article-title>
          .
          <source>International Proceedings of Economics Development &amp; Research</source>
          ,
          <volume>6</volume>
          :
          <fpage>110</fpage>
          -
          <lpage>114</lpage>
          ,
          <year>2011</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref11">
        <mixed-citation>
          [11]
          <string-name>
            <given-names>A. J.</given-names>
            <surname>Smola</surname>
          </string-name>
          and
          <string-name>
            <given-names>B.</given-names>
            <surname>Scho</surname>
          </string-name>
          <article-title>¨lkopf. A tutorial on support vector regression</article-title>
          .
          <source>Statistics and Computing</source>
          ,
          <volume>14</volume>
          (
          <issue>3</issue>
          ):
          <fpage>199</fpage>
          -
          <lpage>222</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref12">
        <mixed-citation>
          [12]
          <string-name>
            <given-names>C. R.</given-names>
            <surname>Souza</surname>
          </string-name>
          .
          <article-title>The Accord</article-title>
          .NET Framework. http://accord-framework.net/,
          <year>2014</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref13">
        <mixed-citation>
          [13]
          <string-name>
            <given-names>P.</given-names>
            <surname>Strecht</surname>
          </string-name>
          ,
          <string-name>
            <given-names>L.</given-names>
            <surname>Cruz</surname>
          </string-name>
          ,
          <string-name>
            <given-names>C.</given-names>
            <surname>Soares</surname>
          </string-name>
          ,
          <string-name>
            <given-names>J.</given-names>
            <surname>Mendes-Moreira</surname>
          </string-name>
          ,
          <article-title>and</article-title>
          <string-name>
            <given-names>R.</given-names>
            <surname>Abreu</surname>
          </string-name>
          .
          <article-title>A comparative study of classification and regression algorithms for modelling students' academic performance</article-title>
          .
          <source>In 8th Conference on Educational Data Mining (EDM2015)</source>
          ,
          <year>2015</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref14">
        <mixed-citation>
          [14]
          <string-name>
            <given-names>A.</given-names>
            <surname>Tekin</surname>
          </string-name>
          .
          <article-title>Early prediction of students' grade point averages at graduation: a data mining approach</article-title>
          .
          <source>Eurasian Journal of Educational Research</source>
          , (
          <volume>54</volume>
          ):
          <fpage>207</fpage>
          -
          <lpage>226</lpage>
          ,
          <year>2014</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref15">
        <mixed-citation>
          [15]
          <string-name>
            <given-names>N.</given-names>
            <surname>Thai-Nghe</surname>
          </string-name>
          ,
          <string-name>
            <given-names>A.</given-names>
            <surname>Busche</surname>
          </string-name>
          , and L.
          <string-name>
            <surname>Schmidt-Thieme</surname>
          </string-name>
          .
          <article-title>Improving academic performance prediction by dealing with class imbalance</article-title>
          .
          <source>In Intelligent Systems Design and Applications</source>
          ,
          <year>2009</year>
          . ISDA'
          <volume>09</volume>
          . Ninth International Conference on, pages
          <fpage>878</fpage>
          -
          <lpage>883</lpage>
          . IEEE,
          <year>2009</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref16">
        <mixed-citation>
          [16]
          <string-name>
            <given-names>K.</given-names>
            <surname>Watkins</surname>
          </string-name>
          .
          <article-title>An improved recommendation models on grade point average prediction and postgraduate identification using data mining</article-title>
          .
          <source>In Advances in Neural Networks, Fuzzy Systems and Artificial Intelligence</source>
          , pages
          <fpage>186</fpage>
          -
          <lpage>194</lpage>
          . WSEAS Press, May
          <year>2014</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref17">
        <mixed-citation>
          [17]
          <string-name>
            <given-names>A.</given-names>
            <surname>Webb</surname>
          </string-name>
          and
          <string-name>
            <given-names>K.</given-names>
            <surname>Copsey</surname>
          </string-name>
          . Statistical Pattern Recognition. Wiley,
          <year>2011</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref18">
        <mixed-citation>
          [18]
          <string-name>
            <surname>C. wei Hsu</surname>
            ,
            <given-names>C.</given-names>
          </string-name>
          chung
          <string-name>
            <surname>Chang</surname>
          </string-name>
          , and C. jen
          <string-name>
            <surname>Lin</surname>
          </string-name>
          .
          <article-title>A practical guide to support vector classification</article-title>
          . https://www.csie.ntu.edu.tw/~cjlin/papers/ guide/guide.pdf,
          <year>2010</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref19">
        <mixed-citation>
          [19]
          <string-name>
            <given-names>W.</given-names>
            <surname>Zhang</surname>
          </string-name>
          , S. Zhang, and
          <string-name>
            <surname>S. Zhang.</surname>
          </string-name>
          <article-title>Predicting the graduation thesis grade using svm</article-title>
          .
          <source>International Journal of Intelligent Information Processing</source>
          ,
          <volume>5</volume>
          (
          <issue>3</issue>
          ):
          <fpage>60</fpage>
          ,
          <year>2015</year>
          .
        </mixed-citation>
      </ref>
    </ref-list>
  </back>
</article>