Categories and Subject Descriptors

Anwendung der Regressions-SVM zur Vorhersage studentischer Leistungen

Alexander Askinadze Institut für Informatik

alexander.askinadze@hhu.de 0 0 Heinrich-Heine-Universität Düsseldorf Universitätsstr. 1 40225 Düsseldorf , Deutschland

2016

15 20

Um als Bildungsanbieter bei gefa¨hrdeten Studenten rechtszeitig intervenierend eingreifen zu ko¨nnen, sind Verfahren zur Vorhersage studentischer Leistungen notwendig. Viele Arbeiten haben den Einsatz des SVM-Klassifikators vorgeschlagen. Allerdings wurden unzureichende Angaben zur Wahl eines geeigneten Kernel gegeben. Außerdem kann der SVM-Klassifikator bei fehlenden Trainingsdaten zu allen mo¨glichen Noten nicht erfolgreich trainiert werden. Zur Lo¨sung dieser Probleme untersuchen wir die Regressions-SVM mit verschiedenen geeigneten Kernel. Dabei erreichen wir mit dem RBF-Kernel und einer σ-Parameter Heuristik auf einem o¨ffentlichen Datensatz eines Mathematikkurses bessere Ergebnisse als in [3] mit einer SVM erreicht wurden. Fu¨r den Fall, dass zusa¨tzlich zu den privaten Daten der Studenten auch vorherige Noten bekannt waren, konnte die Vorhersage von ”bestanden oder nicht bestanden” mit einer Genauigkeit von 90.57% erreicht werden. Das ermo¨glicht eine praktische Anwendbarkeit der Regressions-SVM zur Erkennung gefa¨hrdeter Studenten.

Categories and Subject Descriptors

K.3.1 [Computers and Education]: Computer Uses in Education; H.2.8 [Database Applications]: Data Mining Education data mining, learning analytics, student performance prediction, support vector machines, regression, kernel

EINFÜHRUNG

Die Leistungen von Studenten sind ein wichtiger Faktor fu¨r Bildungseinrichtungen. Mit Hilfe der erreichten Noten der Schu¨ler und Studenten wird entschieden, ob ein Fach oder gar eine Abschlussarbeit bestanden wurde. Da die Noten einen Einfluss auf das erfolgreiche Absolvieren der Schule

Aufkommende Disziplin, die sich mit der Entwicklung von Methoden zur Erforschung der Daten aus Bildungsumgebungen befasst und diese Methoden einsetzt, um Studenten und ihre Lernumgebungen besser zu verstehen.

Einer der beliebtesten Algorithmen aus dem Bereich Data Mining ist die Support Vector Machine (SVM). Dieser Klassifikator la¨sst sich auch fu¨r Multiklassen-Probleme, wie sie bei der Noten-Vorhersage gegeben sind, verwenden. Wird jede mo¨gliche Note als Klasse betrachtet, so beno¨tigt die SVM fu¨r jede Klasse Trainingsdaten. Bei kleinen Trainingsmengen mit einer großen Anzahl an mo¨glichen Noten (beispielsweise bei einer Notenskala von 1-20) kann es vorkommen, dass es zu einigen Noten keine Trainingsdaten gibt, sodass die SVM mit den u¨blichen Multiklassen-Ansa¨tzen one-vs-one oder one-vs-all nicht trainiert werden kann. Hierfu¨r eignet sich der Einsatz einer Regressions-SVM, welche auch ohne Existenz aller no¨tigen Trainingsdaten in der Lage ist alle Notenstufen zu approximieren.

Im Kapitel 2 werden verschiedene Arbeiten vorgestellt, welche die SVM zur Vorhersage von studentischen Leistungen eingesetzt haben. Die Ergebnisse zeigen, dass die SVM sich gut fu¨r diese Aufgabe eignet. Im Kapitel 3 werden die theoretischen Hintergru¨nde von SVM und SVM-Kernel, sowie die fu¨r weitere Versuche notwendige Regressions-SVM vorgestellt. Das Kapitel 4 stellt den in der Evaluation verwendeten Datensatz mit allen Attributen vor. Im Kapitel 5 werden die untersuchten Klassifikations- und Regressionsprobleme erla¨utert und die verwendeten Evaluationsmaße dargestellt. Im Kapitel 6 wird auf einer o¨ffentlichen Da1http://www.educationaldatamining.org/ tenbank [ 3 ] mit privaten Attributen, Zwischennoten und Abschlussnoten von portugiesischen Schu¨lern untersucht, wie mit geeigneten SVM-Kernel und geeigneter KernelParameter-Auswahl bessere SVM-Ergebnisse als in [ 3 ] erreicht werden ko¨nnen. Schließlich wird im Kapitel 7 ein Fazit gezogen.

RELATED WORK

Es gibt bereits viele Arbeiten, die verschiedene Klassifikatoren wie Decision Tree (DT), Random Forest (RF), kNN, Neuronale Netze (NN) und SVM zur Vorhersage studentischer Leistungen verwendet haben. In diesem Kapitel untersuchen wir eine Auswahl der Arbeiten zur Vorhersage von studentischen Leistungen, welche die SVM verwendet oder diese mit anderen Klassifikatoren verglichen haben [ 1, 3, 6, 8, 9, 10, 13, 14, 15, 16, 19 ]. Eine Zusammenfassung der Arbeiten ist in Tabelle 1 dargestellt. Die Klassifikationsergebnisse der untersuchten Arbeiten sind schwer miteinander zu vergleichen, da diese auf unterschiedlichen und nicht standardisierten Datensa¨tzen mit verschiedenen Eigenschaften durchgefu¨hrt wurden.

Die Arbeiten [ 6, 9 ] nutzen die SVM, um aus Daten zur studentischen Forum-nutzung die Abschlussnoten vorhersagen zu ko¨nnen. In beiden Arbeiten lieferten die SVM-Ergebnisse im Vergleich zu anderen Klassifikatoren gute Ergebnisse, wobei in beiden Arbeiten nicht erwa¨hnt wird, welcher SVMKernel und welche entsprechenden Parameter verwendet wurden.

In der Arbeit [ 10 ] wurde eine spezielle SVM-Variante, die SSVM [ 5 ] zur Vorhersage der studentischen Leistungen eingesetzt. Die SVM hat hier gute Ergebnisse zur Vorhersage von Studenten mit sehr guten und Studenten mit sehr schlechten Leistungen geliefert (u¨ber 90% Genauigkeit). Als SVM-Kernel wurde der RBF-Kernel mit zwei festen Parametern trainiert, wobei nicht erla¨utert wird, wie die Parameter des RBF-Kernels ausgewa¨hlt wurden.

Die Arbeit [ 1 ] untersucht ebenfalls die SVM zur Vorhersage studentischer Leistungen. Zwar hat die SVM im Vergleich die besten Ergebnisse, jedoch wird von den Autoren der Einsatz von Entscheidungsba¨umen empfohlen. Dies wird damit begru¨ndet, dass die Entscheidungsba¨ume nicht signifikant schlechtere Ergebnisse liefern und gleichzeitig besser versta¨ndlich sind. Hier wird keine Angabe zur Wahl des SVM Kernels gegeben.

In der Arbeit [ 16 ] hat die SVM im Vergleich zu einem Entscheidungsbaum- und einem NN-Klassifikator ebenfalls die besten Ergebnisse zur Vorhersage des Notendurchschnitts geliefert. Auch hier wurden keine Angaben zur Wahl des Kernels und der entsprechender Parameter gemacht.

In [ 19 ] wird der Einsatz der SVM zur Vorhersage der Abschlussarbeitsnote verwendet. Die SVM wird hier mit neuronalen Netzen, Entscheidungsba¨umen und Naive Bayes verglichen und liefert die besten Ergebnisse. Auch in dieser Arbeit wird nichts zur Wahl des SVM-Kernels angegeben.

Die Arbeit [ 13 ] hat verschiedene Klassifikatoren wie kNN, Entscheidungsba¨ume und SVM zur Vorhersage von studentischen Leistungen verglichen. Hierbei hat die SVM sowohl das Problem ”bestehen oder durchfallen“, als auch fu¨r die Regression der Noten vergleichsweise die besten Ergebnisse geliefert. In dieser Arbeit wird ebenfalls nicht na¨her auf den eingesetzten SVM-Kernel eingegangen.

In [ 15 ] wurde untersucht, wie sich bei der Vorhersage der Leistungen, im Fall eines Klassenungleichgewichts (z. B. gibt es mehr Studenten, die durchfallen, als Studenten, die bestehen) verbessern la¨sst. Die SVM hat hierbei in Kombination mit den vorgestellten Methoden zur Lo¨sung des Klassenungleichgewichts vergleichsweise gute Ergebnisse geliefert. Als SVM-Kernel wurde der Polynom- und der RBF-Kernel verwendet. Zur Parameterwahl der Kernel wurde die grid search verwendet.

In [ 14 ] werden die Klassifikatoren SVM, NN, ELM (extreme learning machine) zur Vorhersage der Durchschnittsnote verglichen. Der Autor zeigt, dass mit der SVM die besten Werte erreicht werden. Es wurde der RBF-Kernel mit einer grid search zur Auswahl der Kernel-Parameter verwendet.

Anders als bei den oben genannten Arbeiten kommen die Autoren in [ 8 ] zu dem Ergebnis, dass der MLP-Klassifikator (Mult-Layer-Perceptron) im Vergleich zur SVM bessere Ergebnisse zur Vorhersage der studentischen Leistungen liefert.

Auch hier wird nicht erla¨utert, welcher SVM-Kernel verwendet wurde.

Die Arbeit [ 3 ] untersucht den Einsatz von DT, NN, RF und SVM zur Vorhersage von gefa¨hrdeten Studenten und der Vorhersage von Notenstufen. Die Autoren kommen dabei zum Ergebnis, dass die Entscheidungsbaum-Klassifikatoren bessere Ergebnisse liefern als die SVM. Als SVM-Kernel wird der RBF-Kernel mit einer grid search zur Auswahl der Parameter verwendet.

Der Tabelle 1 ko¨nnen wir entnehmen, dass die SVM in vielen Arbeiten erfolgreich eingesetzt wurde und die Wahl der SVM-Kernel oder die Wahl der zugeho¨rigen KernelParameter oftmals nicht angegeben wird. Die Unklarheit u¨ber die Wahl geeigneter Kernel und das Problem, dass es keine Trainingsdaten zu einigen Noten geben ko¨nnte, motiviert die Untersuchung der Regressions-SVM und zugeho¨riger geeigneter Kernel zur Vorhersage der studentischen Leistungen. 3. SVM

In diesem Kapitel werden wir die theoretischen Hintergru¨nde von Regressions-SVM und Kernel beleuchten, da diese die zentralen Aspekte dieser Publikation darstellen.

Die SVM [ 2 ] ist ein bina¨rer Klassifikator f : Rn → {−1, +1}, der fu¨r zwei linear trennbare Punktmengen eine Trenn-Hyperebene findet.

Die Klassifikation eines neues Punktes x∗ auf eine der beiden Klassen {+1, −1} kann mit Hilfe einer gefundenen Hyperebene in Rn mit dem Vektor w ∈ Rn und b ∈ R folgenderweise ausgedru¨ckt werden: f (x∗) = signum(wT x∗ − b) = (+1, wenn wT x∗ > b −1, wenn wT x∗ < b

(1) Die Trainingsmenge der SVM sei mit {(x1, y1), ..., (xL, yL)|xi ∈ Rn, yi ∈ {−1, +1}} angegeben, wobei xi die Trainingspunkte und yi die zugeho¨rigen Klassen sind. Um die Hyperebene zu finden, muss fu¨r die L Trainingstupel das folgende Optimierungsproblem gelo¨st werden [ 17 ]:

u.d.N. yi(wT xi − b) − 1 ≥ 0 ∀i ∈ {1, .., L} Dieses ”Quadratic Programming” (QP)-Problem la¨sst sich in ein a¨quivalentes Problem mit linearen Nebenbedingungen min ||w||2 2 (2) Tabelle 1: U¨ bersicht u¨ber bisherige Publikationen zur Vorhersage von studentischen Leistungen mit SVM Publikation Jahr Vorhersage von Daten dSeVn Mbe-sEtregnebEnrgisesbenuisnsteenr? Kernel paKrearmneetl-er [ 19 ]

Das Skalarprodukt φ(x∗)T φ(xi) in Gleichung 5 kann von einer Kernelfunktion ersetzt werden:

K(x, y) = φ(x)T φ(y) Auf diese Weise muss φ(x) nicht explizit ausgerechnet werden. Dies wird Kerneltrick genannt. Die Klassifikationsregel ergibt sich damit zu: f (x∗) = signum

L X αiyiK(x∗, xi) − b i=1

! = (+1, wenn PiL=1 αiyiK(x∗, xi) > b −1, wenn PL

i=1 αiyiK(x∗, xi) < b Es gibt sehr viele verschiedene Kernel. Einige bekannte Exemplare, die wir in Kapitel 6 untersuchen werden, sind: • RBF-Kernel: • χ2-Kernel: • Histogrammschnitt (HS)-Kernel:

1 K(x, y) = exp(− 2σ ||x − y||2) K(x, y) = 1 − n X (xi − yi)2 i=1 21 (xi + yi) n K(x, y) = X min(xi, yi) i=1 (6) (7) (8) (9) (10) 3.3

Regressions-SVM

Die SVM kann nicht nur zur Lo¨sung von Klassifikationsproblemen, sondern auch zur Regression eingesetzt werden. Mit Hilfe der Regression-SVM erhalten wir also keine Trennebene, sondern eine Hyperebene, die unsere Daten mo¨glichst gut beschreibt. Der Algorithmus bleibt dabei seiner Abbildung 1: Kernel-Vergleich zur SVM-Regression Ursprungsform a¨hnlich. In [ 11 ] wird die Idee fu¨r diese Vorgehensweise beschrieben.

Sei {(x1, y1), ..., (xl, ydl)}bei⊂spielsweise ein d-dimensionaler X × R die Trainingsmenge, wobei ein xi ∈ X ⊂ R numerischer Vektor ist, der die studentischen Attribute beschreibt und yi die zugeho¨rige Abschlussnote.

Wir suchen eine Funktion f , die mo¨glichst gut unsere Trainingsmenge approximiert, d.h. bis auf kleine Fehler soll f (xi) = yi gelten. Um die Regressionsgerade f (x) = wT x+b mit w ∈ Rd und b ∈ R fu¨r unsere Trainingsmenge zu erhalten, muss das folgende Optimierungsproblem gelo¨st werden: min ||w||2 2 ( u.d.N yi − f (xi) ≤ f (xi) − yi ≤ (11)

Fu¨r das Optimierungsproblem in (11) wird angenommen, dass eine solche Funktion f existiert, welche alle Punktepaare unserer Trainingsmenge mit einer Genauigkeit approximiert. In der Regel ist es nicht der Fall, sodass auch hier mit Kernel und sogenannten Schlupfvariablen ξ gearbeitet wird.

In der Abbildung 1 ist die Regression mit der Auswahl einiger Kernel auf einer Datenmenge mit zweidimensionalen Punkten visualisiert. Die Punkte sind zufa¨llig aus einer Sinus-a¨hnlichen Funktion mit hinzugefu¨gter Streuung entnommen. Wir ko¨nnen bereits hier sehen, wie sich die Wahl eines geeigneten Kernel auf die Gu¨te der Regression auswirkt. Mit dem RBF-Kernel ko¨nnen die Daten hier viel besser approximiert werden, als mit dem Polynom-Kernel.

DATENSATZ

In dieser Arbeit wird der Datensatz aus [ 3 ] verwendet. Es handelt sich um die Daten einer portugiesischen Schule mit 395 Schu¨lerdaten einer Mathematik-Klasse. Die gesammelten Daten umfassen folgende Attribute: • student’s age (numeric: from 15 to 22), student’s school (binary: Gabriel Pereira or Mousinho da Silveira), student’s home address type (binary: urban or rural), parent’s cohabitation status (binary: living together or apart), mother’s education (numeric: from 0 to 4), mother’s job (nominal), father’s education (numeric: from 0 to 4), father’s job (nominal), student’s guardian (nominal: mother, father or other), family size (binary: ≤ 3 or > 3), quality of family relationships (numeric: from 1 – very bad to 5 – excellent), reason to choose this school (nominal: close to home, school reputation, course preference or other), home to school travel time (numeric: 1 – < 15 min., 2 – 15 to 30 min., 3 – 30 min. to 1 hour or 4 – > 1 hour), weekly study time (numeric: 1 – < 2 hours, 2 – 2 to 5 hours, 3 – 5 to 10 hours or 4 – > 10 hours), number of past class failures (numeric: n if 1 ≤ n < 3, else 4), extra educational school support (binary: yes or no), family educational support (binary: yes or no), extra-curricular activities (binary: yes or no), extra paid classes (binary: yes or no), Internet access at home (binary: yes or no), attended nursery school (binary: yes or no), wants to take higher education (binary: yes or no), with a romantic relationship (binary: yes or no), free time after school (numeric: from 1 – very low to 5 – very high), going out with friends (numeric: from 1 – very low to 5 – very high), weekend alcohol consumption (numeric: from 1 – very low to 5 – very high), workday alcohol consumption (numeric: from 1 – very low to 5 – very high), current health status (numeric: from 1 – very bad to 5 – very good), number of school absences (numeric: from 0 to 93) • G1: first period grade (numeric: from 0 to 20) • G2: second period grade (numeric: from 0 to 20) • G3: final grade (numeric: from 0 to 20) Die Notenskala hat insgesamt 21 Stufen, 0 ist die schlechteste und 20 die beste Note. 5.

EVALUATIONS-FRAMEWORK

Als Evaluationsmaße werden wie in [ 3 ] die Genauigkeit PCC und die Wurzel der mittleren quadratischen Abweichung RMSE (Root Mean Square Error) verwendet. Sei yˆi die Vorhersage fu¨r das i-te Test-Exemplar und yi die tatsa¨chliche Note, dann sind die Maße folgenderweise definiert: Φ(i) = (1, wenn yi = yˆi

0, wenn i=1

N P CC = X Φ(i) × 100(%)

N uv N RM SE = tuX (yi − yˆi)2

N i=1 (12) Um aussagekra¨ftigere Ergebnisse zu erhalten und um die Ergebnisse mit [ 3 ] vergleichen zu ko¨nnen, wird eine 10-fache Kreuzvalidierung angewandt. Das bedeutet, der Datensatz wird zufa¨llig auf 10 mo¨glichst gleich große Teile aufgeteilt. Jede der 10 Teilmengen wird einmal als Testmenge und die restlichen 9 Teilmengen als Trainingsmenge verwendet. Dieser Prozess wird insgesamt 20 Mal wiederholt, sodass das Endergebnis fu¨r jeden einzelnen Versuch ein Mittelwert aus insgesamt 200 Durchla¨ufen ist.

Fu¨r die Implementierung der Regressions-SVM wird das Accord.NET Framework [ 12 ] verwendet.

Die Studentenvektoren werden normiert, wie in [ 18 ] empfohlen. Fu¨r den Vektor xi = (xi1, .., xin, yi) mit yi = G3 xi1 wird folgende Normierung durchgefu¨hrt: xˆi1 =

EVALUATION

Um die Ergebnisse mo¨glichst gut mit [ 3 ] zu vergleichen, werden gleiche Evaluationsbedingungen verwendet. Es werden drei verschiedene Probleme betrachtet: 1. Bina¨re Klassifikation - bestanden, falls G3 ≥ 10, sonst

durchgefallen 2. 5-Level Klassifikation - (basierend auf dem Erasmus

Noten-Umwandlungs-System wird die Notenskala auf 5 Level aufgeteilt) 3. Genaue Vorhersage - numerische Ausgabe des G3

Wertes Zusa¨tzlich werden wir die folgenden 3 Fa¨lle unterscheiden: 1. A: Alle Features werden verwendet 2. B: Alle Features außer G2 werden verwendet 3. C: Alle Feautures außer G1 und G2 werden verwendet Als Erstes untersuchen wir den Einfluss der σ-Wahl fu¨r den RBF-Kernel und der Regressions-SVM. Wir verwenden die σ-Heuristik aus [ 4 ] σ = median({dist(u, v)|u 6= v}) und vergleichen diese mit einer naiven Wahl σ = 1 und den SVMRBF-Ergebnissen aus [ 3 ]. Diese Evaluation fu¨hren wir zuna¨chst fu¨r den Fall A (alle Features) aus.

σ = 1 des RBF-Kernels erkennen. Insbesondere bringt die verwendete σ-Heuristik fu¨r das bina¨re Klassifikationsproblem mit einer Genauigkeit von 90.57% eine Verbesserung gegenu¨ber der σ-Wahl aus [ 3 ] mit 86.3%. Auch fu¨r das 5-Level Problem ist eine Verbesserung um etwa 10% gegeben. Beim Problem der genauen Vorhersage kann der RMSE Wert gegenu¨ber [ 3 ] leicht verbessert werden. Die naive Wahl σ = 1 wie sie als Standard-Parameter im Accord.NET Framework fu¨r den RBF-Kernel gegeben ist, liefert beim bina¨ren Problem eine deutlich schlechtere Genauigkeit von 69.79% und ist damit um mehr als 20% schlechter. Beim 5-Level Problem liefert die naive Wahl gegenu¨ber der σ-Heuristik sogar eine um etwa 40% schlechtere Genauigkeit. Beim Problem der genauen Vorhersage liefert die naive σ-Wahl einen mehr als doppelt so großen RMSE-Wert und ist damit deutlich schlechter als die σ-Heuristik.

Da die naive Wahl σ = 1 offensichtlich keine guten Ergebnisse liefert, vergleichen wir in den na¨chsten Versuchen nur die σ-Heuristik und die σ-Wahl von [ 3 ] auf den Fa¨llen B (alle Features außer G2) und C (alle Features außer G1 und G2) fu¨r das bina¨re und das 5-Level Problem miteinander. Die Ergebnisse sind in Abbildung 4 visualisiert. In Fall B (alle Features außer G3) liefert die σ-Heuristik fu¨r das bina¨re Klassifkations-Problem mit 84.64% eine um etwa 4% bessere Genauigkeit. Fu¨r das 5-Level Problem liefert die σ-Heuristik mit 58.23% eine um mehr als 10% bessere Genauigkeit. Im Fall C (alle Features außer G1 und G2) werden die Werte bereits schlechter. Die σ-Heuristik eignet sich somit bei dem bina¨ren und dem 5-Level Problem ausschließlich fu¨r die Fa¨lle A und B.

C C P 100 80 60 40 20 bina¨r (B)

bina¨r (C) 5-Level (B) 5-Level (C) Abbildung 4: Vergleich der σ-Auswahl fu¨r das bin¨are und das 5-Level Problem (B: alle Features außer G2, C: alle Features außer G1 und G2)

Die Fa¨lle B und C vergleichen wir auch fu¨r die genaue Vorhersage der Note G3. Die Ergebnisse sind in Abbildung 5 visualisiert. Im Fall B ist die σ-Heuristik noch etwas besser und im Fall C sind die Ergebnisse identisch.

Zusa¨tzlich wollen wir den RBF-Kernel mit dem χ2-Kernel und dem Histogrammschnitt-Kernel vergleichen. Die Ergebnisse dieser beiden Kernel sind in Tabelle 6 abgebildet. Wir sehen, dass sich die Werte nicht signifikant von den Ergebnissen des RBF-Kernels mit der σ-Heuristik unterscheiden.

Diese beiden Kernel sind also ebenso einsetzbar, wenn ein Kernel verwendet werden soll, der keine zusa¨tzlichen Parameterangaben braucht. bina¨r (A)

5-Level (A) Abbildung 2: Vergleich der σ-Auswahl fu¨r das bin¨are und das 5-Level Problem (A: Alle Features verwendet) σ = 1 Fall A χ2 HS 90% 90% bin¨are Vorhersage

Fall B χ2 HS 85% 85%

Fall C χ2 HS 67% 70%

Fall A χ2 HS 68% 69%

Tabelle 2: Ergebnisse des χ2-Kernel und des Histogrammschnitt-Kernel (HS)

2.74 B genaue Vorhersage

C Abbildung 5: Vergleich der σ-Auswahl fu¨r die genaue Vorhersage von G3 (B: alle Features außer G2, C: alle Features außer G1 und G2)

FAZIT

Wir haben in dieser Arbeit die Anwendung der Regressions-SVM zur Vorhersage studentischer Leistungen mit unterschiedlichen Kernel untersucht. Eine RegressionsSVM ermo¨glicht das Training auch, wenn aufgrund weniger Trainingsdaten z. B nicht alle Noten abgedeckt sind. Die Evaluation wurde auf den Schu¨lerdaten eines Mathematikkurses durchgefu¨hrt. Mit dem Einsatz einer σ-Heuristik fu¨r den RBF-Kernel konnten die Ergebnisse einer fru¨heren Arbeit auf diesen Daten verbessert werden. Fu¨r den Fall, dass zusa¨tzlich zu den privaten Daten auch vorherige Noten bekannt waren, konnte die Vorhersage von ”bestanden oder nicht bestanden“ mit einer Genauigkeit von 90.57% erreicht werden, was eine praktische Anwendbarkeit ermo¨glicht. Bei einer Unterteilung der 21 mo¨glichen Noten in 5 Notenstufen konnte die richtige Notestufe mit einer Genauigkeit von 69.3% bestimmt werden. Waren weniger vorherige Noten bekannt, so war die erreichte Genauigkeit kleiner. Wir haben zusa¨tzlich den χ2- und HS-Kernel untersucht. Mit a¨hnlich guten Ergebnissen eignen sich diese ebenfalls.

[1]

Acharya and

Sinha . Early prediction of students performance using machine learning techniques . International Journal of Computer Applications , 107 ( 1 ), 2014 .

[2]

Cortes and

Vapnik . Support-Vector Networks . Machine Learning , 20 ( 3 ): 273 - 297 , 1995 .

[3]

Cortez and

A. M. G.

Silva . Using data mining to predict secondary school student performance . 2008 .

[4]

T. S.

Jaakkola ,

Diekhans , and

Haussler . Using the fisher kernel method to detect remote protein homologies . In ISMB , volume 99 , pages 149 - 158 , 1999 .

[5]

Y.-J.

Lee and

O. L.

Mangasarian . Ssvm: A smooth support vector machine for classification . Computational optimization and Applications , 20 ( 1 ): 5 - 22 , 2001 .

[6]

M. I.

Lopez ,

Luna ,

Romero , and

Ventura . Classification via clustering for predicting final marks based on student participation in forums . International Educational Data Mining Society , 2012 .

[7]

J. C.

Platt . fast training of support vector machines using sequential minimal optimization . Advances in kernel methods , pages 185 - 208 , 1999 .

[8]

Ramesh ,

Parkavi , and

Ramar . Predicting student performance: a statistical and data mining approach . International journal of computer applications , 63 ( 8 ), 2013 .

[9]

Romero , M.-I. Lo´pez, J. -M. Luna , and S. Ventura . Predicting students' final performance from participation in on-line discussion forums . Computers & Education , 68 : 458 - 472 , 2013 .

[10]

Sembiring ,

Zarlis ,

Hartama , and

Wani . Prediction of student academic performance by an application of data mining techniques . International Proceedings of Economics Development & Research , 6 : 110 - 114 , 2011 .

[11]

A. J.

Smola and

Scho ¨lkopf. A tutorial on support vector regression . Statistics and Computing , 14 ( 3 ): 199 - 222 .

[12]

C. R.

Souza . The Accord .NET Framework. http://accord-framework.net/, 2014 .

[13]

Strecht ,

Cruz ,

Soares ,

Mendes-Moreira , and

Abreu . A comparative study of classification and regression algorithms for modelling students' academic performance . In 8th Conference on Educational Data Mining (EDM2015) , 2015 .

[14]

Tekin . Early prediction of students' grade point averages at graduation: a data mining approach . Eurasian Journal of Educational Research , ( 54 ): 207 - 226 , 2014 .

[15]

Thai-Nghe ,

Busche , and L. Schmidt-Thieme . Improving academic performance prediction by dealing with class imbalance . In Intelligent Systems Design and Applications , 2009 . ISDA' 09 . Ninth International Conference on, pages 878 - 883 . IEEE, 2009 .

[16]

Watkins . An improved recommendation models on grade point average prediction and postgraduate identification using data mining . In Advances in Neural Networks, Fuzzy Systems and Artificial Intelligence , pages 186 - 194 . WSEAS Press, May 2014 .

[17]

Webb and

Copsey . Statistical Pattern Recognition. Wiley, 2011 .

[18] C. wei Hsu , C. chung Chang , and C. jen Lin . A practical guide to support vector classification . https://www.csie.ntu.edu.tw/~cjlin/papers/ guide/guide.pdf, 2010 .

[19]

Zhang , S. Zhang, and S. Zhang. Predicting the graduation thesis grade using svm . International Journal of Intelligent Information Processing , 5 ( 3 ): 60 , 2015 .