Anwendung der Regressions-SVM zur Vorhersage studentischer Leistungen Alexander Askinadze Institut für Informatik Heinrich-Heine-Universität Düsseldorf Universitätsstr. 1 40225 Düsseldorf, Deutschland alexander.askinadze@hhu.de ABSTRACT oder des Studiums haben, haben die Bildungseinrichtungen Um als Bildungsanbieter bei gefährdeten Studenten rechts- unter anderem aus Vergleichszwecken und finanziellen Grün- zeitig intervenierend eingreifen zu können, sind Verfahren den Interesse daran, möglichst viele Lernende zu einem er- zur Vorhersage studentischer Leistungen notwendig. Viele folgreichen Abschluss zu führen. Eine automatische Vorher- Arbeiten haben den Einsatz des SVM-Klassifikators vor- sage über die Leistungen der einzelnen Studenten kann daher geschlagen. Allerdings wurden unzureichende Angaben zur helfen, rechtzeitig bei gefährdeten Studenten einzugreifen. Wahl eines geeigneten Kernel gegeben. Außerdem kann der Die Vorhersage der studentischen Leistungen ist eines der SVM-Klassifikator bei fehlenden Trainingsdaten zu allen beliebtesten Themen innerhalb des junges Forschungsgebie- möglichen Noten nicht erfolgreich trainiert werden. Zur Lö- tes Education Data Mining” (EDM). Bei dem Begriff Data ” ” sung dieser Probleme untersuchen wir die Regressions-SVM Mining“ handelt es sich grob um eine Disziplin, die sich mit mit verschiedenen geeigneten Kernel. Dabei erreichen wir der Extraktion von impliziten Mustern aus großen Datenbe- mit dem RBF-Kernel und einer σ-Parameter Heuristik auf ständen beschäftigt. Hierbei werden statistische Verfahren einem öffentlichen Datensatz eines Mathematikkurses besse- und Algorithmen aus dem maschinellen Lernen verwendet. re Ergebnisse als in [3] mit einer SVM erreicht wurden. Für EDM kann laut der internationalen EDM-Gesellschaft1 so den Fall, dass zusätzlich zu den privaten Daten der Studen- definiert werden: ten auch vorherige Noten bekannt waren, konnte die Vor- Aufkommende Disziplin, die sich mit der Ent- hersage von bestanden oder nicht bestanden” mit einer Ge- wicklung von Methoden zur Erforschung der Da- ” nauigkeit von 90.57% erreicht werden. Das ermöglicht eine ten aus Bildungsumgebungen befasst und diese praktische Anwendbarkeit der Regressions-SVM zur Erken- Methoden einsetzt, um Studenten und ihre Ler- nung gefährdeter Studenten. numgebungen besser zu verstehen. Categories and Subject Descriptors Einer der beliebtesten Algorithmen aus dem Bereich Data Mining ist die Support Vector Machine (SVM). Dieser Klas- K.3.1 [Computers and Education]: Computer Uses in sifikator lässt sich auch für Multiklassen-Probleme, wie sie Education; H.2.8 [Database Applications]: Data Mining bei der Noten-Vorhersage gegeben sind, verwenden. Wird je- de mögliche Note als Klasse betrachtet, so benötigt die SVM Keywords für jede Klasse Trainingsdaten. Bei kleinen Trainingsmengen Education data mining, learning analytics, student perfor- mit einer großen Anzahl an möglichen Noten (beispielswei- mance prediction, support vector machines, regression, ker- se bei einer Notenskala von 1-20) kann es vorkommen, dass nel es zu einigen Noten keine Trainingsdaten gibt, sodass die SVM mit den üblichen Multiklassen-Ansätzen one-vs-one oder one-vs-all nicht trainiert werden kann. Hierfür eignet 1. EINFÜHRUNG sich der Einsatz einer Regressions-SVM, welche auch ohne Die Leistungen von Studenten sind ein wichtiger Faktor Existenz aller nötigen Trainingsdaten in der Lage ist alle für Bildungseinrichtungen. Mit Hilfe der erreichten Noten Notenstufen zu approximieren. der Schüler und Studenten wird entschieden, ob ein Fach Im Kapitel 2 werden verschiedene Arbeiten vorgestellt, oder gar eine Abschlussarbeit bestanden wurde. Da die No- welche die SVM zur Vorhersage von studentischen Leistun- ten einen Einfluss auf das erfolgreiche Absolvieren der Schule gen eingesetzt haben. Die Ergebnisse zeigen, dass die SVM sich gut für diese Aufgabe eignet. Im Kapitel 3 werden die theoretischen Hintergründe von SVM und SVM-Kernel, so- wie die für weitere Versuche notwendige Regressions-SVM vorgestellt. Das Kapitel 4 stellt den in der Evaluation ver- wendeten Datensatz mit allen Attributen vor. Im Kapitel 5 werden die untersuchten Klassifikations- und Regressions- probleme erläutert und die verwendeten Evaluationsmaße 28th GI-Workshop on Foundations of Databases (Grundlagen von Daten- dargestellt. Im Kapitel 6 wird auf einer öffentlichen Da- banken), 24.05.2016 - 27.05.2016, Nörten-Hardenberg, Germany. 1 Copyright is held by the author/owner(s). http://www.educationaldatamining.org/ 15 Anwendung der Regressions-SVM zur Vorhersage studentischer Leistungen tenbank [3] mit privaten Attributen, Zwischennoten und es mehr Studenten, die durchfallen, als Studenten, die beste- Abschlussnoten von portugiesischen Schülern untersucht, hen) verbessern lässt. Die SVM hat hierbei in Kombination wie mit geeigneten SVM-Kernel und geeigneter Kernel- mit den vorgestellten Methoden zur Lösung des Klassenun- Parameter-Auswahl bessere SVM-Ergebnisse als in [3] er- gleichgewichts vergleichsweise gute Ergebnisse geliefert. Als reicht werden können. Schließlich wird im Kapitel 7 ein Fazit SVM-Kernel wurde der Polynom- und der RBF-Kernel ver- gezogen. wendet. Zur Parameterwahl der Kernel wurde die grid search verwendet. 2. RELATED WORK In [14] werden die Klassifikatoren SVM, NN, ELM (extre- me learning machine) zur Vorhersage der Durchschnittsnote Es gibt bereits viele Arbeiten, die verschiedene Klassifika- verglichen. Der Autor zeigt, dass mit der SVM die besten toren wie Decision Tree (DT), Random Forest (RF), kNN, Werte erreicht werden. Es wurde der RBF-Kernel mit einer Neuronale Netze (NN) und SVM zur Vorhersage studenti- grid search zur Auswahl der Kernel-Parameter verwendet. scher Leistungen verwendet haben. In diesem Kapitel unter- Anders als bei den oben genannten Arbeiten kommen die suchen wir eine Auswahl der Arbeiten zur Vorhersage von Autoren in [8] zu dem Ergebnis, dass der MLP-Klassifikator studentischen Leistungen, welche die SVM verwendet oder (Mult-Layer-Perceptron) im Vergleich zur SVM bessere Er- diese mit anderen Klassifikatoren verglichen haben [1, 3, 6, gebnisse zur Vorhersage der studentischen Leistungen liefert. 8, 9, 10, 13, 14, 15, 16, 19]. Eine Zusammenfassung der Ar- Auch hier wird nicht erläutert, welcher SVM-Kernel verwen- beiten ist in Tabelle 1 dargestellt. Die Klassifikationsergeb- det wurde. nisse der untersuchten Arbeiten sind schwer miteinander zu Die Arbeit [3] untersucht den Einsatz von DT, NN, RF vergleichen, da diese auf unterschiedlichen und nicht stan- und SVM zur Vorhersage von gefährdeten Studenten und dardisierten Datensätzen mit verschiedenen Eigenschaften der Vorhersage von Notenstufen. Die Autoren kommen dabei durchgeführt wurden. zum Ergebnis, dass die Entscheidungsbaum-Klassifikatoren Die Arbeiten [6, 9] nutzen die SVM, um aus Daten zur stu- bessere Ergebnisse liefern als die SVM. Als SVM-Kernel dentischen Forum-nutzung die Abschlussnoten vorhersagen wird der RBF-Kernel mit einer grid search zur Auswahl der zu können. In beiden Arbeiten lieferten die SVM-Ergebnisse Parameter verwendet. im Vergleich zu anderen Klassifikatoren gute Ergebnisse, wo- Der Tabelle 1 können wir entnehmen, dass die SVM in bei in beiden Arbeiten nicht erwähnt wird, welcher SVM- vielen Arbeiten erfolgreich eingesetzt wurde und die Wahl Kernel und welche entsprechenden Parameter verwendet der SVM-Kernel oder die Wahl der zugehörigen Kernel- wurden. Parameter oftmals nicht angegeben wird. Die Unklarheit In der Arbeit [10] wurde eine spezielle SVM-Variante, die über die Wahl geeigneter Kernel und das Problem, dass es SSVM [5] zur Vorhersage der studentischen Leistungen ein- keine Trainingsdaten zu einigen Noten geben könnte, moti- gesetzt. Die SVM hat hier gute Ergebnisse zur Vorhersa- viert die Untersuchung der Regressions-SVM und zugehöri- ge von Studenten mit sehr guten und Studenten mit sehr ger geeigneter Kernel zur Vorhersage der studentischen Leis- schlechten Leistungen geliefert (über 90% Genauigkeit). Als tungen. SVM-Kernel wurde der RBF-Kernel mit zwei festen Parame- tern trainiert, wobei nicht erläutert wird, wie die Parameter des RBF-Kernels ausgewählt wurden. 3. SVM Die Arbeit [1] untersucht ebenfalls die SVM zur Vorher- In diesem Kapitel werden wir die theoretischen Hinter- sage studentischer Leistungen. Zwar hat die SVM im Ver- gründe von Regressions-SVM und Kernel beleuchten, da die- gleich die besten Ergebnisse, jedoch wird von den Autoren se die zentralen Aspekte dieser Publikation darstellen. der Einsatz von Entscheidungsbäumen empfohlen. Dies wird Die SVM [2] ist ein binärer Klassifikator f : Rn → damit begründet, dass die Entscheidungsbäume nicht signi- {−1, +1}, der für zwei linear trennbare Punktmengen eine fikant schlechtere Ergebnisse liefern und gleichzeitig besser Trenn-Hyperebene findet. verständlich sind. Hier wird keine Angabe zur Wahl des SVM Die Klassifikation eines neues Punktes x∗ auf eine der bei- Kernels gegeben. den Klassen {+1, −1} kann mit Hilfe einer gefundenen Hy- In der Arbeit [16] hat die SVM im Vergleich zu ei- perebene in Rn mit dem Vektor w ∈ Rn und b ∈ R folgen- nem Entscheidungsbaum- und einem NN-Klassifikator eben- derweise ausgedrückt werden: falls die besten Ergebnisse zur Vorhersage des Notendurch- ( schnitts geliefert. Auch hier wurden keine Angaben zur Wahl ∗ T ∗ +1, wenn wT x∗ > b des Kernels und der entsprechender Parameter gemacht. f (x ) = signum(w x − b) = (1) −1, wenn wT x∗ < b In [19] wird der Einsatz der SVM zur Vorhersage der Ab- schlussarbeitsnote verwendet. Die SVM wird hier mit neuro- Die Trainingsmenge der SVM sei mit nalen Netzen, Entscheidungsbäumen und Naive Bayes ver- {(x1 , y1 ), ..., (xL , yL )|xi ∈ Rn , yi ∈ {−1, +1}} angege- glichen und liefert die besten Ergebnisse. Auch in dieser Ar- ben, wobei xi die Trainingspunkte und yi die zugehörigen beit wird nichts zur Wahl des SVM-Kernels angegeben. Klassen sind. Um die Hyperebene zu finden, muss für die Die Arbeit [13] hat verschiedene Klassifikatoren wie kNN, L Trainingstupel das folgende Optimierungsproblem gelöst Entscheidungsbäume und SVM zur Vorhersage von studen- werden [17]: tischen Leistungen verglichen. Hierbei hat die SVM sowohl das Problem bestehen oder durchfallen“, als auch für die ||w||2 ” min Regression der Noten vergleichsweise die besten Ergebnisse 2 (2) geliefert. In dieser Arbeit wird ebenfalls nicht näher auf den u.d.N. yi (wT xi − b) − 1 ≥ 0 ∀i ∈ {1, .., L} eingesetzten SVM-Kernel eingegangen. In [15] wurde untersucht, wie sich bei der Vorhersage der Dieses Quadratic Programming” (QP)-Problem lässt sich ” Leistungen, im Fall eines Klassenungleichgewichts (z. B. gibt in ein äquivalentes Problem mit linearen Nebenbedingungen 16 Anwendung der Regressions-SVM zur Vorhersage studentischer Leistungen Tabelle 1: Übersicht über bisherige Publikationen zur Vorhersage von studentischen Leistungen mit SVM SVM-Ergebnisse unter Kernel- Publikation Jahr Vorhersage von Daten Kernel den besten Ergebnissen? parameter Durchschnittsnoten [19] 2015 Abschlussarbeitsnote ja k.A. k.A. keine genauen Angaben Bestehen, nicht bestehen pers. Daten und [13] 2015 ja k.A. k.A. Abschlussnote bish. Studienlaufbahn Abschluss- Durchschnittsnoten [14] 2014 ja RBF grid search Durchschnittsnote der ersten 3 Jahre pers. Daten und [1] 2014 Abschlussnote ja k.A. k.A. vorherige Noten pers. Daten und [16] 2014 Durchschnittsnote ja k.A. k.A. vorherige Noten pers. Daten und [8] 2013 Examensnote nein k.A. k.A. bish. Noten 2012, [6, 9] Abschlussnote Forum-Nutzungsdaten ja k.A. k.A. 2013 [10] 2011 Abschlussnote psychometric factors“ ja RBF k.A. ” Bestehen, nicht bestehen Polynom [15] 2009 versch. Datensätze ja grid search Absolventenquote RBF Bestehen, nicht bestehen pers. Daten und [3] 2008 Notenstufen nein RBF grid search bish. Noten Abschlussnote (NB) umschreiben, dass einfacher gelöst werden kann: 3.2 SVM-Kernel L L L Das Skalarprodukt φ(x∗ )T φ(xi ) in Gleichung 5 kann von X 1 XX max αi − αi αj yi yj xTi xj einer Kernelfunktion ersetzt werden: 2 i=1 j=1 i=1 (3) K(x, y) = φ(x)T φ(y) (6) L X Auf diese Weise muss φ(x) nicht explizit ausgerechnet wer- u.d.N. αi ≥ 0, αi yi = 0 den. Dies wird Kerneltrick genannt. Die Klassifikationsregel i=0 ergibt sich damit zu: Dieses QP-Problem lässt sich mit dem SMO-Verfahren (Se- L ! X quential Minimal Optimization) [7] auch für große Trainings- ∗ f (x ) = signum ∗ αi yi K(x , xi ) − b daten effizient lösen, indem ein großes QP-Problem in eine i=1 Reihe von kleinen QP-Problemen zerlegt wird. ( PL (7) ∗ +1, wenn i=1 αi yi K(x , xi ) > b = PL 3.1 Nicht separierbarer Fall −1, wenn ∗ i=1 αi yi K(x , xi ) < b Ist die Trainingsmenge nicht linear separierbar, so ist ei- Es gibt sehr viele verschiedene Kernel. Einige bekannte Ex- ne Abbildung φ(x) : Rn → Rd notwendig, welche einen n- emplare, die wir in Kapitel 6 untersuchen werden, sind: dimensionalen Vektor x ∈ Rn in einen d-dimensionalen Vek- tor φ(x) ∈ Rd mit φ(x) = (φ1 (x), ..., φd (x)) transformiert. • RBF-Kernel: Mit einer geeigneten Funktion φ(x) können die Daten in dem 1 K(x, y) = exp(− ||x − y||2 ) (8) höherdimensionalen Raum mit größerer Wahrscheinlichkeit 2σ linear getrennt werden. Die Klassifikationsregel von Gleichung 1 lässt sich entspre- • χ2 -Kernel: chend umschreiben zu: n X (xi − yi )2 K(x, y) = 1 − 1 (9) f (x∗ ) = signum(wT φ(x∗ ) − b) i=1 2 (xi + yi ) ( +1, wenn wT φ(x∗ ) > b (4) • Histogrammschnitt (HS)-Kernel: = −1, wenn wT φ(x∗ ) < b n X T K(x, y) = min(xi , yi ) (10) Das Produkt w φ(x) aus Gleichung 4 kann mit der Glei- i=1 chung 5 angegeben werden: L 3.3 Regressions-SVM X T ∗ w φ(x ) = φ(x ) w = φ(x ) ∗ T ∗ T αi yi φ(xi ) Die SVM kann nicht nur zur Lösung von Klassifikations- i=1 problemen, sondern auch zur Regression eingesetzt werden. (5) Mit Hilfe der Regression-SVM erhalten wir also keine Tren- L X = ∗ T αi yi φ(x ) φ(xi ) nebene, sondern eine Hyperebene, die unsere Daten mög- i=1 lichst gut beschreibt. Der Algorithmus bleibt dabei seiner 17 Anwendung der Regressions-SVM zur Vorhersage studentischer Leistungen course preference or other), home to school travel time (numeric: 1 – < 15 min., 2 – 15 to 30 min., 3 – 30 min. to 1 hour or 4 – > 1 hour), weekly study time (numeric: 1 – < 2 hours, 2 – 2 to 5 hours, 3 – 5 to 10 hours or 4 – > 10 hours), number of past class failures (numeric: n if 1 ≤ n < 3, else 4), extra educational school support (binary: yes or no), family educational support (bina- ry: yes or no), extra-curricular activities (binary: yes or no), extra paid classes (binary: yes or no), Internet access at home (binary: yes or no), attended nursery school (binary: yes or no), wants to take higher educa- tion (binary: yes or no), with a romantic relationship Abbildung 1: Kernel-Vergleich zur SVM-Regression (binary: yes or no), free time after school (numeric: from 1 – very low to 5 – very high), going out with friends (numeric: from 1 – very low to 5 – very high), Ursprungsform ähnlich. In [11] wird die Idee für diese Vor- weekend alcohol consumption (numeric: from 1 – very gehensweise beschrieben. low to 5 – very high), workday alcohol consumption Sei {(x1 , y1 ), ..., (xl , yl )} ⊂ X × R die Trainingsmenge, (numeric: from 1 – very low to 5 – very high), current wobei ein xi ∈ X ⊂ Rd beispielsweise ein d-dimensionaler health status (numeric: from 1 – very bad to 5 – very numerischer Vektor ist, der die studentischen Attribute be- good), number of school absences (numeric: from 0 to schreibt und yi die zugehörige Abschlussnote. 93) Wir suchen eine Funktion f , die möglichst gut unsere Trainingsmenge approximiert, d.h. bis auf kleine Fehler soll • G1: first period grade (numeric: from 0 to 20) f (xi ) = yi gelten. Um die Regressionsgerade f (x) = wT x+b mit w ∈ Rd und b ∈ R für unsere Trainingsmenge zu erhal- • G2: second period grade (numeric: from 0 to 20) ten, muss das folgende Optimierungsproblem gelöst werden: • G3: final grade (numeric: from 0 to 20) ||w||2 min Die Notenskala hat insgesamt 21 Stufen, 0 ist die schlech- (2 (11) teste und 20 die beste Note. yi − f (xi ) ≤  u.d.N f (xi ) − yi ≤  5. EVALUATIONS-FRAMEWORK Für das Optimierungsproblem in (11) wird angenommen, Als Evaluationsmaße werden wie in [3] die Genauigkeit dass eine solche Funktion f existiert, welche alle Punktepaa- PCC und die Wurzel der mittleren quadratischen Abwei- re unserer Trainingsmenge mit einer Genauigkeit  approxi- chung RMSE (Root Mean Square Error) verwendet. Sei yˆi miert. In der Regel ist es nicht der Fall, sodass auch hier mit die Vorhersage für das i-te Test-Exemplar und yi die tat- Kernel und sogenannten Schlupfvariablen ξ gearbeitet wird. sächliche Note, dann sind die Maße folgenderweise definiert: In der Abbildung 1 ist die Regression mit der Auswahl ( einiger Kernel auf einer Datenmenge mit zweidimensiona- 1, wenn yi = yˆi Φ(i) = len Punkten visualisiert. Die Punkte sind zufällig aus einer 0, wenn Sinus-ähnlichen Funktion mit hinzugefügter Streuung ent- N X Φ(i) nommen. Wir können bereits hier sehen, wie sich die Wahl P CC = × 100(%) N (12) eines geeigneten Kernel auf die Güte der Regression aus- i=1 wirkt. Mit dem RBF-Kernel können die Daten hier viel bes- v uN ser approximiert werden, als mit dem Polynom-Kernel. uX (yi − yˆi )2 RM SE = t N 4. DATENSATZ i=1 In dieser Arbeit wird der Datensatz aus [3] verwendet. Es Um aussagekräftigere Ergebnisse zu erhalten und um die handelt sich um die Daten einer portugiesischen Schule mit Ergebnisse mit [3] vergleichen zu können, wird eine 10-fache 395 Schülerdaten einer Mathematik-Klasse. Die gesammel- Kreuzvalidierung angewandt. Das bedeutet, der Datensatz ten Daten umfassen folgende Attribute: wird zufällig auf 10 möglichst gleich große Teile aufgeteilt. Jede der 10 Teilmengen wird einmal als Testmenge und die • student’s age (numeric: from 15 to 22), student’s school restlichen 9 Teilmengen als Trainingsmenge verwendet. Die- (binary: Gabriel Pereira or Mousinho da Silveira), stu- ser Prozess wird insgesamt 20 Mal wiederholt, sodass das dent’s home address type (binary: urban or rural), pa- Endergebnis für jeden einzelnen Versuch ein Mittelwert aus rent’s cohabitation status (binary: living together or insgesamt 200 Durchläufen ist. apart), mother’s education (numeric: from 0 to 4), mo- Für die Implementierung der Regressions-SVM wird das ther’s job (nominal), father’s education (numeric: from Accord.NET Framework [12] verwendet. 0 to 4), father’s job (nominal), student’s guardian (no- Die Studentenvektoren werden normiert, wie in [18] emp- minal: mother, father or other), family size (binary: fohlen. Für den Vektor xi = (xi1 , .., xin , yi ) mit yi = G3 ≤ 3 or > 3), quality of family relationships (numeric: xi1 wird folgende Normierung durchgeführt: xˆi1 = Pn . from 1 – very bad to 5 – excellent), reason to choose Pn j=1 xij this school (nominal: close to home, school reputation, Für den normierten Vektor xˆi gilt dann j xˆij = 1. 18 Anwendung der Regressions-SVM zur Vorhersage studentischer Leistungen 6. EVALUATION des RBF-Kernels erkennen. Insbesondere bringt die verwen- Um die Ergebnisse möglichst gut mit [3] zu vergleichen, dete σ-Heuristik für das binäre Klassifikationsproblem mit werden gleiche Evaluationsbedingungen verwendet. Es wer- einer Genauigkeit von 90.57% eine Verbesserung gegenüber den drei verschiedene Probleme betrachtet: der σ-Wahl aus [3] mit 86.3%. Auch für das 5-Level Problem ist eine Verbesserung um etwa 10% gegeben. Beim Problem 1. Binäre Klassifikation - bestanden, falls G3 ≥ 10, sonst der genauen Vorhersage kann der RMSE Wert gegenüber durchgefallen [3] leicht verbessert werden. Die naive Wahl σ = 1 wie sie als Standard-Parameter im Accord.NET Framework für den 2. 5-Level Klassifikation - (basierend auf dem Erasmus RBF-Kernel gegeben ist, liefert beim binären Problem eine Noten-Umwandlungs-System wird die Notenskala auf deutlich schlechtere Genauigkeit von 69.79% und ist damit 5 Level aufgeteilt) um mehr als 20% schlechter. Beim 5-Level Problem liefert 3. Genaue Vorhersage - numerische Ausgabe des G3- die naive Wahl gegenüber der σ-Heuristik sogar eine um et- Wertes wa 40% schlechtere Genauigkeit. Beim Problem der genauen Vorhersage liefert die naive σ-Wahl einen mehr als doppelt Zusätzlich werden wir die folgenden 3 Fälle unterscheiden: so großen RMSE-Wert und ist damit deutlich schlechter als die σ-Heuristik. 1. A: Alle Features werden verwendet Da die naive Wahl σ = 1 offensichtlich keine guten Ergeb- 2. B: Alle Features außer G2 werden verwendet nisse liefert, vergleichen wir in den nächsten Versuchen nur die σ-Heuristik und die σ-Wahl von [3] auf den Fällen B (alle 3. C: Alle Feautures außer G1 und G2 werden verwendet Features außer G2) und C (alle Features außer G1 und G2) für das binäre und das 5-Level Problem miteinander. Die Als Erstes untersuchen wir den Einfluss der σ-Wahl für den Ergebnisse sind in Abbildung 4 visualisiert. In Fall B (al- RBF-Kernel und der Regressions-SVM. Wir verwenden die le Features außer G3) liefert die σ-Heuristik für das binäre σ-Heuristik aus [4] σ = median({dist(u, v)|u 6= v}) und ver- Klassifkations-Problem mit 84.64% eine um etwa 4% bessere gleichen diese mit einer naiven Wahl σ = 1 und den SVM- Genauigkeit. Für das 5-Level Problem liefert die σ-Heuristik RBF-Ergebnissen aus [3]. Diese Evaluation führen wir zu- mit 58.23% eine um mehr als 10% bessere Genauigkeit. Im nächst für den Fall A (alle Features) aus. Fall C (alle Features außer G1 und G2) werden die Wer- te bereits schlechter. Die σ-Heuristik eignet sich somit bei σ=1 σ aus [3] σ-Heuristik dem binären und dem 5-Level Problem ausschließlich für die Fälle A und B. 100 86.3 90.57 80 σ aus [3] σ-Heuristik 69.79 69.3 59.6 100 PCC 60 80.5 84.64 80 70.6 68.77 40 28.95 58.23 PCC 60 20 47.9 40 31 binär (A) 5-Level (A) 24.94 20 Abbildung 2: Vergleich der σ-Auswahl für das binäre und das 5-Level Problem (A: Alle Features verwen- (B) (C) el ( B) el ( C) det) i när inär e v ev b b 5-L 5-L σ=1 σ aus [3] σ-Heuristik Abbildung 4: Vergleich der σ-Auswahl für das binäre und das 5-Level Problem (B: alle Features außer G2, 5 C: alle Features außer G1 und G2) 4.04 4 RMSE 3 Die Fälle B und C vergleichen wir auch für die genaue 2.09 1.97 Vorhersage der Note G3. Die Ergebnisse sind in Abbildung 2 5 visualisiert. Im Fall B ist die σ-Heuristik noch etwas besser 1 und im Fall C sind die Ergebnisse identisch. Zusätzlich wollen wir den RBF-Kernel mit dem χ2 -Kernel genaue Vorhersage (A) und dem Histogrammschnitt-Kernel vergleichen. Die Ergeb- nisse dieser beiden Kernel sind in Tabelle 6 abgebildet. Wir Abbildung 3: Vergleich der σ-Auswahl für die genaue sehen, dass sich die Werte nicht signifikant von den Ergeb- Vorhersage (A: Alle Features verwendet) nissen des RBF-Kernels mit der σ-Heuristik unterscheiden. Diese beiden Kernel sind also ebenso einsetzbar, wenn ein Aus den Abbildungen 2 und 3 können wir für den Fall A Kernel verwendet werden soll, der keine zusätzlichen Para- die Wichtigkeit einer geeigneten Wahl für den σ-Parameter meterangaben braucht. 19 Anwendung der Regressions-SVM zur Vorhersage studentischer Leistungen binäre Vorhersage 5-Level Vorhersage genaue Vorhersage Fall A Fall B Fall C Fall A Fall B Fall C Fall A Fall B Fall C χ2 HS χ2 HS χ2 HS χ2 HS χ2 HS χ2 HS χ2 HS χ2 HS χ2 HS 90% 90% 85% 85% 67% 70% 68% 69% 56% 57% 26% 28% 2.34 2.14 3.06 2.9 4.4 4.34 Tabelle 2: Ergebnisse des χ2 -Kernel und des Histogrammschnitt-Kernel (HS) σ aus [3] σ-Heuristik 20(1):5–22, 2001. [6] M. I. Lopez, J. Luna, C. Romero, and S. Ventura. 4.37 4.37 Classification via clustering for predicting final marks based on student participation in forums. 4 International Educational Data Mining Society, 2012. RMSE [7] J. C. Platt. fast training of support vector machines using sequential minimal optimization. Advances in 3 2.9 kernel methods, pages 185–208, 1999. 2.74 [8] V. Ramesh, P. Parkavi, and K. Ramar. Predicting student performance: a statistical and data mining B C approach. International journal of computer applications, 63(8), 2013. genaue Vorhersage [9] C. Romero, M.-I. López, J.-M. Luna, and S. Ventura. Predicting students’ final performance from Abbildung 5: Vergleich der σ-Auswahl für die genaue participation in on-line discussion forums. Computers Vorhersage von G3 (B: alle Features außer G2, C: & Education, 68:458–472, 2013. alle Features außer G1 und G2) [10] S. Sembiring, M. Zarlis, D. Hartama, and E. Wani. Prediction of student academic performance by an application of data mining techniques. International 7. FAZIT Proceedings of Economics Development & Research, Wir haben in dieser Arbeit die Anwendung der 6:110–114, 2011. Regressions-SVM zur Vorhersage studentischer Leistungen [11] A. J. Smola and B. Schölkopf. A tutorial on support mit unterschiedlichen Kernel untersucht. Eine Regressions- vector regression. Statistics and Computing, SVM ermöglicht das Training auch, wenn aufgrund weni- 14(3):199–222. ger Trainingsdaten z. B nicht alle Noten abgedeckt sind. Die [12] C. R. Souza. The Accord.NET Framework. Evaluation wurde auf den Schülerdaten eines Mathematik- http://accord-framework.net/, 2014. kurses durchgeführt. Mit dem Einsatz einer σ-Heuristik für [13] P. Strecht, L. Cruz, C. Soares, J. Mendes-Moreira, and den RBF-Kernel konnten die Ergebnisse einer früheren Ar- R. Abreu. A comparative study of classification and beit auf diesen Daten verbessert werden. Für den Fall, dass regression algorithms for modelling students’ academic zusätzlich zu den privaten Daten auch vorherige Noten be- performance. In 8th Conference on Educational Data kannt waren, konnte die Vorhersage von bestanden oder Mining (EDM2015), 2015. ” nicht bestanden“ mit einer Genauigkeit von 90.57% erreicht [14] A. Tekin. Early prediction of students’ grade point werden, was eine praktische Anwendbarkeit ermöglicht. Bei averages at graduation: a data mining approach. einer Unterteilung der 21 möglichen Noten in 5 Notenstu- Eurasian Journal of Educational Research, fen konnte die richtige Notestufe mit einer Genauigkeit von (54):207–226, 2014. 69.3% bestimmt werden. Waren weniger vorherige Noten be- kannt, so war die erreichte Genauigkeit kleiner. Wir haben [15] N. Thai-Nghe, A. Busche, and L. Schmidt-Thieme. zusätzlich den χ2 - und HS-Kernel untersucht. Mit ähnlich Improving academic performance prediction by dealing guten Ergebnissen eignen sich diese ebenfalls. with class imbalance. In Intelligent Systems Design and Applications, 2009. ISDA’09. Ninth International Conference on, pages 878–883. IEEE, 2009. 8. REFERENCES [16] K. Watkins. An improved recommendation models on [1] A. Acharya and D. Sinha. Early prediction of students grade point average prediction and postgraduate performance using machine learning techniques. identification using data mining. In Advances in International Journal of Computer Applications, Neural Networks, Fuzzy Systems and Artificial 107(1), 2014. Intelligence, pages 186–194. WSEAS Press, May 2014. [2] C. Cortes and V. Vapnik. Support-Vector Networks. [17] A. Webb and K. Copsey. Statistical Pattern Machine Learning, 20(3):273–297, 1995. Recognition. Wiley, 2011. [3] P. Cortez and A. M. G. Silva. Using data mining to [18] C. wei Hsu, C. chung Chang, and C. jen Lin. A predict secondary school student performance. 2008. practical guide to support vector classification. [4] T. S. Jaakkola, M. Diekhans, and D. Haussler. Using https://www.csie.ntu.edu.tw/~cjlin/papers/ the fisher kernel method to detect remote protein guide/guide.pdf, 2010. homologies. In ISMB, volume 99, pages 149–158, 1999. [19] W. Zhang, S. Zhang, and S. Zhang. Predicting the [5] Y.-J. Lee and O. L. Mangasarian. Ssvm: A smooth graduation thesis grade using svm. International support vector machine for classification. Journal of Intelligent Information Processing, 5(3):60, Computational optimization and Applications, 2015. 20