Optimierung von Klassifikator-Ensembles mit AutoML
                                Julius Voggesberger1
                                1
                                    Institut für Parallele und Verteilte Systeme, Universität Stuttgart, Universitätsstr. 38, Stuttgart, Deutschland


                                                   Abstract
                                                   Data for classification problems often exhibit complex characteristics that lead to inaccurate predictions of classifiers trained
                                                   on the data. For example, training a classifier on a small amount of data can lead to overfitting. To solve such problems,
                                                   multiple classifiers can be combined into an ensemble. For this purpose, multiple classifiers have to be trained that are as
                                                   accurate and divers as possible. In this case, diversity stands for classifiers that make correct predictions on different data
                                                   instances. Furhtermore, a suitable method for fusing the individual classifier predictions has to be selected In this paper,
                                                   we present an approach using AutoML to automatically create and optimize ensembles. The approach is evaluated on two
                                                   real-world datasets with complex data characteristics. The results of the evaluation show an improvement of the predictive
                                                   accuracy by the automatically created ensembles.

                                                   Zusammenfassung
                                                   Daten für Klassifikationsprobleme weisen oft komplexe Charakteristika auf, die zu ungenauen Vorhersagen der mit den
                                                   Daten trainierten Klassifikatoren führen. Beispielsweise kann eine geringe Menge an Daten zu einer Überanpassung der
                                                   Klassifikatoren führen. Um derartige Probleme zu lösen, können mehrere Klassifikatoren zu einem Ensemble kombiniert
                                                   werden. Hierfür müssen mehrere Klassifikatoren trainiert werden, die möglichst genau, aber auch divers sind. Diversität
                                                   bedeutet in diesem Fall, dass die Klassifikatoren auf unterschiedlichen Dateninstanzen korrekte Vorhersagen treffen. Weiterhin
                                                   muss eine geeignete Methode für die Fusion der einzelnen Klassifikatorvorhersagen ausgewählt werden. In dieser Arbeit
                                                   stellen wir einen AutoML-Ansatz vor, mit dem die Erstellung und Optimierung eines Ensembles automatisiert möglich ist. Der
                                                   Ansatz wird anhand zweier Echtweltdatensätze mit komplexen Datencharakteristika evaluiert. Die Ergebnisse der Evaluation
                                                   zeigen hierbei eine Verbesserung der Vorhersagegenauigkeit durch die automatisch erstellten Ensembles.

                                                   Keywords
                                                   Maschinelles Lernen, Klassifikator-Ensembles, Klassifikatordiversität, Entscheidungsfusion


                                1. Einführung                                                                                                     den Entscheidungsfusion können so primär die korrekten
                                                                                                                                                  Vorhersagen übernommen werden. Damit ein Ensemble
                                Um Erkenntnisse aus Daten zu gewinnen sowie Vorher- mit hoher Vorhersagegenauigkeit erzeugt werden kann,
                                sagen und Entscheidungen zu treffen, werden oft Klassifi- müssen drei Anforderungen erfüllt werden.
                                kationsalgorithmen verwendet. Diese finden in vielen un-                                                             A1: Genaue Klassifikatoren: Eine Steigerung der
                                terschiedlichen Bereichen, wie z. B. dem Medizinwesen, Vorhersagegenauigkeit durch die Entscheidungsfusion
                                dem Internet der Dinge oder in der Bilderkennung An- setzt voraus, dass die einzelnen Klassifikatoren bereits ei-
                                wendung [1]. Jedoch kann ein Klassifikationsalgorithmus ne hohe Vorhersagegenauigkeit erreichen [2, 7]. Folglich
                                nicht in jedem Fall einen Klassifikator mit einer hohen ist es nötig, dass geeignete Klassifikationsalgorithmen
                                Vorhersagegenauigkeit erstellen. So kann ein Klassifika- ausgewählt werden, die anhand ihrer Hyper-Parameter
                                tor durch das Training auf kleinen Datensätzen überange- optimiert sind.
                                passt werden oder komplexe Datencharakteristika nicht                                                                A2: Diverse Klassifikatoren: Die zweite Anforde-
                                vollständig erfassen [2, 3, 4, 5, 6].                                                                             rung ist die Diversität der Klassifikatoren hinsichtlich
                                              Um diese Probleme zu lösen, können mehrere Klassifi- ihrer korrekten und fehlerhaften Vorhersagen für unter-
                                katoren in einem Ensemble kombiniert werden, sodass schiedliche Dateninstanzen [7, 2, 8]. Eine hohe Diversität
                                eine höhere Vorhersagegenauigkeit und Generalisierbar- ermöglicht die Fusion der korrekten Vorhersagen, wo-
                                keit erreicht werden kann [3]. Dabei treffen die Klas- durch eine Steigerung der Vorhersagegenauigkeit und
                                sifikatoren diverse Vorhersagen, welche in einem Fusi- Generalisierbarkeit möglich ist. Diversität kann hierbei
                                onsschritt zu einer gemeinsamen Vorhersage kombiniert implizit oder explizit erzeugt werden [8]. Implizite Me-
                                werden. Diversität bedeutet hierbei, dass die Klassifika- thoden manipulieren den Trainingsprozess der Klassifi-
                                toren fehlerhafte und korrekte Vorhersagen auf unter- katoren durch die Verwendung von Zufall, wohingegen
                                schiedlichen Dateninstanzen treffen. Bei der anschließen- explizite Methoden die Diversität direkt durch z. B. Di-
                                                                                                                                                  versitätsmetriken optimieren.
                                34th GI-Workshop on Foundations of Databases (Grundlagen von Da-                                                     A3: Genaue Entscheidungsfusion: Damit während
                                tenbanken), June 7-9, 2023, Hirsau, Germany                                                                       der Fusion die korrekten Vorhersagen der Klassifikatoren
                                Envelope-Open julius.voggesberger@ipvs.uni-stuttgart.de (J. Voggesberger)
                                                                                                                                                  bevorzugt werden, muss ein geeigneter Entscheidungsfu-
                                Orcid 0000-0003-4808-1922 (J. Voggesberger)
                                                     © 2023 Copyright for this paper by its authors. Use permitted under Creative Commons License sionsalgorithmus ausgewählt werden [3]. Jedoch existie-
                                             Attribution 4.0 International (CC BY 4.0).


CEUR
                  ceur-ws.org
Workshop      ISSN 1613-0073
Proceedings
Tabelle 1
Vergleich von Ansätzen aus der Literatur. 3 = vollständig erfüllt, (3) = teilweise erfüllt, 7 = nicht erfüllt.

                                                                        A1:                   A2:             A3:
                                         Methoden                    Genaue                Diverse           Genaue
                                                                  Klassifikatoren       Klassifikatoren      Fusion
                                Bagging [11], Boosting [12]              (3)                   (3)               7
              Ensemble         Ungleichverteilte Daten [13],
                                                                         (3)                   (3)               (3)
             Algorithmen                MEG [14]
                                        PUSION [9]                        7                     7                (3)
                                          H2O [15]                        3                    (3)               (3)
              Automated
               Machine              Auto-Sklearn [16],
               Learning           ESMBO [17], BOE [18],                   3                    (3)               7
                                  AutoGluon-Tabular [19]


ren viele unterschiedliche Fusionsalgorithmen, die ver-            2.1. Ensemble-Algorithmen
schiedene Strategien zur Fusion der Vorhersagen verwen-
                                                         Es existiert bereits eine Vielfalt an Algorithmen für die Er-
den und bei denen zusätzlich Hyper-Parameter optimiert
                                                         stellung von Ensembles. Die bekanntesten Verfahren sind
werden müssen [9, 10].
                                                         Boosting [12] und Bagging [11]. Beispiele für Algorith-
   In dieser Arbeit wird ein Überblick über unterschiedli-
                                                         men dieser Verfahren sind AdaBoost [20] und Random
chen Lösungsansätze für die Erstellung eines Ensembles,
                                                         Forests [21]. AdaBoost erzeugt Diversität explizit, indem
das diese Anforderungen erfüllt, gegeben. Die Ansätze
                                                         in einem iterativen Verfahren Klassifikatoren mit Fokus
beziehen sich neben den Klassifikations- und Entschei-
                                                         auf die Fehler der vorhergehenden Klassifikatoren trai-
dungsfusionsalgorithmen zu einem großen Teil auch auf
                                                         niert werden. Eine implizite Erzeugung der Diversität
die Betrachtung der Daten und ihrer Charakteristiken so-
                                                         erfolgt jedoch nicht. Ebenso werden die Hyperparameter
wie auf Aspekte der Datenvorbereitung, die ebenso einen
                                                         der Klassifikatoren und die Entscheidungsfusion nicht
wesentlichen Einfluss auf die Diversität und Genauigkeit
                                                         optimiert. Random Forests teilen diese Defizite, jedoch er-
eines Ensembles haben können. Zusätzlich werden ers-
                                                         zeugt der Algorithmus die Diversität implizit statt explizit.
te Ergebnisse anhand eines implementierten Ansatzes
                                                         Hierfür werden die Klassifikatoren auf unterschiedlichen,
vorgestellt. Für die Automatisierung der Auswahl von
                                                         zufällig ausgewählten Teilmengen der Trainingsdaten
Klassifikations- und Entscheidungsfusionsalgorithmen
                                                         trainiert.
und der Optimierung ihrer Hyper-Parameter wird Auto-
                                                            Neuere Veröffentlichung fokussieren sich hingegen
mated Machine Learning (AutoML) verwendet. Abschlie-
                                                         auf die Verwendung von multikriterieller Optimierung.
ßend werden die Ergebnisse der Evaluation des Ansatzes
                                                         So wird z. B. in ”Multi-objective Ensemble Generation”
anhand zweier Datensätze diskutiert.
                                                         (MEG) [14] ein Ensemble sowohl anhand der Diversität
   Die restliche Arbeit ist wie folgt gegliedert: Anhand
                                                         als auch der Vorhersagegenauigkeit optimiert. Die be-
verwandter Arbeiten wird in Abschnitt 2 die Forschungs-
                                                         trachtete Menge an Klassifikatoren und Entscheidungs-
lücke aufgezeigt und anschließend in Abschnitt 3 Ansätze
                                                         fusionsalgorithmen ist hierbei jedoch gering und Diver-
für deren Lösung präsentiert. Ein erstes auf diesen Ansät-
                                                         sität wird nur explizit erzeugt. Ein weiterer Algorithmus
zen basierendes Konzept wird in Abschnitt 4 vorgestellt,
                                                         betrachtet Ensembles für ungleich verteilte Daten [13].
sowie anhand zweier Datensätze evaluiert. Abschließend
                                                         Hierfür werden die Gewichte eines Mehrheitsvotums
werden in Abschnitt 5 die Arbeit zusammengefasst sowie
                                                         Ansatzes sowohl anhand von Precision als auch Recall
mögliche Ansatzpunkte für zukünftige Arbeiten genannt.
                                                         optimiert. Jedoch werden die Klassifikatoren selbst nicht
                                                         optimiert, sondern nur aus einer Menge an 15 Algorith-
2. Verwandte Arbeiten                                    men eine Untermenge für das Ensemble ausgewählt.
                                                            Einen anderen Ansatz bietet das PUSION Frame-
In diesem Abschnitt werden bestehende Ansätze betrach- work [9]. Dieses nimmt die diverse Klassifikatormen-
tet, die die Erstellung von Ensembles behandeln. Hierbei ge als gegeben an und optimiert ausschließlich den zu
wird zusätzlich der Fokus auf AutoML Ansätze gelegt, da verwendeten Entscheidungsfusionsalgorithmus. Jedoch
dieser Ansatz im weiteren Verlauf dieser Arbeit verfolgt wird hierbei nicht die Hyper-Parameteroptimierung der
wird. Eine Übersicht über die vorgestellte Literatur an- Entscheidungsfusionsalgorithmen mitbetrachtet.
hand der Anforderungen A1-A3 ist in Tabelle 1 gegeben.
             Datenaspekt (A1, A2)          Klassifikatoraspekt (A1, A2)          Fusionsaspekt (A3)
               Impl. Diversität,             Auswahl und Optimierung           Auswahl und Optimierung
               Vorverarbeitung            der Algorithmen, expl. Diversität     der Fusionsalgorithmen


                                                                         Ensemble

                                                                    𝑌1

                                              Klassifikator-        𝑌2
                       𝑋                                                            Entscheidungsfusion     𝑌
                                                 Menge               ⋮

                                                                    𝑌𝑘


                             Domänenspezifische Datencharakteristika (A1, A2, A3)
                           Komplexe Datencharakteristika, Domänenwissen, expl. Diversität

Abbildung 1: Schematische Darstellung eines Ensembles. Die Eingabe 𝑋 ist ein Datensatz, 𝑌𝑖 sind die Vorhersagen der
einzelnen Klassifikatoren und 𝑌 ist die fusionierte Ausgabe des Ensembles. Blau hinterlegt sind die möglichen Aspekte zur
Lösung der Anforderungen A1-A3.


2.2. AutoML für Ensembles                                      Methoden und den Einsatz impliziter Diversitätsmetho-
                                                               den in der Datenvorbereitung ein. Über die Manipu-
Automated Machine Learning (AutoML) bezeichnet die
                                                               lation der Daten kann die Genauigkeit und Diversität
automatisierte Erstellung eines maschinellen Lernmo-
                                                               der trainierten Klassifikator-Menge beeinflusst werden
dells für gegebene Daten innerhalb eines bestimmten
                                                               (Anforderungen A1 und A2). Vorverarbeitungs- und
Budgets [16]. Im AutoML-Bereich existieren bereits vie-
                                                               Feature-Engineering-Methoden beeinflussen insbesonde-
le verschiedene Frameworks, jedoch unterstützen nur
                                                               re die Vorhersagegenauigkeit der einzelnen Klassifikato-
einige wenige die Erstellung und Optimierung von
                                                               ren (A1). Diese Methoden bereiten die Daten auf, sodass
Ensembles. So erlauben dies z. B. Auto-sklearn [16],
                                                               diese von Klassifikationsalgorithmen besser verarbeitet
H2O [15], ESMBO [17], Bayesian Optimization for En-
                                                               werden können. Hierfür können z. B. kategorische Daten
sembles (BOE) [18] und AutoGluon-Tabular [19]. Jedoch
                                                               numerisch kodiert oder die Dimensionalität der Daten re-
nehmen diese an, dass die Verwendung von unterschied-
                                                               duziert werden. Um mit Hilfe der Vorverarbeitungs- und
lichen Algorithmen und Hyper-Parametrisierungen eine
                                                               Feature-Engineering-Methoden zusätzlich die Diversität
ausreichend diverse Menge an Klassifikatoren erzeugt.
                                                               zu erhöhen (A2), können je Klassifikator unterschiedli-
Zusätzlich dazu wird bei der Mehrheit der Frameworks
                                                               che Methoden auf die Daten angewendet werden. Damit
der Entscheidungsfusionsalgorithmus nicht optimiert,
                                                               wird jeder Klassifikator auf unterschiedlich vorbereiteten
sondern ein spezifischer Algorithmus vorgegeben. Eine
                                                               Daten trainiert und angepasst, sodass die gesamte Menge
Ausnahme bildet H2O, welches eine begrenzte Optimie-
                                                               an Klassifikatoren insgesamt diverser wird.
rung der Fusion erlaubt, indem verschiedene Algorith-
                                                                  Alternativ werden innerhalb gängiger Ensemble-
men für die Stacked Generalization verwendet werden
                                                               Algorithmen, wie z. B. Random Forests, implizite Diversi-
können.
                                                               tätsmethoden verwendet, um die Diversität zwischen den
                                                               einzelnen Klassifikatoren zu erhöhen (vgl. Abschnitt 2.1).
3. Lösungsansätze                                              Hierbei werden die Trainingsdaten für jeden Klassifikator
                                                               zufällig ausgewählt, z. B. über die Auswahl von Daten-
In diesem Abschnitt werden vier verschiedene Aspek-            instanzen mit Bootstrapping [11] oder einer Attribut-
te vorgestellt, mit denen die Anforderungen A1-A3 zur          Teilmenge mit der Random-Subspace-Methode [22].
Erstellung eines Klassifikator-Ensembles gelöst werden            Klassifikatoraspekt: Unter diesem Aspekt wird die
können (siehe Abbildung 1). Im Folgenden werden diese          Auswahl und Optimierung der Klassifikatoren des En-
Aspekte definiert, sowie deren Ansatzpunkte zur Lösung         sembles anhand der Vorhersagegenauigkeit und Diversi-
der Anforderungen präsentiert.                                 tät betrachtet (A1+A2). Diversität kann hierbei explizit
   Datenaspekt: Der Datenaspekt schließt die Verwen-           über die Verwendung von Diversitätsmetriken optimiert
dung von Vorverarbeitungs- und Feature-Engineering-            werden [23]. Mit Hilfe dieser Metriken, wie z. B. der Dop-
                                             Select:
                     COGS                                               COGS
                                          Untermenge                                       Auswahl der
                Overproduce:                                      Entscheidungs-
                                           auswählen                                        genausten
                Klassifikator-                                       fusions-
                                          hinsichtlich                                    Entscheidungs-
                optimierung                                        optimierung
                                           Diversität                                         fusion
                    (A1)                                               (A3)
                                              (A2)

Abbildung 2: Darstellung des gewählten Ansatzes für das AutoML-Frameworks für Ensembles. COGS= Optimierungsproblem.


pelfehlerrate oder Q-Statistik, kann die Diversität eines      werden, um so explizit anhand der Datencharakteristika
Ensembles gemessen und so eine Aussage über sie ge-            Diversität zu erzeugen.
troffen werden. Jedoch ist aktuell der Zusammenhang
zwischen der mit diesen Metriken gemessenen Diversi-
tät und der Genauigkeit des Ensembles aus Klassifikato-        4. Erste Ergebnisse
ren nicht ausreichend untersucht. Für die Optimierung
                                                               Die Diskussion bestehender Arbeiten in Abschnitt 2 zeigt,
kann z. B. AutoML und Meta-Learning verwendet wer-
                                                               dass aktuell kein Framework die Anforderungen A1-A3
den. Meta-Learning bezeichnet das Lernen aus vorhe-
                                                               erfüllt. Um dieses Problem zu lösen, haben wir [32] einen
rigen Erfahrungen, um schneller ein Modell mit hoher
                                                               Ansatz entwickelt, der auf die in Abschnitt 3 vorgestell-
Vorhersagegenauigkeit für einen neuen Datensatz zu fin-
                                                               ten Lösungsansätze eingeht. Im Folgenden werden der
den [24]. Als Erfahrungen werden hierbei Metadaten be-
                                                               Ansatz und seine prototypische Implementierung vorge-
zeichnet, die vorherige Datensätze und darauf evaluierte
                                                               stellt sowie erste Evaluationsergebnisse präsentiert.
Machine-Learning-Algorithmen beschreiben [25, 26].
   Entscheidungsfusionsaspekt: Der Fusionsaspekt be-
schreibt die Auswahl und Optimierung des Fusionsalgo-          4.1. AutoML-Ansatz für Ensembles
rithmus. Die Optimierung erfolgt im Gegensatz zu den           Der hier vorgestellte Ansatz setzt die in Abschnitt 3 vor-
Klassifikatoren lediglich anhand der Vorhersagegenauig-        gestellten Klassifikations- und Fusionsaspekte mithilfe
keit (A3). Jedoch kann hier ebenfalls AutoML und Meta-         von AutoML um (siehe Abb. 2). Für die Erstellung der
Learning für die Optimierung verwendet werden.                 Klassifikator-Menge wird ein sogenannter „Overproduce
   Domänenspezifische Datencharakteristika: Die                and Select“-Ansatz verfolgt: In einem Overproduce-Schritt
Ausnutzung domänenspezifischer Datencharakteristika            werden mehrere Klassifikatorkonfigurationen anhand ih-
ermöglicht es, Wissen über die Daten und die Daten-            rer Vorhersagegenauigkeit durch AutoML optimiert und
domäne zu verwenden. Dies schließt komplexe, domä-             evaluiert. Jede Konfiguration und ihre Evaluation wer-
nenspezifische Datencharakteristika wie z. B. ungleiche        den abgespeichert, sodass nach der Optimierung in einem
Klassenverteilungen, verschiedene Arten von Bias in den        Select-Schritt eine Untermenge aus allen evaluierten Kon-
Daten sowie zeitliche Änderungen der statistischen Da-         figurationen ausgewählt werden kann. Dies erlaubt es,
tenverteilungen mit ein [27, 28, 29, 30, 31]. Beispielsweise   eine Menge an Klassifikatoren anhand ihrer Diversität
stellen Hirsch et al. [4] einen Ansatz vor, der domänen-       und Genauigkeit auszuwählen und somit die Anforde-
spezifische Datencharakteristika sowie Domänenwissen           rungen A1 und A2 zu erfüllen.
explizit innerhalb einer Vorbereitung der Daten ausnutzt,         Für die Optimierung der Entscheidungsfusion wird
um die Eingabedaten 𝑋 in mehrere Teilmengen aufzutei-          hingegen ausschließlich AutoML verwendet. Die Opti-
len. Durch diese Datenpartitionierung können auf den           mierung und Auswahl des besten Entscheidungsfusions-
Teilmengen spezialisierte Klassifikatoren trainiert wer-       algorithmus erfolgt somit anhand der Vorhersagegenau-
den, die für die jeweilige Datenteilmenge genauere Vor-        igkeit, um die Anforderung A3 zu erfüllen.
hersagen trifft als ein auf der gesamten Datenmenge 𝑋             Durch dieses Vorgehen wird ein Ensemble erstellt,
trainierter Klassifikator (A1). Da jeder dieser Klassifika-    dass die Anforderungen A1-A3 erfüllt. Weiterhin ist
toren auf einer anderen Teilmenge der Daten trainiert          die Komplexität des Suchraums und der Optimierung
wurde, wird die gesamte Menge an Klassifikatoren divers        niedrig, da die Klassifikator-Menge und die Entschei-
und kann für ein Ensemble genutzt werden (A2). Ana-            dungsfusion getrennt voneinander optimiert werden [32].
log kann Wissen über die Problemdomäne verwendet               Dies ermöglicht eine kürzere Laufzeit und erhöht die
werden, um geeignete Klassifikatoren und Fusionsalgo-          Wahrscheinlichkeit eine genaue und generalisierende
rithmen auszuwählen sowie die Größe des Ensembles zu           Ensemble-Konfiguration zu finden.
bestimmen (A3). Insbesondere kann dieses Wissen für die
Erstellung einer diversen Klassifikatormenge verwendet
Tabelle 2
Vorhersagegenauigkeit der Baseline, statischen Fusion und des optimierten Ensembles. Für die Baseline bezeichnet der
Entscheidungsfusionsalgorithmus den Klassifikationsalgorithmus. SVM=Support Vector Machine, AVG=„Simple Averaging“,
WV=Gewichtetes Mehrheitsvotum, RF=Random Forest, NN=Neurales Netzwerk.
                                         Entscheidungs-                                      Ausgewogene
    Datensatz     Typ                                     Ensemblegröße      Accuracy (%)                    Makro F1 (%)
                                         fusion                                              Accuracy (%)

                  Baseline               SVM              -                      86,56           82,86           83,68
    Kropt         Statische Fusion       AVG              5                      86,07           79,00           81,66
                  Optimiertes Ensemble   WV               5                      88,56           84,90           85,81
                  Baseline               RF               -                      86,59           64,05           69,29
    Ldpa          Statische Fusion       AVG              10                     81,72           54,17           57,73
                  Optimiertes Ensemble   NN               10                     87,52           72,93           77,68


4.2. Implementierung                                           letzteren beiden besser für Mehrklassenprobleme geeig-
                                                               net sind. Um eine geeignete Größe für die Klassifikator-
Die Implementierung des Prototyps erfolgte in der Pro-
                                                               Menge zu finden, werden alle Größen zwischen 2 und 30
grammiersprache Python. Für die Bereitstellung von Klas-
                                                               getestet. Abschließend wird das Ensemble mit der höchs-
sifikationsalgorithmen wird die Bibliothek scikit-learn
                                                               ten Vorhersagegenauigkeit gewählt. Für die Optimierung
1.0.2 [33] verwendet und Entscheidungsfusionsalgorith-
                                                               der Klassifikatoren wird ein Limit von einer Stunde und
men sind aus dem PUSION-Framework 1.3.5 [9] adaptiert.
                                                               für die Fusionsoptimierung von zehn Minuten festgelegt.
Als AutoML-Optimierung wird eine Zufallssuche [34]
                                                                  Vergleich von Baseline und optimiertem Ensem-
verwendet, während für die Auswahl der Klassifikator-
                                                               ble: Im Vergleich zwischen der Baseline und unserem op-
Menge ein Clustering-Ansatz zum Einsatz kommt [35, 25].
                                                               timierten Ensemble erreicht Letzteres für beide Datensät-
Durch den Clustering-Ansatz werden Klassifikatoren mit
                                                               ze die höhere Vorhersagegenauigkeit. Die Verbesserung
einer niedrigen Diversität zueinander in ein Cluster grup-
                                                               des Ensembles beträgt für den Kropt-Datensatz +2, 00%-
piert, und pro Cluster der Klassifikator mit der höchsten
                                                               Punkte Accuracy, +2, 05%-Punkte ausgewogene Accu-
Vorhersagegenauigkeit ausgewählt. Weitere Software-
                                                               racy und +2, 13%-Punkte Makro F1 und für den Ldpa-
Bibliotheken, die für die Implementierung verwendet
                                                               Datensatz +0, 93%-Punkte Accuracy, +8, 88%-Punkte aus-
werden, sind NumPy 1.22.2, Pandas 1.4.0 und Scipy 1.8.0.
                                                               gewogene Accuracy und +8, 39%-Punkte Makro F1. Bei
Der Prototyp wurde auf einem Cluster mit 16 virtuellen
                                                               letzterem Datensatz fällt die Differenz von Makro F1 und
CPU-Kernen und 32 GB RAM ausgeführt.
                                                               gewichteter Accuracy Metrik mit mehr als +8%-Punkte
                                                               bedeutend größer aus als für die Accuracy. Dies ist darauf
4.3. Experimentelle Evaluation                                 zurückzuführen, dass beide Metriken die Klassen in ihren
                                                               Berechnungen gleich gewichten, unabhängig von deren
Der vorgestellte Ansatz wird anhand zweier Echtwelt-
                                                               tatsächlichen Häufigkeit in den Daten.
datensätze evaluiert, die ungleiche Klassenverteilungen
                                                                  Vergleich von statischer Fusion und optimier-
aufweisen. Hierfür wurde der Schach-Datensatz Kropt1
                                                               tem Ensemble: Bei der Betrachtung der Fusionsopti-
mit 18 und der Bewegungs-Datensatz Ldpa2 mit 11 Klas-
                                                               mierung zeigt sich sogar eine Verschlechterung zur Base-
sen ausgewählt. Als Baseline der Evaluation wird der
                                                               line, falls die Entscheidungsfusion nicht optimiert wird,
einzelne Klassifikator gewählt, der während der AutoML-
                                                               sondern eine statische Fusion verwendet wird. So ver-
Optimierung die höchste Vorhersagegenauigkeit erzielt.
                                                               ringert sich die Vorhersagegenauigkeit des Ensembles
Um die Optimierung der Entscheidungsfusion separat zu
                                                               ohne Optimierung um −4, 87%-Punkte Accuracy, −3, 86%-
beurteilen, wird zusätzlich das vom Prototyp optimierte
                                                               Punkte ausgewogene Accuracy und −2, 02%-Punkte Ma-
Ensemble mit einem Ensemble ohne Fusionsoptimierung
                                                               kro F1 für den Kropt-Datensatz und um −0, 49%-Punkte
verglichen. Für dieses wird als statisch gewählte Ent-
                                                               Accuracy, −9, 88%-Punkte ausgewogene Accuracy und
scheidungsfusion das „Simple Averaging“ (AVG) [3, 23]
                                                               −11, 56%-Punkte Makro F1 für den Ldpa-Datensatz. Im
auf die Klassifikator-Menge des optimierten Ensembles
                                                               Vergleich zu den optimierten Ensembles fällt die Verbes-
angewendet.
                                                               serung durch die Fusionsoptimierung im Vergleich zur
   Die Ergebnisse der Evaluation sind in Tabelle 2 auf-
                                                               statischen Fusion folglich nochmals höher aus. So be-
gelistet. Der Vergleich erfolgt anhand der Metriken Ac-
                                                               trägt die Verbesserung für den Kropt-Datensatz +6, 87%-
curacy, Ausgewogener Accuracy und Makro F1, wobei
                                                               Punkte Accuracy, +5, 90%-Punkte ausgewogene Accura-
1
    https://www.openml.org/d/184
                                                               cy und +4, 15%-Punkte Makro F1 sowie +1, 42%-Punkte
2
    https://www.openml.org/d/1483
Accuracy, +18, 76%-Punkte ausgewogene Accuracy und Acknowledgments
+19, 95%-Punkte Makro F1 für den Ldpa-Datensatz.
    Diskussion: Durch die Evaluation konnte gezeigt wer- Der Autor bedankt sich bei Bernhard Mitschang und
den, dass die durch unseren Ansatz optimierten Ensem- Peter Reimann für ihr Feedback zur Verbesserung des
bles für beide Datensätze die Vorhersagen mit der höchs- Papers.
ten Genauigkeit erzielen. Insbesondere mit Bezug auf un-
gleichverteilte Mehrklassenprobleme zeigt sich eine gro-
ße Verbesserung der Vorhersagegenauigkeit, wie anhand
                                                          Literatur
der Makro F1 und ausgewogenen Accuracy-Metriken            [1] I. H. Sarker, Machine learning: Algorithms, real-
gesehen werden kann. Zusätzlich zeigt sich diese Verbes-       world applications and research directions, SN com-
serung vor allem in Bezug auf die Optimierung der Ent-         puter science 2 (2021) 160.
scheidungsfusionsmethode. Wird diese nicht optimiert, [2] T. G. Dietterich, Ensemble Methods in Machine
so kann sich die Vorhersage des Ensembles im Vergleich         Learning, in: G. Goos, J. Hartmanis, J. van Leeuwen
zu einzelnen Klassifikatoren verschlechtern. Diese Ver-        (Eds.), Multiple Classifier Systems, volume 1857,
besserung lässt sich dadurch erklären, dass eine statisch      2000, pp. 1–15. doi:10.1007/3- 540- 45014- 9_1 .
gewählte Entscheidungsfusionsmethode nicht auf die ge- [3] R. Polikar, Ensemble Based Systems in Decision
wählte Menge an Klassifikatoren sowie die verwendeten          Making, IEEE Circuits and Systems Magazine 6
Daten angepasst ist. Aus diesem Grund führt die hier ver-      (2006) 21–45. doi:10.1109/MCAS.2006.1688199 .
wendete Optimierung der Entscheidungsfusion zu einer       [4] V. Hirsch, P. Reimann, D. Treder-Tschechlov,
höheren Vorhersagegenauigkeit.                                 H. Schwarz, B. Mitschang, Exploiting Domain
                                                               Knowledge to Address Class Imbalance and a He-
5. Zusammenfassung und nächste                                 terogeneous Feature Space in Multi-Class Classi-
                                                               fication, The VLDB Journal (2023). doi:10.1007/
      Schritte                                                 s00778- 023- 00780- 6 .
                                                           [5] V. Hirsch, P. Reimann, B. Mitschang, Data-Driven
In dieser Arbeit haben wir einen AutoML-Ansatz vorge-          Fault Diagnosis in End-of-Line Testing of Complex
stellt, der die automatische Optimierung eines Ensembles       Products, in: Proc. of the 6th IEEE International
ermöglicht. Hierbei wird die Klassifikator-Menge hin-          Conference on Data Science and Advanced Analy-
sichtlich Diversität und Genauigkeit sowie die Entschei-       tics (DSAA), 2019, pp. 492–503. doi:10.1109/DSAA.
dungsfusion hinsichtlich ihrer Genauigkeit optimiert. So-      2019.00064 .
mit werden aktuell der Klassifikator- und Entscheidungs- [6] Y. Wilhelm, U. Schreier, P. Reimann, B. Mitschang,
fusionsaspekt behandelt. Der Ansatz wurde an zwei Da-          H. Ziekow, Data Science Approaches to Quali-
tensätzen mit unausgewogenen Klassenverteilungen eva-          ty Control in Manufacturing: A Review of Pro-
luiert. Anhand der Evaluation ist zu sehen, dass die Er-       blems, Challenges and Architecture, in: Proc. of
stellung eines optimierten Ensembles und die Fusionsop-        the 14th Symposium on Service-Oriented Compu-
timierung eine Verbesserung der Vorhersagegenauigkeit          ting (SummerSOC), Communications in Computer
erzielen.                                                      and Information Science (CCIS), 2020, pp. 45–65.
    In zukünftigen Arbeiten planen wir, den vorgestellten      doi:10.1007/978- 3- 030- 64846- 6_4 .
Prototypen hinsichtlich des Datenaspektes zu erweitern. [7] L. Hansen, P. Salamon, Neural Network Ensembles,
So können Methoden für die implizite Diversität und            IEEE Trans. on Pattern Analysis and Machine Intel-
Vorverarbeitung integriert werden. Zusätzlich ist eine         ligence 12 (Oct./1990) 993–1001. doi:10.1109/34.
ausführlichere Evaluation anhand weiterer Datensätze           58871 .
                  3              4
wie z. B. MNIST und Covertype geplant. Hierbei sollen      [8] G. Brown, J. Wyatt, R. Harris, X. Yao, Diversity
weitere Aspekte wie der Einfluss der Diversität auf die        Creation Methods: A Survey and Categorisation,
Optimierung des Ensembles mit betrachtet werden.               Information Fusion 6 (2005) 5–20. doi:10.1016/j.
    Weiterhin kann Meta-Learning für die Auswahl von           inffus.2004.04.004 .
Klassifikatoren und Entscheidungsfusionsmethoden be- [9] Y. Wilhelm, P. Reimann, W. Gauchel, S. Klein,
trachtet werden. Zuletzt bietet die Betrachtung domä-          B. Mitschang, PUSION- A Generic and Automa-
nenspezifischer Datencharakteristika neue Ansätze, um          ted Framework for Decision Fusion, in: Proc. of the
z. B. Klassifikatoren und Entscheidungsfusionsmethoden         39th International Conference on Data Engineering
auszuwählen und zu optimieren.                                 (ICDE), 2023.
                                                          [10] Y. Wilhelm, P. Reimann, W. Gauchel, B. Mitschang,
                                                               Overview on Hybrid Approaches to Fault Detection
3
  https://www.openml.org/d/554                                 and Diagnosis: Combining Data-driven, Physics-
4
    https://www.openml.org/d/180
     based and Knowledge-based Models, Procedia CIRP                 ML Solutions for Predictive Use Cases, in: Proc. of
     99 (2021) 278–283. doi:10.1016/j.procir.2021.                   the 8th International Conference on Data Science
     03.041 .                                                        and Advanced Analytics (DSAA), 2021, pp. 148–155.
[11] L. Breiman, Bagging predictors, Machine Learning                doi:10.1109/DSAA53316.2021.9564168 .
     24 (1996) 123–140. doi:10.1007/BF00058655 .                [26] C. Weber, P. Hirmer, P. Reimann, A Model Ma-
[12] R. E. Schapire, The Strength of Weak Learnability,              nagement Platform for Industry 4.0 - Enabling
     Machine Learning 5 (1990) 197–227. doi:10.1007/                 Management of Machine Learning Models in Ma-
     BF00116037 .                                                    nufacturing Environments, in: Proc. of the 23th
[13] W. Wegier, M. Koziarski, M. Wozniak, Multicriteria              International Conference on Business Informati-
     Classifier Ensemble Learning for Imbalanced Data,               on Systems (BIS), 2020, pp. 403–417. doi:https:
     IEEE Access 10 (2022) 16807–16818. doi:10.1109/                 //doi.org/10.1007/978- 3- 030- 53337- 3_30 .
     ACCESS.2022.3149914 .                                      [27] Treder-Tschechlov, Dennis, P. Reimann, H. Schwarz,
[14] R. Moussa, G. Guizzo, F. Sarro, MEG: Multi-                     B. Mitschang, Approach to Synthetic Data Gene-
     objective Ensemble Generation for Software Defect               ration for Imbalanced Multi-class Problems with
     Prediction, in: ACM / IEEE International Sympo-                 Heterogeneous Groups, in: BTW, 2023, pp. 329–351.
     sium on Empirical Software Engineering and Mea-                 doi:10.18420/BTW2023- 16 .
     surement (ESEM), 2022, pp. 159–170. doi:10.1145/           [28] H. Suresh, J. Guttag, A framework for understan-
     3544902.3546255 .                                               ding sources of harm throughout the machine lear-
[15] E. LeDell, S. Poirier, H2O AutoML: Scalable Auto-               ning life cycle, EAAMO ’21, 2021. doi:10.1145/
     matic Machine Learning, in: Proc. of the AutoML                 3465416.3483305 .
     Workshop at ICML, 2020.                                    [29] N. Mehrabi, F. Morstatter, N. Saxena, K. Lerman,
[16] M. Feurer, et al., Efficient and Robust Automated               A. Galstyan, A survey on bias and fairness in
     Machine Learning, in: C. Cortes, et al. (Eds.), Ad-             machine learning, ACM Comput. Surv. 54 (2021).
     vances in Neural Information Processing Systems,                doi:10.1145/3457607 .
     volume 28, 2015.                                           [30] Moreno-Torres, et al., A unifying view on dataset
[17] A. Lacoste, H. Larochelle, M. Marchand, F. Laviolet-            shift in classification, Pattern recognition 45 (2012)
     te, Sequential Model-Based Ensemble Optimization,               521–530.
     in: Proc. of the 13th Conference on Uncertainty in         [31] M. Spieß, P. Reimann, C. Weber, B. Mitschang,
     Artificial Intelligence, UAI’14, 2014, p. 440–448.              Analysis of Incremental Learning and Windowing
[18] J.-C. Lévesque, C. Gagné, R. Sabourin, Bayesian                 to handle Combined Dataset Shifts on Binary
     Hyperparameter Optimization for Ensemble Lear-                  Classification for Product Failure Prediction, in:
     ning, in: A. Ihler, D. Janzing (Eds.), Proc. of the 32nd        Proc. of the 24th International Conference on on
     Conference on Uncertainty in Artificial Intelligence,           Enterprise Information Systems (ICEIS), SCITE-
     2016.                                                           PRESS, 2022, pp. 394–405. doi:https://doi.org/
[19] N. Erickson, et al., AutoGluon-Tabular: Robust and              10.5220/0011093300003179 .
     Accurate AutoML for Structured Data, 2020. doi:10.         [32] J. Voggesberger, P. Reimann, B. Mitschang, Towards
     48550/arXiv.2003.06505 . arXiv:2003.06505 .                     the Automatic Creation of Optimized Classifier En-
[20] Y. Freund, R. E. Schapire, A Decision-Theoretic                 sembles, in: Proc. of the 25th Int. Conference on
     Generalization of On-Line Learning and an Appli-                Enterprise Information Systems (ICEIS) - Volume 1,
     cation to Boosting, Journal of Computer and Sys-                2023, pp. 614–621.
     tem Sciences 55 (1997) 119–139. doi:10.1006/jcss.          [33] F. Pedregosa, et al., Scikit-learn: Machine learning
     1997.1504 .                                                     in Python, Journal of Machine Learning Research
[21] L. Breiman, Random Forests, Machine Learning 45                 12 (2011) 2825–2830.
     (2001) 5–32. doi:10.1023/A:1010933404324 .                 [34] J. Bergstra, Y. Bengio, Random search for hyper-
[22] Tin Kam Ho, The Random Subspace Method                          parameter optimization, Journal of Machine Lear-
     for Constructing Decision Forests, IEEE Trans.                  ning Research 13 (2012) 281–305.
     on Pattern Analysis and Machine Intelligence 20            [35] G. Giacinto, F. Roli, An Approach to the Automa-
     (Aug./1998) 832–844. doi:10.1109/34.709601 .                    tic Design of Multiple Classifier Systems, Pattern
[23] L. I. Kuncheva, Combining Pattern Classifiers: Me-              Recognition Letters 22 (2001) 25–33. doi:10.1016/
     thods and Algorithms, J. Wiley, 2004.                           S0167- 8655(00)00096- 9 .
[24] J. Vanschoren, Meta-Learning, Springer Interna-
     tional Publishing, 2019, pp. 35–61. doi:10.1007/
     978- 3- 030- 05318- 5_2 .
[25] A. G. Villanueva Zacarias, C. Weber, P. Reimann,
     B. Mitschang, AssistML: A Concept to Recommend