Optimierung von Klassifikator-Ensembles mit AutoML Julius Voggesberger1 1 Institut für Parallele und Verteilte Systeme, Universität Stuttgart, Universitätsstr. 38, Stuttgart, Deutschland Abstract Data for classification problems often exhibit complex characteristics that lead to inaccurate predictions of classifiers trained on the data. For example, training a classifier on a small amount of data can lead to overfitting. To solve such problems, multiple classifiers can be combined into an ensemble. For this purpose, multiple classifiers have to be trained that are as accurate and divers as possible. In this case, diversity stands for classifiers that make correct predictions on different data instances. Furhtermore, a suitable method for fusing the individual classifier predictions has to be selected In this paper, we present an approach using AutoML to automatically create and optimize ensembles. The approach is evaluated on two real-world datasets with complex data characteristics. The results of the evaluation show an improvement of the predictive accuracy by the automatically created ensembles. Zusammenfassung Daten für Klassifikationsprobleme weisen oft komplexe Charakteristika auf, die zu ungenauen Vorhersagen der mit den Daten trainierten Klassifikatoren führen. Beispielsweise kann eine geringe Menge an Daten zu einer Überanpassung der Klassifikatoren führen. Um derartige Probleme zu lösen, können mehrere Klassifikatoren zu einem Ensemble kombiniert werden. Hierfür müssen mehrere Klassifikatoren trainiert werden, die möglichst genau, aber auch divers sind. Diversität bedeutet in diesem Fall, dass die Klassifikatoren auf unterschiedlichen Dateninstanzen korrekte Vorhersagen treffen. Weiterhin muss eine geeignete Methode für die Fusion der einzelnen Klassifikatorvorhersagen ausgewählt werden. In dieser Arbeit stellen wir einen AutoML-Ansatz vor, mit dem die Erstellung und Optimierung eines Ensembles automatisiert möglich ist. Der Ansatz wird anhand zweier Echtweltdatensätze mit komplexen Datencharakteristika evaluiert. Die Ergebnisse der Evaluation zeigen hierbei eine Verbesserung der Vorhersagegenauigkeit durch die automatisch erstellten Ensembles. Keywords Maschinelles Lernen, Klassifikator-Ensembles, Klassifikatordiversität, Entscheidungsfusion 1. Einführung den Entscheidungsfusion können so primär die korrekten Vorhersagen übernommen werden. Damit ein Ensemble Um Erkenntnisse aus Daten zu gewinnen sowie Vorher- mit hoher Vorhersagegenauigkeit erzeugt werden kann, sagen und Entscheidungen zu treffen, werden oft Klassifi- müssen drei Anforderungen erfüllt werden. kationsalgorithmen verwendet. Diese finden in vielen un- A1: Genaue Klassifikatoren: Eine Steigerung der terschiedlichen Bereichen, wie z. B. dem Medizinwesen, Vorhersagegenauigkeit durch die Entscheidungsfusion dem Internet der Dinge oder in der Bilderkennung An- setzt voraus, dass die einzelnen Klassifikatoren bereits ei- wendung [1]. Jedoch kann ein Klassifikationsalgorithmus ne hohe Vorhersagegenauigkeit erreichen [2, 7]. Folglich nicht in jedem Fall einen Klassifikator mit einer hohen ist es nötig, dass geeignete Klassifikationsalgorithmen Vorhersagegenauigkeit erstellen. So kann ein Klassifika- ausgewählt werden, die anhand ihrer Hyper-Parameter tor durch das Training auf kleinen Datensätzen überange- optimiert sind. passt werden oder komplexe Datencharakteristika nicht A2: Diverse Klassifikatoren: Die zweite Anforde- vollständig erfassen [2, 3, 4, 5, 6]. rung ist die Diversität der Klassifikatoren hinsichtlich Um diese Probleme zu lösen, können mehrere Klassifi- ihrer korrekten und fehlerhaften Vorhersagen für unter- katoren in einem Ensemble kombiniert werden, sodass schiedliche Dateninstanzen [7, 2, 8]. Eine hohe Diversität eine höhere Vorhersagegenauigkeit und Generalisierbar- ermöglicht die Fusion der korrekten Vorhersagen, wo- keit erreicht werden kann [3]. Dabei treffen die Klas- durch eine Steigerung der Vorhersagegenauigkeit und sifikatoren diverse Vorhersagen, welche in einem Fusi- Generalisierbarkeit möglich ist. Diversität kann hierbei onsschritt zu einer gemeinsamen Vorhersage kombiniert implizit oder explizit erzeugt werden [8]. Implizite Me- werden. Diversität bedeutet hierbei, dass die Klassifika- thoden manipulieren den Trainingsprozess der Klassifi- toren fehlerhafte und korrekte Vorhersagen auf unter- katoren durch die Verwendung von Zufall, wohingegen schiedlichen Dateninstanzen treffen. Bei der anschließen- explizite Methoden die Diversität direkt durch z. B. Di- versitätsmetriken optimieren. 34th GI-Workshop on Foundations of Databases (Grundlagen von Da- A3: Genaue Entscheidungsfusion: Damit während tenbanken), June 7-9, 2023, Hirsau, Germany der Fusion die korrekten Vorhersagen der Klassifikatoren Envelope-Open julius.voggesberger@ipvs.uni-stuttgart.de (J. Voggesberger) bevorzugt werden, muss ein geeigneter Entscheidungsfu- Orcid 0000-0003-4808-1922 (J. Voggesberger) © 2023 Copyright for this paper by its authors. Use permitted under Creative Commons License sionsalgorithmus ausgewählt werden [3]. Jedoch existie- Attribution 4.0 International (CC BY 4.0). CEUR ceur-ws.org Workshop ISSN 1613-0073 Proceedings Tabelle 1 Vergleich von Ansätzen aus der Literatur. 3 = vollständig erfüllt, (3) = teilweise erfüllt, 7 = nicht erfüllt. A1: A2: A3: Methoden Genaue Diverse Genaue Klassifikatoren Klassifikatoren Fusion Bagging [11], Boosting [12] (3) (3) 7 Ensemble Ungleichverteilte Daten [13], (3) (3) (3) Algorithmen MEG [14] PUSION [9] 7 7 (3) H2O [15] 3 (3) (3) Automated Machine Auto-Sklearn [16], Learning ESMBO [17], BOE [18], 3 (3) 7 AutoGluon-Tabular [19] ren viele unterschiedliche Fusionsalgorithmen, die ver- 2.1. Ensemble-Algorithmen schiedene Strategien zur Fusion der Vorhersagen verwen- Es existiert bereits eine Vielfalt an Algorithmen für die Er- den und bei denen zusätzlich Hyper-Parameter optimiert stellung von Ensembles. Die bekanntesten Verfahren sind werden müssen [9, 10]. Boosting [12] und Bagging [11]. Beispiele für Algorith- In dieser Arbeit wird ein Überblick über unterschiedli- men dieser Verfahren sind AdaBoost [20] und Random chen Lösungsansätze für die Erstellung eines Ensembles, Forests [21]. AdaBoost erzeugt Diversität explizit, indem das diese Anforderungen erfüllt, gegeben. Die Ansätze in einem iterativen Verfahren Klassifikatoren mit Fokus beziehen sich neben den Klassifikations- und Entschei- auf die Fehler der vorhergehenden Klassifikatoren trai- dungsfusionsalgorithmen zu einem großen Teil auch auf niert werden. Eine implizite Erzeugung der Diversität die Betrachtung der Daten und ihrer Charakteristiken so- erfolgt jedoch nicht. Ebenso werden die Hyperparameter wie auf Aspekte der Datenvorbereitung, die ebenso einen der Klassifikatoren und die Entscheidungsfusion nicht wesentlichen Einfluss auf die Diversität und Genauigkeit optimiert. Random Forests teilen diese Defizite, jedoch er- eines Ensembles haben können. Zusätzlich werden ers- zeugt der Algorithmus die Diversität implizit statt explizit. te Ergebnisse anhand eines implementierten Ansatzes Hierfür werden die Klassifikatoren auf unterschiedlichen, vorgestellt. Für die Automatisierung der Auswahl von zufällig ausgewählten Teilmengen der Trainingsdaten Klassifikations- und Entscheidungsfusionsalgorithmen trainiert. und der Optimierung ihrer Hyper-Parameter wird Auto- Neuere Veröffentlichung fokussieren sich hingegen mated Machine Learning (AutoML) verwendet. Abschlie- auf die Verwendung von multikriterieller Optimierung. ßend werden die Ergebnisse der Evaluation des Ansatzes So wird z. B. in ”Multi-objective Ensemble Generation” anhand zweier Datensätze diskutiert. (MEG) [14] ein Ensemble sowohl anhand der Diversität Die restliche Arbeit ist wie folgt gegliedert: Anhand als auch der Vorhersagegenauigkeit optimiert. Die be- verwandter Arbeiten wird in Abschnitt 2 die Forschungs- trachtete Menge an Klassifikatoren und Entscheidungs- lücke aufgezeigt und anschließend in Abschnitt 3 Ansätze fusionsalgorithmen ist hierbei jedoch gering und Diver- für deren Lösung präsentiert. Ein erstes auf diesen Ansät- sität wird nur explizit erzeugt. Ein weiterer Algorithmus zen basierendes Konzept wird in Abschnitt 4 vorgestellt, betrachtet Ensembles für ungleich verteilte Daten [13]. sowie anhand zweier Datensätze evaluiert. Abschließend Hierfür werden die Gewichte eines Mehrheitsvotums werden in Abschnitt 5 die Arbeit zusammengefasst sowie Ansatzes sowohl anhand von Precision als auch Recall mögliche Ansatzpunkte für zukünftige Arbeiten genannt. optimiert. Jedoch werden die Klassifikatoren selbst nicht optimiert, sondern nur aus einer Menge an 15 Algorith- 2. Verwandte Arbeiten men eine Untermenge für das Ensemble ausgewählt. Einen anderen Ansatz bietet das PUSION Frame- In diesem Abschnitt werden bestehende Ansätze betrach- work [9]. Dieses nimmt die diverse Klassifikatormen- tet, die die Erstellung von Ensembles behandeln. Hierbei ge als gegeben an und optimiert ausschließlich den zu wird zusätzlich der Fokus auf AutoML Ansätze gelegt, da verwendeten Entscheidungsfusionsalgorithmus. Jedoch dieser Ansatz im weiteren Verlauf dieser Arbeit verfolgt wird hierbei nicht die Hyper-Parameteroptimierung der wird. Eine Übersicht über die vorgestellte Literatur an- Entscheidungsfusionsalgorithmen mitbetrachtet. hand der Anforderungen A1-A3 ist in Tabelle 1 gegeben. Datenaspekt (A1, A2) Klassifikatoraspekt (A1, A2) Fusionsaspekt (A3) Impl. Diversität, Auswahl und Optimierung Auswahl und Optimierung Vorverarbeitung der Algorithmen, expl. Diversität der Fusionsalgorithmen Ensemble 𝑌1 Klassifikator- 𝑌2 𝑋 Entscheidungsfusion 𝑌 Menge ⋮ 𝑌𝑘 Domänenspezifische Datencharakteristika (A1, A2, A3) Komplexe Datencharakteristika, Domänenwissen, expl. Diversität Abbildung 1: Schematische Darstellung eines Ensembles. Die Eingabe 𝑋 ist ein Datensatz, 𝑌𝑖 sind die Vorhersagen der einzelnen Klassifikatoren und 𝑌 ist die fusionierte Ausgabe des Ensembles. Blau hinterlegt sind die möglichen Aspekte zur Lösung der Anforderungen A1-A3. 2.2. AutoML für Ensembles Methoden und den Einsatz impliziter Diversitätsmetho- den in der Datenvorbereitung ein. Über die Manipu- Automated Machine Learning (AutoML) bezeichnet die lation der Daten kann die Genauigkeit und Diversität automatisierte Erstellung eines maschinellen Lernmo- der trainierten Klassifikator-Menge beeinflusst werden dells für gegebene Daten innerhalb eines bestimmten (Anforderungen A1 und A2). Vorverarbeitungs- und Budgets [16]. Im AutoML-Bereich existieren bereits vie- Feature-Engineering-Methoden beeinflussen insbesonde- le verschiedene Frameworks, jedoch unterstützen nur re die Vorhersagegenauigkeit der einzelnen Klassifikato- einige wenige die Erstellung und Optimierung von ren (A1). Diese Methoden bereiten die Daten auf, sodass Ensembles. So erlauben dies z. B. Auto-sklearn [16], diese von Klassifikationsalgorithmen besser verarbeitet H2O [15], ESMBO [17], Bayesian Optimization for En- werden können. Hierfür können z. B. kategorische Daten sembles (BOE) [18] und AutoGluon-Tabular [19]. Jedoch numerisch kodiert oder die Dimensionalität der Daten re- nehmen diese an, dass die Verwendung von unterschied- duziert werden. Um mit Hilfe der Vorverarbeitungs- und lichen Algorithmen und Hyper-Parametrisierungen eine Feature-Engineering-Methoden zusätzlich die Diversität ausreichend diverse Menge an Klassifikatoren erzeugt. zu erhöhen (A2), können je Klassifikator unterschiedli- Zusätzlich dazu wird bei der Mehrheit der Frameworks che Methoden auf die Daten angewendet werden. Damit der Entscheidungsfusionsalgorithmus nicht optimiert, wird jeder Klassifikator auf unterschiedlich vorbereiteten sondern ein spezifischer Algorithmus vorgegeben. Eine Daten trainiert und angepasst, sodass die gesamte Menge Ausnahme bildet H2O, welches eine begrenzte Optimie- an Klassifikatoren insgesamt diverser wird. rung der Fusion erlaubt, indem verschiedene Algorith- Alternativ werden innerhalb gängiger Ensemble- men für die Stacked Generalization verwendet werden Algorithmen, wie z. B. Random Forests, implizite Diversi- können. tätsmethoden verwendet, um die Diversität zwischen den einzelnen Klassifikatoren zu erhöhen (vgl. Abschnitt 2.1). 3. Lösungsansätze Hierbei werden die Trainingsdaten für jeden Klassifikator zufällig ausgewählt, z. B. über die Auswahl von Daten- In diesem Abschnitt werden vier verschiedene Aspek- instanzen mit Bootstrapping [11] oder einer Attribut- te vorgestellt, mit denen die Anforderungen A1-A3 zur Teilmenge mit der Random-Subspace-Methode [22]. Erstellung eines Klassifikator-Ensembles gelöst werden Klassifikatoraspekt: Unter diesem Aspekt wird die können (siehe Abbildung 1). Im Folgenden werden diese Auswahl und Optimierung der Klassifikatoren des En- Aspekte definiert, sowie deren Ansatzpunkte zur Lösung sembles anhand der Vorhersagegenauigkeit und Diversi- der Anforderungen präsentiert. tät betrachtet (A1+A2). Diversität kann hierbei explizit Datenaspekt: Der Datenaspekt schließt die Verwen- über die Verwendung von Diversitätsmetriken optimiert dung von Vorverarbeitungs- und Feature-Engineering- werden [23]. Mit Hilfe dieser Metriken, wie z. B. der Dop- Select: COGS COGS Untermenge Auswahl der Overproduce: Entscheidungs- auswählen genausten Klassifikator- fusions- hinsichtlich Entscheidungs- optimierung optimierung Diversität fusion (A1) (A3) (A2) Abbildung 2: Darstellung des gewählten Ansatzes für das AutoML-Frameworks für Ensembles. COGS= Optimierungsproblem. pelfehlerrate oder Q-Statistik, kann die Diversität eines werden, um so explizit anhand der Datencharakteristika Ensembles gemessen und so eine Aussage über sie ge- Diversität zu erzeugen. troffen werden. Jedoch ist aktuell der Zusammenhang zwischen der mit diesen Metriken gemessenen Diversi- tät und der Genauigkeit des Ensembles aus Klassifikato- 4. Erste Ergebnisse ren nicht ausreichend untersucht. Für die Optimierung Die Diskussion bestehender Arbeiten in Abschnitt 2 zeigt, kann z. B. AutoML und Meta-Learning verwendet wer- dass aktuell kein Framework die Anforderungen A1-A3 den. Meta-Learning bezeichnet das Lernen aus vorhe- erfüllt. Um dieses Problem zu lösen, haben wir [32] einen rigen Erfahrungen, um schneller ein Modell mit hoher Ansatz entwickelt, der auf die in Abschnitt 3 vorgestell- Vorhersagegenauigkeit für einen neuen Datensatz zu fin- ten Lösungsansätze eingeht. Im Folgenden werden der den [24]. Als Erfahrungen werden hierbei Metadaten be- Ansatz und seine prototypische Implementierung vorge- zeichnet, die vorherige Datensätze und darauf evaluierte stellt sowie erste Evaluationsergebnisse präsentiert. Machine-Learning-Algorithmen beschreiben [25, 26]. Entscheidungsfusionsaspekt: Der Fusionsaspekt be- schreibt die Auswahl und Optimierung des Fusionsalgo- 4.1. AutoML-Ansatz für Ensembles rithmus. Die Optimierung erfolgt im Gegensatz zu den Der hier vorgestellte Ansatz setzt die in Abschnitt 3 vor- Klassifikatoren lediglich anhand der Vorhersagegenauig- gestellten Klassifikations- und Fusionsaspekte mithilfe keit (A3). Jedoch kann hier ebenfalls AutoML und Meta- von AutoML um (siehe Abb. 2). Für die Erstellung der Learning für die Optimierung verwendet werden. Klassifikator-Menge wird ein sogenannter „Overproduce Domänenspezifische Datencharakteristika: Die and Select“-Ansatz verfolgt: In einem Overproduce-Schritt Ausnutzung domänenspezifischer Datencharakteristika werden mehrere Klassifikatorkonfigurationen anhand ih- ermöglicht es, Wissen über die Daten und die Daten- rer Vorhersagegenauigkeit durch AutoML optimiert und domäne zu verwenden. Dies schließt komplexe, domä- evaluiert. Jede Konfiguration und ihre Evaluation wer- nenspezifische Datencharakteristika wie z. B. ungleiche den abgespeichert, sodass nach der Optimierung in einem Klassenverteilungen, verschiedene Arten von Bias in den Select-Schritt eine Untermenge aus allen evaluierten Kon- Daten sowie zeitliche Änderungen der statistischen Da- figurationen ausgewählt werden kann. Dies erlaubt es, tenverteilungen mit ein [27, 28, 29, 30, 31]. Beispielsweise eine Menge an Klassifikatoren anhand ihrer Diversität stellen Hirsch et al. [4] einen Ansatz vor, der domänen- und Genauigkeit auszuwählen und somit die Anforde- spezifische Datencharakteristika sowie Domänenwissen rungen A1 und A2 zu erfüllen. explizit innerhalb einer Vorbereitung der Daten ausnutzt, Für die Optimierung der Entscheidungsfusion wird um die Eingabedaten 𝑋 in mehrere Teilmengen aufzutei- hingegen ausschließlich AutoML verwendet. Die Opti- len. Durch diese Datenpartitionierung können auf den mierung und Auswahl des besten Entscheidungsfusions- Teilmengen spezialisierte Klassifikatoren trainiert wer- algorithmus erfolgt somit anhand der Vorhersagegenau- den, die für die jeweilige Datenteilmenge genauere Vor- igkeit, um die Anforderung A3 zu erfüllen. hersagen trifft als ein auf der gesamten Datenmenge 𝑋 Durch dieses Vorgehen wird ein Ensemble erstellt, trainierter Klassifikator (A1). Da jeder dieser Klassifika- dass die Anforderungen A1-A3 erfüllt. Weiterhin ist toren auf einer anderen Teilmenge der Daten trainiert die Komplexität des Suchraums und der Optimierung wurde, wird die gesamte Menge an Klassifikatoren divers niedrig, da die Klassifikator-Menge und die Entschei- und kann für ein Ensemble genutzt werden (A2). Ana- dungsfusion getrennt voneinander optimiert werden [32]. log kann Wissen über die Problemdomäne verwendet Dies ermöglicht eine kürzere Laufzeit und erhöht die werden, um geeignete Klassifikatoren und Fusionsalgo- Wahrscheinlichkeit eine genaue und generalisierende rithmen auszuwählen sowie die Größe des Ensembles zu Ensemble-Konfiguration zu finden. bestimmen (A3). Insbesondere kann dieses Wissen für die Erstellung einer diversen Klassifikatormenge verwendet Tabelle 2 Vorhersagegenauigkeit der Baseline, statischen Fusion und des optimierten Ensembles. Für die Baseline bezeichnet der Entscheidungsfusionsalgorithmus den Klassifikationsalgorithmus. SVM=Support Vector Machine, AVG=„Simple Averaging“, WV=Gewichtetes Mehrheitsvotum, RF=Random Forest, NN=Neurales Netzwerk. Entscheidungs- Ausgewogene Datensatz Typ Ensemblegröße Accuracy (%) Makro F1 (%) fusion Accuracy (%) Baseline SVM - 86,56 82,86 83,68 Kropt Statische Fusion AVG 5 86,07 79,00 81,66 Optimiertes Ensemble WV 5 88,56 84,90 85,81 Baseline RF - 86,59 64,05 69,29 Ldpa Statische Fusion AVG 10 81,72 54,17 57,73 Optimiertes Ensemble NN 10 87,52 72,93 77,68 4.2. Implementierung letzteren beiden besser für Mehrklassenprobleme geeig- net sind. Um eine geeignete Größe für die Klassifikator- Die Implementierung des Prototyps erfolgte in der Pro- Menge zu finden, werden alle Größen zwischen 2 und 30 grammiersprache Python. Für die Bereitstellung von Klas- getestet. Abschließend wird das Ensemble mit der höchs- sifikationsalgorithmen wird die Bibliothek scikit-learn ten Vorhersagegenauigkeit gewählt. Für die Optimierung 1.0.2 [33] verwendet und Entscheidungsfusionsalgorith- der Klassifikatoren wird ein Limit von einer Stunde und men sind aus dem PUSION-Framework 1.3.5 [9] adaptiert. für die Fusionsoptimierung von zehn Minuten festgelegt. Als AutoML-Optimierung wird eine Zufallssuche [34] Vergleich von Baseline und optimiertem Ensem- verwendet, während für die Auswahl der Klassifikator- ble: Im Vergleich zwischen der Baseline und unserem op- Menge ein Clustering-Ansatz zum Einsatz kommt [35, 25]. timierten Ensemble erreicht Letzteres für beide Datensät- Durch den Clustering-Ansatz werden Klassifikatoren mit ze die höhere Vorhersagegenauigkeit. Die Verbesserung einer niedrigen Diversität zueinander in ein Cluster grup- des Ensembles beträgt für den Kropt-Datensatz +2, 00%- piert, und pro Cluster der Klassifikator mit der höchsten Punkte Accuracy, +2, 05%-Punkte ausgewogene Accu- Vorhersagegenauigkeit ausgewählt. Weitere Software- racy und +2, 13%-Punkte Makro F1 und für den Ldpa- Bibliotheken, die für die Implementierung verwendet Datensatz +0, 93%-Punkte Accuracy, +8, 88%-Punkte aus- werden, sind NumPy 1.22.2, Pandas 1.4.0 und Scipy 1.8.0. gewogene Accuracy und +8, 39%-Punkte Makro F1. Bei Der Prototyp wurde auf einem Cluster mit 16 virtuellen letzterem Datensatz fällt die Differenz von Makro F1 und CPU-Kernen und 32 GB RAM ausgeführt. gewichteter Accuracy Metrik mit mehr als +8%-Punkte bedeutend größer aus als für die Accuracy. Dies ist darauf 4.3. Experimentelle Evaluation zurückzuführen, dass beide Metriken die Klassen in ihren Berechnungen gleich gewichten, unabhängig von deren Der vorgestellte Ansatz wird anhand zweier Echtwelt- tatsächlichen Häufigkeit in den Daten. datensätze evaluiert, die ungleiche Klassenverteilungen Vergleich von statischer Fusion und optimier- aufweisen. Hierfür wurde der Schach-Datensatz Kropt1 tem Ensemble: Bei der Betrachtung der Fusionsopti- mit 18 und der Bewegungs-Datensatz Ldpa2 mit 11 Klas- mierung zeigt sich sogar eine Verschlechterung zur Base- sen ausgewählt. Als Baseline der Evaluation wird der line, falls die Entscheidungsfusion nicht optimiert wird, einzelne Klassifikator gewählt, der während der AutoML- sondern eine statische Fusion verwendet wird. So ver- Optimierung die höchste Vorhersagegenauigkeit erzielt. ringert sich die Vorhersagegenauigkeit des Ensembles Um die Optimierung der Entscheidungsfusion separat zu ohne Optimierung um −4, 87%-Punkte Accuracy, −3, 86%- beurteilen, wird zusätzlich das vom Prototyp optimierte Punkte ausgewogene Accuracy und −2, 02%-Punkte Ma- Ensemble mit einem Ensemble ohne Fusionsoptimierung kro F1 für den Kropt-Datensatz und um −0, 49%-Punkte verglichen. Für dieses wird als statisch gewählte Ent- Accuracy, −9, 88%-Punkte ausgewogene Accuracy und scheidungsfusion das „Simple Averaging“ (AVG) [3, 23] −11, 56%-Punkte Makro F1 für den Ldpa-Datensatz. Im auf die Klassifikator-Menge des optimierten Ensembles Vergleich zu den optimierten Ensembles fällt die Verbes- angewendet. serung durch die Fusionsoptimierung im Vergleich zur Die Ergebnisse der Evaluation sind in Tabelle 2 auf- statischen Fusion folglich nochmals höher aus. So be- gelistet. Der Vergleich erfolgt anhand der Metriken Ac- trägt die Verbesserung für den Kropt-Datensatz +6, 87%- curacy, Ausgewogener Accuracy und Makro F1, wobei Punkte Accuracy, +5, 90%-Punkte ausgewogene Accura- 1 https://www.openml.org/d/184 cy und +4, 15%-Punkte Makro F1 sowie +1, 42%-Punkte 2 https://www.openml.org/d/1483 Accuracy, +18, 76%-Punkte ausgewogene Accuracy und Acknowledgments +19, 95%-Punkte Makro F1 für den Ldpa-Datensatz. Diskussion: Durch die Evaluation konnte gezeigt wer- Der Autor bedankt sich bei Bernhard Mitschang und den, dass die durch unseren Ansatz optimierten Ensem- Peter Reimann für ihr Feedback zur Verbesserung des bles für beide Datensätze die Vorhersagen mit der höchs- Papers. ten Genauigkeit erzielen. Insbesondere mit Bezug auf un- gleichverteilte Mehrklassenprobleme zeigt sich eine gro- ße Verbesserung der Vorhersagegenauigkeit, wie anhand Literatur der Makro F1 und ausgewogenen Accuracy-Metriken [1] I. H. Sarker, Machine learning: Algorithms, real- gesehen werden kann. Zusätzlich zeigt sich diese Verbes- world applications and research directions, SN com- serung vor allem in Bezug auf die Optimierung der Ent- puter science 2 (2021) 160. scheidungsfusionsmethode. Wird diese nicht optimiert, [2] T. G. Dietterich, Ensemble Methods in Machine so kann sich die Vorhersage des Ensembles im Vergleich Learning, in: G. Goos, J. Hartmanis, J. van Leeuwen zu einzelnen Klassifikatoren verschlechtern. Diese Ver- (Eds.), Multiple Classifier Systems, volume 1857, besserung lässt sich dadurch erklären, dass eine statisch 2000, pp. 1–15. doi:10.1007/3- 540- 45014- 9_1 . gewählte Entscheidungsfusionsmethode nicht auf die ge- [3] R. Polikar, Ensemble Based Systems in Decision wählte Menge an Klassifikatoren sowie die verwendeten Making, IEEE Circuits and Systems Magazine 6 Daten angepasst ist. Aus diesem Grund führt die hier ver- (2006) 21–45. doi:10.1109/MCAS.2006.1688199 . wendete Optimierung der Entscheidungsfusion zu einer [4] V. Hirsch, P. Reimann, D. Treder-Tschechlov, höheren Vorhersagegenauigkeit. H. Schwarz, B. Mitschang, Exploiting Domain Knowledge to Address Class Imbalance and a He- 5. Zusammenfassung und nächste terogeneous Feature Space in Multi-Class Classi- fication, The VLDB Journal (2023). doi:10.1007/ Schritte s00778- 023- 00780- 6 . [5] V. Hirsch, P. Reimann, B. Mitschang, Data-Driven In dieser Arbeit haben wir einen AutoML-Ansatz vorge- Fault Diagnosis in End-of-Line Testing of Complex stellt, der die automatische Optimierung eines Ensembles Products, in: Proc. of the 6th IEEE International ermöglicht. Hierbei wird die Klassifikator-Menge hin- Conference on Data Science and Advanced Analy- sichtlich Diversität und Genauigkeit sowie die Entschei- tics (DSAA), 2019, pp. 492–503. doi:10.1109/DSAA. dungsfusion hinsichtlich ihrer Genauigkeit optimiert. So- 2019.00064 . mit werden aktuell der Klassifikator- und Entscheidungs- [6] Y. Wilhelm, U. Schreier, P. Reimann, B. Mitschang, fusionsaspekt behandelt. Der Ansatz wurde an zwei Da- H. Ziekow, Data Science Approaches to Quali- tensätzen mit unausgewogenen Klassenverteilungen eva- ty Control in Manufacturing: A Review of Pro- luiert. Anhand der Evaluation ist zu sehen, dass die Er- blems, Challenges and Architecture, in: Proc. of stellung eines optimierten Ensembles und die Fusionsop- the 14th Symposium on Service-Oriented Compu- timierung eine Verbesserung der Vorhersagegenauigkeit ting (SummerSOC), Communications in Computer erzielen. and Information Science (CCIS), 2020, pp. 45–65. In zukünftigen Arbeiten planen wir, den vorgestellten doi:10.1007/978- 3- 030- 64846- 6_4 . Prototypen hinsichtlich des Datenaspektes zu erweitern. [7] L. Hansen, P. Salamon, Neural Network Ensembles, So können Methoden für die implizite Diversität und IEEE Trans. on Pattern Analysis and Machine Intel- Vorverarbeitung integriert werden. Zusätzlich ist eine ligence 12 (Oct./1990) 993–1001. doi:10.1109/34. ausführlichere Evaluation anhand weiterer Datensätze 58871 . 3 4 wie z. B. MNIST und Covertype geplant. Hierbei sollen [8] G. Brown, J. Wyatt, R. Harris, X. Yao, Diversity weitere Aspekte wie der Einfluss der Diversität auf die Creation Methods: A Survey and Categorisation, Optimierung des Ensembles mit betrachtet werden. Information Fusion 6 (2005) 5–20. doi:10.1016/j. Weiterhin kann Meta-Learning für die Auswahl von inffus.2004.04.004 . Klassifikatoren und Entscheidungsfusionsmethoden be- [9] Y. Wilhelm, P. Reimann, W. Gauchel, S. Klein, trachtet werden. Zuletzt bietet die Betrachtung domä- B. Mitschang, PUSION- A Generic and Automa- nenspezifischer Datencharakteristika neue Ansätze, um ted Framework for Decision Fusion, in: Proc. of the z. B. Klassifikatoren und Entscheidungsfusionsmethoden 39th International Conference on Data Engineering auszuwählen und zu optimieren. (ICDE), 2023. [10] Y. Wilhelm, P. Reimann, W. Gauchel, B. Mitschang, Overview on Hybrid Approaches to Fault Detection 3 https://www.openml.org/d/554 and Diagnosis: Combining Data-driven, Physics- 4 https://www.openml.org/d/180 based and Knowledge-based Models, Procedia CIRP ML Solutions for Predictive Use Cases, in: Proc. of 99 (2021) 278–283. doi:10.1016/j.procir.2021. the 8th International Conference on Data Science 03.041 . and Advanced Analytics (DSAA), 2021, pp. 148–155. [11] L. Breiman, Bagging predictors, Machine Learning doi:10.1109/DSAA53316.2021.9564168 . 24 (1996) 123–140. doi:10.1007/BF00058655 . [26] C. Weber, P. Hirmer, P. Reimann, A Model Ma- [12] R. E. Schapire, The Strength of Weak Learnability, nagement Platform for Industry 4.0 - Enabling Machine Learning 5 (1990) 197–227. doi:10.1007/ Management of Machine Learning Models in Ma- BF00116037 . nufacturing Environments, in: Proc. of the 23th [13] W. Wegier, M. Koziarski, M. Wozniak, Multicriteria International Conference on Business Informati- Classifier Ensemble Learning for Imbalanced Data, on Systems (BIS), 2020, pp. 403–417. doi:https: IEEE Access 10 (2022) 16807–16818. doi:10.1109/ //doi.org/10.1007/978- 3- 030- 53337- 3_30 . ACCESS.2022.3149914 . [27] Treder-Tschechlov, Dennis, P. Reimann, H. Schwarz, [14] R. Moussa, G. Guizzo, F. Sarro, MEG: Multi- B. Mitschang, Approach to Synthetic Data Gene- objective Ensemble Generation for Software Defect ration for Imbalanced Multi-class Problems with Prediction, in: ACM / IEEE International Sympo- Heterogeneous Groups, in: BTW, 2023, pp. 329–351. sium on Empirical Software Engineering and Mea- doi:10.18420/BTW2023- 16 . surement (ESEM), 2022, pp. 159–170. doi:10.1145/ [28] H. Suresh, J. Guttag, A framework for understan- 3544902.3546255 . ding sources of harm throughout the machine lear- [15] E. LeDell, S. Poirier, H2O AutoML: Scalable Auto- ning life cycle, EAAMO ’21, 2021. doi:10.1145/ matic Machine Learning, in: Proc. of the AutoML 3465416.3483305 . Workshop at ICML, 2020. [29] N. Mehrabi, F. Morstatter, N. Saxena, K. Lerman, [16] M. Feurer, et al., Efficient and Robust Automated A. Galstyan, A survey on bias and fairness in Machine Learning, in: C. Cortes, et al. (Eds.), Ad- machine learning, ACM Comput. Surv. 54 (2021). vances in Neural Information Processing Systems, doi:10.1145/3457607 . volume 28, 2015. [30] Moreno-Torres, et al., A unifying view on dataset [17] A. Lacoste, H. Larochelle, M. Marchand, F. Laviolet- shift in classification, Pattern recognition 45 (2012) te, Sequential Model-Based Ensemble Optimization, 521–530. in: Proc. of the 13th Conference on Uncertainty in [31] M. Spieß, P. Reimann, C. Weber, B. Mitschang, Artificial Intelligence, UAI’14, 2014, p. 440–448. Analysis of Incremental Learning and Windowing [18] J.-C. Lévesque, C. Gagné, R. Sabourin, Bayesian to handle Combined Dataset Shifts on Binary Hyperparameter Optimization for Ensemble Lear- Classification for Product Failure Prediction, in: ning, in: A. Ihler, D. Janzing (Eds.), Proc. of the 32nd Proc. of the 24th International Conference on on Conference on Uncertainty in Artificial Intelligence, Enterprise Information Systems (ICEIS), SCITE- 2016. PRESS, 2022, pp. 394–405. doi:https://doi.org/ [19] N. Erickson, et al., AutoGluon-Tabular: Robust and 10.5220/0011093300003179 . Accurate AutoML for Structured Data, 2020. doi:10. [32] J. Voggesberger, P. Reimann, B. Mitschang, Towards 48550/arXiv.2003.06505 . arXiv:2003.06505 . the Automatic Creation of Optimized Classifier En- [20] Y. Freund, R. E. Schapire, A Decision-Theoretic sembles, in: Proc. of the 25th Int. Conference on Generalization of On-Line Learning and an Appli- Enterprise Information Systems (ICEIS) - Volume 1, cation to Boosting, Journal of Computer and Sys- 2023, pp. 614–621. tem Sciences 55 (1997) 119–139. doi:10.1006/jcss. [33] F. Pedregosa, et al., Scikit-learn: Machine learning 1997.1504 . in Python, Journal of Machine Learning Research [21] L. Breiman, Random Forests, Machine Learning 45 12 (2011) 2825–2830. (2001) 5–32. doi:10.1023/A:1010933404324 . [34] J. Bergstra, Y. Bengio, Random search for hyper- [22] Tin Kam Ho, The Random Subspace Method parameter optimization, Journal of Machine Lear- for Constructing Decision Forests, IEEE Trans. ning Research 13 (2012) 281–305. on Pattern Analysis and Machine Intelligence 20 [35] G. Giacinto, F. Roli, An Approach to the Automa- (Aug./1998) 832–844. doi:10.1109/34.709601 . tic Design of Multiple Classifier Systems, Pattern [23] L. I. Kuncheva, Combining Pattern Classifiers: Me- Recognition Letters 22 (2001) 25–33. doi:10.1016/ thods and Algorithms, J. Wiley, 2004. S0167- 8655(00)00096- 9 . [24] J. Vanschoren, Meta-Learning, Springer Interna- tional Publishing, 2019, pp. 35–61. doi:10.1007/ 978- 3- 030- 05318- 5_2 . [25] A. G. Villanueva Zacarias, C. Weber, P. Reimann, B. Mitschang, AssistML: A Concept to Recommend