=Paper=
{{Paper
|id=None
|storemode=property
|title=Zur methodischen Vorbereitung von Data-Mining-Projekten im Kontext diskreter Produktionsprozesse
|pdfUrl=https://ceur-ws.org/Vol-1049/paper4.pdf
|volume=Vol-1049
|dblpUrl=https://dblp.org/rec/conf/wsbi/WielandF13
}}
==Zur methodischen Vorbereitung von Data-Mining-Projekten im Kontext diskreter Produktionsprozesse==
Zur methodischen Vorbereitung von Data-Mining- Projekten unter Verwendung von CRISP-DM im Kontext diskreter Produktionsprozesse Uwe Wieland, Marco Fischer Technische Universität Dresden Lehrstuhl für Wirtschaftsinformatik Business Intelligence Research Abstract Die Analyse von Produktionsprozessen innerhalb von Data-Mining-Projekten stellt einen hohen Anspruch an die interdisziplinäre Zusammenarbeit zwischen Domänen- und Data- Mining-Experten. Die vorgeschlagene modellgestützte Methode offeriert dazu einen ers- ten Vorschlag, wie real-weltliche Produktionsprozesse in eine von analytischen Verfah- ren geprägte Welt überführt werden können. Dazu werden die Anforderungen aus beiden Bereichen sowie ein Standardvorgehen für diesen Diskursbereich in einem Modell inte- griert, dessen Erstellung nachfolgend erläutert wird. 1 Problemstellung und Motivation Die industrielle Wertschöpfung erfolgt in fortwährend komplexer werdenden Produkti- onsprozessen, welche oft durch sehr vielschichtige Ursache-Wirkungsbeziehungen cha- rakterisiert sind und hinsichtlich ihrer Planung, Durchführung, Steuerung und Kontrolle von umfangreichem Expertenwissen abhängig sind (Wiedenmann, 2001, S. 30 f.) Durch die zunehmende Verbesserung und Verbreitung von Sensorik und Aktuatorik steigert sich die Leistungsfähigkeit von autonomen Produktionssystemen, welche zukünftig selbstän- dig miteinander durch Datennetze kommunizieren, entscheiden und agieren sollen. Neben der geplanten technologischen Verbesserung im Prozessablauf stellt die enorme Menge an erzeugten Prozessdaten und das Management dieser Daten (Erhebung, Analyse und Verarbeitung) bereits heute eine zentrale Herausforderung, aber auch ein hohes Po- tential dar. Prozessdaten enthalten historisierte, wettbewerbsrelevante Informationen, welche die Charakteristik von Prozessen abbilden und daher neben dem menschlichen Expertenwissen einen gleichbedeutenden Stellenwert besitzen. Erklärungsmodelle sollen 48 Marcus Hofmann, Robert Krawatzeck, Frieder Jacobi dabei helfen, solche sozio-technische Systeme zu verstehen und anschließend zu verbes- sern (Kagermann, Wahlster & Helbig, 2013, S. 46 f.) Dieser Beitrag beschäftigt sich mit der methodischen Vorbereitung – Untersuchung der Geschäftsziele und Datenvorverar- beitung - von Data-Mining-Projekten zum Aufbau derartiger Erklärungsmodelle für dis- krete Produktionsprozesse, welche über einen mächtigen Prozessdatenbestand verfügen. Die Vorbereitung und Durchführung von Data-Mining-Projekten innerhalb von diskreten Produktionsprozessen stellt einen hohen Anspruch an die interdisziplinäre Zusammenar- beit zwischen Domänen- und Data-Mining-Experten. Dabei kommt es nicht allein auf die Daten an, sondern auch die Beschreibung der Daten und die untersuchte Domäne sind von großer Bedeutung für den Erfolg künftiger Projekte (Lukasz, Musilek, 2006, S. 19; Marban et al., 2007, S. 97 ff.; Mariscal, 2013, S. 160 ff.; Sharma & Osei-Bryson, 2009 S. 4114 ff.) Mit CRISP-DM (Cross Industry Standard Process for Data Mining) basiert dieser Beitrag auf einem der meist verwendeten Vorgehen zur Durchführung von Data-Mining- Projekten, welches besonders im Anwendungsbereich der Industrie zu finden ist [Maris- cal, 2010, pp. 139) Gemessen an der Evolution von Data-Mining-Vorgehensmodellen bildet CRISP-DM zum einen die Vereinigung von bereits sehr etablierten Vorgehen wie dem KDD-Prozess und industriellen Ansätzen (z.B. SEMMA) und zum anderen dient es als Ausgangspunkt für neue Ansätze (z.B. Cios et al. 2005, CRSIP-DM 2.0) (Azevedo, Santos, S. 185; Mariscal, 2010, S. 142). Das Referenzvorgehen CRISP-DM definiert und beschreibt pro Phase einzelne generische Aufgaben unabhängig vom Anwendungsbereich sowie den verwendeten Technologien, um Data-Mining-Projekte systematisiert durchfüh- ren zu können. Das Benutzerhandbuch als inhaltliche Erweiterung gibt ausführliche Tipps und Hinweise zu den einzelnen Phasen und deren Aufgaben (IBM, 2010, S. 3 f.; Lukasz & Musilek, S. 5). Die Lösung der Aufgaben ist jedoch von der jeweiligen Situation ab- hängig. Situationen werden durch einen Kontext definiert, welcher durch die Anwen- dungsdomäne und weitere Faktoren charakterisiert wird. CRISP-DM liefert ausschließ- lich ein sehr abstraktes Vorgehen für eine Zuordnung des generischen Modells auf kon- krete Anwendungsbereiche (IBM, 2010, S. 4; Mariscal, 2010, S. 139). Zusammenfassend können daher folgende Begründungen für eine Konkretisierung (B) konstatiert werden: B1: Eine situationsbezogene Konkretisierung ist methodisch nicht gewährleistet. B2: Die Ermittlung der relevanten Datenquellen für eine Analyse bleibt sehr vage und isoliert vom eigentlichen Analyseobjekt. B3: Die Integration von Rollen (z. B. Domänen- u. Data-Mining-Experte) in das Vor- gehen wird nicht geregelt. Automatische Erstellung nutzerspezifischer ETL-Dokumentation 49 B4: Eindeutige Zusammenhänge und Abhängigkeiten zwischen den jeweiligen Er- gebnissen der einzelnen Phasen werden außer Acht gelassen. B5: Ergebnisse werden in ihrer Form nicht spezifiziert und sind damit nur schwer wiederverwendbar. B6: Die Wiederverwendbarkeit von vorbereitenden Teilergebnissen bei unterschiedli- chen Analyseverfahren ist nicht gegeben. Bezugnehmend auf die Problemstellung und Motivation wird das Standardvorgehen CRISP-DM in ausgewählten Punkten der Analysevorbereitung spezialisiert und wieder- verwendbar für diskrete Produktionsprozesse angepasst werden, um die interdisziplinäre Zusammenarbeit und damit den Aufbau von prozessspezifischen Erklärungsmodellen zu unterstützen. 2 Forschungsdesign Das momentan etablierte Standardvorgehen für Data Mining CRISP-DM weist Konkreti- sierungsbedarf bezüglich einer Anwendung auf die Analyse von Prozessdaten diskreter Produktionsprozesse auf. Gerade in den Vorbereitungsphasen werden zahlreiche generi- sche Aufgaben und Ergebnisse beschrieben, ohne eine konkrete Form zu definieren und eine Wiederverwendung zu adressieren. Entsprechend Design Science Research soll für die Lösung dieses Problems ein Artefakt in Form einer modellgestützten Methode kon- struiert werden. Aus der Problembeschreibung leitet sich die Notwendigkeit ab, die Vorbereitung von Data-Mining-Projekten im Kontext diskreter Produktionsprozesse methodisch zu unter- stützen. Methoden werden dabei allgemein als Vorschriften bzw. Handlungsempfehlun- gen für Problemlösungen verstanden (Weller, 2010, S.36). Da sich Modelle als ein wich- tiges Instrument der Erkenntnisgewinnung, Kommunikation und Dokumentation etabliert haben (Wand & Weber, 2002, S. 363), soll die methodische Unterstützung durch die sys- tematische Verwendung von Modellen erfolgen. Damit lässt sich das zu erstellende Arte- fakt den modellgestützten Methoden zuordnen. Der Artikel verfolgt damit das Gestal- tungsziel, eine modellgestützten Methode zur Vorbereitung von Data-Mining-Analysen im Kontext diskreter Produktionsprozesse zu entwickeln. Resultierend aus den vorange- gangenen Betrachtungen ergeben sich für den Beitrag die folgenden Forschungsfragen: Welche Anforderungen bestehen an die Vorbereitungsphasen von Data-Mining- Projekten in diskreten Produktionsprozessen? Wie muss eine modellgestützte Methode gestaltet werden, um die Anforderungen zu erfüllen? 50 Marcus Hofmann, Robert Krawatzeck, Frieder Jacobi Zunächst werden die Anforderungen an diskrete Produktionsprozesse und die Datenvor- verarbeitung in Data-Mining-Projekten beschrieben, die literaturgestützt erhoben worden und als Grundlage für die Konstruktion der modellgestützten Methode dienen. Anschließend werden die Konstruktionsergebnisse präsentiert. Eine modellgestützte Me- thode besteht dabei stets aus einer Prozessbeschreibung, welche neben der Erstellung eines Modells, dessen Transformation und Nutzung beschreibt. Das konstruierte Modell muss konform zur verwendeten Modellierungssprache sein, die gemäß einer Sprachbe- schreibung definiert ist [Weller, 2010, S. 42). Der Beitrag führt als Sprachbeschreibung ein Prozessmetamodell ein, das alle für die Prozessdatenanalyse relevanten Komponen- ten, deren Beziehungen und Regeln definiert. Mit Hilfe des Prozessmetamodells wird der Produktionsprozess im Ist-Zustand modelliert. Neben der Ablaufstruktur des Prozesses ist speziell die Strukturierung von Prozessdaten sowie die Abbildung existierender Abhän- gigkeiten und vermuteter Ursache-Wirkungsbeziehungen das Ziel der Modellierung, wel- che zunächst unabhängig von den Data-Mining-Zielen sowie den eingesetzten Verfahren ist. Der so modellierte Prozess kann mit Hilfe der Methode in ein prozessspezifisches Datenmodell transformiert werden, aus dem wiederum analysespezifische Falldatensätze abgeleitet werden können, welche die Grundlage für die Anwendung konkreter Data- Mining-Verfahren darstellen. Der Teil Modelltransformation und -nutzung ist in Kapitel 4.2 als Research in Progress gekennzeichnet. Abschließend erfolgt eine merkmalsbasierte Evaluation, die nachweist, wie die konstru- ierten Artefakte der modellgestützte Methode die Vorbereitungsphasen des Data Mining nach CRISP-DM unterstützt. 3 Anforderungen 3.1 Anforderungen diskreter Produktionsprozesse Innerhalb der betrieblichen Leistungserstellung bildet die Produktion einen Funktionsbe- reich, in dem Produktionsfaktoren miteinander kombiniert werden, so dass Endprodukte entstehen. Dabei wird die Produktion als Transformationsprozess angesehen. „Gegen- stand der Produktion ist die Kombination und Transformation von Produktionsfaktoren (Input), so dass ein bestimmter Zweck (Output), das sogenannte Sachziel (z.B. die Her- stellung von Automobilen), unter Beachtung des Formalziels (z.B. Gewinnmaximierung) bestmöglich erreicht wird. Die Ergebnisse des Transformationsprozesses sind die für den Absatzmarkt bzw. für weitere Transformationsprozesse bestimmten Güter oder Dienst- leistungen, die nach ihrem Verwendungszweck als (End- oder Zwischen-) Produkte be- zeichnet werden.“ (Kiener et al., 2012, S. 5). DANGELMAIER spricht davon, dass die Automatische Erstellung nutzerspezifischer ETL-Dokumentation 51 Inputs und Outputs eines Prozesses durch ihre relevanten Merkmalsausprägungen charak- terisiert sind und sich darüber die Relation zwischen den einzelnen Inputs und Outputs herstellen lassen (Dangelmaier, 2009, S. 2ff.). Abbildung 1: Input-Output-System von Produktionsprozessen [Da09], S. 3 Derartige Transformationsprozesse werden in der Regel als Input-Output-System be- schrieben, welche durch eine Betrachtung der reinen Außensicht charakterisiert sind (An- forderung P1). Damit wird der Input-Output-Prozess wie in Abbildung 1 durch ein einzi- ges Element mit dem nach außen wirksamen Objekten und deren Merkmalen beschrie- ben. Die Funktionalität des Transformationsschrittes bleibt dabei verborgen (Black-Box) und erfolgt entweder deterministisch oder stochastisch (Dangelmaier, 2009, S. 3). Pro- duktionsprozesse können in einstufige und mehrstufige Prozesse unterschieden werden. Dabei bestehen die mehrstufigen Produktionsprozesse aus parallel oder sukzessiv ablau- fenden einstufigen Produktionsprozessen. Somit stellen einstufige Produktionsprozesse stets eine Spezialisierung dar, welche innerhalb von komplexen Produktionsszenarien, zu mehrstufigen Produktionsprozessen kombiniert werden, was im Hinblick auf das Input- Output-System eine Komposition der einzelnen Elemente bedeutet. Innerhalb einer mehr- stufigen Prozesskette wird auf die finalen Merkmale des Fertigungsobjektes hingearbei- tet. Dazu müssen die Merkmalsänderungen an jedem Prozessschritt beherrschbar und transparent sein (Großmann & Wiemer, 2010, S. 856). Das Ziel eines jeden Produktions- prozesses ist ein reproduzierbarer Ablauf (Transformation), welcher stets zu einem kon- stanten Output führt (Weller, 2010, S. 70 f.; Wiedenmann, 2001, S. 27). Dafür sind ge- mäß GROSSMANN/WIEMER folgende Bedingungen zu erfüllen: Tabelle 1: Bedingungen einer reproduzierbaren Fertigung nach Großmann & Wiemer, S. 855f. Abk. Bedingung Beschreibung P2 Definiertheit der finalen Festlegung des Fertigungsziels mit definierten Produkteigenschaften Produkteigenschaften und dessen Toleranzgren- zen 52 Marcus Hofmann, Robert Krawatzeck, Frieder Jacobi P3 Durchgängigkeit der gesam- Die Fertigung verläuft entlang einer durchgängi- ten Prozesskette gen Prozesskette und führt definiert und voll- ständig auf die finalen Eigenschaften des Pro- duktes hin. P4 Beherrschtheit der einzelnen Prozesse müssen bei einem gegebenen Input Prozessschritte stets einen definierten Output liefern. (Definierte Merkmalsstruktur) P5 Analysierbarkeit aller Pro- Zur Beherrschung eines Prozesses, muss jeder zessschritte Prozessschritt beschrieben, analysiert und opti- miert werden. P6 Steuerbarkeit aller elemen- Jede elementare Zustandsänderung muss steuer- taren Zustandsänderungen bar sein. In Bezug auf diese Bedingungen wird eine Einschränkung auf diskrete Produktionspro- zesse eingeführt. Die Erweiterung „diskret“ erhalten Produktionsprozesse, in denen Pro- dukte als abzählbare Einheiten hergestellt werden. Bei sogenannten Stückgutprozessen, können anders als bei kontinuierlichen Fertigungsprozessen, diskrete Schritte betrachtet, analysiert und gesteuert werden (Wiedenmann, 2001, S. 27f.). 3.2 Anforderungen an die Datenvorverarbeitung in Data-Mining-Projekten Bezugnehmend auf die situative Anpassungsfähigkeit der zu konstruierenden modellge- stützten Methode sind ausschließlich generelle Anforderungen zu ermitteln, welche die Phasen der Datenvorbereitung für eine Vielzahl an Data-Mining-Verfahren unterstützen. Die ermittelten Anforderungen sind mit den bereits in CRISP-DM implementierten An- forderungen für diese Phase abzugleichen, um die Nähe zum ausgewählten Standardpro- zess zu wahren. Die folgende Übersicht stellt die konsolidierten Anforderungen an die Datenvorverarbeitung dar und evaluiert diese durch weitere Quellen der Domäne: Tabelle 2: Anforderungen Datenvorverarbeitung Abk. Anforderungen Quellen DM1 Umgang mit fehlenden Werten und deren Bedeutung (IBM, 2010), (Missing Values) klären (Runkler, 2010), (Otte et al., 2004) DM2 Skalenart ermitteln (IBM, 2010) (Otte et al., 2004) DM3 identische Formate/Schreibweisen pro Merkmal sicher- (IBM, 2010), stellen (Otte et al., 2004) Automatische Erstellung nutzerspezifischer ETL-Dokumentation 53 DM4 Wertebereiche von Merkmalen definieren (IBM, 2010), (Otte et al., 2004) DM5 Merkmalskorrelationen / Unabhängigkeiten entdecken (IBM, 2010), (Otte et al., 2004) DM6 statistische Lagewerte und Streuungsmaße zur Erken- (IBM, 2010), nung v. Datenrauschen/Ausreißern erheben (Runkler, 2010), (Otte et al., 2004) DM7 Merkmalsbedeutungen / Relevanz ermitteln (IBM, 2010), (Otte et al., 2004) DM8 Balancierung der Daten untersuchen (IBM, 2010), (Otte et al., 2004) DM9 Schlüsselattribute/Schlüsselbeziehungen erkennen (IBM, 2010), (Otte et al., 2004) DM10 bekannte Ursachen und Wirkungen zwischen Merkma- (IBM, 2010) len aufzeigen Die Anforderungen der Datenvorbereitung fließen gemeinsam mit den Anforderungen diskreter Produktionsprozesse in die Konstruktion der modellgestützten Methode ein. 4 Konstruktionsergebnisse 4.1 Sprachbeschreibung Ziel der modellgestützten Methode ist es, die Vorbereitung von Data-Mining-Analysen im Kontext diskreter Produktionsprozesse zu unterstützen. Dazu soll im ersten Schritt der zu analysierende Produktionsprozess im Ist-Zustand modelliert werden, um anschließend dieses Modell in analysespezifische Modelle zu transformieren, die für die Analyse der Prozess-Exemplardaten (Rohdaten des diskret gefertigten Produktes) genutzt werden können. Entsprechend dem Forschungsdesign erfordert eine modellgestützte Methode eine Sprachbeschreibung für eine Modellierungssprache, zu der die entstehenden Modelle konform sind. Jede Modellierungssprache verfügt dabei über eine festgelegte Syntax, die über eine Grammatik oder ein Metamodell beschrieben werden kann (Hesse & Mayr, 2008, S.389). Das vorgeschlagene Prozessmetamodell definiert dabei im Sinne einer Mo- dellierungssprache alle möglichen Sprachkonzepte und Regeln zu deren Kombination (Wand & Weber, 2002, S. 364), um einen Produktionsprozess so zu modellieren, dass die Anforderungen diskreter Produktionsprozesse und an die Datenvorverarbeitung in Data- Mining-Projekten berücksichtigt werden. Als Ausgangspunkt für die Prozessmetamodel- lierung dient das Modell der Fertigungssteuerung (MFST) als etablierter Standard für diese Domäne (Dangelmaier und Felser, 1994, S. 35 f.; Großmann et al., S. 957). Durch 54 Marcus Hofmann, Robert Krawatzeck, Frieder Jacobi die Einschränkung des Anwendungsbereiches grenzt sich dieses Vorgehen von anderen Methoden der (Geschäfts-)prozessmodellierung ab (Dangelmaier & Felser, 1994, S. 36). Im MFST werden Produktionsprozesse als Input-Output-Systeme modelliert, in denen jeder Produktionsschritt als „Black-Box“ betrachtet wird, in den Güter hineinfließen (In- puts) und neue Güter hervorgebracht werden (Outputs) (Dangelmaier, 2009, S. 1 ff., 10 ff.). Der Produktionsprozess drückt sich dabei als Transformation von Input- und Output- Zuständen aus, die durch Merkmale und Merkmalsausprägungen charakterisiert sind. Mehrstufige Produktionsprozesse können in eine Kette einzelner Input-Output-Systeme zerlegt werden. Abbildung 2 zeigt das entwickelte Prozessmetamodell, das in Anlehnung an MFST (Dan- gelmaier & Felser, 1994; Großmann et al., 2010) die Anforderungen diskreter Produkti- onsprozesse abdeckt und um die Anforderungen an die Datenvorverarbeitung in Data- Mining-Projekten erweitert wurde. Für die Darstellung des Prozessmetamodells wird ein Entity-Relationship-Modell gewählt und die Bedeutung der verwendeten Sprachkonzepte nachfolgend näher erläutert. Abbildung 2: Prozessmetamodell – logische Sicht Ein einstufiger Prozess bzw. ein Prozessschritt wird dabei grundsätzlich als eine Menge von Objekttypen repräsentiert, die unter Nutzung eines oder mehrerer Ressourcen- Objekttypen (z.B. Maschinen, Werkzeuge, u.a.) die Transformation eines oder mehrerer Automatische Erstellung nutzerspezifischer ETL-Dokumentation 55 Input-Objekttypen (z.B. Werkstücke, Material, u.a.) in ein oder mehrere Output- Objekttypen herbeiführen. Mehrstufige Prozesse werden über eine Prozesskette in eine chronologische Reihenfolge gebracht. Objekttypen abstrahieren individuelle Objekte (Exemplare) im Produktionsprozess und beschreiben immer genau einen Objektzustand. Sie können daher im Modell nur einmal verwendet werden. Selbst ein einziges zu bear- beitendes Produkt wird im Modell durch zwei Objekttypen abgebildet: einen für den Zu- stand vor der Bearbeitung (Input-Objekttyp) und einen für den Zustand nach der Bearbei- tung (Output-Objekttyp) (Weller et al., 2010, S.76). Objekttypklassen (OTK) werden verwendet, um auf Modellebene dennoch den Zusammenhang zwischen gleichartigen Objekttypen hinsichtlich ihrer Merkmale abbilden zu können. Da die gleichen Merkmale von mehreren Objekttypklassen genutzt werden können, stellen die OTK-Merkmale die- jenigen Merkmale dar, die aus der Gesamtheit aller Merkmale den Objekttypklassen zu- geordnet sind. Für die Analyse mehrstufiger Prozesse ist zudem die Kenntnis von identi- fizierenden Schlüsselmerkmalen wesentlich, die direkt den Objekttypklassen zugewiesen werden. In der Regel wird dieses Merkmal ein Code oder eine Seriennummer sein mit der sich ein Exemplar eines Werkstückes im Produktionsprozess eindeutig bestimmen lässt. Auf Modellebene können für Merkmale Sollwerte und Toleranzen für Merkmalsausprä- gungen vorgegeben werden, mit denen sich in der späteren Analyse der tatsächlichen Merkmalsausprägungen der Exemplardaten prozessuntypische Ausreißer erkennen lassen. Für Merkmale mit Nominal- oder Ordinalskala können im Prozessmetamodell gültige Merkmalsausprägungen definiert werden. Ein Vergleich dieses Werteumfangs mit dem tatsächlichen Vorkommens der Ausprägung in den Exemplardaten lässt auf die Balancie- rung dieses Merkmales schließen. Eine wichtige Anforderung aus dem Data Mining ist die Zuordnung des Skalenniveaus für jedes Merkmal. Daraus lässt sich später ableiten, welche Merkmale für welches Data-Mining-Verfahren in Frage kommen oder wie diese gegebenenfalls transformiert werden müssen. Für jedes Merkmal kann zusätzlich eine Einheit hinterlegt werden. Jeder Objekttyp ist genau einer Objekttypklasse zugeordnet und besitzt daher alle Merk- male seiner Klasse, aber nicht alle Merkmale sind in jedem Prozessschritt von Interesse. Mit der Merkmalszuordnung können die für den entsprechenden Prozessschritt relevan- ten Zustände der verschiedenen Objekttypen einer Objekttypklasse beschrieben und für den jeweiligen Objekttyp gültige Sollwerte und Toleranzen lokal vorgegeben werden, welche die globalen Werte der Objekttypklasse überschreiben. Gleichzeitig lässt sich für den Objekttyp das Fehlen von Merkmalsausprägungen dokumentieren, was ein wesentli- ches Indiz für die Behandlung von Missing Values darstellt. Eine weitere wichtige im Prozessmetamodell abgebildete Anforderung, ist die Beschreibung von (vermuteten) Ur- sache-Wirkungsbeziehungen zwischen Merkmalen verschiedener Objekttypen. Ursache 56 Marcus Hofmann, Robert Krawatzeck, Frieder Jacobi und Wirkung lassen sich dabei als Einfluss in Form von Implikationen zwischen Aussa- gen, die mittels Variablen, Konstanten, Funktionen und (mathematischen u. logischen) Operatoren definiert werden, beschreiben. Gleichzeitig kann der Einfluss genutzt werden um Merkmalsabhängigkeiten innerhalb eines Objekttyps zu dokumentieren, was bei der anschließenden Auswahl von Eingangsmerkmalen für die Analyseverfahren unterstützt. Aus dem Prozessmetamodell lässt sich ein relationales Datenmodell entwickeln, indem aus Entitäten Tabellen, aus Attributen Spalten und aus Relationen Schlüsselbeziehungen werden. Für die Implementierung des Prozessmetamodells und die Erfassung der analyse- spezifischen Prozessmetadaten und Objektzustände für die Modellerstellung eignet sich daher eine datenbankbasierte Anwendung. 4.2 Prozessbeschreibung Modellerstellung Gemäß Forschungsdesign benötigt die modellgestützte Methode neben der vorgestellten Sprachbeschreibung noch eine Prozessbeschreibung zur Erstellung eines Prozessmodells (Wiedenmann, 2001, S. 22; Weller, 2010, S. 42). Mit der Modellerstellung wird ein realer Produktionsprozess durch den Domänen-Experten, in ein Prozessmodell überführt, um anschließend für die Vorbereitung der spezifischen Prozessdaten eingesetzt zu werden. In Anlehnung an die Vorgehensbeschreibung von CRISP-DM beginnt jedes Projekt mit der Formulierung der Geschäftsziele, welche den Anlass definieren und den Rahmen des Vorhabens bilden (Marban et al., 2007, S. 97 f.; Sharma & Osei-Bryson, 2009, S. 4116). Innerhalb der Analyse von Prozessen dienen die Geschäftsziele vordergründig der Be- schreibung der geschäftlichen Erfolgsfaktoren und der Modellweite zur Fokussierung des zu untersuchenden Prozessausschnittes. Auf Grund der fehlenden Kenntnisse über die Input-Output-Relationen (Black-Box) zwischen den vorhandenen Prozessstrukturelemen- ten werden für die Modellierung alle Objektzustände im ausgewählten Prozess betrachtet (Modellgranularität). Begrenzt durch die Modellweite erfolgt die Unterstützung der Situa- tionsbeschreibung durch die Modellierung des konkreten Prozesses unter Verwendung der definierten Sprachbeschreibung. Beginnend mit der Erfassung des Endproduktes und der beteiligten Fertigungsmittel als Objekttypklassen mit jeweils globalen Merkmalen und deren Ausprägungen, werden die einzelnen Prozessschritte mit ihrer Einordnung in der Prozesskette erfasst und einem Pro- zessmodell zugeordnet. Anschließend beginnt die Modellierung der einzelnen Prozess- schritte in ihrer Außensicht, welche durch Input-, Output- und Ressourcen-Objekttypen sowie deren Merkmalszuordnungen definiert ist. Gemäß der globalen Merkmalszuord- Automatische Erstellung nutzerspezifischer ETL-Dokumentation 57 nung verfügt dabei jeder Objekttyp über die Merkmale seiner Objekttypklasse. Sollte innerhalb der Modellerstellung festgestellt werden, dass ein Merkmal fehlt, kann dies dem Merkmalskatalog hinzugefügt und über die Merkmalszuordnung verwendet werden. Im Anschluss an die Modellierung der Objekttypen können vermutete Ursache- Wirkungsbeziehungen innerhalb eines Objekttyps sowie zwischen Objekttypen in die Modellierung aufgenommen werden. Das beschriebene Vorgehen wird für jeden Prozess- schritt innerhalb der Prozesskette durchgeführt. Das dazugehörige UML- Aktivitätsdiagramm des Ablaufes ist in Abbildung 3 dargestellt. Abbildung 3: Prozessbeschreibung Modellerstellung Reflektierend auf CRISP-DM wird innerhalb der Modellerstellung die Struktur des Pro- zesses erfasst und beschrieben. Anders als bei der darauffolgenden explorativen Datenun- tersuchung und Überprüfung der Datenqualität, definiert die Modellerstellung Qualitäts- kriterien in Form von Metadaten und schafft Transparenz durch die Integration von Pro- zesswissen in Form von Ursache-Wirkungsbeziehungen. Durch die exakte Beschreibung 58 Marcus Hofmann, Robert Krawatzeck, Frieder Jacobi der Prozessstrukturen entsteht die Grundlage für eine semantisch korrekte Integration von relevanten Daten innerhalb der Datenaufbereitungsphase. Anhand dieser Aspekte wird sichtbar, dass durch das Prozessmodell eine Transformation des realen Prozesses in einen für Analysen aufbereiteten Untersuchungsbereich durchgeführt werden kann und somit die Überführung zwischen interdisziplinären Welten modellgestützt erfolgt. Modelltransformation und Modellnutzung (Research in Progress) Neben der Beschreibung der Modellierungsmethode zur Erstellung eines Prozessmodells geben modellgestützte Methoden konkrete Hinweise zur Transformation und Nutzung der erstellten Modelle. Durch eine Modelltransformation kann eine entsprechende Lösung zunächst wiederum als Modell dargestellt werden. Dazu wird das erzeugte Prozessmodell als Repräsentant der Domäne derart modifiziert bis eine Lösung des beschriebenen Prob- lems auf Modellebene gefunden ist (Weller, 2010, S. 40). Sind sich alle Beteiligten einig eine Problemlösung im Modellraum gefunden zu haben, muss diese Lösung auf das fach- liche Problem der Realität (Nicht-Modellraum) übertragen werden. Dies erfolgt mit einer Beschreibung der Modellnutzung. Abbildung 4: Research in Progress - Zerlegung des Modellierungsproblems Bezogen auf die vorgestellte modellgestützte Methode soll das erzeugte Prozessmodell in ein Zieldatenmodell – in ERM-Sprachbeschreibung – überführt werden, um anschließend zur Generierung einer Tabellenstruktur für die konkreten Prozessdaten genutzt zu werden (siehe Abbildung 4). Diesbezüglich müssen Regelwerke definiert werden, welche den Übergang von einem Modell in das andere semiformal beschreiben. Die konkrete Nut- Automatische Erstellung nutzerspezifischer ETL-Dokumentation 59 zung des Zieldatenmodells erfolgt anhand eines generierten SQL-Skriptes, welches die relationale Tabellenstruktur anlegt und somit das Ziel für einen spezifischen Daten- ladeprozess aus den operativen Datenquellsystemen definiert. Weiterhin werden auf Basis der erfassten Prozessmetadaten (z.B. Sollwerte, Ursache-Wirkungsbeziehungen) Regeln generiert, welche zur Prüfung der Datenqualität auf die geladenen Prozessdaten ange- wendet werden. Ausgehend von den modellierten Data-Mining-Zielen im Prozessmodell, werden alle vorgelagerten Objekttypen und deren Merkmale anhand eines identifizierenden Merkmals in einem analysegerechten Falldatenmodell – in ERM-Sprachbeschreibung – organisiert. Die konkrete Modellnutzung erfolgt über SQL-Skripte, welche je Data-Mining-Ziel eine View (Falldatensatz) auf die qualitätsgeprüfte Zieldatenstruktur definiert. Die erzeugten Falldatensätze werden anschließend als Ergebnis an die jeweiligen Data-Mining- Verfahren zur Analyse übergeben. 5 Evaluation und Ausblick Die Systematisierung von Evaluationsmethoden innerhalb der Wirtschaftsinformatik (sie- he Riege, Saat & Bucher, 2009, S. 75) bietet unterschiedliche Ansatzpunkte zur Evaluie- rung von entwickelten Artefakten. Im Beitrag wurde eine modellgestützte Methode als Lösungskandidat zur spezifischen Analysevorbereitung von Data-Mining-Projekten im Kontext von diskreten Produktionsprozessen vorgestellt. Anhand von abgeleiteten Kon- kretisierungsbedarfen und Anforderungen konnten die Sprachbeschreibung sowie die Prozessbeschreibung zur Modellerstellung fertig konstruiert und damit Teilaspekte der zweiten Forschungsfrage beantwortet werden. Die Prozessbeschreibung für die Modell- transformation und Modellnutzung wurden konzeptuell beschrieben und als Research in Progress gekennzeichnet. Für eine weiterführende Entwicklung ist es jedoch notwendig, die finalisierten Artefakte hinsichtlich ihrer korrekten Konstruktion auf Basis feststehen- der Anforderungen zu überprüfen (merkmalsbasierte Evaluation) (Riege, Saat & Bucher, 2009, S. 75). Die nachfolgende Übersicht macht die Ergebnisse der Evaluation ersichtlich und zeigt zugleich die konsolidierten Anforderungen zur Beantwortung der ersten For- schungsfrage auf. Tabelle 3: Merkmalsbasierte Evaluation Abk. Anforderungen Bewertung Begründungen für eine Konkretisierung von CRISP-DM B1 Eine situationsbezogene Konkretisierung ist me- Erfüllt – Input-Output-System thodisch nicht gewährleistet. ganzheitlich abgebildet 60 Marcus Hofmann, Robert Krawatzeck, Frieder Jacobi B2 Die Ermittlung der relevanten Datenquellen für Erfüllt – Objekttypen und de- eine Analyse bleibt sehr vage und isoliert vom ren Merkmalszuordnung be- eigentlichen Analyseobjekt. schreiben die exakte Zielda- tenstruktur B3 Die Integration von Rollen (z. B. Domänen- u. Teilweise – Domänen-Experte Data-Mining-Experte) in das Vorgehen wird nicht ist integriert, Data-Mining- geregelt. Experte nach Modelltransfor- mation B4 Eindeutige Zusammenhänge und Abhängigkeiten Teilweise – Prozessmodell als zwischen den jeweiligen Ergebnissen der einzel- zentraler Ergebnis-speicher nen Phasen werden außer Acht gelassen. B5 Ergebnisse werden in ihrer Form nicht spezifiziert Teilweise – in Sprachbeschrei- und sind damit nur schwer wiederverwendbar. bung definiert B6 Die Wiederverwendbarkeit von vorbereitenden Teilweise – wird nach Modell- Teilergebnissen bei unterschiedlichen Analysever- transformation vollständig fahren ist nicht gegeben. erfüllt Anforderungen diskreter Produktionsprozesse P1 Beschreibung des Prozesses als Input-Output- Erfüllt – Sprach- und Prozess- System beschreibung P2 Definiertheit der finalen Produkteigenschaften Erfüllt - Sprachbeschreibung P3 Durchgängigkeit der gesamten Prozesskette Erfüllt - Sprachbeschreibung P4 Beherrschtheit der einzelnen Prozessschritte Erfüllt - Sprachbeschreibung P5 Analysierbarkeit aller Prozessschritte Erfüllt - Sprachbeschreibung P6 Steuerbarkeit aller elementaren Zustands- Erfüllt - Sprachbeschreibung änderungen Anforderungen der Datenvorverarbeitung DM1 Umgang mit fehlenden Werten und deren Bedeu- Erfüllt – Sprachbeschreibung tung (Missing Values) klären DM2 Skalenart ermitteln Erfüllt - Sprachbeschreibung DM3 identische Formate/Schreibweisen pro Merkmal Erfüllt - Sprachbeschreibung sicherstellen DM4 Wertebereiche von Merkmalen definieren Erfüllt - Sprachbeschreibung DM5 Merkmalskorrelationen / Unabhängigkeiten ent- Erfüllt - Sprachbeschreibung decken DM6 statistische Lagewerte und Streuungsmaße zur Erfüllt - Sprachbeschreibung Erkennung v. Datenrauschen/Ausreißern erheben DM7 Merkmalsbedeutungen / Relevanz ermitteln Erfüllt - Sprachbeschreibung DM8 Balancierung der Daten untersuchen Erfüllt - Sprachbeschreibung Automatische Erstellung nutzerspezifischer ETL-Dokumentation 61 DM9 Schlüsselattribute/Schlüsselbeziehungen erkennen Erfüllt - Sprachbeschreibung DM10 bekannte Ursachen und Wirkungen zwischen Erfüllt - Sprachbeschreibung Merkmalen aufzeigen Zusammenfassend kann die Konstruktion der existenten Ergebnisse positiv evaluiert wer- den. Die Anforderungspunkte B3 bis B6 sind aufgrund der noch umzusetzenden Modell- transformation und -nutzung nur teilweise erfüllt. Die modellgestützte Methode ermöglicht bereits mit der Modellerstellung eine gezielte Zusammenführung der Fach- und Data-Mining-Domäne und schafft damit ein Kommuni- kationsmittel für eine aufgabenteilige, interdisziplinäre Bearbeitung von analytischen Fragestellungen in diskreten Produktionsprozessen. Durch die integrierte, modellgestützte Beschreibung des betrachteten Produktionsprozesses entsteht eine einheitliche Wissens- basis über semantische Ablaufbeziehungen sowie über die zugrundliegende Datenstruktur und deren Besonderheiten. Mittels Zuführung von Metadaten erhält der Analyst notwen- dige Informationen über die Prozessdatenstruktur zur effizienten Konfiguration von Data- Mining-Verfahren. Bezogen auf weitere Forschungstätigkeiten dient das Prozessmodell zur Generierung eines analysespezifischen Zieldatenmodells und spezifischer Falldatenmodelle für die vorhandenen Exemplardaten des jeweiligen Prozessschrittes sowie als Grundlage für eine strukturelle Überprüfung der Datenqualität und Verfahrensvoraussetzungen für die nach- gelagerten Analysephasen. Die Konstruktion einer Prozessbeschreibung für die Modell- transformation und Modellnutzung sowie die Implementierung eines „Regelinspektors“ zur Realisierung der strukturellen Prüfungen auf Basis der integrierten Metadaten auf Merkmalsebene repräsentiert dazu den nächsten Forschungsschritt. 6 Literaturverzeichnis Azevedo, A., Santos, M. F. (eds.): KDD, Semma and CRISP-DM: A parallel overview (2008) Dangelmaier, W.: Theorie der Produktionsplanung und -steuerung Springer-Verlag, Ber- lin Heidelberg (2009) Dangelmaier, W., Felser, W.: Ganzheitliche Modellierung von Fertigungsprozessen. Ein erster Schritt bei der Konstruktion unternehmensspezifischer Fertigungssteue- rungssysteme. The Electronic Library of Mathematics 1994, 34–48 (1994) Großmann, K., Wiemer, H., Weller, J., Großmann, K.K.: Reproduzierbare Fertigung in innovativen Prozessketten. Konzeption eines Beschreibungs- und Analyse- tools (Teil 2). ZWF - Zeitschrift für wirtschaftlichen Fabrikbetrieb 105, 954– 958 (2010) 62 Marcus Hofmann, Robert Krawatzeck, Frieder Jacobi Großmann, K., Wiemer, H.: Reproduzierbare Fertigung in innovativen Prozessketten. Besonderheiten innovativer Prozessketten und methodische Ansätze für Ihre Beschreibung, Analyse und Führung (Teil 1). ZWF - Zeitschrift für wirtschaft- lichen Fabrikbetrieb 105, 855–859 (2010) Wolfgang Hesse, Heinrich C. Mayr: Modellierung in der Softwaretechnik: eine Bestands- aufnahme. Informatik-Spektrum, Vol. 31, No. 5., 377-393, (2008) IBM: CRISP-DM 1.0 - Step-by-step data mining guide (2010) Kagermann, H.; Wahlster, W.; Helbig, J.. (Hrsg.): Umsetzungsempfehlungen für das Zukunftsprojekt Industrie 4.0. Abschlussbericht des Arbeitskreises Industrie 4.0. Deutsche Akademie der Technikwissenschaften e.V., München, 2013. Kiener, S., Maier-Scheubeck, N., Obermaier, R., Weiß, M.: Produktions-Management. Grundlagen der Produktionsplanung und -steuerung Oldenbourg Verlag, München (2012) Knollmann, M., Meyer, M., Windt, K.: Data Mining-Methoden in der Produktionslogis- tik. Wissensgenerierung beim Umgang mit komplexen Daten und multikrite- rielen Entscheidungen. Industrie Management, 51–55 (2012) Lukasz A., K., Musilek, P.: A survey of Knowledge Discovery and Data Mining process models. Cambridge University Press 2006, 1–24 (2006) Marban, O., et al.: From the Business Decision Modeling to the Use Case Modeling in Data Mining Projects (2007) Mariscal, G., Ó.M.C.F.: A survey of data mining and knowledge discovery process mod- els and methodologies. The Knowledge Engineering Review 2010, 137–166 (2010) Runkler, T.A.: Data Mining. Methoden und Algorithmen intelligenter Datenanalyse, VIEWEG+TEUBNER, Wiesbaden (2010) Riege, C., Saat, J., Bucher, T.: Systematisierung von Evaluationsmethoden in der gestal- tungsorientierten Wirtschaftsinformatik. in: Becker, J., Krcmar, H., Niehaves, B.: Wissenschaftstheorie und gestaltungsorientierte Wirtschaftsinformatik Physica-Verlag, Heidelberg (2009) Sharma, S., Osei-Bryson, K.-M.: Framework for formal implementation of the business understanding phase of data mining projects. Expert Systems with Applica- tions, 4114–4124 (2009) Otte, R., Otte, V., Kaiser, V.: Data Mining für die industrielle Praxis Hanser Verlag, München, Wien (2004) Weller, J.: Modellgestützte Prozessverbesserung. Entwicklung einer wiederverwendungs- orientierten Methode zur durchgängigen Unterstützung der Modellerstellung, - transformation und -nutzung im Rahmen der Prozessverbesserung Dresden (2010) Automatische Erstellung nutzerspezifischer ETL-Dokumentation 63 Weller, J., et al.: Modellierung in der Produktionstechnik: Ein Ansatz zur effektiven Ge- nerierung von Technologie-Know-how für die Absicherung einer reproduzier- baren Fertigung. In: Esswein, W., Juhrisch, M., Turowski, K. (eds.): Modellie- rung betrieblicher Informationssysteme. Modellgestütztes Management, 69– 86 (2010) Wiedenmann, H.: Modellierung von Produktionsprozessen als Beitrag zur Generierung von Termin- und Kapazitätsplanungs-Systemen bei variantenreicher Serienfer- tigung Jost-Jetter Verlag, Heimsheim (2001) Wand, Y.; Weber, R.: Research Commentary: Information Systems and Conceptual Modeling—A Research Agenda. In: Information Systems Research, 13, 363–377 (2002)