<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta />
    <article-meta>
      <title-group>
        <article-title>Datenkompetenzen für die Massen - Muss Self-Service Data Mining scheitern?</article-title>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author">
          <string-name>Daniel Badura</string-name>
          <xref ref-type="aff" rid="aff1">1</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>und Michael Schulz</string-name>
          <xref ref-type="aff" rid="aff0">0</xref>
          <xref ref-type="aff" rid="aff1">1</xref>
        </contrib>
        <aff id="aff0">
          <label>0</label>
          <institution>NORDAKADEMIE Hochschule der Wirtschaft</institution>
          ,
          <country country="DE">Deutschland</country>
        </aff>
        <aff id="aff1">
          <label>1</label>
          <institution>valantic Business Analytics GmbH</institution>
          ,
          <country country="DE">Deutschland</country>
        </aff>
      </contrib-group>
      <abstract>
        <p>Data Mining ist ein Prozess, bei dem mittels statistischer Verfahren komplexe Muster in meist großen Mengen von Daten gesucht werden. Damit dieser von Organisationen verstärkt zur Entscheidungsunterstützung eingesetzt werden kann, wäre es hilfreich, wenn Domänenexperten durch Self-Service-Anwendungen in die Lage versetzt würden, diese Form der Analysen eigenständig durchzuführen, damit sie nicht mehr auf Datenwissenschaftler und IT-Fachkräfte angewiesen sind. In diesem Artikel soll eine Versuchsreihe vorgestellt werden, die eine Bewertung darüber ermöglicht, wie geeignet etablierte Data-MiningSoftwareplattformen (IBM SPSS Modeler, KNIME, RapidMiner und WEKA) sind, um sie Gelegenheitsanwendern zur Verfügung zu stellen. In den vorgestellten Versuchen sollen Entscheidungsbäume im Fokus stehen, eine besonders einfache Form von Algorithmen, die der Literatur und unserer Erfahrung nach am ehesten für die Nutzung in Self-Service-Data-Mining-Anwendungen geeignet sind. Dabei werden mithilfe eines einheitlichen Datensets auf den verschiedenen Plattformen Entscheidungsbäume für identische Zielvariablen konstruiert. Die Ergebnisse sind im Hinblick auf die Klassifikationsgenauigkeit zwar relativ ähnlich, die Komplexität der Modelle variiert jedoch. Aktuelle grafische Benutzeroberflächen lassen sich zwar auch ohne tiefgehende Kompetenzen in den Bereichen Informatik und Statistik bedienen, sie ersetzen aber nicht den Bedarf an datenwissenschaftlichen Kompetenzen, die besonders beim Schritt der Datenvorbereitung zum Einsatz kommen, welcher den größten Teil des Data-Mining-Prozesses ausmacht.</p>
      </abstract>
      <kwd-group>
        <kwd>Data Mining</kwd>
        <kwd>Self-Service Analytics</kwd>
        <kwd>Entscheidungsbäume</kwd>
        <kwd>Datenkompetenzen</kwd>
      </kwd-group>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>-</title>
      <p>
        In der Tradition von End User Computing (EUC) [
        <xref ref-type="bibr" rid="ref41">41</xref>
        ] existiert Self-Service Business
Intelligence (SSBI) seit einigen Jahren als Ansatz zur Befähigung von
Domänenexperten zur eigenständigen Durchführung auch komplexer Analysen [
        <xref ref-type="bibr" rid="ref10 ref3">3, 10</xref>
        ]. Diese
Eigenständigkeit wird von einigen Praktikern und Forschern als die Emanzipation von
ITFachkräften verstanden [
        <xref ref-type="bibr" rid="ref49">49</xref>
        ]. So wird es Anwendern beispielsweise ermöglicht,
spezielle Visualisierungsformen anzuwenden oder sogar individuell Datenquellen in die
Analyseumgebung zu integrieren [
        <xref ref-type="bibr" rid="ref27">27</xref>
        ]. Andere gehen noch weiter und sehen in SSBI
zusätzlich auch die Emanzipation von Datenwissenschaftlern1 [
        <xref ref-type="bibr" rid="ref22 ref42">22, 42</xref>
        ].
Ein Grund für den Bedarf an mehr Eigenständigkeit ist der Umstand, dass immer mehr
Daten verfügbar sind und als Entscheidungsgrundlage dienen können.
Domänenexperten wollen diese Daten nutzen, ohne auf Spezialisten angewiesen zu sein. Deshalb
werden einfach verständliche und zumindest teilweise automatisierte Möglichkeiten auch
in komplexen Bereichen wie dem Data Mining2 immer wichtiger [
        <xref ref-type="bibr" rid="ref16 ref49">16, 49</xref>
        ]. Viele
Softwarehersteller haben dies erkannt und bieten Produkte mit sehr einfachen
Benutzeroberflächen an, die die Erstellung von Analysen intuitiv zu machen versuchen [
        <xref ref-type="bibr" rid="ref14 ref25 ref26 ref32 ref40 ref6">6, 14,
25, 26, 32, 40</xref>
        ]. Andere bieten sogar die Möglichkeit der automatisierten Bildung von
Modellen [
        <xref ref-type="bibr" rid="ref22 ref29 ref35">22, 29, 35</xref>
        ]. Wir bezeichnen all diese Ansätze als Self-Service Data Mining
(SSDM). Es scheint auf der einen Seite unstrittig, dass Datenwissenschaftler nicht
unabhängig von Domänenexperten arbeiten können, da es ihnen an einem ausreichenden
Verständnis des Untersuchungsgegenstandes mangelt [
        <xref ref-type="bibr" rid="ref44">44</xref>
        ]. Dass Domänenexperten auf
der anderen Seite Aufgaben von Datenwissenschaftlern übernehmen können, wird
jedoch vermehrt angenommen [
        <xref ref-type="bibr" rid="ref3 ref4">3, 4</xref>
        ]. Ein Argument, das für diesen SSDM-Ansatz
spricht, ist, dass fundierte Datenkompetenz zwar hilfreich, aber nicht für jede Form der
Mustererkennung zwingend erforderlich ist [
        <xref ref-type="bibr" rid="ref21">21</xref>
        ]. Datenkompetenz (englisch: Data
Literacy) wird als "die Fähigkeit des planvollen Umgangs mit Daten" definiert und
beinhaltet die Kompetenzen, Daten erfassen, erkunden, managen, kuratieren, analysieren,
visualisieren, interpretieren, kontextualisieren, beurteilen und anwenden zu können
[
        <xref ref-type="bibr" rid="ref18">18</xref>
        ]. Inwieweit von Domänenexperten erwartet werden kann, dass sie mit Hilfe von
SSDM den kompletten Analyseprozess übernehmen, soll mit der in diesem Artikel
vorgestellten Versuchsreihe untersucht werden.
2
      </p>
    </sec>
    <sec id="sec-2">
      <title>Aktueller Stand der Forschung</title>
      <p>
        Abbildung 1 stellt SSDM als Teilgebiet von SSBI, bzw. EUC dar. EUC wird bereits
seit den 1980er-Jahren erforscht [
        <xref ref-type="bibr" rid="ref1 ref30 ref41">1, 30, 41</xref>
        ]. Die Idee, Domänenexperten zu
eigenständigen computergesteuerten Analysen zu befähigen, kam etwa zehn Jahre später auf
[
        <xref ref-type="bibr" rid="ref11">11</xref>
        ], auch wenn der Begriff SSBI erst 2008 in der wissenschaftlichen Literatur erschien
[
        <xref ref-type="bibr" rid="ref43">43</xref>
        ]. Dagegen gibt es bezüglich der aktuellen Evolutionsstufe von SSDM recht
unterschiedliche Positionen. So waren Kriegel et al. [
        <xref ref-type="bibr" rid="ref33">33</xref>
        ] auf der einen Seite bereits im Jahr
2007 der Meinung, dass die Datenvorbereitung in künftigen Data-Mining-Plattformen
automatisiert werden würde, ohne den Nutzern die Kontrolle über die einzelnen Schritte
1 Datenwissenschaftler sind mit der Erkenntnisgewinnung aus Daten beschäftigt und benötigen
neben analytischen Fähigkeiten vor allem Kenntnisse im Umgang mit großen Datenmengen
[
        <xref ref-type="bibr" rid="ref17">17</xref>
        ].
2 Data Mining ist die Gewinnung von Erkenntnissen und Bildung von Vorhersagemodellen auf
Basis großer Datenmengen [
        <xref ref-type="bibr" rid="ref14">14</xref>
        ]. Im Kontext dieses Artikels verstehen wir unter dem Begriff
den vollständigen Prozess der Informationsgewinnung, von der Datenvorbereitung bis zur
Evaluierung der Modelle.
zu nehmen. Verschiedene Konzepte, die dank umfassender Automatisierung auch
Gelegenheitsanwendern Zugang zu fortgeschrittenen Analysekapazitäten ermöglichen
sollen, existieren auch bereits [
        <xref ref-type="bibr" rid="ref37 ref50">37, 50</xref>
        ].
      </p>
      <p>
        Auf der anderen Seite erachten Autoren wie Goyal und Vohra [
        <xref ref-type="bibr" rid="ref20">20</xref>
        ] die üblichen
DataMining-Plattformen als wenig geeignet für Laien und schlagen die Entwicklung von
speziell auf diese Zielgruppe ausgerichteter Software vor, die Benutzerfreundlichkeit
über Genauigkeit und Flexibilität stellt. Andere Experten mahnen, dass die Arbeit mit
Daten zu komplex ist, um alleine von Domänenexperten durchgeführt werden zu
können [
        <xref ref-type="bibr" rid="ref34 ref49">34, 49</xref>
        ]. Brown [
        <xref ref-type="bibr" rid="ref8">8</xref>
        ] wies darauf hin, dass die Nachfrage nach SSA zu sinken scheint
und es unwahrscheinlich ist, dass Experten in näherer Zukunft durch Software ersetzt
werden können. Sie identifizierte jedoch Embedded Analytics, also die Integration von
Analysewerkzeugen in Nicht-Analytics-Software, als Gebiet, auf dem es noch viel
Potential gibt, da die meisten Nutzer ungerne zwischen verschiedenen
Softwareplattformen wechseln.
      </p>
      <p>Insgesamt gibt es hinsichtlich der Entwicklung von SSDM noch sehr
unterschiedliche Meinungen und Argumente, weshalb weitere Betrachtungen erforderlich sind.
3</p>
    </sec>
    <sec id="sec-3">
      <title>Methodik und Datengrundlage</title>
      <p>
        In diesem Artikel soll eine Versuchsreihe vorgestellt werden, mit der überprüft werden
kann, ob aktuelle Data-Mining-Software geeignet ist, sie Domänenexperten ohne
datenwissenschaftlichen Hintergrund zur Verfügung zu stellen. Als Ansatz zur
Beantwortung dieser Frage haben wir uns auf eine Gruppe von Algorithmen konzentriert, die der
Literatur und unserer Erfahrung nach besonders gut für SSDM geeignet zu sein scheint
[
        <xref ref-type="bibr" rid="ref15 ref28">15, 28</xref>
        ].
      </p>
      <p>
        Während viele Data-Mining-Methoden hauptsächlich darauf ausgelegt sind, die
Ergebnisgenauigkeit zu maximieren, ermöglichen Entscheidungsbäume zusätzlich eine
verhältnismäßig leichte Interpretation ihrer Herleitung, da die einzelnen Schritte des
Algorithmus grafisch dargestellt werden können und die wichtigsten Attribute dort in
einer hierarchischen Reihenfolge zu finden sind [
        <xref ref-type="bibr" rid="ref39 ref47 ref7">7, 39, 47</xref>
        ]. Entscheidungsbäume
können somit als eine Art Untergrenze für SSDM gesehen werden. Wenn es für
Domänenexperten nicht möglich ist, mit ihnen brauchbare Modelle zu erstellen, scheint dies mit
komplexeren Algorithmen noch unwahrscheinlicher. Die Verständlichkeit der Modelle
hat eine große Relevanz für ihren praktischen Einsatz, da Wissen über die Struktur von
Modellen oft als ebenso wichtig empfunden wird wie genaue Vorhersagen von
zukünftigem Verhalten [
        <xref ref-type="bibr" rid="ref14">14</xref>
        ]. Nutzer sind häufiger bereit, Analyseergebnissen zu vertrauen,
deren Herleitung sie verstehen können [
        <xref ref-type="bibr" rid="ref1 ref15">1, 15</xref>
        ].
      </p>
      <p>Für diese Untersuchung haben wir auf Grundlage eines ausgewählten Datensets
Entscheidungsbäume in verschiedenen Softwareprodukten konstruiert und diese
miteinander verglichen, um so Erkenntnisse über die Qualität der gebildeten Modelle und die
Benutzerfreundlichkeit der Workflows zu gewinnen. Dabei wurde jeder Baum zweimal
konstruiert. In einer Variante wurde versucht, das bestmögliche Modell zu bilden. In
der anderen wurden nur ein Mindestmaß an Datenvorbereitung und die
Standardkonfigurationen in den Programmen verwendet. Auf diese Weise sollte überprüft werden,
welchen Unterschied Datenkompetenzen wirklich machen.</p>
      <p>
        Eine Herausforderung ist die Entscheidung, welche Kennzahlen für eine Aussage
über die Qualität der Modelle geeignet sind. In diesem Artikel wird neben der
Genauigkeit der untersuchten Modelle auch die Komplexität der erzeugten Bäume, ermittelt
durch die Anzahl der Ebenen und Blätter, als Kennzahl verwendet [
        <xref ref-type="bibr" rid="ref12">12</xref>
        ]. Dass eine
weniger komplexe Struktur einem ansonsten gleichwertigen, aber komplexeren Modell
vorzuziehen ist, wurde bereits in verschiedenen Kontexten nachgewiesen (vgl. z.B.
Millersche Zahl [
        <xref ref-type="bibr" rid="ref36">36</xref>
        ], Ockhams Rasiermesser [
        <xref ref-type="bibr" rid="ref19">19</xref>
        ] und das Minimum Description
Length Principle [
        <xref ref-type="bibr" rid="ref5">5</xref>
        ].
      </p>
      <p>
        Die Untersuchungen in diesem Artikel wurden mit aktuellen Versionen der
Plattformen IBM SPSS Modeler, RapidMiner, WEKA und KNIME durchgeführt. Sie wurden
ausgewählt, da sie laut ihrer Anbieter allesamt Self-Service-Funktionalitäten besitzen,
beziehungsweise sehr einfach und intuitiv zu benutzen sind [
        <xref ref-type="bibr" rid="ref14 ref25 ref26 ref32 ref40 ref6">6, 14, 25, 26, 32, 40</xref>
        ]. Um
den Trade-off zwischen der erhöhten Benutzerfreundlichkeit und einer möglicherweise
eingeschränkten Flexibilität der Produkte mit grafischen Benutzeroberflächen zu
untersuchen, wurden zusätzlich R und Python berücksichtigt. Sie sind seit einigen Jahren die
verbreitetsten Programmiersprachen in der Durchführung von Data-Mining-Analysen
und bieten viele Funktionen, welche die Arbeit mit statistischen Modellen erleichtern
[
        <xref ref-type="bibr" rid="ref14 ref45">14, 45</xref>
        ]. Beide setzen ein gewisses Maß an Statistik- und Informatikkenntnissen voraus
und eignen sich somit weniger für SSDM.
      </p>
      <p>
        Für die Vergleiche wurde das Datenset aus [
        <xref ref-type="bibr" rid="ref13">13</xref>
        ] genutzt.3 Es bietet viele
Möglichkeiten für Klassifikationen und ist Teil einer ausführlichen Studie, die für die in diesem
Artikel gebildeten Modelle als Orientierung dient. Darin wurde eine Reihe von
Algorithmen für die Klassifikationen getestet und jeweils der beste ausgewählt. Auf
Heuristiken und andere Verfahren zur Minderung der erforderlichen Rechenleistung wurde
dabei größtenteils verzichtet, um möglichst optimale Modelle zu finden. Unter anderem
wurden für jedes Ziel 160 Millionen Entscheidungsbäume erstellt, die sich durch die
3 Das Datenset enthält 1.885 Datensätze, denen 33 Attribute zugeordnet werden.
Konfiguration ihrer Parameter und die verwendeten Kombinationen von Attributen
unterschieden. Damit eignet sich die Studie gut als Benchmark für unsere eigenen
Versuche, die im Folgenden beschrieben werden.
      </p>
      <p>
        Um die verschiedenen Softwareprodukte zu vergleichen, wurden die Datensätze als
binäre Ziele klassifiziert. Die Daten wurden zuerst in Python vorbereitet und in eine
Trainings- und eine Testpartition aufgeteilt. So wurde sichergestellt, dass die Versuche
auf einer einheitlichen Grundlage stattfinden konnten. Der Schritt der
Datenvorbereitung erfordert das höchste Maß an Datenkompetenzen und ist kaum von
Domänenexperten durchzuführen. Mithilfe der Trainingspartition wurden dann
Entscheidungsbäume der am weitesten verbreiteten Typen C4.5, C5.0, CHAID und CART konstruiert
[
        <xref ref-type="bibr" rid="ref31 ref38 ref39 ref7">7, 31, 38, 39</xref>
        ]. Dabei wurde Cross-Validation genutzt, um die jeweils besten
Konfigurationen zu finden. Im zweiten Teil der Versuchsreihe wurden die gleichen
Entscheidungsbäume dann ohne Veränderung der Standardparameter erstellt, um die
Herangehensweise eines Anwenders ohne fortgeschrittene Datenkompetenzen zu simulieren.
4
      </p>
    </sec>
    <sec id="sec-4">
      <title>Erste Ergebnisse und weiteres Vorgehen</title>
      <p>Insgesamt erzielten die Modelle relativ ähnliche Genauigkeiten, auch wenn die
Baumstrukturen teilweise sehr unterschiedlich waren. Ein möglicher Grund dafür ist, dass
recht viel Arbeit in die Datenvorbereitung gesteckt wurde (vgl. Kapitel 3), sodass die
Modelle in den verschiedenen Tools auf einer gemeinsamen Grundlage aufgebaut
werden konnten. Dieser Schritt dient unter anderem der Qualitätssicherung und erfordert
ein gewisses Maß an Datenkompetenz und Domänenwissen. Die Modellierung selbst
kann mithilfe der grafischen Benutzeroberflächen der verschiedenen Plattformen auch
von Nutzern ohne tiefgehende Statistik- und Programmierkenntnisse vorgenommen
werden. Allerdings führen diese Fähigkeiten meistens zu besseren Modellen, da die
einzelnen Parameter der Algorithmen besser an die Daten angepasst werden können.
Die Modelle aus dem zweiten Teil der Versuchsreihe wiesen in den beiden Kennzahlen
Genauigkeit und Komplexität Verschlechterungen gegenüber den Modellen aus dem
ersten Teil auf. Dies deutet darauf hin, dass auch Entscheidungsbäume ein gewisses
Maß an Datenkompetenzen erfordern und nicht ohne Einschränkung für SSDM
geeignet sind. Wie solche Datenkompetenzen in den nächsten Jahren weitere Verbreitung
finden können, ist ebenfalls ein wichtiges Thema, das Aufmerksamkeit bedarf. Ohne
sie wird ein großer Teil des Potentials in den stetig wachsenden Datenmengen
ungenutzt bleiben.</p>
      <p>
        Eine genauere Betrachtung der Ergebnisse und das Ziehen geeigneter Rückschlüsse
sollen in den nächsten Schritten unserer laufenden Arbeit erfolgen. In dieser
Untersuchung stehen Entscheidungsbäume im Fokus, weil sie leicht zu interpretieren sind.
Diese Betrachtungen könnten in der Zukunft auf andere Datensets und weitere
verhältnismäßig simple Repräsentationsformen wie Regelwerke, k-Nearest Neighbors oder
Naive Bayes ausgeweitet werden. Ein alternativer Ansatz wäre eine geringere
Gewichtung der Nachvollziehbarkeit der Modelle und stattdessen eine Konzentration auf die
Automatisierung des gesamten Prozesses, wie er beispielsweise in [
        <xref ref-type="bibr" rid="ref29">29</xref>
        ] verfolgt wurde.
      </p>
    </sec>
  </body>
  <back>
    <ref-list>
      <ref id="ref1">
        <mixed-citation>
          1.
          <string-name>
            <surname>Alavi</surname>
            ,
            <given-names>M.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Weiss</surname>
          </string-name>
          , I.:
          <article-title>Managing the Risks Associated with End-User Computing</article-title>
          .
          <source>Journal of Management Information Systems</source>
          ,
          <volume>5</volume>
          -
          <fpage>20</fpage>
          (
          <year>1985</year>
          ).
        </mixed-citation>
      </ref>
      <ref id="ref2">
        <mixed-citation>
          2.
          <string-name>
            <surname>Allahyari</surname>
          </string-name>
          , H., and
          <string-name>
            <surname>Lavesson</surname>
          </string-name>
          , N.:
          <article-title>User-oriented assessment of classification model understandability</article-title>
          .
          <source>11th scandinavian conference on Artificial intelligence</source>
          . IOS Press, (
          <year>2011</year>
          ).
        </mixed-citation>
      </ref>
      <ref id="ref3">
        <mixed-citation>
          3.
          <string-name>
            <surname>Alpar</surname>
            ,
            <given-names>P.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Schulz</surname>
            ,
            <given-names>M.</given-names>
          </string-name>
          :
          <string-name>
            <surname>Self-Service Business Intelligence</surname>
          </string-name>
          .
          <source>Business &amp; Information Systems Engineering. 58.2</source>
          ,
          <fpage>151</fpage>
          -
          <lpage>155</lpage>
          (
          <year>2016</year>
          ).
        </mixed-citation>
      </ref>
      <ref id="ref4">
        <mixed-citation>
          4.
          <string-name>
            <surname>Banker</surname>
            ,
            <given-names>S.</given-names>
          </string-name>
          , https://www.forbes.com/sites/stevebanker/2018/01/19/the-citizen
          <article-title>-data-scientist</article-title>
          ,
          <source>last accessed</source>
          <year>2018</year>
          /31/05.
        </mixed-citation>
      </ref>
      <ref id="ref5">
        <mixed-citation>
          5.
          <string-name>
            <surname>Barron</surname>
            ,
            <given-names>A.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Rissanen</surname>
            ,
            <given-names>J.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Yu</surname>
            ,
            <given-names>B.</given-names>
          </string-name>
          :
          <article-title>The Minimum Description Length Principle in Coding and Modeling</article-title>
          .
          <source>Information Theory 50 Years of Discovery</source>
          , IEEE Press (
          <year>1998</year>
          ).
        </mixed-citation>
      </ref>
      <ref id="ref6">
        <mixed-citation>
          6.
          <string-name>
            <surname>Berthold</surname>
            ,
            <given-names>M.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Cebron</surname>
            ,
            <given-names>N.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Dill</surname>
            ,
            <given-names>F.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Gabriel</surname>
            ,
            <given-names>T.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Kötter</surname>
            ,
            <given-names>T.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Meinl</surname>
            ,
            <given-names>T.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Ohl</surname>
            ,
            <given-names>P.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Sieb</surname>
            ,
            <given-names>C.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Thiel</surname>
            ,
            <given-names>K.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Wiswedel</surname>
            ,
            <given-names>B.</given-names>
          </string-name>
          :
          <article-title>KNIME: The Konstanz Information Miner</article-title>
          .
          <article-title>Studies in Classification, Data Analysis, and</article-title>
          <string-name>
            <given-names>Knowledge</given-names>
            <surname>Organization</surname>
          </string-name>
          . Springer (
          <year>2007</year>
          ).
        </mixed-citation>
      </ref>
      <ref id="ref7">
        <mixed-citation>
          7.
          <string-name>
            <surname>Breiman</surname>
            ,
            <given-names>L.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Friedman</surname>
            ,
            <given-names>J.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Olshen</surname>
            ,
            <given-names>R.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Stone</surname>
            ,
            <given-names>C.</given-names>
          </string-name>
          :
          <article-title>Classification and regression trees</article-title>
          .
          <source>Wadsworth &amp; Brooks</source>
          , Monterey, CA (
          <year>1984</year>
          ).
        </mixed-citation>
      </ref>
      <ref id="ref8">
        <mixed-citation>
          8.
          <string-name>
            <surname>Brown</surname>
          </string-name>
          , M., https://www.forbes.com/sites/metabrown/2016/12/30/why-self
          <article-title>-service-analytics-wont-replace-data-analytics-professionals-may-help-them</article-title>
          ,
          <source>last accessed</source>
          <year>2018</year>
          /30/05.
        </mixed-citation>
      </ref>
      <ref id="ref9">
        <mixed-citation>
          9.
          <string-name>
            <surname>Chapman</surname>
            ,
            <given-names>P.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Clinton</surname>
            ,
            <given-names>J.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Kerber</surname>
            ,
            <given-names>R.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Khabaza</surname>
            ,
            <given-names>T.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Reinartz</surname>
            ,
            <given-names>T.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Shearer</surname>
            ,
            <given-names>C.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Wirth</surname>
          </string-name>
          , R.:
          <article-title>CRISP-DM 1.0</article-title>
          .
          <string-name>
            <surname>CRISP-DM consortium</surname>
          </string-name>
          (
          <year>1999</year>
          ).
        </mixed-citation>
      </ref>
      <ref id="ref10">
        <mixed-citation>
          10.
          <string-name>
            <surname>Chiang</surname>
            ,
            <given-names>K.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Wells</surname>
            ,
            <given-names>A.</given-names>
          </string-name>
          , https://tdwi.org/articles/2017/03/21/5
          <article-title>-rules-for-successful-self-service-analytics</article-title>
          .aspx,
          <source>last accessed</source>
          <year>2018</year>
          /30/05.
        </mixed-citation>
      </ref>
      <ref id="ref11">
        <mixed-citation>
          11.
          <string-name>
            <surname>Codd</surname>
            ,
            <given-names>E.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Codd</surname>
            ,
            <given-names>S.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Salley</surname>
            ,
            <given-names>T.</given-names>
          </string-name>
          :
          <article-title>Providing OLAP to user-analysts: An IT mandate</article-title>
          . E.
          <string-name>
            <given-names>F.</given-names>
            <surname>Codd</surname>
          </string-name>
          &amp; Associates (
          <year>1993</year>
          ).
        </mixed-citation>
      </ref>
      <ref id="ref12">
        <mixed-citation>
          12.
          <string-name>
            <surname>Fayyad</surname>
            ,
            <given-names>U.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Irani</surname>
            ,
            <given-names>K.</given-names>
          </string-name>
          <article-title>: Multi-Interval Discretization of Continuous-Valued Attributes for Classification Learning</article-title>
          .
          <source>IJCAI</source>
          (
          <year>1993</year>
          ).
        </mixed-citation>
      </ref>
      <ref id="ref13">
        <mixed-citation>
          13.
          <string-name>
            <surname>Fehrman</surname>
            ,
            <given-names>E.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Muhammad</surname>
            ,
            <given-names>A.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Mirkes</surname>
            ,
            <given-names>E.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Egan</surname>
            ,
            <given-names>V.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Gorban</surname>
            ,
            <given-names>A.</given-names>
          </string-name>
          :
          <article-title>The Five Factor Model of personality and evaluation of drug consumption risk</article-title>
          .
          <source>Data Science</source>
          ,
          <volume>231</volume>
          -
          <fpage>242</fpage>
          (
          <year>2017</year>
          ).
        </mixed-citation>
      </ref>
      <ref id="ref14">
        <mixed-citation>
          14.
          <string-name>
            <surname>Frank</surname>
            ,
            <given-names>E.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Hall</surname>
            ,
            <given-names>M.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Witten</surname>
            ,
            <given-names>I.</given-names>
          </string-name>
          :
          <article-title>Mining: Practical Machine Learning Tools and Techniques</article-title>
          . Morgan Kaufmann (
          <year>2016</year>
          ).
        </mixed-citation>
      </ref>
      <ref id="ref15">
        <mixed-citation>
          15.
          <string-name>
            <surname>Freitas</surname>
            ,
            <given-names>A.</given-names>
          </string-name>
          :
          <article-title>Comprehensible classification models: a position paper</article-title>
          .
          <source>ACM SIGKDD explorations newsletter 15.1</source>
          ,
          <fpage>1</fpage>
          -
          <lpage>10</lpage>
          (
          <year>2014</year>
          ).
        </mixed-citation>
      </ref>
      <ref id="ref16">
        <mixed-citation>
          16.
          <string-name>
            <surname>Gartner</surname>
          </string-name>
          , https://www.gartner.com/newsroom/id/3570917, last accessed
          <year>2018</year>
          /30/05.
        </mixed-citation>
      </ref>
      <ref id="ref17">
        <mixed-citation>
          17.
          <string-name>
            <surname>Gartner</surname>
          </string-name>
          , https://www.gartner.com/it-glossary/data-scientist,
          <source>last accessed</source>
          <year>2018</year>
          /30/05.
        </mixed-citation>
      </ref>
      <ref id="ref18">
        <mixed-citation>
          18.
          <article-title>Gesellschaft für Informatik: Data Literacy und Data Science Education: Digitale Kompetenzen in der Hochschulausbildung</article-title>
          . Berlin (
          <year>2018</year>
          ).
        </mixed-citation>
      </ref>
      <ref id="ref19">
        <mixed-citation>
          19.
          <string-name>
            <surname>Gibbs</surname>
            ,
            <given-names>P.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Hiroshi</surname>
            ,
            <given-names>S.</given-names>
          </string-name>
          , http://math.ucr.edu/home/baez/physics/General/occam.html,
          <source>last accessed</source>
          <year>2018</year>
          /30/05.
        </mixed-citation>
      </ref>
      <ref id="ref20">
        <mixed-citation>
          20.
          <string-name>
            <surname>Goyal</surname>
            ,
            <given-names>M.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Vohra</surname>
            ,
            <given-names>R.</given-names>
          </string-name>
          :
          <article-title>Applications of data mining in higher education</article-title>
          .
          <source>International journal of computer science 9.2</source>
          ,
          <fpage>113</fpage>
          -
          <lpage>120</lpage>
          (
          <year>2012</year>
          ).
        </mixed-citation>
      </ref>
      <ref id="ref21">
        <mixed-citation>
          21.
          <string-name>
            <surname>Gualtieri</surname>
            ,
            <given-names>M.:</given-names>
          </string-name>
          <article-title>The Forrester Wave: Predictive Analytics And Machine Learning Solutions</article-title>
          ,
          <year>Q1 2017</year>
          . Forrester Research (
          <year>2017</year>
          ).
        </mixed-citation>
      </ref>
      <ref id="ref22">
        <mixed-citation>
          22.
          <string-name>
            <surname>Halper: TDWI Self-Service Analytics Maturity Model Guide - Interpreting Your</surname>
            Assessment Score,
            <given-names>TDWI</given-names>
          </string-name>
          (
          <year>2017</year>
          ).
        </mixed-citation>
      </ref>
      <ref id="ref23">
        <mixed-citation>
          23.
          <string-name>
            <surname>Huang</surname>
          </string-name>
          ,
          <string-name>
            <surname>T C</surname>
          </string-name>
          .
          <article-title>-</article-title>
          K.,
          <string-name>
            <surname>Liu</surname>
            ,
            <given-names>C.-C.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Chang</surname>
          </string-name>
          , D.-C.
          <article-title>: An Empirical Investigation of Factors Influencing the Adoption of Data Mining Tools</article-title>
          .
          <source>International Journal of Information Management</source>
          <volume>32</volume>
          (
          <issue>3</issue>
          ):
          <fpage>257</fpage>
          -
          <lpage>270</lpage>
          (
          <year>2012</year>
          ).
        </mixed-citation>
      </ref>
      <ref id="ref24">
        <mixed-citation>
          24.
          <string-name>
            <surname>Hyafil</surname>
            ,
            <given-names>L.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Rivest</surname>
          </string-name>
          , R.:
          <article-title>Constructing optimal binary decision trees is NP-complete</article-title>
          .
          <source>Information Processing Letters</source>
          ,
          <fpage>15</fpage>
          -
          <lpage>17</lpage>
          (
          <year>1976</year>
          ).
        </mixed-citation>
      </ref>
      <ref id="ref25">
        <mixed-citation>
          25. IBM, https://www.ibm.com/products/spss-modeler,
          <source>last accessed</source>
          <year>2018</year>
          /30/05.
        </mixed-citation>
      </ref>
      <ref id="ref26">
        <mixed-citation>
          26. IBM, https://www-01.ibm.com/common/ssi/ShowDoc.wss?docURL=/common/ssi/rep_ca/2/897/ENUS217-442/index.html&amp;request_locale=en,
          <source>last accessed</source>
          <year>2018</year>
          /30/05.
        </mixed-citation>
      </ref>
      <ref id="ref27">
        <mixed-citation>
          27.
          <string-name>
            <surname>Imhoff</surname>
            ,
            <given-names>C.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>White</surname>
            ,
            <given-names>C.</given-names>
          </string-name>
          :
          <string-name>
            <surname>Self-Service Business</surname>
          </string-name>
          Intelligence - Empowering Users to Generate Insights.
          <source>TDWI Best Practices Report</source>
          (
          <year>2011</year>
          ).
        </mixed-citation>
      </ref>
      <ref id="ref28">
        <mixed-citation>
          28.
          <string-name>
            <surname>Johansson</surname>
            ,
            <given-names>U.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Niklasson</surname>
            ,
            <given-names>L.</given-names>
          </string-name>
          :
          <article-title>Evolving decision trees using oracle guides</article-title>
          .
          <source>In: IEEE Symposium on Computational Intelligence and Data Mining</source>
          ,
          <fpage>238</fpage>
          -
          <lpage>244</lpage>
          (
          <year>2009</year>
          ).
        </mixed-citation>
      </ref>
      <ref id="ref29">
        <mixed-citation>
          29.
          <string-name>
            <surname>Kanter</surname>
            ,
            <given-names>M.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Veeramachaneni</surname>
            ,
            <given-names>K.</given-names>
          </string-name>
          :
          <article-title>Deep Feature Synthesis: Towards Automating Data Science Endeavors</article-title>
          .
          <source>In: 2015 IEEE International Conference on Data Science and Advanced Analytics</source>
          (
          <year>2015</year>
          ).
        </mixed-citation>
      </ref>
      <ref id="ref30">
        <mixed-citation>
          30.
          <string-name>
            <surname>Kasper</surname>
            ,
            <given-names>G.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Cerveny</surname>
            ,
            <given-names>R.:</given-names>
          </string-name>
          <article-title>A laboratory study of user characteristics and decision-making performance in end-user computing</article-title>
          .
          <source>Information and Management</source>
          ,
          <volume>87</volume>
          -
          <fpage>96</fpage>
          (
          <year>1985</year>
          ).
        </mixed-citation>
      </ref>
      <ref id="ref31">
        <mixed-citation>
          31.
          <string-name>
            <surname>Kass</surname>
            ,
            <given-names>G.</given-names>
          </string-name>
          :
          <article-title>An Exploratory Technique for Investigating Large Quantities of Categorical Data</article-title>
          . Applied Statistics,
          <volume>29</volume>
          .2,
          <fpage>119</fpage>
          -
          <lpage>127</lpage>
          (
          <year>1980</year>
          ).
        </mixed-citation>
      </ref>
      <ref id="ref32">
        <mixed-citation>
          32. KNIME, https://www.knime.com/about, last accessed
          <year>2018</year>
          /30/05
        </mixed-citation>
      </ref>
      <ref id="ref33">
        <mixed-citation>
          33.
          <string-name>
            <surname>Kriegel</surname>
            ,
            <given-names>H.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Borgwardt</surname>
            ,
            <given-names>K.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Kröger</surname>
            ,
            <given-names>P.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Pryakhin</surname>
            ,
            <given-names>A.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Schubert</surname>
            ,
            <given-names>M.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Zimek</surname>
            ,
            <given-names>A.</given-names>
          </string-name>
          :
          <article-title>Future trends in data mining</article-title>
          .
          <source>Data Mining and Knowledge Discovery</source>
          ,
          <fpage>87</fpage>
          -
          <lpage>97</lpage>
          (
          <year>2007</year>
          ).
        </mixed-citation>
      </ref>
      <ref id="ref34">
        <mixed-citation>
          34.
          <string-name>
            <surname>Mazón</surname>
            ,
            <given-names>J.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Zubcoff</surname>
            ,
            <given-names>J.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Garrigos</surname>
            ,
            <given-names>I.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Ortega</surname>
          </string-name>
          , R.: Open Business Intelligence:
          <article-title>on the importance of dataquality awareness in user-friendly data mining</article-title>
          .
          <source>In: Proceedings of the 2012 Joint EDBT/ICDT Workshops</source>
          (
          <year>2012</year>
          ).
        </mixed-citation>
      </ref>
      <ref id="ref35">
        <mixed-citation>
          35.
          <string-name>
            <surname>Mierswa</surname>
          </string-name>
          , I., https://rapidminer.com/blog/rapidminer-makes
          <article-title>-self-service-advanced-</article-title>
          <string-name>
            <surname>analytics-</surname>
          </string-name>
          available-hadoop/, last last accessed
          <year>2018</year>
          /30/05.
        </mixed-citation>
      </ref>
      <ref id="ref36">
        <mixed-citation>
          36.
          <string-name>
            <surname>Miller</surname>
            ,
            <given-names>G.</given-names>
          </string-name>
          :
          <article-title>The Magical Number Seven, Plus or Minus Two: Some Limits on Our Capacity for Processing Information</article-title>
          .
          <source>The Psychological Review (63)</source>
          ,
          <fpage>81</fpage>
          -
          <lpage>97</lpage>
          (
          <year>1956</year>
          ).
        </mixed-citation>
      </ref>
      <ref id="ref37">
        <mixed-citation>
          37.
          <string-name>
            <surname>Ogbuokiri</surname>
            ,
            <given-names>B.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Udanor</surname>
            ,
            <given-names>C.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Agu</surname>
          </string-name>
          , N.:
          <article-title>Implementing bigdata analytics for small and medium enterprise (SME) regional growth</article-title>
          . Department of Computer science, University of Nigeria, Nsukka, Enugu state (
          <year>2015</year>
          ).
        </mixed-citation>
      </ref>
      <ref id="ref38">
        <mixed-citation>
          38.
          <string-name>
            <surname>Quinlan</surname>
          </string-name>
          , J., https://www.rulequest.com/see5-unix.html,
          <source>last accessed</source>
          <year>2018</year>
          /30/05.
        </mixed-citation>
      </ref>
      <ref id="ref39">
        <mixed-citation>
          39.
          <string-name>
            <surname>Quinlan</surname>
            ,
            <given-names>J.</given-names>
          </string-name>
          :
          <article-title>Induction of Decision Trees</article-title>
          .
          <source>Machine Learning</source>
          <volume>1</volume>
          :
          <fpage>81</fpage>
          -
          <lpage>106</lpage>
          , Kluwer Academic Publishers (
          <year>1986</year>
          ).
        </mixed-citation>
      </ref>
      <ref id="ref40">
        <mixed-citation>
          40. RapidMiner, https://rapidminer.com,
          <source>last accessed</source>
          <year>2018</year>
          /30/05.
        </mixed-citation>
      </ref>
      <ref id="ref41">
        <mixed-citation>
          41.
          <string-name>
            <surname>Rockart</surname>
            ,
            <given-names>J.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Flannery</surname>
            ,
            <given-names>L.</given-names>
          </string-name>
          :
          <article-title>The Management of End User Computing</article-title>
          .
          <source>In: Communications of the ACM</source>
          (
          <year>1983</year>
          ).
        </mixed-citation>
      </ref>
      <ref id="ref42">
        <mixed-citation>
          42.
          <string-name>
            <surname>Schuff</surname>
            ,
            <given-names>D.</given-names>
          </string-name>
          <string-name>
            <surname>Corral</surname>
            ,
            <given-names>K.</given-names>
          </string-name>
          : Enabling
          <string-name>
            <surname>Self-Service</surname>
            <given-names>BI</given-names>
          </string-name>
          :
          <article-title>A Methodology and a Case Study for a Model Management Warehouse</article-title>
          .
          <source>Information Systems Frontiers</source>
          <volume>20</volume>
          (
          <issue>2</issue>
          ),
          <fpage>275</fpage>
          -
          <lpage>288</lpage>
          (
          <year>2018</year>
          ).
        </mixed-citation>
      </ref>
      <ref id="ref43">
        <mixed-citation>
          43.
          <string-name>
            <surname>Spahn</surname>
            ,
            <given-names>M.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Kleb</surname>
            ,
            <given-names>J.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Grimm</surname>
            ,
            <given-names>S.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Scheidl</surname>
            ,
            <given-names>S.</given-names>
          </string-name>
          :
          <article-title>Supporting business intelligence by providing ontology-based end-user information self-service</article-title>
          .
          <source>In: Proceedings of the first international workshop on Ontology-supported business intelligence</source>
          (
          <year>2008</year>
          ).
        </mixed-citation>
      </ref>
      <ref id="ref44">
        <mixed-citation>
          44.
          <string-name>
            <surname>Viaene</surname>
            ,
            <given-names>S.</given-names>
          </string-name>
          :
          <article-title>Data Scientists aren't Domain Experts</article-title>
          .
          <source>IEEE IT Professional</source>
          <volume>15</volume>
          (
          <issue>6</issue>
          )
          <fpage>12</fpage>
          -
          <lpage>17</lpage>
          (
          <year>2013</year>
          ).
        </mixed-citation>
      </ref>
      <ref id="ref45">
        <mixed-citation>
          45.
          <string-name>
            <surname>Wallace</surname>
            ,
            <given-names>B.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Dahabreh</surname>
            ,
            <given-names>I.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Trikalinos</surname>
            ,
            <given-names>T.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Lau</surname>
            ,
            <given-names>J.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Trow</surname>
            ,
            <given-names>P.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Schmid</surname>
            ,
            <given-names>C.</given-names>
          </string-name>
          :
          <article-title>Closing the Gap between Methodologists and End-Users: R as a Computational Back-End</article-title>
          .
          <source>Journal of Statistical Software 49.5</source>
          (
          <year>2011</year>
          ).
        </mixed-citation>
      </ref>
      <ref id="ref46">
        <mixed-citation>
          46.
          <string-name>
            <surname>Watson</surname>
          </string-name>
          , H.:
          <article-title>Tutorial: Business Intelligence - Past, Present and Future</article-title>
          .
          <source>In: Communications of the Association for Information Systems</source>
          (
          <year>2009</year>
          ).
        </mixed-citation>
      </ref>
      <ref id="ref47">
        <mixed-citation>
          47.
          <string-name>
            <surname>Witten</surname>
            ,
            <given-names>H.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Eibe</surname>
            ,
            <given-names>F.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Hall</surname>
            ,
            <given-names>M.</given-names>
          </string-name>
          :
          <article-title>Data Mining: Practical Machine Learning Tools and Techniques</article-title>
          . Morgan Kaufmann, Burlington (
          <year>2011</year>
          ).
        </mixed-citation>
      </ref>
      <ref id="ref48">
        <mixed-citation>
          48.
          <string-name>
            <surname>Wu</surname>
            ,
            <given-names>X.</given-names>
          </string-name>
          :
          <article-title>Top 10 algorithms in data mining</article-title>
          .
          <source>Knowledge and Information Systems</source>
          <volume>14</volume>
          .
          <fpage>1</fpage>
          ., 1-
          <lpage>37</lpage>
          (
          <year>2008</year>
          ).
        </mixed-citation>
      </ref>
      <ref id="ref49">
        <mixed-citation>
          49.
          <string-name>
            <surname>Zaghloul</surname>
            ,
            <given-names>M.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Ali-Eldin</surname>
            ,
            <given-names>A.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Salem</surname>
            ,
            <given-names>M.</given-names>
          </string-name>
          :
          <article-title>"Towards a Self-service Data Analytics Framework."</article-title>
          <source>International Journal of Computer Applications 80.9</source>
          ,
          <fpage>41</fpage>
          -
          <lpage>48</lpage>
          (
          <year>2013</year>
          ).
        </mixed-citation>
      </ref>
      <ref id="ref50">
        <mixed-citation>
          50.
          <string-name>
            <surname>Zorrilla</surname>
            ,
            <given-names>M.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>García-Saiz</surname>
            ,
            <given-names>D.:</given-names>
          </string-name>
          <article-title>A service oriented architecture to provide data mining services for non-expert data miners</article-title>
          .
          <source>Decision Support Systems 55.1.</source>
          ,
          <fpage>399</fpage>
          -
          <lpage>411</lpage>
          (
          <year>2013</year>
          ).
        </mixed-citation>
      </ref>
    </ref-list>
  </back>
</article>