=Paper= {{Paper |id=Vol-2009/fmt-proceedings-2017-paper9 |storemode=property |title=Isidor – Ein auditiver HCI-Prototyp(Isidor – An Auditory HCI Prototype) |pdfUrl=https://ceur-ws.org/Vol-2009/fmt-proceedings-2017-paper9.pdf |volume=Vol-2009 |authors=Josefine Riedel,Thomas Böck,Julian Fischer,Felix Rauchwarter |dblpUrl=https://dblp.org/rec/conf/fmt/RiedelBFR17 }} ==Isidor – Ein auditiver HCI-Prototyp(Isidor – An Auditory HCI Prototype)== https://ceur-ws.org/Vol-2009/fmt-proceedings-2017-paper9.pdf
                   ISIDOR – Ein auditiver HCI-Prototyp
                              Josefine Riedel, Thomas Böck, Julian Fischer, Felix Rauchwarter

                                               St. Pölten University of Applied Sciences
                                                    E-Mail: dm161537@fhstp.ac.at


   Abstract—The work shown engages with the conception and               Forschungsquelle. Es kann abgeleitet werden, dass eine direkte
realization of the human-computer interaction (HCI-) sound               Interaktion die Aufnahme- und Lernfähigkeit sowie das kogni-
installation ‘Isidor’ which gives the user the possibility to conduct    tive Gedächtnis fördert [2]. Von wissenschaftlicher Seite wird
a virtual string quartet. The control system appears via a leap
motion camera (motion tracking) and a clearly arranged user              dieser Ansatz Sound and Music Computing (SMC) genannt.
interface (GUI) implemented on a touch screen. Emanating                 Dieses Versuchsfeld hat die Prämisse, die Gesamtheit der
from the GUI parameters as volume, soli and mutes, room                  Klang- und Musikkommunikationskette von einem multidis-
impressions, tonal pitches (Hz), moods (emotional), the changing         ziplinärem Standpunkt aus zu betrachten. Wissenschaftliche,
of instrumental player positions and the punctual launch from            technologische und künstlerische Methoden sollen zum Ziel
a certain position are possible. The leap motion camera acts
like a translator from the conductor movements of the user’s             des Verstehens, Generierens und Modellierens von akustischen
digital workable control data. Therefor working in real time             Klängen durch computerbasierte Techniken beitragen [3].
is essential for tempo changes. The Max/MSP-object Bachscore
is accountable for the score implementation. MIDI data is
transferred to VST-instruments which eventually are responsible
for the acoustic sound. Max/MSP patches connect the different
elements: Leap motion tracking, DMX light control, graphics
and Bachscore to an interactive sound installation.

   Zusammenfassung—Die vorliegende Arbeit beschäftigt sich
mit der Konzeption und Umsetzung der Human-Computer
Interaction (HCI)-Klanginstallation “Isidor”. Sie ermöglicht es
Nutzern, ein virtuelles Streichquartett zu steuern. Der Benutzer
interagiert mittels Motion Tracking der Hnde durch eine Leap
Motion Kamera sowie einer übersichtlich gestalteten Nutzero-
berfläche auf einem Touchbildschirm. Ausgehend von dieser las-
sen sich Parameter wie Lautstärke, Besetzung, Raumeindrücke,
tonale Stimmung (in Hz), Gefühlszustände (“Moods”), Positi-
onsänderungen der Instrumentalisten, Artikulation jedes Spielers
sowie das punktuelle Abspielen an einer gewünschten Position
umsetzen. Die Leap Motion übersetzt Dirigatsgesten des Nutzers
in Tempoänderungen, die in Echtzeit generiert werden. Mittels
der Max/MSP-Library “Bach” wird die Notendarstellung auf der
grafischen Benutzeroberfläche angezeigt. Die Klangerzeugung
geschieht durch mehrere VST-Instrumente. Max/MSP Patches
vernetzen die verschiedenen Elemente (Leap Motion Tracking,
DMX Lichtsteuerung, Grafik und Bachscore) miteinander zu
einem interaktiven Klangerlebnis.

                         I. E INLEITUNG
   Unter “Sonic Gestures” versteht man Bewegungen oder
Mimiken des menschlichen Körpers, die Auswirkungen auf
das Klangbild haben oder sogar Klänge erzeugen können.
‘Sonic’ bedeutet ‘(akustischer) Schall’, während ‘Gesture’ auf
die menschliche Komponente, die Körper- bzw. Ausdrucksbe-
wegung hinweist [1]. Das grundsätzliche Prinzip von Sonic
Gestures wird aktuell in Form von Klanginstallationen in
vielen Museen aufgegriffen. Durch das in-Kontakt-treten mit                                  Abbildung 1. Isidor Setup
den technischen Installationen steigt das Interesse des Muse-
umsbesuchers und das subjektive Gefühl der Erlebbarkeit der               Mit Isidor soll dieser Ansatz des spielerischen Lernens
Installation. Die Folge ist eine unterbewusste und doch gerad-           aufgegriffen und erweitert werden. Die Erklärung des Na-
linige Ansprache zwischen Rezipient und wissenschaftlicher               mens unterstreicht den Grundgedanken der Forschung: ‘Ea-


                                                                        63
   Isidor – Ein auditiver HCI-Prototyp


sy DAW’ (“Digital Audio Workstation”) verbalisiert ‘Isi-           sogenannte “Moods” (bspw. wütend, verschlafen, vorsichtig),
dor’. Das Programm bietet einem breitgefächertem Publikum         Positionsänderungen der Instrumentalisten sowie das punktu-
die Möglichkeit, direkten Einfluss auf die Darbietung eines       elle Abspielen ab einer gewünschten Position durch “Tap” mit
Streichquartetts auszuüben. Die interaktive Installation setzt    dem Finger in die Partiturdarstellung.
sich seitens der Hardware aus einem übersichtlichen User In-
terface auf einem Touchbildschirm, sechs Lautsprechern (vier                           II. S TATE OF THE ART
Frontkanäle vor dem Rezipienten und zwei Rearkanäle hinter
demselben zur Unterstützung der räumlichen Darstellung), ei-         Bereits 2001 wurde die Klanginstallation “Personal Or-
ner Leap Motion Tracking Kamera (für die Tempoübersetzung        chestra” in Wien aufgestellt. Sie ist im ‘Haus der Musik’
des Dirigats) und via DMX gesteuerten Scheinwerfern (zur           stationiert, einem Zentrum der musikalischen Kulturbewah-
Unterstreichung der Tempoinformationen und Atmosphäre)            rung und -vermittlung. Die Herren Borchers, Samminger und
zusammen.                                                          Mühlhäuser behaupten mit ‘Personal Orchestra’ die erste
                                                                   Klanginstallation geschaffen zu haben, die es dem Nutzer
                                                                   ermöglicht, eine Audio-/Videoaufnahme in Echtzeit dirigieren
                                                                   zu können. Bei dem verwendeten Material handelt es sich
                                                                   nicht, wie bei Isidor, um verarbeitete MIDI-Daten, sondern
                                                                   um eine “echte” Tonaufnahme der Wiener Philharmoniker. Die
                                                                   Beeinflussung von Tempo, Lautstärke und Instrumentation ist
                                                                   durch Motion Tracking einer Infrarotkamera ohne hörbare Ar-
                                                                   tefakte, die durch Time Stretching entstehen können, möglich.
                                                                   Hierbei sei jedoch angemerkt, dass die Tempovariation nur
                                                                   in einem eingeschränkten Rahmen umsetzbar ist. Wie bereits
                                                                   erwähnt, wurden alle Stücke aufgenommen und mittels Ti-
                                                                   mestretching offline in verschiedenen Tempi gerendert. Bei
                                                                   einer Tempoänderung durch den Nutzer werden die passenden
                                                                   Audiodateien abgerufen und überblendet. Überschreitet ein
                                                                   Nutzer die Grenzen des geringsten oder höchsten vorgerender-
                                                                   ten Tempos, hält die Wiedergabe an und der virtuelle Konzert-
                                                                   meister beschwert sich humoristisch über die Anstrengungen
                                                                   des Dirigenten. Ein weiterer Unterschied zu Isidor besteht
                                                                   darin, dass auch Videodaten abgespielt werden. Diese sind,
                                                                   wie das Audiomaterial, vorher aufgezeichnet und werden in
                                                                   Echtzeit überblendet [4].
                                                                       Inspiration für die vorliegende Arbeit wurde weiters in
                                                                   der Klanginstallation “Effektorium” gefunden. Die seit 2014
              Abbildung 2. Technischer Aufbau Isidor               im Leipziger Mendelssohn-Bartholdy Museum beheimatete
                                                                   Installation erlaubt es Nutzern ebenfalls, in die Rolle eines Di-
   Softwareseitig wird eine vorprogrammierte MIDI-Datei mit-       rigenten zu schlüpfen und ein virtuelles Orchester anzuführen.
tels dem Max/MSP-Objekt Bachscore interpretiert, in Partitur-      Säulenförmige Lautsprecher mit Display stehen stellvertretend
darstellung angezeigt und an VST Instrumente weitergeleitet,       für ausgewählte Musikergruppen im Raum. Die Leap Mo-
die Klänge generieren. Die Leap Motion Kamera erfasst             tion Kamera erfasst die Dirigatsgesten, deren ausgewertete
dirigatsähnliche Handbewegungen des Nutzers, welche in ei-        Informationen mittels eines Max/MSP-Patches in Verbindung
nem separaten Max/MSP-Patch in Beats Per Minute (BPM)              zu Ableton Live stehen. Die Audio-Workstation beheimatet
umgerechnet werden. An diesen Prozess ist auch die DMX-            Audiodateien, die in Echtzeit durch Timestretching auf das
Steuerung angebunden, die durch farbiges Licht zusätzlich         vorgegebene Tempo gedehnt bzw. gestaucht werden [5], [6].
zum Hörerlebnis ein optisches Feedback über die aktuelle             Auch im Alltag geschieht in jüngerer Vergangenheit ver-
Geschwindigkeit des Stückes gibt und, in Folge dessen, die        mehrt Datengewinnung und -verarbeitung via Kinect oder
Stimmung intensiviert und das Nutzererlebnis um eine visuelle      Leap Motion-Technik. Kieran Flay widmete sich 2015 einer
Ebene erweitert. Den Großteil der Steuerungen übernimmt           Gegenüberstellung dieser zwei Arbeitsmittel in Bezug auf die
der Rezipient über das Graphical User Interface (GUI). Ein        Verbindung von Gestikverarbeitung und digitalen Audiosys-
zentraler Hauptbildschirm ohne Subscreens ermöglicht schnel-      temen. Flay vergleicht die Technologien vor allem in Bezug
len und intuitiven Zugriff mittels Touch-Steuerung auf fol-        auf die Parameter Durchführbarkeit, Nutzen und Funktiona-
gende Funktionen: Transport (Play, Pause), Ausdruck bzw.           lität. Als weitere Option für gestikgesteuerte Systeme wird
Lautstärke jedes Instruments (gekoppelt an Note-On Expres-        auf Smart TVs (Lautstärkesteuerung, Schnittstellenwechsel,
sion), Mute-Funktion für jeden Spieler, Raumeindrücke (Stu-      Menü- bzw. Browsernavigation) oder Remidi Gloves (ein
dio/Dry, Small Hall, Big Hall), tonale Stimmung (in Hz),           Handschuh mit Bluetooth-MIDI-Steuerung) verwiesen [7].


                                                                  64
   Isidor – Ein auditiver HCI-Prototyp


                          III. M ETHODIK                          werden auf BPM-Werte umgerechnet und dann auf einen Mul-
   Ziel des Projektes ist es, eine Installation zu gestalten,     tiplikator für die Masterclock skaliert (genaue Besprechung an
die dem Benutzer ein subjektives Kontrollgefühl verleiht und     späterer Stelle).
verständlich sowie intuitiv handhabbar ist. Um einen Einblick       Der BPM-Wert wird auch an die DMX-Steuerung wei-
in den Stand der Forschung und ähnliche Projekte zu erhalten,    tergegeben. Dadurch wird die Farbwahl der Scheinwerfer
wurde eine State Of The Art-Recherche durchgeführt. Die          der Installation bestimmt. Neben der Temposteuerung durch
Ergebnisse gaben einen Rahmen vor, in dem sich das Projekt        die Leap Motion Kamera können auch direkt über die GUI
bewegen würde. Anschließend wählten die Autoren Techno-         die sogenannten “Moods”, voreingestellte Kombinationen aus
logien und Interfaces aus, welche die Umsetzung möglich          Tempo, Lautstärke und Artikulation, ausgewählt werden.
machen. Aus dem weiteren Arbeitsfortschritt entstand ein               V. H ARD - UND S OFTWARESPEZIFIKATIONEN ZUR
Prototyp, der im Rahmen einer Ausstellung aufgebaut und von                              U MSETZUNG
Besuchern ausprobiert werden konnte. Das verbale Feedback
                                                                  A. Audiosignalfluss
der Probanden wurde im Nachhinein eingearbeitet und das
Installationsdesign dadurch optimiert.                               1) Direktschall: Die vier eigenständigen Inputs (V1, V2,
                                                                  Va, Vc) werden zuallererst an alle vier Frontkanäle gesendet.
                         IV. S IGNALFLUSS                         Dort gelangen sie in eine Matrix, die je nach Eingangswert
    Das vorliegende Projekt wurde zur Gänze in Max/MSP           (1-4) genau ein Signal ausgibt. Diese Eingangswerte sind
entwickelt. Herausgebracht von Cycling74 ist MAX eine gra-        voreingestellt und können dann in der GUI über ein
phische Entwicklungsoberfläche, mit der vornehmlich akusti-      abfragendes Array getriggert werden (genaue Besprechung
sche und audiogenerative Projekte umgesetzt werden können.       folgt), wonach jeweils nur ein Wert an genau einer Position
Zur grafischen Notendarstellung wurde die frei zugängliche,      vorkommen kann. Die Stimmen werden also in ihrer Position
externe Max/MSP-Library “Bach” einbezogen1 . BachScore ist        direkt getauscht.
ein Freeware Programm, dass von den Komponisten Andrea
Agostini und Daniele Ghisi entwickelt wurde. Es handelt sich          2) Diffusschall: Für jeden Frontkanal existiert eine eigene
dabei um ein umfangreiches, traditionelles Notationssystem        AUX-Schiene, die in ein Reverb-Plugin speist. Das Ausgangs-
für Max/MSP. Da der Hauptfokus auf der klassischen Nota-         signal jedes Frontkanals wird dort hinein gesendet und die
tion, Analyse und Komposition innerhalb der Programmier-          Signale summiert, ehe sie verhallt werden. Dabei werden die
umgebung liegt, ist eine Anwendung als grafische Partitur         Eingänge nach Position gewichtet (Bsp.: Linker Kanal im
nach Aussage der Entwickler eher unüblich und entsprechend       linken ReverbMix deutlich stärker vertreten als der Rechte
(noch) nicht im vollem Maße implementiert.                        Kanal; die Abstufung erfolgt in jeweils 3dB Schritten). Das
    Der strukturelle Aufbau (siehe Abb. 2) lässt sich am ein-    generierte Summensignal wird abgegriffen und durch das in
fachsten anhand der vorprogrammierten MIDI-Datei verfol-          Max/MSP integrierte algorithmische Hall-PlugIn ‘Gigaverb’
gen. Die ersten fünf Spuren des Files werden per Bach.Score      für jeden Kanal einzeln prozessiert. Das Raumsignal wird
grafisch im GUI dargestellt, während die Spuren sechs bis        abschließend mit dem trockenen Direktschall-Signal summiert
neun akustisch wiedergegeben werden. Jegliche Interakti-          (Diffusschall -6dB zu Direktschall) und an den physikalischen
on mit der graphisch angezeigten Partitur sendet wiederum         Output weitergeleitet.
Informationen an den wiedergebenden Score. Um akusti-                 In den rückwertigen Kanälen (“Rear”), die zur besseren
sche Informationen ausgeben zu können, werden die MIDI-          Simulation eines räumlichen Hörerlebnisses benötigt werden,
Steuerdaten an einen Sampler (in diesem Falle Native In-          kommen die Ausgangssignale der Vorderkanäle, also die ur-
struments’ KONTAKT-Factory Library) mit den vier Software         sprünglichen Inputs, an. Diese werden miteinander summiert,
Instrumenten (VSTi: Standard Soloinstrumente Violine, Viola       wobei die beiden diagonal gegenüberliegenden Kanäle je um
und Cello) weitergegeben, wodurch vier Audiosignale gene-         3dB abgeschwächt werden. Die Verräumlichung erfolgt ebenso
riert werden.                                                     über Gigaverb und entspricht immer exakt demselben Preset
    Diese VSTi können eine gemeinsame Änderung der akusti-      der Verräumlichung der Frontkanäle.
schen Stimmung (Pitch: Standard = Kammerton a bei 440Hz)              Um der Ausbreitungsgeschwindigkeit von Schall im Raum
aus einem Wahlmen auf der graphischen Benutzeroberfläche         Rechnung zu tragen, werden die Outputsignale der Rearkanäle
heraus erfahren. Die vier Audiostreams durchlaufen eine Folge     zeitlich verzögert. Da die Verräumlichung durch Gigaverb
von Matrizen, um sie auf die sechs vorhandenen, physikali-        algorithmisch geschieht, wird der Zeitfaktor des Delays der
schen Ausgänge zu routen. Diese Matrizen können wieder-         Rearkanäle an die jeweilige Nachhallzeit des künstlichen
um vom Nutzer durch die GUI beeinflusst werden (Mute-             Raumes angepasst. Idealerweise sollte die Delayzeit dabei
Funktion, Lautstärke jeder Stimme, Verräumlichung, etc.).       den Zeitraum, in dem beim Nutzer die reale Erstreflektion
Zum besseren Verständnis ist die dynamische Tempogestaltung      der Frontsignale an der rückwärtig raumabschließenden Wand
separat zu betrachten. Ausgangspunkt hierfür ist das Motion      eintrifft, nicht übersteigen.
Tracking der Leap-Motion-Kamera. Ihre ausgegebenen Werte
 1 http://www.bachproject.net, 04.09.2017




                                                                 65
   Isidor – Ein auditiver HCI-Prototyp


  Zu beachten bleibt außerdem, dass trocken aufgenommene                 6) Darstellung vs. Klang in Midi: Beim Umgang mit
VST-Instrumente das Klangerlebnis hinsichtlich Ortbarkeit            Midinoten ist festzustellen, dass eine strikt notationsgetreue
und Klangqualität bedeutend verbessern.                             MIDI-Programmierung für die klassische Notendarstellung
                                                                     (Partitur) unumgänglich ist, die akustische Wiedergabe dieser
   3) Mute-Funktion: Wichtig für das Verständnis der Mute-         Programmierung allerdings üblicherweise als sehr statisch und
Schaltung ist das Verhalten der wechselnden Positionierung           unrealistisch wahrgenommen wird (beispielsweise ergeben
der Eingangssignale (V1, V2 etc.), denen die statischen Kanäle      überlappende Midinoten einen flüssigeren Übergang und damit
1-4 gegenübergestellt sind. Um dem Nutzer das Stumm-                einen besseren Legato-Eindruck).
schalten einzelner Instrumente, egal an welcher Position,                Aus diesem Grund wird ein Midifile verwendet, das aus
zu ermöglichen, müssen die Eingangssignale bereits gekappt         insgesamt neun Einzelspuren besteht. Die ersten vier Spuren
werden, bevor sie einem Kanal zugewiesen werden. Dazu                entsprechen einer exakten, notationsgetreuen Programmierung
durchläuft jedes der vier Inputsignale vor dem Kanalrouting         für die visuelle Darstellung jeder einzelnen Stimme. Die
eine weitere Matrix. Diese hat jeweils zwei Inputkanäle,            fünfte Spur ist für die Darstellungsbreite des Partiturfensters
die sich zur einfachen Verständlichkeit als Hot und Cold            notwendig, worauf im Punkt “Darstellung der Partitur” noch-
bezeichnen lassen. So liegt an einem Input der Matrix das            mals konkret Bezug genommen wird. Die verbleibenden vier
jeweilige Inputsignal (bspw. V1, V2) an, am Anderen kein             Spuren werden an den Sampler weitergeleitet und akustisch
Signal (“Stumm”).                                                    umgesetzt.
   Nachdem die Verräumlichung aller AUX-Schienen durch              Darstellung der Partitur: Eine seitenweise Darstellung mittels
die Ausgangssignale der Frontkanäle, also erst zu einem             Bach.Score ist zum aktuellen Zeitpunkt (noch) nicht möglich.
späteren Zeitpunkt im Routing, erfolgt, ist also sichergestellt,    Als Workaround werden daher in Isidor vier Bach.Score-
dass das Stummschalten eines jeweiligen Instrumentes (=              Instanzen genutzt. Die Instanz, die tatsächlich abgespielt wird
Inputsignales) auch im Raumsignal, sowie den Rearkanälen            und Daten an den Sampler weitergibt, arbeitet versteckt im
stattfindet.                                                         Hintergrund. Drei weitere Instanzen bilden untereinander po-
                                                                     sitioniert die in der GUI sichtbare Partitur. Jede der drei
    4) Tempo:      Prinzipiell     können   in    Bachscore         Instanzen entspricht dabei einem Notensystem mit je 2 Takten.
Tempoänderungen implementiert werden. Problem dabei                 Entsprechend der eben diskutierten Umstände werden nur die
ist, dass diese Änderungen bereits im Vorfeld bzw. vor dem          ersten fünf Spuren grafisch wiedergegeben.
Abspielen der jeweiligen Position definiert werden müssen.              Prinzipiell folgt die Ansicht in Bach.Score immer dem
Dabei kann das Tempo zu jedem Taktbeginn per Notenwert               Playmarker, also der aktuellen Abspielposition. Nachdem die
in BPM (“Viertelnoten in 120 BPM”) definiert werden, wobei           grafischen Instanzen allerdings als passiv (“nicht abspielend”)
eine fließende Änderung des Tempos zum nächsten Takt per           verstanden werden können, wird das händische Umblättern
accelerando und ritardando möglich ist. Da das Konzept von          möglich.
Isidor jedoch verlangt, Tempoänderungen auch in Echtzeit                Bei Bach.Score-Instanzen kann die Position des Play-
zu ermöglichen, wird die Masterclock angegriffen, welche            markers über die Message inscreenpos X.Y bestimmt werden,
die Länge eines Taktes in Samples angibt und somit einen            wobei X den Schlag angibt; der Taktbeginn entspricht dem X-
absoluten Zeitwert bietet, der moduliert werden kann.                Wert 0, während Y die Taktzahl angibt. Da insgesamt sechs
    Dabei muss die aktuelle Geschwindigkeit des Stückes             Takte gleichzeitig zu sehen sind (zwei pro Instanz), werden
durch die gewünschte (neue, durch das Dirigat bestimmte)            bei jeder anliegenden grafischen Score-Instanz beim Blättern
BPM-Zahl dividiert werden, um den korrekten Multiplikator            je 6 Takte zur aktuellen Position dazu addiert. Demnach
für die Masterclock zu erhalten (Bsp: 130 BPM Originaltempo         springt die oberste Instanz von Takt 1 zu 7, von 7 zu 13,
zu 130 BPM anliegendes Tempo = Multiplikator 1).                     ... während die mittlere Instanz von 3 zu 9, von 9 zu 15,
                                                                     ... und das unterste System von Takt 5 zu 11, 11 zu 17, ...
    5) Pitch: Das Streichquartett kann mittels einer Master-         springt. Damit nicht über den Start- und Endpunkt hinaus
Kontrolle (d.h. gültig für alle vier Instrumente) in der           geblättert werden kann, wurden für die Positionswerte per
Stimmung hinsichtlich des Referenztons variiert werden. Zur          Clip-Objekt Grenzen definiert. Sind diese Werte erreicht, kann
Auswahl stehen die internationale Standardstimmung auf               keine weitere Addition bzw. Subtraktion erfolgen.
440Hz, die historische Stimmung auf 415Hz, die klassische                Damit dieses Prinzip eines beständigen Sprunges der An-
Stimmung auf 430Hz und die Wiener Stimmung auf 466Hz.                sichtsposition um sechs Takte überhaupt möglich ist, muss
Die Änderung der Tonhöhe geschieht durch die Pitch                 sichergestellt werden, dass pro Score-Instanz (also Notensys-
Bend-Funktion des VST-Instrumentes. Problematisch dabei              tem) immer genau gleich viele Takte dargestellt werden und
ist die Umrechnung von Hertz auf Cent auf linearer Basis,            diese, auch aus grafisch-ästhetischen Aspekten, stets gleich
da sich die Tonhöhe logarithmisch verhält. Näherungsweise         groß sind. Die dargestellte Breite eines Taktes lässt sich in
lässt sich für den relevanten Frequenzbereich um 440Hz ein         Bach per Default nicht einstellen. Dadurch erklärt sich die
Verhältnis von rund +/- 4Cent pro einem Hertz Verstimmung           Notwendigkeit einer “Ansichtsspur” (Spur 5) in der program-
annehmen [8].                                                        mierten MIDI-Datei. Diese Spur enthält einen - im Vergleich
                                                                     zum restlichen Notenmaterial - sehr geringen Notenwert, der


                                                                    66
   Isidor – Ein auditiver HCI-Prototyp


konstant wiedergegeben wird. Im vorliegenden Fall entspricht             Von einer zuerst angedachten Lösung, über das Bild des
dies einem Notenwert von zweiunddreißigstel Noten. Die                Instruments in einen Subscreen mit erwähnten Kontrollen
benötigte Breite zur graphischen Darstellung dieser zwei-            zu gelangen, wurde abgesehen, um die Kontrollelemente auf
unddreißig Einzelnoten, welche kontinuierlich ist, ermöglicht        einem Blick ersichtlich zu behalten und eine Verschachtelung
somit das Festlegen einer generellen Taktbreite. Da diese Spur        des Interfaces zu vermeiden. So soll es dem User auch
einzig und allein zu diesem Zweck benötigt wird, ist sie im          einfacher gemacht werden, die Lautstärkenverhältnisse der
GUI durch ein weißes Viereck überdeckt, um dem User nur              Stimmen im Blick zu behalten und eine mögliche Quelle für
die vier hörbaren Instrumente im Notensystem anzuzeigen.             Verwirrungen (bspw. versteckte Mute-Buttons) ausgeschlossen
   Das Springen zu einer Position durch Touch-Befehl auf den          werden.
jeweiligen Takt basiert auf demselben Prinzip wie das Blättern.         Eine weitere Entscheidungsgrundlage für die Anordnung
Wiederum werden “Inscreenposition”-Werte ausgegeben. Die-             ohne Subscreens war im Lauf der Entwicklung der Installation
se werden an der jeweiligen grafischen Score-Instanz ausgele-         das Festlegen des verwendeten Touch-Bildschirmes. Hier sei
sen und an die abspielende Instanz weitergegeben, die dadurch         erwähnt, dass viele dieser Entscheidungen bei der Umlegung
direkt zum entsprechenden Takt springt und die Wiedergabe             auf andere Systeme und Kontrolleinheiten (bspw. Smartphone,
an der gewählten Position startet.                                   Tablet) überdacht bzw. angepasst werden könnten.
                                                                         In den Kontrollen für alle Instrumente (Room, Moods,
B. Grafik und Design
                                                                      Pitch) sind die Auswahlmenüs mit Toggle-Buttons ausgeführt.
   Aus verschiedenen Entwürfen für die grafische Benutzero-         Interessanter ist die Positionsauswahl der Instrumente; hier
berfläche wurde eine Lösung ausgewählt, die auf drei Spalten       gibt es eine Matrix, in der man für jede Stimme zwischen
basiert: Kontrollen für alle Instrumente, Kontrollen für Einzel-    Links, Halblinks, Halbrechts und Rechts entscheiden kann.
instrumente und Kontrollen für die Partiturdarstellung.              Beim Umsetzen einer Stimme tauscht diese den Platz mit
                                                                      dem Instrument an der jeweils neuen Position. Ursprünglich
                                                                      war angedacht, die Positionen mit 4 Monitoren, die jeweils
                                                                      unter den Front-Lautsprechern stehen, optisch darzustellen.
                                                                      Davon wurde abgesehen und stattdessen eine kleine, bildliche
                                                                      Darstellung jedes Instrumentes über der Positionsauswahl-
                                                                      Matrix eingefügt, die der Sitzordnung folgt. Hierbei war der
                                                                      Gedanke, dem Benutzer, wenn er nicht auf die Kontrolleinheit
                                                                      sieht, so wenig optische Reize wie möglich zu geben, damit
                                                                      der Fokus nicht vom Hörerlebnis abgelenkt wird.
                                                                         Für die DMX-Steuerung wurde ein Interface der Firma
                                                                      “Enttec” (DMX USB Pro) verwendet, welches eine Kom-
                                                                      munikation via USB ermöglicht. Dazugehörig wurde das
                                                                      Max/MSP-Objekt dmxusbpro der Firma Nullmedium2 benutzt,
                                                                      um direkt aus Max/MSP Daten schicken zu können. Die
                                                                      Lichtsteuerung folgt, wie Eingangs erwähnt, dem aktuellen
                                                                      Abspieltempo des Stückes. Die BPM-Zahl wird abgegriffen
                                                                      und je nach deren Wert in Bereichen von 20 BPM einer Farbe
           Abbildung 3. Grafisches User Interface von Isidor          zugeordnet. Die Grenzen liegen nach unten hin bei 30 BPM,
                                                                      nach oben hin werden alle Werte über 180 BPM derselben
   In den Kontrollen für Einzelinstrumente findet der Benutzer       Farbe zugeordnet. Die Übergange zwischen den Farbbereichen
eine bildliche Darstellung des Instruments, dessen Namen,             geschehen fließend innerhalb von zwei Sekunden.
einen Fader für die Lautstärke des Instruments sowie einen             Wie bereits erwähnt, geschieht sämtliche grafische Umset-
Button um die Stimme stumm zu schalten. Auf der linken Seite          zung innerhalb von Max/MSP. Als Bildschirm und Kontrollo-
der Instrumentenabbildung gibt es außerdem ein Wahlmen, in            berfläche dient ein 24-Touch LCD der Firma “Ilyama” (ProLite
dem die Artikulation des Spielers (Legato, Staccato, Pizzicato,       B2483HS-B1).
Tremolo) ausgesucht werden kann.
   Hierbei sei angemerkt, dass der Volumefader nicht den              C. Leap Motion
Pegel des Ausgangssignals moduliert, sondern den MIDI-                   Durch den konstanten, technologischen Fortschritt entstehen
Control- Change Expression des VSTi ansteuert. Dementspre-            laufend neue Wege zur Human-Computer-Interaction. Die auf
chend wird nicht nur beispielsweise die Lautstärke verringert,       diese Art entwickelten Schnittstellen eröffnen dem Nutzer
sondern auch die musikalische Artikulation angepasst (gerin-          viele Möglichkeiten. So verschieden die Technologien, so
gere Expression führt zu geringerem Druck des Bogens auf die         verschieden sind auch die Steuerungsdaten, welche für die In-
Saiten, was in einem weicheren Klangbild resultiert), wodurch         teraktion verwendet werden können. Zusätzlich zu haptischer
ein deutlich realistischeres und natürlicheres Klangbild erzeugt
wird.                                                                     2 http://www.nullmedium.de, 04.09.2017




                                                                     67
   Isidor – Ein auditiver HCI-Prototyp


und Sprachsteuerung können auch Kamerasysteme Daten er-
mitteln. Zwei Produkte, die oft für das Tracking von Körper-
und Bewegungsdaten benutzt werden, sind die Xbox Kinect
und die Leap Motion Kamera. Nach ausführlichen Vergleichen
der Spezifikationen der zwei Kameras wurde aufgrund der
besseren Einsatzfähigkeit im vorliegenden Kontext die Leap
Motion Kamera verwendet.
   Die Leap Motion Kamera kam 2013 mit dem Ziel auf
den Markt, kleinste Bewegungen in sehr geringer Entfernung
                                                                                 Abbildung 5. Leap Motion Gesten-Tracking
erfassen zu können. Während die Xbox Kinect Daten in einem
sehr weiten Bereich von 0,5 - 3,5m abgreifen kann, ist der
verwendbare Radius der Leap Motion mit 0,25 - 0,5m viel
kleiner. Da dies jedoch für das Installationsdesign kein Pro-         Mithilfe eines Wahlselektors kann in der GUI bestimmt
blem darstellt, da nur das Tracking der Hände wichtig ist, fiel    werden, welche Hand getrackt werden soll. Die so erhaltenen
die Entscheidung zu Gunsten der Leap Motion Kamera. Auch            Daten werden nun interpretiert und in ein Tempo (BPM)
die deutlich höhere Auflösung, welche Bewegungsänderungen        umgewandelt, das, wie bereits erwähnt, als Multiplikator für
in hundertstel Millimetern erfassen kann, galt als Entschei-        die Masterclock weiterverwendet wird.
dungsgrundlage.
                                                                       Zuerst werden erfasste Bewegungsdaten der X-Achse, wel-
                                                                    che sich zwischen 0 und 400 befinden, auf einen kleineren
                                                                    Wert (0-1) skaliert. Da das Projekt ursprünglich für Mac OS
                                                                    angedacht war, wurde in der Ursprungsversion für das Feststel-
                                                                    len einer Richtungsänderung der Palm Position (oben/unten,
                                                                    entsprechend der klassischen Dirigatsgesten) das J.Delta- Ob-
                                                                    jekt aus der Jamoma Libary verwendet, das grundsätzlich die
                                                                    ersten drei Ableitungen einer Funktion berechnet. Durch den
                                                                    Umstieg auf ein Windows-Betriebssystem wurde dies jedoch
                                                                    aufgrund der fehlenden Implementierung unmöglich.
                                                                        Um das J.Delta-Objekt zu ersetzen, werden die skalierten
                                                                    Daten in ein tfb- (Trigger-Float-Bang) Objekt geschickt,
                                                                    welches jede neue Koordinate speichert. Bekommt das Objekt
                                                                    einen neuen Input werden die beiden Werte subtrahiert
                Abbildung 4. Leap Motion Kamera
                                                                    und somit verglichen. Ist das Ergebnis negativ, findet eine
                                                                    Richtungsänderung statt. Jede negative Zahl wird an ein
   Die Leap Motion Kamera funktioniert mittels drei LEDs,           Change-Objekt weitergegeben, welches dafür sorgt, dass
die das zu trackende Objekt beleuchten, welches durch zwei          keine Koordinate doppelt verwendet wird. Jeder Negativwert
Infrarotkameras erfasst wird. Die Daten werden softwareseitig       löst nun einen Bang aus, der in ein Timer-Objekt geschickt
verarbeitet und in ein 3D-Modell der Hände umgewandelt.            wird, welches die vergangene Zeit zwischen zwei Bangs misst.
In der Software vorgegebene Bewegungsabläufe machen es             Um von einem Zeitwert auf einen BPM-Wert zu kommen,
möglich, verschiedene Bewegungen als Gesten zu erkennen            wird das Ergebnis des Timer-Objekts durch 60000 dividiert.
(Swipe, Circle) oder das Tracking auf beliebige Weise einzu-        Um zu extreme Temposchwankungen zu verhindern, wird
schränken (z.B. Tracking eines Fingers).                           der mögliche BPM-Bereich auf 30-200 Schläge pro Minute
   Die Tracking-Daten werden durch die eigene Software              festgelegt. Ein Slide-Objekt sorgt dafür, dass zwischen den
der Leap Motion Kamera erfasst. Mit Hilfe des Leap Mo-              Tempowerten interpoliert wird, was zu einem kontinuierlichen
tion Software Developer Kit und zweier Erweiterungen für           Tempowechsel führt. Um abschließend einen ganzzahligen
Max/MSP konnten die Bewegungskoordinaten in Max ab-                 BPM-Wert zu erhalten wird die errechnete Tempoinformation
gegriffen werden. In Isidor wurde aufgrund besserer Isolati-        mit einem Round-Objekt gerundet.
onsmöglichkeiten die Leap Motion Erweiterung des “IRCAM”
(Institut de Recherche et Coordination Acoustique/Musique)          Herausforderungen in der Programmierung stellte das
benutzt.                                                            Ersetzen des J.Delta-Objektes in der Windowsumgebung dar.
   Nach einigen Versuchen stellte sich heraus, dass die beste       Eine gute Übertragbarkeit der dirigierten Tempoinformation,
Methode für die Umwandlung von Dirigatsgesten das Tracken          um ein möglichst realistisches und steuerbares Erlebnis für
der Palm-Position in der Höhe (X-Achse) ist. Um nur diese          den Nutzer zu ermöglichen, ist aufgrund des subjektiven
Daten zu erhalten, wird der Datenstrom, in dem alle Daten           Empfindens und dessen Ausdruck, anhand von Sensibilität des
vorhanden sind, gefiltert und nur die extrahierten Daten wei-       Trackings bzw. Feststellung des Zeitpunktes des tatsächlichen
terverarbeitet.                                                     “Schlages”, sehr schwer erreichbar.


                                                                   68
   Isidor – Ein auditiver HCI-Prototyp


                       VI. T ESTLAUF                                      gemischten Alters und Geschlechts und zu rund 70% Prozent
   Um den Prototypen der Installation echten Rezipienten                  Besucher der Ausstellung, während die restlichen 30% andere
zum Test zur Verfügung zu stellen, wurde die Klanginstalla-              Ausstellende, Universitätsmitarbeiter oder Studenten des ZKM
tion “Isidor” im Rahmen der “nextgeneration 7.0” im Zen-                  waren. Eine schriftliche Erklärung lag bereit; viele Besucher
trum für Kunst und Medien in Karlsruhe ausgestellt. Der                  konnten dennoch anfängliche Berührungsängste mit der Instal-
Max/MSPPatch lief auf einem Macbook Pro (13z, Late 2011)                  lation erst nach einer persönlichen Einführung überwinden.
auf dem Betriebssystem Windows 7. Als Audio-Interface                        Die Reaktionen der rund 40 Probanden kann man als zum
wurde ein Saffire Liquid 56 benutzt, über dessen Outputs                 größten Teil positiv beschreiben. Viele Besucher schätzten vor
sechs Studiomonitore des Typs Genelec 1032B angesteuert                   allem die Möglichkeit der Temposteuerung durch das Dirigat,
wurden. Alle Filter an den Lautsprechern waren deaktiviert,               gaben aber auch an, dass sie sich noch nicht absolut in
die Gain-Regler waren alle auf den selben Wert eingestellt.               Kontrolle des Tempos fühlten. Alle Touch-gesteuerten Kon-
Auch die Outputs des Saffire Liquid 56 spielten alle auf                  trollmöglichkeiten (Lautstärke, Position, Room, ...) wurden
demselben Pegel aus; sämtliche Mischung geschah daher                    problemlos und mit Wohlwollen entgegengenommen. Auch
ausschließlich in Max/MSP. Als Lichter wurden zwei PAR56                  das User Interface wurde als übersichtlich und optisch an-
LED-Scheinwerfer benutzt, die mit dem Laptop über das Ent-               sprechend empfunden. Die Autoren wurden von einem Pro-
tec DMX USB Pro verbunden waren. Als Kontrolloberfläche                  banden, der als Pädagoge arbeitet, auf das große Potenzial
diente der 24-Touchscreen der Firma Ilyama (Modell ProLite                angesprochen, welches er in der Installation bezüglich Bil-
B2483HS-B1). Auf der Oberkante des Bildschirms lag die                    dungsmöglichkeiten für Kinder sieht.
Leap Motion Kamera.
                                                                                          VII. H ERAUSFORDERUNGEN
   Beim Testaufbau wurde versucht, den Aufbaudimensio-
nen (siehe Abb. 1) so weit wie möglich zu entsprechen.                      Die wohl größte Herausforderung ist es, ein für den Nutzer
Aufgrund der Dimensionen des Raumes, in dem aufgebaut                     nachvollziehbares, kontrollierbares und spannendes Erlebnis
wurde, war dies jedoch nicht ausnahmslos möglich. Die beiden             zu kreieren. Ziel der Installation ist es, sowohl für Laien als
äußeren Frontlautsprecher standen in ca. 2 m Entfernung                  auch für Personen mit fachspezifischem Hintergrundwissen
voneinander, der Zuhörer befand sich in ungefähr 2,5 m                  ansprechend gestaltet und verständlich zu sein. Dazu ist es
Entfernung von den Frontlautsprechern in mittiger Position.               notwendig, dass alle Elemente reibungslos miteinander kom-
Die rückwertigen Lautsprecher standen innerhalb eines Meters             munizieren.
zum Hörer, also sehr nahe im Vergleich zu den Idealdimen-                   Dies ist die grundlegende Herausforderung für die Ent-
sionen. Dieser Nachteil wurde durch zeitliche Verzögerung                wicklung der Installation. Es gilt, ein System zu schaffen,
und Lautstärkenanpassung der Rear-Kanäle auszugleichen ver-             welches mehrere Elemente und Schnittstellen miteinander
sucht.                                                                    verbindet und eine Kommunikationsbasis schafft. Die Auswahl
                                                                          der zu verwendenden Technologien spielte dabei eine wichtige
                                                                          Rolle. Von Anfang an stellte sich die korrekte Detektion der
                                                                          Tempodaten und die darauffolgende Tempomanipulation als
                                                                          schwierig heraus. Hier ist es notwendig, eine feine Abstim-
                                                                          mung zwischen der Technik und der Wahrnehmung des Rezi-
                                                                          pienten herzustellen. Für ein bestmögliches Nutzerlebnis sollte
                                                                          jeder Benutzer das Gefühl haben, er wäre in vollkommener
                                                                          Kontrolle über die Installation.
                                                                                                VIII. D ISKUSSION
                                                                             Beschrieben wurde eine Installation zur Steuerung ei-
                                                                          nes virtuellen Streichquartetts mittels MIDI-gesteuerten VST-
                                                                          Instrumenten und Tracking von Dirigatsgesten mittels Leap
                                                                          Motion Kamera. Nach der Konzeption und einem Testlauf
Abbildung 6. Aufbau im Rahmen der “nextgeneration 7.0” im Zentrum für
                                                                          sowie Nachbesserungen kann gesagt werden, dass die Installa-
Kunst und Medien (ZKM) in Karlsruhe                                       tion für den Benutzer in Bezug auf subjektives Kontrollempfin-
                                                                          den, Handhabung und Vergnügen eine zufriedenstellende Er-
   Bei dem Raum, in dem der Testlauf durchgeführt wurde,                 fahrung ist. Vor allem das klangliche Ergebnis durch den Ein-
handelte es sich um den Aufnahmeraum eines Tonstudios des                 satz von VST-Instrumenten und DSP ist aufgrund seiner Va-
ZKM, dementsprechend waren die akustischen Begebenheiten                  riabilität hinsichtlich Tempo, Anschlagsdynamik, Raumklang,
sehr günstig und die Charakteristik des Raumklanges als                  etc. sehr befriedigend und bietet im Vergleich zu ähnlichen
trocken zu bezeichnen. Der Raum hatte eine Gesamtfläche von              Installationen, welche mit aufgenommenem Audiomaterial ar-
ungefähr 25m2 bei einer Höhe von rund 3 Metern.                         beiten, große Weiterentwicklungsmöglichkeiten. Der Benutzer
   Die Installation war zwei Tage lang zugänglich und konnte             kann mit einem leicht zu verstehenden Interface in viele Pa-
von Besuchern getestet werden. Die Versuchspersonen waren                 rameter eingreifen und bekommt umgehendes, audiovisuelles


                                                                         69
   Isidor – Ein auditiver HCI-Prototyp


Feedback. Entwicklungspotenzial gibt es nach wie vor in der
Feinabstimmung, bspw. des Motion Trackings beim Dirigat.
Da es sich bei der Installation um ein sehr reaktives System
handelt, ist der Bedarf nach Feinjustierung naturgegeben sehr
hoch, da jeder Eingriff viele verschiedene Parameter, vor allem
hinsichtlich des Kontrollgefühls, beeinflusst.
                            IX. AUSBLICK
   Möglichkeiten zur Weiterentwicklung des Projektes sehen
die Autoren vor allem in der Leap Motion Technologie. Die
Kamera erlaubt es dem Nutzer, beide Hände simultan zu
erfassen und verschiedene Gesten zu erkennen. Die zweite
Hand könnte somit dazu benutzt werden, andere Parameter
anzusteuern - entsprechend dem Dirigat bspw. die Dynamik
des Stückes. Wie bereits zuvor erwähnt, wurde von Probanden
die Möglichkeit des Einsatzes der Installation für Bildungs-
zwecke, speziell für Kinder, angemerkt. Letztlich bleibt auch
die Weiterentwicklung des Bach-Objekts spannend für die
Installation, da die Projektgruppe mit den Entwicklern von
Bach in Verbindung trat und einige Anmerkungen und An-
regungen möglicherweise in zukünftigen Versionen von Bach
berücksichtigt werden könnten, was in der weiteren Entwick-
lung Wege ebnen würde. Um ein Beispiel zu nennen, würde
die Möglichkeit, MIDI Control Changes in Bach verarbeiten
zu können, große Verbesserungspotenziale für die realistische
Klanggestaltung bieten.
   Die Autoren hoffen, mit diesem Projekt Denkanstöße und
Grundlagen für weiterführende Forschungen geschaffen zu
haben.
                              L ITERATUR
[1] A. Jylhä, “Sonic gestures as input in human-computer interaction: To-
    wards a systematic approach,” in Proceedings of the SMC2011-8th Sound
    and Music Computing Conference, Padova, 2011.
[2] E. Hornecker and M. Stifter, “Learning from interactive museum instal-
    lations about interaction design for public settings,” in Proceedings of
    the 18th Australia conference on Computer-Human Interaction: Design:
    Activities, Artefacts and Environments. ACM, 2006, pp. 135–142.
[3] A. Camurri, G. De Poli, and D. Rocchesso, “A taxonomy for sound and
    music computing,” Computer Music Journal, vol. 19, no. 2, pp. 4–5, 1995.
[4] J. O. Borchers, W. Samminger, and M. Mühlhäuser, “Conducting a
    realistic electronic orchestra,” in Proceedings of the 14th annual ACM
    symposium on User interface software and technology. ACM, 2001, pp.
    161–162.
[5] WhiteVOID, “Mendelssohn Effektorium Conducting a virtual orchestra,”
    Berlin, 2014, http://www.whitevoid.com/#/main/interactivestructures/
    mendelssohn-effektorium, letzter Zugriff: 04.09.2017.
[6] Aconica, “Effektorium-Interactive Museography/Interactive Sound and
    Light Installation,” Berlin, 2014, http://www.aconica.de/portfoliopage/
    effektorium-interactive-museography/, letzter Zugriff: 04.09.2017.
[7] K. Flay, “Gesture controlled musical conducting,” Semesterarbeit, School
    of Computer Sciences and Informatics Cardiff, Wales, 2015.
[8] E. Sengpiel, “Intervall-Umrechnung in Frequenzverhältnis nach cent und
    zurück,” n.d., http://www.sengpielaudio.com/Rechner-centfrequenz.htm,
    letzter Zugriff: 04.09.2017.




                                                                               70