=Paper=
{{Paper
|id=Vol-2009/fmt-proceedings-2017-paper9
|storemode=property
|title=Isidor – Ein auditiver HCI-Prototyp(Isidor – An Auditory HCI Prototype)
|pdfUrl=https://ceur-ws.org/Vol-2009/fmt-proceedings-2017-paper9.pdf
|volume=Vol-2009
|authors=Josefine Riedel,Thomas Böck,Julian Fischer,Felix Rauchwarter
|dblpUrl=https://dblp.org/rec/conf/fmt/RiedelBFR17
}}
==Isidor – Ein auditiver HCI-Prototyp(Isidor – An Auditory HCI Prototype)==
ISIDOR – Ein auditiver HCI-Prototyp Josefine Riedel, Thomas Böck, Julian Fischer, Felix Rauchwarter St. Pölten University of Applied Sciences E-Mail: dm161537@fhstp.ac.at Abstract—The work shown engages with the conception and Forschungsquelle. Es kann abgeleitet werden, dass eine direkte realization of the human-computer interaction (HCI-) sound Interaktion die Aufnahme- und Lernfähigkeit sowie das kogni- installation ‘Isidor’ which gives the user the possibility to conduct tive Gedächtnis fördert [2]. Von wissenschaftlicher Seite wird a virtual string quartet. The control system appears via a leap motion camera (motion tracking) and a clearly arranged user dieser Ansatz Sound and Music Computing (SMC) genannt. interface (GUI) implemented on a touch screen. Emanating Dieses Versuchsfeld hat die Prämisse, die Gesamtheit der from the GUI parameters as volume, soli and mutes, room Klang- und Musikkommunikationskette von einem multidis- impressions, tonal pitches (Hz), moods (emotional), the changing ziplinärem Standpunkt aus zu betrachten. Wissenschaftliche, of instrumental player positions and the punctual launch from technologische und künstlerische Methoden sollen zum Ziel a certain position are possible. The leap motion camera acts like a translator from the conductor movements of the user’s des Verstehens, Generierens und Modellierens von akustischen digital workable control data. Therefor working in real time Klängen durch computerbasierte Techniken beitragen [3]. is essential for tempo changes. The Max/MSP-object Bachscore is accountable for the score implementation. MIDI data is transferred to VST-instruments which eventually are responsible for the acoustic sound. Max/MSP patches connect the different elements: Leap motion tracking, DMX light control, graphics and Bachscore to an interactive sound installation. Zusammenfassung—Die vorliegende Arbeit beschäftigt sich mit der Konzeption und Umsetzung der Human-Computer Interaction (HCI)-Klanginstallation “Isidor”. Sie ermöglicht es Nutzern, ein virtuelles Streichquartett zu steuern. Der Benutzer interagiert mittels Motion Tracking der Hnde durch eine Leap Motion Kamera sowie einer übersichtlich gestalteten Nutzero- berfläche auf einem Touchbildschirm. Ausgehend von dieser las- sen sich Parameter wie Lautstärke, Besetzung, Raumeindrücke, tonale Stimmung (in Hz), Gefühlszustände (“Moods”), Positi- onsänderungen der Instrumentalisten, Artikulation jedes Spielers sowie das punktuelle Abspielen an einer gewünschten Position umsetzen. Die Leap Motion übersetzt Dirigatsgesten des Nutzers in Tempoänderungen, die in Echtzeit generiert werden. Mittels der Max/MSP-Library “Bach” wird die Notendarstellung auf der grafischen Benutzeroberfläche angezeigt. Die Klangerzeugung geschieht durch mehrere VST-Instrumente. Max/MSP Patches vernetzen die verschiedenen Elemente (Leap Motion Tracking, DMX Lichtsteuerung, Grafik und Bachscore) miteinander zu einem interaktiven Klangerlebnis. I. E INLEITUNG Unter “Sonic Gestures” versteht man Bewegungen oder Mimiken des menschlichen Körpers, die Auswirkungen auf das Klangbild haben oder sogar Klänge erzeugen können. ‘Sonic’ bedeutet ‘(akustischer) Schall’, während ‘Gesture’ auf die menschliche Komponente, die Körper- bzw. Ausdrucksbe- wegung hinweist [1]. Das grundsätzliche Prinzip von Sonic Gestures wird aktuell in Form von Klanginstallationen in vielen Museen aufgegriffen. Durch das in-Kontakt-treten mit Abbildung 1. Isidor Setup den technischen Installationen steigt das Interesse des Muse- umsbesuchers und das subjektive Gefühl der Erlebbarkeit der Mit Isidor soll dieser Ansatz des spielerischen Lernens Installation. Die Folge ist eine unterbewusste und doch gerad- aufgegriffen und erweitert werden. Die Erklärung des Na- linige Ansprache zwischen Rezipient und wissenschaftlicher mens unterstreicht den Grundgedanken der Forschung: ‘Ea- 63 Isidor – Ein auditiver HCI-Prototyp sy DAW’ (“Digital Audio Workstation”) verbalisiert ‘Isi- sogenannte “Moods” (bspw. wütend, verschlafen, vorsichtig), dor’. Das Programm bietet einem breitgefächertem Publikum Positionsänderungen der Instrumentalisten sowie das punktu- die Möglichkeit, direkten Einfluss auf die Darbietung eines elle Abspielen ab einer gewünschten Position durch “Tap” mit Streichquartetts auszuüben. Die interaktive Installation setzt dem Finger in die Partiturdarstellung. sich seitens der Hardware aus einem übersichtlichen User In- terface auf einem Touchbildschirm, sechs Lautsprechern (vier II. S TATE OF THE ART Frontkanäle vor dem Rezipienten und zwei Rearkanäle hinter demselben zur Unterstützung der räumlichen Darstellung), ei- Bereits 2001 wurde die Klanginstallation “Personal Or- ner Leap Motion Tracking Kamera (für die Tempoübersetzung chestra” in Wien aufgestellt. Sie ist im ‘Haus der Musik’ des Dirigats) und via DMX gesteuerten Scheinwerfern (zur stationiert, einem Zentrum der musikalischen Kulturbewah- Unterstreichung der Tempoinformationen und Atmosphäre) rung und -vermittlung. Die Herren Borchers, Samminger und zusammen. Mühlhäuser behaupten mit ‘Personal Orchestra’ die erste Klanginstallation geschaffen zu haben, die es dem Nutzer ermöglicht, eine Audio-/Videoaufnahme in Echtzeit dirigieren zu können. Bei dem verwendeten Material handelt es sich nicht, wie bei Isidor, um verarbeitete MIDI-Daten, sondern um eine “echte” Tonaufnahme der Wiener Philharmoniker. Die Beeinflussung von Tempo, Lautstärke und Instrumentation ist durch Motion Tracking einer Infrarotkamera ohne hörbare Ar- tefakte, die durch Time Stretching entstehen können, möglich. Hierbei sei jedoch angemerkt, dass die Tempovariation nur in einem eingeschränkten Rahmen umsetzbar ist. Wie bereits erwähnt, wurden alle Stücke aufgenommen und mittels Ti- mestretching offline in verschiedenen Tempi gerendert. Bei einer Tempoänderung durch den Nutzer werden die passenden Audiodateien abgerufen und überblendet. Überschreitet ein Nutzer die Grenzen des geringsten oder höchsten vorgerender- ten Tempos, hält die Wiedergabe an und der virtuelle Konzert- meister beschwert sich humoristisch über die Anstrengungen des Dirigenten. Ein weiterer Unterschied zu Isidor besteht darin, dass auch Videodaten abgespielt werden. Diese sind, wie das Audiomaterial, vorher aufgezeichnet und werden in Echtzeit überblendet [4]. Inspiration für die vorliegende Arbeit wurde weiters in der Klanginstallation “Effektorium” gefunden. Die seit 2014 Abbildung 2. Technischer Aufbau Isidor im Leipziger Mendelssohn-Bartholdy Museum beheimatete Installation erlaubt es Nutzern ebenfalls, in die Rolle eines Di- Softwareseitig wird eine vorprogrammierte MIDI-Datei mit- rigenten zu schlüpfen und ein virtuelles Orchester anzuführen. tels dem Max/MSP-Objekt Bachscore interpretiert, in Partitur- Säulenförmige Lautsprecher mit Display stehen stellvertretend darstellung angezeigt und an VST Instrumente weitergeleitet, für ausgewählte Musikergruppen im Raum. Die Leap Mo- die Klänge generieren. Die Leap Motion Kamera erfasst tion Kamera erfasst die Dirigatsgesten, deren ausgewertete dirigatsähnliche Handbewegungen des Nutzers, welche in ei- Informationen mittels eines Max/MSP-Patches in Verbindung nem separaten Max/MSP-Patch in Beats Per Minute (BPM) zu Ableton Live stehen. Die Audio-Workstation beheimatet umgerechnet werden. An diesen Prozess ist auch die DMX- Audiodateien, die in Echtzeit durch Timestretching auf das Steuerung angebunden, die durch farbiges Licht zusätzlich vorgegebene Tempo gedehnt bzw. gestaucht werden [5], [6]. zum Hörerlebnis ein optisches Feedback über die aktuelle Auch im Alltag geschieht in jüngerer Vergangenheit ver- Geschwindigkeit des Stückes gibt und, in Folge dessen, die mehrt Datengewinnung und -verarbeitung via Kinect oder Stimmung intensiviert und das Nutzererlebnis um eine visuelle Leap Motion-Technik. Kieran Flay widmete sich 2015 einer Ebene erweitert. Den Großteil der Steuerungen übernimmt Gegenüberstellung dieser zwei Arbeitsmittel in Bezug auf die der Rezipient über das Graphical User Interface (GUI). Ein Verbindung von Gestikverarbeitung und digitalen Audiosys- zentraler Hauptbildschirm ohne Subscreens ermöglicht schnel- temen. Flay vergleicht die Technologien vor allem in Bezug len und intuitiven Zugriff mittels Touch-Steuerung auf fol- auf die Parameter Durchführbarkeit, Nutzen und Funktiona- gende Funktionen: Transport (Play, Pause), Ausdruck bzw. lität. Als weitere Option für gestikgesteuerte Systeme wird Lautstärke jedes Instruments (gekoppelt an Note-On Expres- auf Smart TVs (Lautstärkesteuerung, Schnittstellenwechsel, sion), Mute-Funktion für jeden Spieler, Raumeindrücke (Stu- Menü- bzw. Browsernavigation) oder Remidi Gloves (ein dio/Dry, Small Hall, Big Hall), tonale Stimmung (in Hz), Handschuh mit Bluetooth-MIDI-Steuerung) verwiesen [7]. 64 Isidor – Ein auditiver HCI-Prototyp III. M ETHODIK werden auf BPM-Werte umgerechnet und dann auf einen Mul- Ziel des Projektes ist es, eine Installation zu gestalten, tiplikator für die Masterclock skaliert (genaue Besprechung an die dem Benutzer ein subjektives Kontrollgefühl verleiht und späterer Stelle). verständlich sowie intuitiv handhabbar ist. Um einen Einblick Der BPM-Wert wird auch an die DMX-Steuerung wei- in den Stand der Forschung und ähnliche Projekte zu erhalten, tergegeben. Dadurch wird die Farbwahl der Scheinwerfer wurde eine State Of The Art-Recherche durchgeführt. Die der Installation bestimmt. Neben der Temposteuerung durch Ergebnisse gaben einen Rahmen vor, in dem sich das Projekt die Leap Motion Kamera können auch direkt über die GUI bewegen würde. Anschließend wählten die Autoren Techno- die sogenannten “Moods”, voreingestellte Kombinationen aus logien und Interfaces aus, welche die Umsetzung möglich Tempo, Lautstärke und Artikulation, ausgewählt werden. machen. Aus dem weiteren Arbeitsfortschritt entstand ein V. H ARD - UND S OFTWARESPEZIFIKATIONEN ZUR Prototyp, der im Rahmen einer Ausstellung aufgebaut und von U MSETZUNG Besuchern ausprobiert werden konnte. Das verbale Feedback A. Audiosignalfluss der Probanden wurde im Nachhinein eingearbeitet und das Installationsdesign dadurch optimiert. 1) Direktschall: Die vier eigenständigen Inputs (V1, V2, Va, Vc) werden zuallererst an alle vier Frontkanäle gesendet. IV. S IGNALFLUSS Dort gelangen sie in eine Matrix, die je nach Eingangswert Das vorliegende Projekt wurde zur Gänze in Max/MSP (1-4) genau ein Signal ausgibt. Diese Eingangswerte sind entwickelt. Herausgebracht von Cycling74 ist MAX eine gra- voreingestellt und können dann in der GUI über ein phische Entwicklungsoberfläche, mit der vornehmlich akusti- abfragendes Array getriggert werden (genaue Besprechung sche und audiogenerative Projekte umgesetzt werden können. folgt), wonach jeweils nur ein Wert an genau einer Position Zur grafischen Notendarstellung wurde die frei zugängliche, vorkommen kann. Die Stimmen werden also in ihrer Position externe Max/MSP-Library “Bach” einbezogen1 . BachScore ist direkt getauscht. ein Freeware Programm, dass von den Komponisten Andrea Agostini und Daniele Ghisi entwickelt wurde. Es handelt sich 2) Diffusschall: Für jeden Frontkanal existiert eine eigene dabei um ein umfangreiches, traditionelles Notationssystem AUX-Schiene, die in ein Reverb-Plugin speist. Das Ausgangs- für Max/MSP. Da der Hauptfokus auf der klassischen Nota- signal jedes Frontkanals wird dort hinein gesendet und die tion, Analyse und Komposition innerhalb der Programmier- Signale summiert, ehe sie verhallt werden. Dabei werden die umgebung liegt, ist eine Anwendung als grafische Partitur Eingänge nach Position gewichtet (Bsp.: Linker Kanal im nach Aussage der Entwickler eher unüblich und entsprechend linken ReverbMix deutlich stärker vertreten als der Rechte (noch) nicht im vollem Maße implementiert. Kanal; die Abstufung erfolgt in jeweils 3dB Schritten). Das Der strukturelle Aufbau (siehe Abb. 2) lässt sich am ein- generierte Summensignal wird abgegriffen und durch das in fachsten anhand der vorprogrammierten MIDI-Datei verfol- Max/MSP integrierte algorithmische Hall-PlugIn ‘Gigaverb’ gen. Die ersten fünf Spuren des Files werden per Bach.Score für jeden Kanal einzeln prozessiert. Das Raumsignal wird grafisch im GUI dargestellt, während die Spuren sechs bis abschließend mit dem trockenen Direktschall-Signal summiert neun akustisch wiedergegeben werden. Jegliche Interakti- (Diffusschall -6dB zu Direktschall) und an den physikalischen on mit der graphisch angezeigten Partitur sendet wiederum Output weitergeleitet. Informationen an den wiedergebenden Score. Um akusti- In den rückwertigen Kanälen (“Rear”), die zur besseren sche Informationen ausgeben zu können, werden die MIDI- Simulation eines räumlichen Hörerlebnisses benötigt werden, Steuerdaten an einen Sampler (in diesem Falle Native In- kommen die Ausgangssignale der Vorderkanäle, also die ur- struments’ KONTAKT-Factory Library) mit den vier Software sprünglichen Inputs, an. Diese werden miteinander summiert, Instrumenten (VSTi: Standard Soloinstrumente Violine, Viola wobei die beiden diagonal gegenüberliegenden Kanäle je um und Cello) weitergegeben, wodurch vier Audiosignale gene- 3dB abgeschwächt werden. Die Verräumlichung erfolgt ebenso riert werden. über Gigaverb und entspricht immer exakt demselben Preset Diese VSTi können eine gemeinsame Änderung der akusti- der Verräumlichung der Frontkanäle. schen Stimmung (Pitch: Standard = Kammerton a bei 440Hz) Um der Ausbreitungsgeschwindigkeit von Schall im Raum aus einem Wahlmen auf der graphischen Benutzeroberfläche Rechnung zu tragen, werden die Outputsignale der Rearkanäle heraus erfahren. Die vier Audiostreams durchlaufen eine Folge zeitlich verzögert. Da die Verräumlichung durch Gigaverb von Matrizen, um sie auf die sechs vorhandenen, physikali- algorithmisch geschieht, wird der Zeitfaktor des Delays der schen Ausgänge zu routen. Diese Matrizen können wieder- Rearkanäle an die jeweilige Nachhallzeit des künstlichen um vom Nutzer durch die GUI beeinflusst werden (Mute- Raumes angepasst. Idealerweise sollte die Delayzeit dabei Funktion, Lautstärke jeder Stimme, Verräumlichung, etc.). den Zeitraum, in dem beim Nutzer die reale Erstreflektion Zum besseren Verständnis ist die dynamische Tempogestaltung der Frontsignale an der rückwärtig raumabschließenden Wand separat zu betrachten. Ausgangspunkt hierfür ist das Motion eintrifft, nicht übersteigen. Tracking der Leap-Motion-Kamera. Ihre ausgegebenen Werte 1 http://www.bachproject.net, 04.09.2017 65 Isidor – Ein auditiver HCI-Prototyp Zu beachten bleibt außerdem, dass trocken aufgenommene 6) Darstellung vs. Klang in Midi: Beim Umgang mit VST-Instrumente das Klangerlebnis hinsichtlich Ortbarkeit Midinoten ist festzustellen, dass eine strikt notationsgetreue und Klangqualität bedeutend verbessern. MIDI-Programmierung für die klassische Notendarstellung (Partitur) unumgänglich ist, die akustische Wiedergabe dieser 3) Mute-Funktion: Wichtig für das Verständnis der Mute- Programmierung allerdings üblicherweise als sehr statisch und Schaltung ist das Verhalten der wechselnden Positionierung unrealistisch wahrgenommen wird (beispielsweise ergeben der Eingangssignale (V1, V2 etc.), denen die statischen Kanäle überlappende Midinoten einen flüssigeren Übergang und damit 1-4 gegenübergestellt sind. Um dem Nutzer das Stumm- einen besseren Legato-Eindruck). schalten einzelner Instrumente, egal an welcher Position, Aus diesem Grund wird ein Midifile verwendet, das aus zu ermöglichen, müssen die Eingangssignale bereits gekappt insgesamt neun Einzelspuren besteht. Die ersten vier Spuren werden, bevor sie einem Kanal zugewiesen werden. Dazu entsprechen einer exakten, notationsgetreuen Programmierung durchläuft jedes der vier Inputsignale vor dem Kanalrouting für die visuelle Darstellung jeder einzelnen Stimme. Die eine weitere Matrix. Diese hat jeweils zwei Inputkanäle, fünfte Spur ist für die Darstellungsbreite des Partiturfensters die sich zur einfachen Verständlichkeit als Hot und Cold notwendig, worauf im Punkt “Darstellung der Partitur” noch- bezeichnen lassen. So liegt an einem Input der Matrix das mals konkret Bezug genommen wird. Die verbleibenden vier jeweilige Inputsignal (bspw. V1, V2) an, am Anderen kein Spuren werden an den Sampler weitergeleitet und akustisch Signal (“Stumm”). umgesetzt. Nachdem die Verräumlichung aller AUX-Schienen durch Darstellung der Partitur: Eine seitenweise Darstellung mittels die Ausgangssignale der Frontkanäle, also erst zu einem Bach.Score ist zum aktuellen Zeitpunkt (noch) nicht möglich. späteren Zeitpunkt im Routing, erfolgt, ist also sichergestellt, Als Workaround werden daher in Isidor vier Bach.Score- dass das Stummschalten eines jeweiligen Instrumentes (= Instanzen genutzt. Die Instanz, die tatsächlich abgespielt wird Inputsignales) auch im Raumsignal, sowie den Rearkanälen und Daten an den Sampler weitergibt, arbeitet versteckt im stattfindet. Hintergrund. Drei weitere Instanzen bilden untereinander po- sitioniert die in der GUI sichtbare Partitur. Jede der drei 4) Tempo: Prinzipiell können in Bachscore Instanzen entspricht dabei einem Notensystem mit je 2 Takten. Tempoänderungen implementiert werden. Problem dabei Entsprechend der eben diskutierten Umstände werden nur die ist, dass diese Änderungen bereits im Vorfeld bzw. vor dem ersten fünf Spuren grafisch wiedergegeben. Abspielen der jeweiligen Position definiert werden müssen. Prinzipiell folgt die Ansicht in Bach.Score immer dem Dabei kann das Tempo zu jedem Taktbeginn per Notenwert Playmarker, also der aktuellen Abspielposition. Nachdem die in BPM (“Viertelnoten in 120 BPM”) definiert werden, wobei grafischen Instanzen allerdings als passiv (“nicht abspielend”) eine fließende Änderung des Tempos zum nächsten Takt per verstanden werden können, wird das händische Umblättern accelerando und ritardando möglich ist. Da das Konzept von möglich. Isidor jedoch verlangt, Tempoänderungen auch in Echtzeit Bei Bach.Score-Instanzen kann die Position des Play- zu ermöglichen, wird die Masterclock angegriffen, welche markers über die Message inscreenpos X.Y bestimmt werden, die Länge eines Taktes in Samples angibt und somit einen wobei X den Schlag angibt; der Taktbeginn entspricht dem X- absoluten Zeitwert bietet, der moduliert werden kann. Wert 0, während Y die Taktzahl angibt. Da insgesamt sechs Dabei muss die aktuelle Geschwindigkeit des Stückes Takte gleichzeitig zu sehen sind (zwei pro Instanz), werden durch die gewünschte (neue, durch das Dirigat bestimmte) bei jeder anliegenden grafischen Score-Instanz beim Blättern BPM-Zahl dividiert werden, um den korrekten Multiplikator je 6 Takte zur aktuellen Position dazu addiert. Demnach für die Masterclock zu erhalten (Bsp: 130 BPM Originaltempo springt die oberste Instanz von Takt 1 zu 7, von 7 zu 13, zu 130 BPM anliegendes Tempo = Multiplikator 1). ... während die mittlere Instanz von 3 zu 9, von 9 zu 15, ... und das unterste System von Takt 5 zu 11, 11 zu 17, ... 5) Pitch: Das Streichquartett kann mittels einer Master- springt. Damit nicht über den Start- und Endpunkt hinaus Kontrolle (d.h. gültig für alle vier Instrumente) in der geblättert werden kann, wurden für die Positionswerte per Stimmung hinsichtlich des Referenztons variiert werden. Zur Clip-Objekt Grenzen definiert. Sind diese Werte erreicht, kann Auswahl stehen die internationale Standardstimmung auf keine weitere Addition bzw. Subtraktion erfolgen. 440Hz, die historische Stimmung auf 415Hz, die klassische Damit dieses Prinzip eines beständigen Sprunges der An- Stimmung auf 430Hz und die Wiener Stimmung auf 466Hz. sichtsposition um sechs Takte überhaupt möglich ist, muss Die Änderung der Tonhöhe geschieht durch die Pitch sichergestellt werden, dass pro Score-Instanz (also Notensys- Bend-Funktion des VST-Instrumentes. Problematisch dabei tem) immer genau gleich viele Takte dargestellt werden und ist die Umrechnung von Hertz auf Cent auf linearer Basis, diese, auch aus grafisch-ästhetischen Aspekten, stets gleich da sich die Tonhöhe logarithmisch verhält. Näherungsweise groß sind. Die dargestellte Breite eines Taktes lässt sich in lässt sich für den relevanten Frequenzbereich um 440Hz ein Bach per Default nicht einstellen. Dadurch erklärt sich die Verhältnis von rund +/- 4Cent pro einem Hertz Verstimmung Notwendigkeit einer “Ansichtsspur” (Spur 5) in der program- annehmen [8]. mierten MIDI-Datei. Diese Spur enthält einen - im Vergleich zum restlichen Notenmaterial - sehr geringen Notenwert, der 66 Isidor – Ein auditiver HCI-Prototyp konstant wiedergegeben wird. Im vorliegenden Fall entspricht Von einer zuerst angedachten Lösung, über das Bild des dies einem Notenwert von zweiunddreißigstel Noten. Die Instruments in einen Subscreen mit erwähnten Kontrollen benötigte Breite zur graphischen Darstellung dieser zwei- zu gelangen, wurde abgesehen, um die Kontrollelemente auf unddreißig Einzelnoten, welche kontinuierlich ist, ermöglicht einem Blick ersichtlich zu behalten und eine Verschachtelung somit das Festlegen einer generellen Taktbreite. Da diese Spur des Interfaces zu vermeiden. So soll es dem User auch einzig und allein zu diesem Zweck benötigt wird, ist sie im einfacher gemacht werden, die Lautstärkenverhältnisse der GUI durch ein weißes Viereck überdeckt, um dem User nur Stimmen im Blick zu behalten und eine mögliche Quelle für die vier hörbaren Instrumente im Notensystem anzuzeigen. Verwirrungen (bspw. versteckte Mute-Buttons) ausgeschlossen Das Springen zu einer Position durch Touch-Befehl auf den werden. jeweiligen Takt basiert auf demselben Prinzip wie das Blättern. Eine weitere Entscheidungsgrundlage für die Anordnung Wiederum werden “Inscreenposition”-Werte ausgegeben. Die- ohne Subscreens war im Lauf der Entwicklung der Installation se werden an der jeweiligen grafischen Score-Instanz ausgele- das Festlegen des verwendeten Touch-Bildschirmes. Hier sei sen und an die abspielende Instanz weitergegeben, die dadurch erwähnt, dass viele dieser Entscheidungen bei der Umlegung direkt zum entsprechenden Takt springt und die Wiedergabe auf andere Systeme und Kontrolleinheiten (bspw. Smartphone, an der gewählten Position startet. Tablet) überdacht bzw. angepasst werden könnten. In den Kontrollen für alle Instrumente (Room, Moods, B. Grafik und Design Pitch) sind die Auswahlmenüs mit Toggle-Buttons ausgeführt. Aus verschiedenen Entwürfen für die grafische Benutzero- Interessanter ist die Positionsauswahl der Instrumente; hier berfläche wurde eine Lösung ausgewählt, die auf drei Spalten gibt es eine Matrix, in der man für jede Stimme zwischen basiert: Kontrollen für alle Instrumente, Kontrollen für Einzel- Links, Halblinks, Halbrechts und Rechts entscheiden kann. instrumente und Kontrollen für die Partiturdarstellung. Beim Umsetzen einer Stimme tauscht diese den Platz mit dem Instrument an der jeweils neuen Position. Ursprünglich war angedacht, die Positionen mit 4 Monitoren, die jeweils unter den Front-Lautsprechern stehen, optisch darzustellen. Davon wurde abgesehen und stattdessen eine kleine, bildliche Darstellung jedes Instrumentes über der Positionsauswahl- Matrix eingefügt, die der Sitzordnung folgt. Hierbei war der Gedanke, dem Benutzer, wenn er nicht auf die Kontrolleinheit sieht, so wenig optische Reize wie möglich zu geben, damit der Fokus nicht vom Hörerlebnis abgelenkt wird. Für die DMX-Steuerung wurde ein Interface der Firma “Enttec” (DMX USB Pro) verwendet, welches eine Kom- munikation via USB ermöglicht. Dazugehörig wurde das Max/MSP-Objekt dmxusbpro der Firma Nullmedium2 benutzt, um direkt aus Max/MSP Daten schicken zu können. Die Lichtsteuerung folgt, wie Eingangs erwähnt, dem aktuellen Abspieltempo des Stückes. Die BPM-Zahl wird abgegriffen und je nach deren Wert in Bereichen von 20 BPM einer Farbe Abbildung 3. Grafisches User Interface von Isidor zugeordnet. Die Grenzen liegen nach unten hin bei 30 BPM, nach oben hin werden alle Werte über 180 BPM derselben In den Kontrollen für Einzelinstrumente findet der Benutzer Farbe zugeordnet. Die Übergange zwischen den Farbbereichen eine bildliche Darstellung des Instruments, dessen Namen, geschehen fließend innerhalb von zwei Sekunden. einen Fader für die Lautstärke des Instruments sowie einen Wie bereits erwähnt, geschieht sämtliche grafische Umset- Button um die Stimme stumm zu schalten. Auf der linken Seite zung innerhalb von Max/MSP. Als Bildschirm und Kontrollo- der Instrumentenabbildung gibt es außerdem ein Wahlmen, in berfläche dient ein 24-Touch LCD der Firma “Ilyama” (ProLite dem die Artikulation des Spielers (Legato, Staccato, Pizzicato, B2483HS-B1). Tremolo) ausgesucht werden kann. Hierbei sei angemerkt, dass der Volumefader nicht den C. Leap Motion Pegel des Ausgangssignals moduliert, sondern den MIDI- Durch den konstanten, technologischen Fortschritt entstehen Control- Change Expression des VSTi ansteuert. Dementspre- laufend neue Wege zur Human-Computer-Interaction. Die auf chend wird nicht nur beispielsweise die Lautstärke verringert, diese Art entwickelten Schnittstellen eröffnen dem Nutzer sondern auch die musikalische Artikulation angepasst (gerin- viele Möglichkeiten. So verschieden die Technologien, so gere Expression führt zu geringerem Druck des Bogens auf die verschieden sind auch die Steuerungsdaten, welche für die In- Saiten, was in einem weicheren Klangbild resultiert), wodurch teraktion verwendet werden können. Zusätzlich zu haptischer ein deutlich realistischeres und natürlicheres Klangbild erzeugt wird. 2 http://www.nullmedium.de, 04.09.2017 67 Isidor – Ein auditiver HCI-Prototyp und Sprachsteuerung können auch Kamerasysteme Daten er- mitteln. Zwei Produkte, die oft für das Tracking von Körper- und Bewegungsdaten benutzt werden, sind die Xbox Kinect und die Leap Motion Kamera. Nach ausführlichen Vergleichen der Spezifikationen der zwei Kameras wurde aufgrund der besseren Einsatzfähigkeit im vorliegenden Kontext die Leap Motion Kamera verwendet. Die Leap Motion Kamera kam 2013 mit dem Ziel auf den Markt, kleinste Bewegungen in sehr geringer Entfernung Abbildung 5. Leap Motion Gesten-Tracking erfassen zu können. Während die Xbox Kinect Daten in einem sehr weiten Bereich von 0,5 - 3,5m abgreifen kann, ist der verwendbare Radius der Leap Motion mit 0,25 - 0,5m viel kleiner. Da dies jedoch für das Installationsdesign kein Pro- Mithilfe eines Wahlselektors kann in der GUI bestimmt blem darstellt, da nur das Tracking der Hände wichtig ist, fiel werden, welche Hand getrackt werden soll. Die so erhaltenen die Entscheidung zu Gunsten der Leap Motion Kamera. Auch Daten werden nun interpretiert und in ein Tempo (BPM) die deutlich höhere Auflösung, welche Bewegungsänderungen umgewandelt, das, wie bereits erwähnt, als Multiplikator für in hundertstel Millimetern erfassen kann, galt als Entschei- die Masterclock weiterverwendet wird. dungsgrundlage. Zuerst werden erfasste Bewegungsdaten der X-Achse, wel- che sich zwischen 0 und 400 befinden, auf einen kleineren Wert (0-1) skaliert. Da das Projekt ursprünglich für Mac OS angedacht war, wurde in der Ursprungsversion für das Feststel- len einer Richtungsänderung der Palm Position (oben/unten, entsprechend der klassischen Dirigatsgesten) das J.Delta- Ob- jekt aus der Jamoma Libary verwendet, das grundsätzlich die ersten drei Ableitungen einer Funktion berechnet. Durch den Umstieg auf ein Windows-Betriebssystem wurde dies jedoch aufgrund der fehlenden Implementierung unmöglich. Um das J.Delta-Objekt zu ersetzen, werden die skalierten Daten in ein tfb- (Trigger-Float-Bang) Objekt geschickt, welches jede neue Koordinate speichert. Bekommt das Objekt einen neuen Input werden die beiden Werte subtrahiert Abbildung 4. Leap Motion Kamera und somit verglichen. Ist das Ergebnis negativ, findet eine Richtungsänderung statt. Jede negative Zahl wird an ein Die Leap Motion Kamera funktioniert mittels drei LEDs, Change-Objekt weitergegeben, welches dafür sorgt, dass die das zu trackende Objekt beleuchten, welches durch zwei keine Koordinate doppelt verwendet wird. Jeder Negativwert Infrarotkameras erfasst wird. Die Daten werden softwareseitig löst nun einen Bang aus, der in ein Timer-Objekt geschickt verarbeitet und in ein 3D-Modell der Hände umgewandelt. wird, welches die vergangene Zeit zwischen zwei Bangs misst. In der Software vorgegebene Bewegungsabläufe machen es Um von einem Zeitwert auf einen BPM-Wert zu kommen, möglich, verschiedene Bewegungen als Gesten zu erkennen wird das Ergebnis des Timer-Objekts durch 60000 dividiert. (Swipe, Circle) oder das Tracking auf beliebige Weise einzu- Um zu extreme Temposchwankungen zu verhindern, wird schränken (z.B. Tracking eines Fingers). der mögliche BPM-Bereich auf 30-200 Schläge pro Minute Die Tracking-Daten werden durch die eigene Software festgelegt. Ein Slide-Objekt sorgt dafür, dass zwischen den der Leap Motion Kamera erfasst. Mit Hilfe des Leap Mo- Tempowerten interpoliert wird, was zu einem kontinuierlichen tion Software Developer Kit und zweier Erweiterungen für Tempowechsel führt. Um abschließend einen ganzzahligen Max/MSP konnten die Bewegungskoordinaten in Max ab- BPM-Wert zu erhalten wird die errechnete Tempoinformation gegriffen werden. In Isidor wurde aufgrund besserer Isolati- mit einem Round-Objekt gerundet. onsmöglichkeiten die Leap Motion Erweiterung des “IRCAM” (Institut de Recherche et Coordination Acoustique/Musique) Herausforderungen in der Programmierung stellte das benutzt. Ersetzen des J.Delta-Objektes in der Windowsumgebung dar. Nach einigen Versuchen stellte sich heraus, dass die beste Eine gute Übertragbarkeit der dirigierten Tempoinformation, Methode für die Umwandlung von Dirigatsgesten das Tracken um ein möglichst realistisches und steuerbares Erlebnis für der Palm-Position in der Höhe (X-Achse) ist. Um nur diese den Nutzer zu ermöglichen, ist aufgrund des subjektiven Daten zu erhalten, wird der Datenstrom, in dem alle Daten Empfindens und dessen Ausdruck, anhand von Sensibilität des vorhanden sind, gefiltert und nur die extrahierten Daten wei- Trackings bzw. Feststellung des Zeitpunktes des tatsächlichen terverarbeitet. “Schlages”, sehr schwer erreichbar. 68 Isidor – Ein auditiver HCI-Prototyp VI. T ESTLAUF gemischten Alters und Geschlechts und zu rund 70% Prozent Um den Prototypen der Installation echten Rezipienten Besucher der Ausstellung, während die restlichen 30% andere zum Test zur Verfügung zu stellen, wurde die Klanginstalla- Ausstellende, Universitätsmitarbeiter oder Studenten des ZKM tion “Isidor” im Rahmen der “nextgeneration 7.0” im Zen- waren. Eine schriftliche Erklärung lag bereit; viele Besucher trum für Kunst und Medien in Karlsruhe ausgestellt. Der konnten dennoch anfängliche Berührungsängste mit der Instal- Max/MSPPatch lief auf einem Macbook Pro (13z, Late 2011) lation erst nach einer persönlichen Einführung überwinden. auf dem Betriebssystem Windows 7. Als Audio-Interface Die Reaktionen der rund 40 Probanden kann man als zum wurde ein Saffire Liquid 56 benutzt, über dessen Outputs größten Teil positiv beschreiben. Viele Besucher schätzten vor sechs Studiomonitore des Typs Genelec 1032B angesteuert allem die Möglichkeit der Temposteuerung durch das Dirigat, wurden. Alle Filter an den Lautsprechern waren deaktiviert, gaben aber auch an, dass sie sich noch nicht absolut in die Gain-Regler waren alle auf den selben Wert eingestellt. Kontrolle des Tempos fühlten. Alle Touch-gesteuerten Kon- Auch die Outputs des Saffire Liquid 56 spielten alle auf trollmöglichkeiten (Lautstärke, Position, Room, ...) wurden demselben Pegel aus; sämtliche Mischung geschah daher problemlos und mit Wohlwollen entgegengenommen. Auch ausschließlich in Max/MSP. Als Lichter wurden zwei PAR56 das User Interface wurde als übersichtlich und optisch an- LED-Scheinwerfer benutzt, die mit dem Laptop über das Ent- sprechend empfunden. Die Autoren wurden von einem Pro- tec DMX USB Pro verbunden waren. Als Kontrolloberfläche banden, der als Pädagoge arbeitet, auf das große Potenzial diente der 24-Touchscreen der Firma Ilyama (Modell ProLite angesprochen, welches er in der Installation bezüglich Bil- B2483HS-B1). Auf der Oberkante des Bildschirms lag die dungsmöglichkeiten für Kinder sieht. Leap Motion Kamera. VII. H ERAUSFORDERUNGEN Beim Testaufbau wurde versucht, den Aufbaudimensio- nen (siehe Abb. 1) so weit wie möglich zu entsprechen. Die wohl größte Herausforderung ist es, ein für den Nutzer Aufgrund der Dimensionen des Raumes, in dem aufgebaut nachvollziehbares, kontrollierbares und spannendes Erlebnis wurde, war dies jedoch nicht ausnahmslos möglich. Die beiden zu kreieren. Ziel der Installation ist es, sowohl für Laien als äußeren Frontlautsprecher standen in ca. 2 m Entfernung auch für Personen mit fachspezifischem Hintergrundwissen voneinander, der Zuhörer befand sich in ungefähr 2,5 m ansprechend gestaltet und verständlich zu sein. Dazu ist es Entfernung von den Frontlautsprechern in mittiger Position. notwendig, dass alle Elemente reibungslos miteinander kom- Die rückwertigen Lautsprecher standen innerhalb eines Meters munizieren. zum Hörer, also sehr nahe im Vergleich zu den Idealdimen- Dies ist die grundlegende Herausforderung für die Ent- sionen. Dieser Nachteil wurde durch zeitliche Verzögerung wicklung der Installation. Es gilt, ein System zu schaffen, und Lautstärkenanpassung der Rear-Kanäle auszugleichen ver- welches mehrere Elemente und Schnittstellen miteinander sucht. verbindet und eine Kommunikationsbasis schafft. Die Auswahl der zu verwendenden Technologien spielte dabei eine wichtige Rolle. Von Anfang an stellte sich die korrekte Detektion der Tempodaten und die darauffolgende Tempomanipulation als schwierig heraus. Hier ist es notwendig, eine feine Abstim- mung zwischen der Technik und der Wahrnehmung des Rezi- pienten herzustellen. Für ein bestmögliches Nutzerlebnis sollte jeder Benutzer das Gefühl haben, er wäre in vollkommener Kontrolle über die Installation. VIII. D ISKUSSION Beschrieben wurde eine Installation zur Steuerung ei- nes virtuellen Streichquartetts mittels MIDI-gesteuerten VST- Instrumenten und Tracking von Dirigatsgesten mittels Leap Motion Kamera. Nach der Konzeption und einem Testlauf Abbildung 6. Aufbau im Rahmen der “nextgeneration 7.0” im Zentrum für sowie Nachbesserungen kann gesagt werden, dass die Installa- Kunst und Medien (ZKM) in Karlsruhe tion für den Benutzer in Bezug auf subjektives Kontrollempfin- den, Handhabung und Vergnügen eine zufriedenstellende Er- Bei dem Raum, in dem der Testlauf durchgeführt wurde, fahrung ist. Vor allem das klangliche Ergebnis durch den Ein- handelte es sich um den Aufnahmeraum eines Tonstudios des satz von VST-Instrumenten und DSP ist aufgrund seiner Va- ZKM, dementsprechend waren die akustischen Begebenheiten riabilität hinsichtlich Tempo, Anschlagsdynamik, Raumklang, sehr günstig und die Charakteristik des Raumklanges als etc. sehr befriedigend und bietet im Vergleich zu ähnlichen trocken zu bezeichnen. Der Raum hatte eine Gesamtfläche von Installationen, welche mit aufgenommenem Audiomaterial ar- ungefähr 25m2 bei einer Höhe von rund 3 Metern. beiten, große Weiterentwicklungsmöglichkeiten. Der Benutzer Die Installation war zwei Tage lang zugänglich und konnte kann mit einem leicht zu verstehenden Interface in viele Pa- von Besuchern getestet werden. Die Versuchspersonen waren rameter eingreifen und bekommt umgehendes, audiovisuelles 69 Isidor – Ein auditiver HCI-Prototyp Feedback. Entwicklungspotenzial gibt es nach wie vor in der Feinabstimmung, bspw. des Motion Trackings beim Dirigat. Da es sich bei der Installation um ein sehr reaktives System handelt, ist der Bedarf nach Feinjustierung naturgegeben sehr hoch, da jeder Eingriff viele verschiedene Parameter, vor allem hinsichtlich des Kontrollgefühls, beeinflusst. IX. AUSBLICK Möglichkeiten zur Weiterentwicklung des Projektes sehen die Autoren vor allem in der Leap Motion Technologie. Die Kamera erlaubt es dem Nutzer, beide Hände simultan zu erfassen und verschiedene Gesten zu erkennen. Die zweite Hand könnte somit dazu benutzt werden, andere Parameter anzusteuern - entsprechend dem Dirigat bspw. die Dynamik des Stückes. Wie bereits zuvor erwähnt, wurde von Probanden die Möglichkeit des Einsatzes der Installation für Bildungs- zwecke, speziell für Kinder, angemerkt. Letztlich bleibt auch die Weiterentwicklung des Bach-Objekts spannend für die Installation, da die Projektgruppe mit den Entwicklern von Bach in Verbindung trat und einige Anmerkungen und An- regungen möglicherweise in zukünftigen Versionen von Bach berücksichtigt werden könnten, was in der weiteren Entwick- lung Wege ebnen würde. Um ein Beispiel zu nennen, würde die Möglichkeit, MIDI Control Changes in Bach verarbeiten zu können, große Verbesserungspotenziale für die realistische Klanggestaltung bieten. Die Autoren hoffen, mit diesem Projekt Denkanstöße und Grundlagen für weiterführende Forschungen geschaffen zu haben. L ITERATUR [1] A. Jylhä, “Sonic gestures as input in human-computer interaction: To- wards a systematic approach,” in Proceedings of the SMC2011-8th Sound and Music Computing Conference, Padova, 2011. [2] E. Hornecker and M. Stifter, “Learning from interactive museum instal- lations about interaction design for public settings,” in Proceedings of the 18th Australia conference on Computer-Human Interaction: Design: Activities, Artefacts and Environments. ACM, 2006, pp. 135–142. [3] A. Camurri, G. De Poli, and D. Rocchesso, “A taxonomy for sound and music computing,” Computer Music Journal, vol. 19, no. 2, pp. 4–5, 1995. [4] J. O. Borchers, W. Samminger, and M. Mühlhäuser, “Conducting a realistic electronic orchestra,” in Proceedings of the 14th annual ACM symposium on User interface software and technology. ACM, 2001, pp. 161–162. [5] WhiteVOID, “Mendelssohn Effektorium Conducting a virtual orchestra,” Berlin, 2014, http://www.whitevoid.com/#/main/interactivestructures/ mendelssohn-effektorium, letzter Zugriff: 04.09.2017. [6] Aconica, “Effektorium-Interactive Museography/Interactive Sound and Light Installation,” Berlin, 2014, http://www.aconica.de/portfoliopage/ effektorium-interactive-museography/, letzter Zugriff: 04.09.2017. [7] K. Flay, “Gesture controlled musical conducting,” Semesterarbeit, School of Computer Sciences and Informatics Cardiff, Wales, 2015. [8] E. Sengpiel, “Intervall-Umrechnung in Frequenzverhältnis nach cent und zurück,” n.d., http://www.sengpielaudio.com/Rechner-centfrequenz.htm, letzter Zugriff: 04.09.2017. 70