19.12.2023 Aufrufe

OCG Journal 4/23 Zukunftsmusik - Der Einfluss der Künstlichen Intelligenz in der Musik

Wie verändert KI die Musikindustrie? Wie viel Gewicht geben wir künstlicher Kreativität? Welche Möglichkeiten entstehen durch KI in der Kunst und mit welchen technischen Anwendungen beschäftigen sich österreichische Musikwissenschaftler*innen? Die Mitgliederzeitschrift der Österreichischen Computer Gesellschaft (OCG) widmet sich stets einem Schwerpunktthema, diesmal: KI und Musik.

Wie verändert KI die Musikindustrie? Wie viel Gewicht geben wir künstlicher Kreativität? Welche Möglichkeiten entstehen durch KI in der Kunst und mit welchen technischen Anwendungen beschäftigen sich österreichische Musikwissenschaftler*innen? Die Mitgliederzeitschrift der Österreichischen Computer Gesellschaft (OCG) widmet sich stets einem Schwerpunktthema, diesmal: KI und Musik.

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

Analyse von Audiosignalen, Track<strong>in</strong>g von Körper, Hand und Gesicht/Ausdruck<br />

von Christoph Reuter, Isabella Czedik-Eysenberg und Anja-Xiaox<strong>in</strong>g Cui<br />

Moves & Grooves<br />

Die <strong>in</strong> den letzten Jahren entwickelten<br />

JavaScript-Libraries wie P5, ML5, Plotly<br />

sowie verschiedene Bibliotheken zur<br />

Audiomerkmalsextraktion ermöglichen<br />

die Erstellung völlig neuartiger, robuster<br />

und nützlicher Onl<strong>in</strong>e-Tools zur Datenerhebung.<br />

Darüber h<strong>in</strong>aus s<strong>in</strong>d <strong>in</strong>sbeson<strong>der</strong>e<br />

P5/ML5 und Plotly sehr e<strong>in</strong>fach<br />

zu erlernen und eignen sich daher vor<br />

allem beson<strong>der</strong>s für Studierende, die<br />

e<strong>in</strong>en schnellen E<strong>in</strong>stieg <strong>in</strong> die Welt<br />

<strong>der</strong> Programmierung suchen. Für den<br />

Bereich <strong>der</strong> musikalischen Akustik s<strong>in</strong>d<br />

die Komb<strong>in</strong>ationsmöglichkeiten von<br />

synchroner Audiosignalanalyse, Körper-,<br />

Hand- und Gesichts-/Ausdruckstrack<strong>in</strong>g,<br />

sowie von (neuro-)physiologischen<br />

Daten beson<strong>der</strong>s wertvoll.<br />

JavaScript als e<strong>in</strong> bewährtes, nicht-proprietäres<br />

und universell im Browser lauffähiges<br />

Format bietet dazu e<strong>in</strong>e beson<strong>der</strong>e<br />

Nachhaltigkeit, Erweiterbarkeit und<br />

Zukunftssicherheit, <strong>in</strong>sbeson<strong>der</strong>e auch<br />

durch die Schnittstelle zu Mach<strong>in</strong>e-Learn<strong>in</strong>g-Modellen<br />

(ML5) sowie durch starke<br />

und schon langjährig bestehende Communities<br />

für P5 und Plotly..<br />

MODERNE JAVASCRIPT-<br />

BIBLIOTHEKEN<br />

P5 ist e<strong>in</strong>e JavaScript-Bibliothek, mit <strong>der</strong><br />

sich komplexe Programmieraufgaben<br />

schnell und e<strong>in</strong>fach lösen lassen. 1 Die<br />

Zusatzbibliothek 2 P5.sound ermöglicht<br />

die schnelle und unkomplizierte<br />

Berechnung von Zeit-Frequenz-Transformationen,<br />

Filterungen, Faltungen,<br />

Klangsynthese, MIDI und vielen an<strong>der</strong>en<br />

audiobezogenen<br />

Verarbeitungsmethoden.<br />

Dadurch wird sie für den Bereich<br />

<strong>der</strong> musikalischen Akustik beson<strong>der</strong>s <strong>in</strong>teressant.<br />

Mit <strong>der</strong> 2018 e<strong>in</strong>geführten Bibliothek<br />

ML5 lassen sich <strong>in</strong>nerhalb von P5<br />

vortra<strong>in</strong>ierte Modelle zur Erkennung/Tracken<br />

von Personen, Bewegungen, Objekten,<br />

Gesichtern, Händen, Tonhöhen und<br />

vielem mehr e<strong>in</strong>setzen.<br />

Nahezu zeitgleich wurde Plotly.js entwickelt<br />

3 . Plotly.js ist e<strong>in</strong>e JavaScript-Bibliothek<br />

zur <strong>in</strong>teraktiven Datenvisualisierung,<br />

mit <strong>der</strong> Daten <strong>in</strong> über 40 verschiedenen<br />

Darstellungsarten <strong>in</strong> 2D und 3D visualisiert<br />

werden können. Für die musikalische<br />

Akustik ist diese Bibliothek beson<strong>der</strong>s<br />

<strong>in</strong>teressant, da <strong>in</strong> ihr die aus<br />

Audiodaten ermittelten Graphen direkt<br />

mit den zugehörigen Audiodaten synchronisiert<br />

werden können, so dass sich<br />

die Ergebnisse nicht nur visuell darstellen<br />

lassen, son<strong>der</strong>n auf <strong>in</strong>teraktive Weise<br />

auch hörbar werden.<br />

Mit Meyda 4 und später auch Essentia.<br />

js 5 , Aubio.js 6 und Formantanalyzer.js 7<br />

waren spätestens seit 2015 auch umfangreiche<br />

Möglichkeiten im Bereich <strong>der</strong> Audiosignalanalyse<br />

<strong>in</strong> JavaScript verfügbar.<br />

So ermöglichen diese Bibliotheken etwa<br />

die rechnerische Extraktion e<strong>in</strong>er Vielzahl<br />

von Audio-Features wie klanglicher Helligkeit,<br />

Rauigkeit, Spectral Centroid, Tonhöhen,<br />

Formanten, Lautheit, Vibrato etc.<br />

sowie die Transformation des Signals <strong>in</strong><br />

Chroma- und MFCC-Darstellungen und<br />

vieles mehr.<br />

TOOLS UND ANWENDUNGEN<br />

Sowohl für die Datenvisualisierung als<br />

auch für <strong>der</strong>en Erfassung ermöglichen<br />

diese Bibliotheken <strong>in</strong> ihrer Komb<strong>in</strong>ation<br />

völlig <strong>in</strong>novative und vor allem pragmatische,<br />

robuste und nachhaltige Lösungen,<br />

die im Folgenden beschrieben werden:<br />

• Signalanalyse-Tools<br />

Die Komb<strong>in</strong>ation <strong>der</strong> Bibliotheken P5<br />

und Plotly mit Meyda, Essentia, Aubio<br />

o<strong>der</strong> Formantanalyzer ermöglicht e<strong>in</strong>e<br />

schnelle und unkomplizierte Datenerfassung.<br />

So wurden mit diesen Bibliotheken<br />

<strong>in</strong>teraktive Onl<strong>in</strong>e-Signalanalyse-Tools erstellt,<br />

die aus beliebigen hochgeladenen<br />

wav- o<strong>der</strong> mp3-Dateien verschiedenste<br />

Audio-Features als <strong>in</strong>teraktive Kurven<br />

o<strong>der</strong> ‒ zur weiteren Verwendung ‒ als<br />

JavaScript-Arrays extrahieren können.<br />

Die extrahierten Werte lassen sich sowohl<br />

als Mittelwerte <strong>in</strong>kl. Standardabweichung<br />

anzeigen als auch als Absolutwerte sowie<br />

z-transformiert im CSV-Format zur weiteren<br />

Verarbeitung <strong>in</strong> Excel, JASP, Matlab<br />

o. ä. abspeichern. Die Abtastgenauigkeit<br />

liegt abhängig von <strong>der</strong> jeweils verwendeten<br />

Signalanalyse-Library zwischen 3 und<br />

50 ±1 ms pro erfassten Wert bzw. von 20<br />

bis 333 Hz.<br />

• Interaktives<br />

Valenz-Arousal Modell<br />

Basierend auf <strong>der</strong> Idee, während des Hörens<br />

e<strong>in</strong>er beliebigen hochgeladenen<br />

Audiodatei den jeweiligen emotionalen<br />

Zustand direkt per Mausbewegung <strong>in</strong><br />

e<strong>in</strong>em Valenz-Arousal-Feld zu erfassen<br />

(„EmuJoy“ 8 ,), wurde e<strong>in</strong> <strong>in</strong>teraktives Valenz-Arousal-Modell<br />

entwickelt, das neben<br />

den erhobenen Emotionen auch die<br />

Audio-Features <strong>der</strong> gehörten <strong>Musik</strong>stücke<br />

und Klänge o<strong>der</strong> Geräusche erfasst.<br />

Darüber h<strong>in</strong>aus kann über die Mikrofonbuchse<br />

des Computers e<strong>in</strong> M<strong>in</strong>dfield®<br />

eSense Hautleitwert-Sensor angeschlossen<br />

werden, sodass synchron zu den<br />

Audio-Features und <strong>der</strong> emotionalen<br />

Selbste<strong>in</strong>schätzung auch jeweils e<strong>in</strong> entsprechen<strong>der</strong><br />

physiologischer Messwert<br />

erfasst werden kann. Optional lassen sich<br />

auch Videos anstelle <strong>der</strong> Audiobeispiele<br />

abspielen 9 o<strong>der</strong> die Achsenbezeichnungen<br />

für die Erfassung beliebiger an<strong>der</strong>er<br />

Eigenschaften/E<strong>in</strong>schätzungen<br />

än<strong>der</strong>n.<br />

Auch hier können die statistisch vorverarbeiteten<br />

Werte (Orig<strong>in</strong>al, Mittelwerte,<br />

SD, z-transformiert) mit e<strong>in</strong>er zeitlichen<br />

Auflösung von 50 ±1 ms als CSV-File exportiert<br />

werden (s. Abb. 1).<br />

20 <strong>OCG</strong> <strong>Journal</strong> | 04 • 20<strong>23</strong>

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!