Zukunftsmusik

Platine
Die Künstliche Intelligenz dringt in viele Bereiche unseres Lebens vor und verändert sie – auch in der Musik. Foto von GDJ / Pixabay-LicenseFoto: / .

Wie künstliche Intelligenz Mensch und Klang verbindet.

Künstliche Intelligenz macht auch vor der Kunst keinen Halt. Sie malt Bilder, komponiert Stücke, spielt Instrumente oder produziert Musik. Wir waren dazu im Gespräch mit Matthias Jung, einem Doktoranden an der Universitetet i Agder in Norwegen. Am Institut für Populäre Musik forscht er zu künstlicher Intelligenz und Musik und nimmt dabei vor allem auch soziale Aspekte in den Fokus.

philtrat: Matthias, worum geht es in deiner Forschung?

Matthias: Im Endeffekt geht es darum, auf was für einer Ebene wir zusammen mit der Technologie der künstlichen Intelligenz arbeiten, die eben nicht nur ein Tool ist. Manchmal sagen Leute „AI, das ist doch nur ein Tool, das ist doch nur der nächste Synthesizer, den du als Musiker*in benutzen kannst“, aber es hat durchaus eine andere Qualität. Die Technik ist auf einer ganz anderen Ebene interaktiv mit dem Menschen und das hat Auswirkungen auf das musikalische Schaffen. Mich interessiert vor allem die Frage, wie das funktioniert, wie wir das machen und dann landest du auch ziemlich schnell bei Fragen nach der Qualität von dieser Mensch-Maschine-Interaktion. Darum geht es letztendlich auch immer: Wie kommunizieren wir mit dem Gerät, wie ist unsere User-Experience, die Human-Computer-Interaction?

philtrat: Du sagtest ja, AI in der Musik ist mehr als nur den nächsten Synthesizer haben. Wie genau können wir uns das vorstellen, künstliche Intelligenz in die Musik zu integrieren?

Matthias: Es gibt beispielsweise ein AI System, das sich ‚Orb Composer‘ nennt. ‚Orb Composer‘ ist eine einfache Form von AI, mit der du einfach loslegen kannst und dir etwas vorschlagen lässt. Du kannst zum Beispiel sagen „Ich hätte gerne ein paar Streichinstrumente, das Ganze soll in Orchestergröße sein, im Tempo XY und vielleicht noch ein paar weitere Parameter haben“. Das System schlägt dir daraufhin etwas vor, sei es eine Melodie oder sogar schon ein ganzes Arrangement, weil es gelernt hat, Patterns aus unzähligen Stücken zu erkennen und sie in Kategorien herunter zu brechen. Letzten Endes entscheidest du hier als Musiker*in nur noch über qualitative Kategorien, indem du zum Beispiel bestimmst, ob die Vorschläge lieber etwas höher, tiefer, langsamer, näher, dichter etc. sein sollen. Im Unterschied zur Maschine können wir Menschen eher den Überblick haben. Der Computer oder die Maschine hingegen kann viel besser einen riesigen Datensatz analysieren, Patterns erkennen und verarbeiten. Unser Gehirn kann das so nicht, aber dafür können wir besser entscheiden, dass etwas eher so-und-so klingen soll. Und das ist wahrscheinlich unsere Rolle in diesem Prozess, denn solche Entscheidungen sind für den Rechner schwierig. Er hat diesen menschlichen Überblick nicht.

Das Beispiel beschreibt immer noch eine sogenannte ‚Narrow AI‘, eine schwache künstliche Intelligenz, die in diesem Fall nur darauf angesetzt ist, etwas ganz Bestimmtes zu tun – „Schlag‘ mir Orchestermusik vor!“, „Mix‘ mir den Track fertig“ oder „Mach‘ mir ein Mastering!“ – All so etwas, je nachdem, was du brauchst. Dafür ist die AI da und das kann sie richtig gut, aber darüber hinaus kann sie nichts. Sie versteht beispielsweise nicht, dass es eine melancholische Stimmung ist, wenn es draußen regnet und dämmert.

philtrat: Was ist denn aktuell das Abgefahrenste, was im Bereich Musik und AI beobachtet werden kann?

Matthias: Die medial wirksamsten Sachen sind meistens diejenigen, die humanoid sind, also dem Menschen in seiner Physis oder Interaktion mit anderen nachempfunden. Es gibt zum Beispiel Projekte, die humanoide künstliche Intelligenzen erschaffen, die dann ‚autonom‘ mit dir auf der Bühne spielen. Das Ganze basiert auf einer Vision von AI, die unter anderem auf Gil Weinberg von der Georgia Tech zurückgeht. An seinem Projekt sind viele verschiedene Expert*innen beteiligt, die sich zum Beispiel mit Hydraulik, Software, Musik oder Kognition befassen. Gemeinsam haben sie einen Roboter namens ‚Shimon‘ geschaffen, der Mallets spielt, meistens Marimba oder Vibraphon oder derartiges. ‚Shimon‘ sieht aus wie ein Mensch, hat Kameras, Mikrofone und Sensorik eingebaut. Im Endeffekt haben sie ihm massenhaft Daten darüber einprogrammiert, wie Menschen Musik hören und dies bestimmt dann, wie er reagiert, wenn die Audiosignale der Band seine Mikrofone erreichen. Hier finden dann Modelle wie das Fortführen von Melodien oder das Begleiten mit einem Instrument Anwendung. Also du als Musiker*in beginnst etwas zu spielen und die AI kann das weiter- oder nachspielen. Oder du spielst etwas auf der Trompete und die AI kann passende Akkorde dazu spielen. Das ist wirklich eindrucksvoll, aber es muss einfach dazu gesagt werden, dass es nicht in der Form autonom ist, wie wir es für autonom halten. Denn dem Ganzen geht ja immer eine Vorstellung vorweg, auf dessen Basis dann ein Modell einprogrammiert wird. Zwar funktioniert es in diesem Fall nicht regelbasiert, also ‚Shimon‘ durchläuft nicht einfach nur einen Algorithmus, sondern ist schon auf eine bestimmte Art interaktiv. Trotzdem ist so etwas dem Menschen immer ein Stück hinterher, weil es keine eigene Intention hat. An dieser Stelle führt es uns dann in ein philosophisches Feld…

Porträt junger Mann mit Kappe
Matthias Jung ist Promotionsstudent an der Universitetet i Agder in Norwegen. Foto: Universitetet i Agder.

philtrat: Ich würde gern nochmal den Aspekt der Mensch-Maschine-Interaktion aufgreifen. Ist es möglich, eine Verbindung oder Beziehung zu so etwas Maschinellem, zu einer künstlichen Intelligenz aufzubauen?

Matthias: Die Frage zielt letztlich auf den Human-Computer-Interaction Aspekt, ist aber noch ein Stück weitergedacht. Manche Leute sprechen sogar von ‚Human-Computer-Relationship‘. Es entsteht also nicht nur eine Interaktion zwischen Mensch und Computer, sondern eine tatsächliche Beziehung, ähnlich einer Beziehung, die du zu einem Menschen haben kannst. Laut diesem Gedanken wird sich von dem maschinellen – nennen wir es quadratischen – wegbewegt, hin zu einem fluiden, verbundenen Dasein. Als Beispiel: Wenn Alexa in der Wohnung steht, ist sie irgendwie anwesend. Du weißt, dass sie mithört und du kannst zu jedem Zeitpunkt mit ihr interagieren. Natürlich ist es nicht dasselbe, wie wenn dort ein Mensch in der Ecke steht, aber es ist trotzdem eine bestimmte Art von Präsenz, die hier Einzug erhält. Ähnlich ist die Verbindung vielleicht auch, wenn du mit etwas Maschinellem Kreatives schaffst. Im Zusammenhang mit diesen Fragen fällt mir ein spannender Mensch ein: Todd Lubart, der danach gefragt hat, welche Rollen Computer einnehmen können. Er kam zu dem Ergebnis, dass es verschiedene Rollen sein können, die ziemlich menschlich orientiert sind. Da wäre zum Beispiel der ‚Computer as a Nanny‘ oder der ‚Computer as a Coach‘, welcher dich coacht, dir nochmal einen anderen Akkord vorschlägt oder als Musiklehrer*in fungiert. Außerdem der ‚Computer as a Colleague‘ oder ‚Collaborator‘. In dieser Rolle arbeiten Mensch und Computer fast auf Augenhöhe miteinander. Die jeweilige Rolle hängt davon ab, wie die Aufgabenteilung aussieht, ob der Computer zur Inspiration verhelfen soll oder konkrete Aufgaben übernehmen soll, wie zum Beispiel das Mastering für einen Track. Wie autonom und menschenartig die AIs dann letzten Endes sein werden, ist wieder eine andere Frage. Ich bin weniger an diesen humanoiden Robotern interessiert, die autonom auf der Bühne stehen, weil ich glaube, dass es letztendlich eben doch eine Maschine und kein Mensch ist. Für die nächsten Jahre oder Jahrzehnte wird das auch erst einmal so bleiben. Deshalb finde ich Modelle zur Verbindung und Interaktion von Menschen und Computern spannender und ich glaube außerdem, dass AI auch helfen kann, uns als Menschen zu verbinden. Für mich ist dies die spannendere Vision als eine AI, die autonom Musik spielen kann und sie uns dann einfach nur performt. Vor allem ist das Interessante auch, die Technik zu nutzen, um als Menschen besser zusammenzuarbeiten, um den menschlichen Austausch anzureichern, kreativer zu gestalten, durch neue Layers zu ergänzen und insgesamt einfach die Kreativität damit zu erweitern. Aber das bedeutet überhaupt nicht, dass ‚das Andere‘ dann weg ist und alles durch AI ersetzt wird. ‚Das Andere‘ bleibt – alle kreativen Praktiken, die es in der Musikproduktion oder im Musikmachen gibt, verschwinden dadurch nicht. Vielmehr kommt einfach noch etwas hinzu.

philtrat: Das heißt, wir müssen erstmal keine Angst haben, dass es bald keine menschlichen Musiker*innen mehr gibt?

Matthias: Ich denke, dass ein wirkliches Musizieren mit AI nur möglich ist, wenn künstliche Intelligenz oder Sensorik mit menschlichen Sinnen verbunden wird. Diese Verbindung ist meines Erachtens das Spannendste und Aussichtsreichste oder das, wo eben am meisten kreatives Weiterentwickeln stattfinden könnte. Vieles steht und fällt mit dieser Verbindung, weil ich glaube, dass es ohne sie erstens nicht so interessant für die Hörenden wird, aber auch nicht für die Musizierenden. Dann gäbe es eine schon bestehende Einheit, zu der man schlussendlich keine besonders persönliche Beziehung hätte. 

Zu dieser Frage gibt es übrigens auch einen interessanten Aufsatz von Martin Heidegger, der zwar schon etwas älter ist, aber nach wie vor aktuell: ‚Die Frage nach der Technik‘. Darin sagt er unter anderem, dass Technik einfach passiere und nichts Unmenschliches sei, sondern nur eine Weiterentwicklung von dem bereits Bestehenden. Sie kommt in die Welt und schafft neue Möglichkeiten, die erstmal weder negativ noch positiv sind, sondern einfach nur Möglichkeiten. Was wir im Endeffekt daraus machen, ist uns überlassen. In unserem Fall den Musiker*innen und allen anderen, die mit dieser Musik oder überhaupt mit dieser Technologie zu tun haben. Das ist weder eine Dystopie noch eine totale Verherrlichung von Technologie. Sie ist einfach da und was wir damit machen, haben wir sicherlich ein Stück weit selbst in der Hand. Wie gesagt sehe ich es zunächst weder glorifiziert noch dystopisch, so wie viele, die sich sorgen, dass die Musiker*innen durch AI an Jobs verlieren. Es ist erst einmal eine Weiterentwicklung durch den Menschen. Nicht zuletzt sind es dann auch Fragen nach den Visionen an sich, denn die beeinflussen maßgeblich, wo sich die Technologien hin entwickeln. In der Philosophie gibt es zwei relevante Lager, wenn es um Technik, Mensch und Maschine geht. Einerseits die Vision vom Transhumanismus und andererseits die vom Posthumanismus. Transhumanismus meint im Prinzip immer noch ein menschenzentriertes Weltbild, in dem der Mensch durch Technik erweitert wird, aber weiterhin im Zentrum steht. Es meint die Verbindung von Technik und Mensch: Du kannst dir einen dritten Arm auf den Rücken binden und dann mit drei Armen Schlagzeug spielen, etwa in diesem Sinne. Aber der Mensch trifft immer noch alle zentralen Entscheidungen, ist nach wie vor Dreh- und Angelpunkt. Der Posthumanismus hingegen meint eher, dass Maschinen einmal ein Level erreichen werden, auf dem sie uns Menschen ebenbürtig oder gar überlegen sein werden. Der Mensch steht nicht mehr allein im Zentrum, der Humanismus ist vorbei. Posthumanismus meint eine neue Weltordnung, in der Maschinen eine ganz andere Ebene besetzen und eine viel entscheidendere Rolle einnehmen.

Unabhängig davon, was man glaubt, ist es jedenfalls immer eine Vision, weil wir schlicht noch nicht dort sind. An dieser Stelle könnte man dann einfach sagen „Weil es nur Vision ist, ist es egal, wie alles tatsächlich mal aussehen wird. Wir warten einfach mal ab, ob in 50 oder 100 Jahren Post- oder Transhumanismus oder was auch immer regiert. Das werden wir dann sehen und deshalb hat es keinen Sinn, darüber nachzudenken“. Tatsächlich glaube ich aber, dass das Nachdenken darüber sehr viel Sinn hat, weil es einen immensen Einfluss auf unsere Entwicklung der Technologie hat. Es spielt eine große Rolle in den Köpfen der Programmierer*innen, der Musiker*innen und der Hörer*innen und dies wiederum wird unsere Zukunft beeinflussen.

AI (engl.) steht für Artificial Intelligence.

Narrow AI ist eine spezielle Art von künstlicher Intelligenz, die sich auf das Ausführen einer einzelnen Aufgabe oder eines sehr begrenzten Aufgabenspektrums beschränkt.

Mastering oder Audio-Mastering meint den letzten Schritt in der Nachproduktion von Musik. Es ist ein komplexer Vorgang, in dem die Klänge eines Tracks ausbalanciert und für die Wiedergabe auf verschiedenen Plattformen und Geräten optimiert werden.

Mallets (engl.) bedeutet Schlägel. Mallet-Instrumente sind Stabspiele, wie z.B. das Xylophon oder das Vibraphon.

Gil Weinberg ist Professor und Gründungsdirektor des Georgia Tech Center for Music Technology (kurz Georgia Tech), wo er die Robotic Musicianship Group leitet. Seine Forschung konzentriert sich auf die Entwicklung künstlicher Kreativität und musikalischen Ausdrucks für Roboter und ‚erweiterte Menschen‘.

Von Rebecca Mackensen

Beitrag erstellt am: 20.05.2021 um 09:03 Uhr
Letzte Änderung am: 20.05.2021 um 09:03 Uhr