Google bringt Lyria 3: Die KI schreibt den Soundtrack zum Mittagessen

Christian Palm • 18.02.26 - 18:45 Uhr
3 Min. Lesezeit • 0 Kommentare
Google DeepMind integriert das Musikmodell Lyria 3 in Gemini. Nutzer können nun per Text-Prompt oder Foto komplette 30-sekündige Tracks generieren lassen.
Musik-Studio Mischpult Gitarren

Google scheint fest entschlossen zu sein, Gemini zum Schweizer Taschenmesser für alles zu machen, was irgendwie mit Pixeln, Worten oder eben Tönen zu tun hat. Mit dem Einzug von Lyria 3, dem neuesten Musikmodell aus der DeepMind-Schmiede, können wir jetzt auch Audio-Tracks direkt im Chatfenster bauen. Das Ganze funktioniert so niederschwellig, wie man es von modernen KI-Tools erwartet: Ein kurzer Satz über einen R&B-Song für die einsame Socke oder ein hochgeladenes Foto vom letzten Waldspaziergang reicht aus, damit das System einen 30-sekündigen Clip inklusive Lyrics und passendem Cover-Art ausspuckt.

Wer allerdings mehr will als nur einen generischen Hintergrund-Teppich, sollte seinen Prompt ausführlich schreiben. Die Qualität des Outputs steht und fällt hier - wie so oft - mit der Präzision der Eingabe. Anstatt nur nach „Rock“ zu fragen, versteht Lyria 3 mittlerweile spezifische Ären wie den französischen Yé-Yé-Pop der 60er oder sehr technische Parameter. Man kann der KI beispielsweise 170 BPM für einen Drum-and-Bass-Track diktieren oder einen Walzertakt im 3/4-Maß verlangen. Sogar die Textur der Instrumente lässt sich steuern: Wer eine verzerrte Bassline gegen „knackige Hi-Hats“ antreten lassen will, bekommt meist genau das geliefert.

Ein entscheidender Faktor für die Glaubwürdigkeit ist die Stimmfarbe. Kritik an KI-Musik entzündet sich oft an einer gewissen künstlichen Glätte. Hier hilft es, dem Modell ein detailliertes Sängerprofil mitzugeben. Ob das nun ein „kiesiger Bariton mit 90er-Jahre-Grunge-Attitüde“ oder ein „kristalliner Sopran“ ist, macht den Unterschied zwischen einem seelenlosen Algorithmus-Sound und einem Track, der sich nach echtem Handwerk anfühlt.

Besonders charmant ist die multimodale Komponente. Man kann Gemini einfach ein Foto seines Hundes zeigen und die KI bitten, einen Skate-Punk-Track im Stil der frühen 2000er darüber zu schreiben - inklusive Textzeilen über Vorlieben für Käse oder das Kraulen der Ohren. Das System analysiert den visuellen Kontext und übersetzt die Stimmung in eine passende Komposition.

Natürlich bleibt die Frage nach dem Urheberrecht. Google verbietet das direkte Klonen bekannter Stimmen. Wer nach einem Song im Stil von Drake fragt, bekommt zwar die passende Stimmung, aber eben keinen Deepfake-Rapper. Um die Herkunft der Dateien zu klären, wird jedes Audio mit SynthID markiert - einem digitalen Wasserzeichen, das man nicht hört, das Gemini aber jederzeit wiedererkennen kann. Man kann dem Bot also künftig eine Datei vorspielen und fragen: „Hast du das verbrochen?“, und bekommt im Idealfall eine ehrliche Antwort.

Für alle, die YouTube Shorts produzieren, wird das Tool über Dream Track noch einmal relevanter, da sich die Hintergründe dort jetzt noch spezifischer an den Content anpassen lassen. Wer ein Gemini-Abo besitzt, darf öfter generieren, aber grundsätzlich steht die Funktion ab sofort allen Nutzern über 18 Jahren zur Verfügung.

Mal sehen, wann die ersten KI-generierten Ohrwürmer unsere Gruppenchats fluten. Die Barriere für die Musikproduktion ist jedenfalls gerade wieder ein Stück tiefer gesunken.

Kommentare (0)

Antwort auf:
Kommentar schreiben
Hinweis: Dein eingegebener Name und der Kommentartext werden zur Veröffentlichung gespeichert. Weitere Infos in unserer Datenschutzerklärung.