Microsoft hat einen Blick auf VASA-1 geworfen, sein neues Modell der künstlichen Intelligenz (KI), das Standbilder mit großer Wirkung in “sprechende Gesichter” verwandeln kann.
Das Endprodukt kann beeindruckend oder erschreckend sein, aber die Lippensynchronisationsfähigkeit dieses Projekts ist sehr realistisch. Derzeit ist das Modell nur als Forschungsvorschau für Microsoft-Forscher verfügbar, aber die der Öffentlichkeit zugänglich gemachten Demos haben für Aufsehen gesorgt.
Es ist der jüngste Schritt von Microsoft im laufenden Kampf um die Vorherrschaft der generativen KI. Anfang dieser Woche kündigte das Unternehmen eine große KI-Investition in den Vereinigten Arabischen Emiraten an . Während Konkurrent Meta seinen KI-Assistenten für alle seine Plattformen freigegeben hat.
Die Prämisse ist, dass jeder ein Foto und eine Stimmprobe hochladen kann, um einen scheinbar lebenden, sprechenden Kopf des eigenen Gesichts zu erstellen. VASA-1 braucht nur ein einziges Foto und eine kurze Audiodatei, um ein ziemlich überzeugendes sprechendes Gesichtsvideo zu erstellen.
Das Besondere daran ist die Qualität der Lippensynchronität, der Kopfbewegungen und der erkennbaren Gesichtszüge.
Es wird echte Anwendungsmöglichkeiten für ein solches Programm geben, aber wie immer bei der KI sind Sicherheitsvorkehrungen erforderlich, da es zu Fehlinformationen und böswilligen Absichten kommen kann. Microsoft hat dies mit dem Eingeständnis quittiert, dass (VASA-1) wie andere verwandte Techniken zur Generierung von Inhalten immer noch potenziell dazu missbraucht werden könnte, sich als Mensch auszugeben.
In dem Forschungsbericht heißt es weiter: “Vor diesem Hintergrund haben wir keine Pläne, eine Online-Demo, eine API, ein Produkt, zusätzliche Implementierungsdetails oder damit zusammenhängende Angebote zu veröffentlichen, bis wir sicher sind, dass die Technologie verantwortungsvoll und in Übereinstimmung mit den entsprechenden Vorschriften eingesetzt wird.”
This is wild.
Microsoft just unveiled their hyper-realistic talking head AI:
VASA is a framework for generating lifelike talking faces of virtual characters with visual affective skills (VAS).
All from a single static image and audio clip.
Their first model, VASA-1, can:
— Alex Banks (@thealexbanks) April 18, 2024
Wofür wird VASA-1 verwendet?
Die Lippensynchronität dieses Programms muss man gesehen haben, um es zu glauben, wie das Bild der rappenden Mona Lisa zeigt. Perfekt im Wortlaut? Ziemlich genau. Es wurde gesagt, dass die Forscher angenehm überrascht waren, wie gut das Programm funktioniert.
VASA-1 scheint sich hervorragend für Animationen zu eignen, von Spielen über Avatare für soziale Medien bis hin zu KI-Filmen, aber wie bereits erwähnt, gibt es derzeit keine Pläne für das Projekt, die über eine Forschungsdemonstration hinausgehen.
Das könnte sich ändern, da die Entwickler sehr daran interessiert sein werden, mit dem Modell zu arbeiten.
Image credit: Microsoft