Google ist OpenAI dicht auf den Fersen, denn nur drei Monate nach der Ankündigung des Text-zu-Video-Generators Sora hat der Suchmaschinen- und Technologiekonzern seine Version auf den Markt gebracht.
Veo wurde am Dienstag (14. Mai) auf der jährlichen Entwicklerkonferenz Google I/O vorgestellt.
Es handelt sich dabei um Googles neuesten und fortschrittlichsten Video-Generator, der Videos mit einer Auflösung von 1080p in verschiedenen filmischen und visuellen Stilen erstellen kann.
“Veo baut auf unserer jahrelangen Arbeit an generativen Videomodellen auf, darunter Generative Query Network, DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet und Lumiere, und kombiniert Architektur, Skalierungsgesetze und andere neue Techniken, um die Qualität und Ausgabeauflösung zu verbessern”, so der Technologieriese.
Die Möglichkeit, Videos zu erstellen, wird als “noch nie dagewesene kreative Kontrolle” beschrieben.
Ähnlich wie OpenAI’s Sora ist Googles neuestes Projekt noch nicht für die Öffentlichkeit zugänglich, da das Team nur mit ausgewählten Kreativen in einer privaten Vorschau zu Testzwecken zusammenarbeitet.
Einige der Funktionen von Veo werden künftig in YouTube-Kurzfilmen und anderen Produkten zum Einsatz kommen.
Ankündigungen auf der Google-Entwicklerkonferenz – Veo und Imagen 3
Veo ist nicht das einzige neue Tool, das Google diese Woche vorgestellt hat, denn es gab noch viele weitere Überraschungen auf der jährlichen Veranstaltung.
Neben Veo wurde auch das neue Imagen 3 vorgestellt. Dabei handelt es sich um ein Text-zu-Bild-Tool, das fotorealistische und lebensechte Bilder erzeugen kann.
Google erklärt: “Imagen 3 versteht die natürliche Sprache und die Absicht hinter einer Eingabeaufforderung besser und bezieht kleine Details aus längeren Eingabeaufforderungen mit ein. Das erweiterte Verständnis des Modells hilft ihm dabei, eine Vielzahl von Stilen zu beherrschen”.
Bild, das von Imagen 3 mit der folgenden Eingabeaufforderung erstellt wurde: Ein Foto eines Mannes mit kurzen Haaren und Bart, der in die Kamera lächelt. Der Hintergrund ist verschwommen, mit Gebäuden in hellen Farben.
Auch dieses Modell wird nur wenigen ausgewählten Personen zur Verfügung gestellt.
Da sich das Unternehmen auf künstliche Intelligenz konzentriert, hat es Details zu seinen verantwortungsvollen Praktiken in Bezug auf Video- und Bildmodelle veröffentlicht.
“Wir wollen nicht nur den Stand der Technik vorantreiben, sondern dies auch verantwortungsvoll tun. Deshalb ergreifen wir Maßnahmen, um die Herausforderungen zu meistern, die generative Technologien mit sich bringen, und um Menschen und Organisationen dabei zu unterstützen, verantwortungsvoll mit KI-generierten Inhalten zu arbeiten.”
Bild: Foto von Kai Wenzel via Unsplash