OpenAI, die Macher von ChatGPT, haben ihre neueste Engine für künstliche Intelligenz angekündigt, mit der Videos aus Textaufforderungen erstellt werden können.
OpenAI verfügt bereits über Dall-E zur Erzeugung statischer Bilder und hat sich nun auf Video konzentriert, um seine Suite von KI-Tools für alle kreativen Zwecke zu vervollständigen.
Sora AI ist noch nicht öffentlich zugänglich. Sie wurde jedoch im Februar 2024 einigen ausgewählten Personen zur Verfügung gestellt, deren Aufgabe es ist, die Sicherheit und Stabilität von KI-Produkten zu testen, auch bekannt als “Red Teamer”.
Sam Altman, der Gründer von OpenAI, demonstriert die Fähigkeiten von Sora, indem er auf Anfragen von Menschen mit dem vom Videogenerator erzeugten Endprodukt antwortet.
Erste Anzeichen deuten darauf hin, dass Sora ebenso beeindruckend ist wie ChatGPT und Dall-E und zweifellos eine neue Ära des Filmemachens per Textprompt einläutet.
Was ist Sora AI?
So wie wir uns an generative KI-Modelle für Text und Standbilder wie ChatGPT, Dall-E und Google Gemini gewöhnt haben, macht Sora AI das Gleiche, allerdings für Video.
Die KI arbeitet auf die gleiche Weise wie andere generative KI-Modelle. Sie lernt ständig aus dem, was sie sieht und konsumiert, und wird darauf trainiert, die genaueste und detaillierteste Antwort auf jede Anfrage zu geben.
Sora AI ist nicht anders. Gibt man ihr eine Texteingabe, z.B. “blaues Boot auf dem Meer mit Sonnenschein”, erhält man ein Video, das genau das zeigt. Dabei kann man so spezifisch oder vage sein, wie man will, aber je mehr Details man der KI gibt, desto besser werden die Ergebnisse sein.
Sam Altmans Sora AI-Demonstrationen auf X im Februar geben Ihnen den besten Eindruck davon, wie es funktioniert und wie genau es ist, wenn Sie die Textanweisungen detailliert genug formulieren.
Das folgende Video ist beispielsweise das Ergebnis der Aufforderung “Ein Kochrezept für hausgemachte Gnocchi, aufgenommen von einer Social-Media-Influencerin, einer Großmutter, in einer rustikalen toskanischen Landküche mit filmreifer Beleuchtung.”
https://t.co/rmk9zI0oqO pic.twitter.com/WanFKOzdIw
— Sam Altman (@sama) February 15, 2024
Wie funktioniert Sora AI?
Die Technologie hinter Sora AI ist dieselbe, mit der man im Internet nach Dingen suchen kann. Je mehr Beispiele die künstliche Intelligenz sieht, desto besser wird sie in der Lage sein, dasselbe in anderen Bildern wiederzugeben. Wenn eine KI genug von einer Sache gesehen hat, wird sie schließlich in der Lage sein, ihre eigene Version zu erzeugen, wenn sie dazu aufgefordert wird.
Das ist natürlich eine sehr vereinfachte Erklärung, wie generative KI funktioniert, aber OpenAI hat bereits eine detailliertere Erklärung für die Funktionsweise ihres KI-Modells geliefert. Sora AI wird mit öffentlich zugänglichen und lizenzierten Datensätzen trainiert. Dadurch weiß sie, wie Videos auf einer realistischen Ebene aussehen. Sie ist so trainiert, dass sie weiß, was sie sieht, und nutzt diese Informationen, um zu lernen, wie sie ihre eigenen Versionen erstellt.
Wenn Sie die Sora-AI bitten, ein Video von einem Hund zu erstellen, wird sie die Ergebnisse auf der Grundlage aller Videos von Hunden erstellen, die sie zuvor gesehen hat. Sie verwendet visuelle Patches und Bausteine, um Bild für Bild zu verstehen, welche Elemente des Videos wohin gehören. Je mehr sie sieht und lernt, desto besser und genauer wird sie.
Die Technologie hinter Sora basiert auf einem Diffusionsmodell, bei dem die KI zunächst chaotisch reagiert und dann durch eine Reihe von Rückkopplungsschleifen ihre Leistung verbessert. Darüber hinaus nutzt die KI die Transformer-Technologie, um eine Reihe von Datenanalysemethoden zur Verarbeitung großer Datenmengen zu verwenden, bevor sie lernt zu
Featured Image: OpenAI // Sora AI