米テック大手Metaは4日、画期的な動画生成AI「Movie Gen」を発表した。このツールは、テキスト入力から高品質な動画や音声を生成できるだけでなく、既存の動画編集や個人の画像を動画に変換する機能も備えている。
Movie Genの4つの主要機能
Movie Genは、以下の4つの主要機能を持つ。
- 動画生成: テキストプロンプトから最長16秒、16フレーム/秒の高品質な動画を生成できる。物体の動き、被写体と物体の相互作用、カメラの動きなどを理解し、多様な概念に対して妥当な動きを学習している。
- パーソナライズ動画: 個人の画像とテキストプロンプトを組み合わせて、その人物が登場する動画を生成する。人物の特徴を保持しながら、テキストの内容に基づいた豊かな視覚的詳細を含む動画を作成できる。
- 精密な動画編集: 既存の動画とテキストプロンプトを入力として、局所的な編集(要素の追加、削除、置換)やグローバルな変更(背景やスタイルの修正)を高精度で実行できる。
- 音声生成: 動画とオプションのテキストプロンプトから、最長45秒の高品質な音声を生成できる。環境音、効果音、インストゥルメンタルBGMなどを動画の内容に合わせて同期させることが可能だ。
技術的な革新と性能
I couldn’t be more excited to share our latest AI research breakthrough. We call it Meta Movie Gen and it’s a collection of state-of-the-art models that combine to deliver the most advanced video generation capability ever created.
Check it out: https://t.co/K4IxAVPO3y pic.twitter.com/HawreKeavy
— Ahmad Al-Dahle (@Ahmad_Al_Dahle) October 4, 2024
Movie Genの開発には、アーキテクチャ、トレーニング目標、データレシピ、評価プロトコル、推論の最適化など、多くの技術的革新が必要だった。人間による評価では、同ツールは競合する業界モデルを上回る性能を示している。
例えば、動画生成の品質評価では、Movie Genは他の動画生成競合モデルに対して35.02%から60.58%のネットウィンレート(人間が好む割合)を達成した。
パーソナライズ動画生成では、人物の特徴の保持や動きの自然さにおいて、既存のモデルを大きく上回る性能を示している。
今後の展望と課題
Metaは、この新しいツールの潜在的な応用可能性に注目している。
例えば、リールで「一日の生活」動画をアニメーション化してテキストプロンプトで編集したり、友人向けにカスタマイズしたアニメーション誕生日メッセージを作成してWhatsAppで送信したりすることが可能になるかもしれない。
しかし、現在のモデルにはまだ制限がある。推論時間の短縮や、モデルの品質向上のためのさらなるスケールアップなど、最適化の余地が残されている。
Metaは今後、映画製作者やクリエイターと密接に協力し、フィードバックを取り入れながらモデルの改善を進めていく方針だ。
Movie Genは、クリエイティブな表現の可能性を大きく広げる潜在力を秘めており、メタバースの実現に向けた重要な一歩となる可能性がある。