半導体大手のNVIDIAは2日、画像と言語を統合的に処理する新しい人工知能(AI)モデル「NVLM 1.0」を発表した。
このモデルは、OpenAIのGPT-4に匹敵する性能を持ち、画像認識と自然言語処理を組み合わせた高度なタスクをこなすことができる。
NVLM 1.0は、主に3つのアーキテクチャから構成されている。デコーダーのみを使用するNVLM-D、クロスアテンションを用いるNVLM-X、そしてこれらを組み合わせたハイブリッド型のNVLM-Hだ。
これらのモデルは、様々なベンチマークテストで既存のマルチモーダルAIモデルを上回る成績を収めている。
特筆すべきは、NVLM-D 72Bモデルが文字認識タスク(OCRBench)で853点、画像に関する質問応答タスク(VQAv2)で85.4点を獲得し、これらの分野で最高スコアを記録したことだ。また、大学レベルの多分野にわたる視覚的質問応答タスク(MMMU)でも59.7点を獲得し、他のオープンソースモデルを大きく上回った。
NVIDIAの研究チームは、「NVLM 1.0は、視覚と言語のタスクで最先端の結果を達成し、業界をリードする専門モデルや公開モデルに匹敵する性能を示しています」と述べている。
Wow. New NVIDIA 72B model rivals Llama's 405B! 😮https://t.co/ACsvUUctml pic.twitter.com/TUZ378S4tz
— Jeremy Howard (@jeremyphoward) October 1, 2024
NVLM 1.0の特徴の一つは、高解像度画像の処理能力だ。動的なタイリング技術を採用することで、OCR関連タスクでの性能を大幅に向上させている。また、テキストのみの処理性能も維持しており、マルチモーダル学習後もテキスト処理能力が低下しないよう工夫されている。
NVIDIAは、NVLM 1.0のモデルの重みとトレーニングコードを公開する予定だと発表している。これにより、研究者やデベロッパーがこの先進的なAIモデルを利用し、さらなる発展につなげることが期待される。
NVLM 1.0の主な特徴
- 3つの異なるアーキテクチャ(NVLM-D、NVLM-X、NVLM-H)を提供
- 高解像度画像の効率的な処理が可能
- テキストのみの処理性能も維持
- オープンソースで公開予定
AIの進化がもたらす影響
- 画像認識と自然言語処理の統合による新たな可能性
- 医療診断や自動運転など、様々な分野での応用が期待される
- 産業界全体でのイノベーション促進
NVIDIAのNVLM 1.0は、オープンソースのAIの新時代の幕開けを告げる画期的なモデルだ。
その性能と柔軟性は、研究者や開発者に新たな可能性を提供し、AIの応用範囲をさらに広げていくことだろう。画像と言語の深い理解を組み合わせたこの技術は、私たちの日常生活や仕事のあり方を大きく変える可能性を秘めている。