人工知能(AI)開発企業のOpenAIは1日、リアルタイムAPIのパブリックベータを開始した。これにより、有料開発者は低遅延でマルチモーダルな体験をアプリケーションに組み込むことが可能になる。
リアルタイムAPIの特徴と機能
🗣️ Introducing the Realtime API—build speech-to-speech experiences into your applications. Like ChatGPT’s Advanced Voice, but for your own app. Rolling out in beta for developers on paid tiers. https://t.co/LQBC33Y22U pic.twitter.com/udDhTodwKl
— OpenAI Developers (@OpenAIDevs) October 1, 2024
リアルタイムAPIは、先日発表されたChatGPTの高度な音声モードと同様に、APIで提供されている6つのプリセット音声を使用した自然な音声対話をサポートする。
この新しいAPIの最大の特徴は、音声入力と出力を直接ストリーミングすることで、より自然な会話体験を実現できる点だ。
さらに、人間の会話のように割り込みを自動的に処理する機能も備えている。これらの機能により、開発者は単一のAPI呼び出しで自然な会話体験を構築できるようになった。
活用事例と可能性
リアルタイムAPIの活用事例として、フィットネスコーチングアプリ「Healthify」と語学学習アプリ「Speak」が挙げられる。
Healthifyでは、AIコーチRiaとの自然な会話を実現し、必要に応じて人間の栄養士による個別サポートも提供している。一方、Speakは新しい言語での会話練習をサポートするロールプレイ機能にこのAPIを活用している。
これらの事例から、カスタマーサポート、教育、言語学習など、幅広い分野での応用が期待される。
開発者向け情報と今後の展望
リアルタイムAPIは現在、有料利用者向けにパブリックベータとして提供されている。価格設定は、テキスト入力トークンが100万トークンあたり5ドル、出力トークンが100万トークンあたり20ドルとなっている。これは音声の場合、入力が約1分あたり0.06ドル(約8.63円)、出力が約1分あたり0.24ドル(約34.51円)に相当する。
また同日OpenAIは、Prompt Cachingと呼ばれる新機能も導入した。この機能により、モデルは過去に見たトークンを再利用できるようになり、開発者は50%割引でより多くのキャッシュされたコンテキストをモデルに追加できる。しかも、遅延に影響を与えることなくこれを実現できる点が特筆される。
今後の展開として、OpenAIはビジョンやビデオなどの新たなモダリティの追加や、同時セッション数の増加、公式SDKのサポート、プロンプトキャッシングの導入などを計画している。さらに、将来的にはGPT-4o miniもサポートする予定だ。
リアルタイムAPIの登場により、開発者は教育、翻訳、カスタマーサービス、アクセシビリティなど、さまざまな用途で魅力的な音声体験を創造できるようになる。
これは人工知能と人間のインタラクションに新たな可能性をもたらし、より自然で効果的なコミュニケーションの実現に貢献するだろう。