📖 読了まで置10分
AI Latest News - vol.38

マルチモーダルAIの進化 – テキスト・画像・音声の壁が消える

AU
ABOUTUS編集部
AI Latest News
AI Latest News

02GPT-4oの革命

2024年5月、OpenAIが発表したGPT-4o(「o」はomniの略)は、マルチモーダルAIの歴史を塗り替えた。テキスト、画像、音声を単一のモデルでネイティブに処理する初の大規模モデルだ。

最も衝撃的だったのは音声対話機能だ。平均応答速度320ミリ秒 — 人間の会話と同等のスピードでリアルタイムに応答する。声のトーン、感情、さらには笑いや歌も理解・生成でき、AIとの対話がまるで人間との会話のようになった。

GPT-4oの画像理解能力も飛躍的に向上した。写真からテキストを抽出するだけでなく、グラフの分析、手書きメモの解読、さらには画像内の状況を文脈的に理解して質問に答えることが可能になった。

03Gemini 2.0の野心

GoogleのGemini 2.0は、マルチモーダルAIをさらに先へ進めた。100万トークンの超長文コンテキストにより、1時間以上の動画全体を理解し、その内容について詳細に回答できる。

Gemini 2.0の特徴は「ネイティブマルチモーダル」設計だ。テキスト、画像、音声、動画を別々のモジュールで処理するのではなく、すべてのモダリティを統合的に学習した単一のモデルで処理する。これにより、モダリティ間のシームレスな推論が可能になった。

  • 1
    100万トークンコンテキスト1時間の動画、数百ページのPDF、コードベース全体を一度に理解。情報の統合的な分析が可能。
  • 2
    ネイティブ画像生成テキストから画像、画像からテキスト、画像から画像への変換を単一モデルで実行。外部ツール不要。
  • 3
    Project Astra — リアルタイム視覚AIスマートフォンのカメラを通じてリアルタイムに世界を認識。AR的な対話体験を実現。
  • 4
    マルチモーダル推論グラフ画像とテキストデータを組み合わせた複合的な質問に対し、統合的に推論して回答。

04動画理解の最前線

マルチモーダルAIの次のフロンティアは動画理解だ。静止画の認識は高い精度に達したが、動画は時間軸を含む膨大な情報量を持つ。動画全体の文脈を把握し、特定のシーンについて質問に答える能力は、まだ発展途上にある。

Google DeepMindのVeo 2は、テキストから最大4K解像度の動画を生成できる。OpenAIのSoraも映画品質の動画生成を実現した。しかし、より重要なのは動画の「理解」だ。監視カメラの映像分析、教育コンテンツの自動要約、スポーツの戦術分析など、応用範囲は広大だ。

マルチモーダルAIの進化ステージ
Stage 1 — テキスト特化(2020 — 2022)
GPT-3、PaLM等。テキストの理解と生成に特化。画像や音声は別モデルで処理。モダリティ間の連携なし。

Stage 2 — 接続型(2023 — 2024)
GPT-4V、Claude 3等。テキストモデルに画像認識を「接続」。入力はマルチモーダルだが、出力はテキスト中心。

Stage 3 — ネイティブ統合(2024 — )
GPT-4o、Gemini 2.0。入出力ともにマルチモーダル。音声・画像・テキストをシームレスに生成・理解。

05リアルタイム音声AI

マルチモーダルAIの中でも、リアルタイム音声対話の進化は特に著しい。GPT-4oの音声モード、Google Gemini Live、そしてClaudeの音声対話 — AIとの自然な音声会話が現実のものとなった。

従来の音声AIは「音声認識(Speech-to-Text)」「テキスト処理」「音声合成(Text-to-Speech)」の3段階パイプラインだった。これに対し、最新のモデルは音声を直接理解し、直接音声で応答するエンドツーエンド処理を実現。レイテンシーが劇的に改善された。

ElevenLabsやHume AIなどのスタートアップは、感情を理解・表現できる音声AIを開発している。声のトーンから相手の感情状態を推定し、それに応じた話し方で応答する。カスタマーサポート、メンタルヘルスケアなど、共感が求められる場面での活用が進む。

06マルチモーダルの未来

マルチモーダルAIの進化は、AIの利用体験を根本的に変える。キーボードでテキストを入力する必要はなくなり、話しかけ、見せ、指し示すだけでAIとコミュニケーションできる世界が近づいている。

しかし課題も山積している。マルチモーダルモデルのハルシネーション(幻覚)は、テキスト単体よりも複雑な形で現れる。画像の誤認識に基づいた誤った推論、音声のニュアンスの取り違え — 複数のモダリティにまたがるエラーの検出と修正は技術的に難しい。

それでも方向性は明確だ。AIは「読み書き」だけのツールから、「見て、聞いて、話し、創造する」パートナーへと進化している。テキスト、画像、音声の壁が消えた先に、AIと人間のまったく新しい関係が待っている。

参考: 関連リソース

参考文献・情報源

※ 本記事は公開情報に基づいて作成されています。数値や事実関係は取材時点のものであり、最新の情報と異なる場合があります。

あわせて読みたい

AIは読み書きを超え、
感じる存在へ。

テキスト・画像・音声の壁が消えた先に、人間とAIの新しい対話がある。

← 前の記事
AIのエネルギー問題 – データセンターの急増が電力網を脅かす
次の記事 →
世界のAI規制マップ – EU AI Act・米大統領令・中国の三極構造
すべての記事を見る →
TOP