GoogleがGemini 3.1 Flash Liveを発表——音声AIの「自然さ」を本気で追いかけた新モデル

2026年3月26日、Googleは音声・会話AIの新モデル「Gemini 3.1 Flash Live」を発表した。開発者向けにはGoogle AI StudioのGemini Live APIで利用可能で、一般ユーザーにはSearch LiveとGemini Liveのアップグレードとして届けられる。あわせて、Search Liveが200以上の国と地域でグローバル展開された。
「自然な対話」はなぜ難しいのか
音声AIの難しさは、テキストとは異なる次元にある。
人間の会話には、文字に起こしにくい情報が含まれる。声のトーン、話すペース、ため息、語気の変化——怒っているのか疲れているのかは、言葉の内容よりも声の質に出ることが多い。そして相手の状態に応じて返し方を調整するのが、自然な対話だ。
Gemini 3.1 Flash Liveが特に力を入れたのはこの部分だ。改良された音調認識により、ユーザーが混乱しているときや苛立っているときを検知し、返答のトーンや内容を動的に切り替える。「怒鳴り返す」のではなく「落ち着いて対応する」ような調整が、モデルレベルで組み込まれている。
数字で見る性能
ベンチマーク「ComplexFuncBench Audio」は、複数ステップの関数呼び出しを含む複雑な音声タスクを評価するものだ。Gemini 3.1 Flash Liveはここで90.8%のスコアを記録し、競合モデルを上回った。
コンテキストウィンドウは12万8000トークン。これは前バージョンの2倍に相当し、長い会話セッションでも文脈を失わない設計になっている。30分を超えるカスタマーサポートの通話や、複雑な技術的な対話も射程に入る。
入力はオーディオ、画像、動画、テキストに対応。出力は音声またはテキストで最大6万4000トークン。Gemini 3 Proをベースに構築されており、マルチモーダルな処理能力を音声インターフェース側から引き出す構造になっている。
SynthID透かしという安全策
全ての音声出力にはSynthIDの透かしが埋め込まれる。これはGoogleが開発したAI生成コンテンツの識別技術で、人間の耳には聞こえないが、専用ツールで検出可能な信号を音声データに織り込む仕組みだ。
正直なところ、この実装は重要だと思う。音声AIが普及すると、「この音声はAIが生成したのか人間が話したのか」という問題は避けられない。フェイクニュースや詐欺電話のリスクを考えると、モデル自体が出力に透かしを入れる仕組みは、事後の対処ではなく事前の予防として機能する。
Search Liveのグローバル展開
今回の発表と同時に、Search Liveが200以上の国と地域で利用可能になった。音声と映像(カメラ)を使ってリアルタイムにGoogle検索と対話できる機能で、日本を含む多くの国でも解禁された。
これが地味に大きな変化だ。これまでSearch Liveは一部の地域に限定されていた。Gemini 3.1 Flash Liveが多言語対応を強化したことで、グローバル展開の技術的な障壁が下がったとGoogleは説明している。
企業向けには「Gemini Enterprise for Customer Experience」として提供される。コールセンターの自動応答、製品サポート、医療相談など、リアルタイムの音声対応が求められる業務への活用が主なターゲットだ。
開発者にとっての意味
Google AI StudioでGemini Live APIとして公開されたことで、サードパーティの開発者が自社サービスにリアルタイム音声AIを組み込める。
ここで競合するのはOpenAIのRealtime APIだ。OpenAIはGPT-4oベースのリアルタイム音声APIを2024年に公開し、開発者コミュニティに一定の支持を得ている。Gemini 3.1 Flash Liveはこれへの直接的な対抗馬と見てよい。
ベンチマークスコアやコンテキスト長でGeminiが優位を示しているとすれば、開発者の選択肢は実質的に広がる。価格や安定性など、実運用での比較はこれからだが、音声AIの「第2ラウンド」が始まった感はある。
Sources:
- Gemini 3.1 Flash Live: Google's latest AI audio model | Google Blog
- Build real-time conversational agents with Gemini 3.1 Flash Live | Google Blog
- Gemini Live gets its 'biggest upgrade yet' with Gemini 3.1 Flash Live | 9to5Google
- Google Launches Gemini 3.1 Flash Live With Faster Responses and Longer Conversation Context | gHacks
- Gemini 3.1 Flash Live: Google's AI Voice Assistant Gets a Major Real-Time Upgrade | eWeek
- Google expands search live globally, introduces new AI voice model | Vanguard
