GR00T N2が示す「言語を捨てる」ロボットAIの次の形

この記事のポイント

GR00T N2の答えは先に言ってしまう。ロボットに「言葉で考えさせる」時代は終わりに近づいている、というのがNVIDIAの見立てだ。

GTC 2026でプレビューされたGR00T N2は、DreamZeroと呼ばれる研究を基盤とする14Bパラメータの「World Action Model（WAM）」だ。従来のVision-Language-Action（VLA）モデルがテキスト推論を通じてモーターコマンドを出力するアーキテクチャを採用しているのに対し、DreamZeroはそのアプローチを根本から変えた。動作を生成する前に「未来の映像を夢想する」——正確には、ビデオ拡散バックボーンが次の視覚状態を予測し、そこから逆ダイナミクスでモーターコマンドを抽出する。

NVIDIAのジム・ファン（Jim Fan）はこれを「ロボット向けWorld Modelの『GPT-2モーメント』」と形容した。大げさに聞こえるかもしれないが、数字がその主張を支持している。

「2倍以上の汎化率」が示すもの

GR00T N2の最大の評価指標は汎化能力だ。未見タスク・未見環境への適応率が、現時点のState-of-the-Art VLAと比較して2倍以上という結果が出ている。MolmoSpacesおよびRoboArenaベンチマークでトップ位置につけており、年末リリースが予定されている。

この数字が出る理由はアーキテクチャにある。従来のVLAは、GPT系の言語モデルにアクションデコーダーを付け加えた構造で動く。動作の「意味」をテキスト空間で処理してからモーターに変換するため、言語的に表現しにくい繊細な身体動作は苦手だ。

DreamZeroのビデオ拡散アプローチは異なる。「次にどう動くか」ではなく「次の瞬間どう見えるか」をまず予測し、その映像差分からモーターコマンドを逆算する。視覚表現のまま動作を扱うため、言語変換のボトルネックがない。

「言語を通さない」ことの実用的意味

ここで反論として挙がりそうな点を先に検討する。言語モデルが持つ「常識的な推論能力」を捨てることで、複雑な指示理解に弱くなるのではないか、という懸念だ。

これは理にかなった疑問で、NVIDIAもその問いに完全に答えを出したとは言っていない。ただし興味深いのは転移実験のデータだ。AgiBot G1というロボットで訓練したDreamZeroを、まったく形状の異なるYAMというロボットに移植したところ、30分のファインチューニングで動作した。人間の一人称視点映像を12分見せるだけで、ロボット操作の成功率が42%以上向上した実験結果もある。

「言語を捨てる」ことで汎用性が上がるというのは逆説的に聞こえるが、その背景にある論理はシンプルだ。言語はテキストという特定のモダリティに縛られているが、映像は物理世界の法則と直接結びついている。ロボットが扱う問題の多くは本質的に視覚・物理的であり、テキスト経由より映像経由のほうが情報損失が少ない。

「リアルタイム」という壁の突破

もう一つの難関は推論速度だった。拡散モデルは生成品質が高い代わりに遅い。未改善の状態では一回の推論に約6秒かかり、リアルタイム制御には使えない。

NVIDIAはこれをBlackwell（GB200）ハードウェアと「DreamZero-Flash」という最適化手法の組み合わせで38倍のスピードアップを達成した。拡散ステップを16から1に圧縮し、7Hzのクローズドループ制御を実現している。これは「クローズドループ」——センサーからの入力を継続的にフィードバックしながらリアルタイムで動作を修正できる——に必要な応答速度だ。

この速度改善は、GR00T N2がBlackwellに強く依存することを意味する。言い換えれば、NVIDIAのハードウェアとソフトウェアのバンドルが前提条件になる。研究としての独自性と、プロダクトとしての戦略的囲い込みが、同じ仕様の中に共存している。

「基盤モデル」という位置づけの再評価

GR00T N2をどう評価すべきか。

年末リリース予定という段階なので、現時点は研究プレビューだ。とはいえ、ビデオ拡散による動作生成という方向性は、他社のロボット基盤モデル研究とも符合している。テキスト経由のVLAが行き詰まりを見せる中で、「視覚的想像力」を動作生成の中心に据えるアプローチは今後の主流になる可能性がある。

GR00T N1.7が「今すぐ使えるプロダクト」なら、GR00T N2は「ロボットAIのパラダイムをどこに向けるか」を示す研究的な方向指示器だ。その意味でGPT-2との比較は的を射ている——GPT-2自体が実用的な製品というより、「規模が効く」ことを証明した概念的突破だったように、DreamZeroもロボット向けWorld Modelの可能性を数字で示した一歩と読める。

GR00T N2が示す「言語を捨てる」ロボットAIの次の形

「2倍以上の汎化率」が示すもの

「言語を通さない」ことの実用的意味

「リアルタイム」という壁の突破

「基盤モデル」という位置づけの再評価

関連記事

Sources