GR00T N2が示す「言語を捨てる」ロボットAIの次の形

GR00T N2の答えは先に言ってしまう。ロボットに「言葉で考えさせる」時代は終わりに近づいている、というのがNVIDIAの見立てだ。
GTC 2026でプレビューされたGR00T N2は、DreamZeroと呼ばれる研究を基盤とする14Bパラメータの「World Action Model(WAM)」だ。従来のVision-Language-Action(VLA)モデルがテキスト推論を通じてモーターコマンドを出力するアーキテクチャを採用しているのに対し、DreamZeroはそのアプローチを根本から変えた。動作を生成する前に「未来の映像を夢想する」——正確には、ビデオ拡散バックボーンが次の視覚状態を予測し、そこから逆ダイナミクスでモーターコマンドを抽出する。
NVIDIAのジム・ファン(Jim Fan)はこれを「ロボット向けWorld Modelの『GPT-2モーメント』」と形容した。大げさに聞こえるかもしれないが、数字がその主張を支持している。
「2倍以上の汎化率」が示すもの
GR00T N2の最大の評価指標は汎化能力だ。未見タスク・未見環境への適応率が、現時点のState-of-the-Art VLAと比較して2倍以上という結果が出ている。MolmoSpacesおよびRoboArenaベンチマークでトップ位置につけており、年末リリースが予定されている。
この数字が出る理由はアーキテクチャにある。従来のVLAは、GPT系の言語モデルにアクションデコーダーを付け加えた構造で動く。動作の「意味」をテキスト空間で処理してからモーターに変換するため、言語的に表現しにくい繊細な身体動作は苦手だ。
DreamZeroのビデオ拡散アプローチは異なる。「次にどう動くか」ではなく「次の瞬間どう見えるか」をまず予測し、その映像差分からモーターコマンドを逆算する。視覚表現のまま動作を扱うため、言語変換のボトルネックがない。
「言語を通さない」ことの実用的意味
ここで反論として挙がりそうな点を先に検討する。言語モデルが持つ「常識的な推論能力」を捨てることで、複雑な指示理解に弱くなるのではないか、という懸念だ。
これは理にかなった疑問で、NVIDIAもその問いに完全に答えを出したとは言っていない。ただし興味深いのは転移実験のデータだ。AgiBot G1というロボットで訓練したDreamZeroを、まったく形状の異なるYAMというロボットに移植したところ、30分のファインチューニングで動作した。人間の一人称視点映像を12分見せるだけで、ロボット操作の成功率が42%以上向上した実験結果もある。
「言語を捨てる」ことで汎用性が上がるというのは逆説的に聞こえるが、その背景にある論理はシンプルだ。言語はテキストという特定のモダリティに縛られているが、映像は物理世界の法則と直接結びついている。ロボットが扱う問題の多くは本質的に視覚・物理的であり、テキスト経由より映像経由のほうが情報損失が少ない。
「リアルタイム」という壁の突破
もう一つの難関は推論速度だった。拡散モデルは生成品質が高い代わりに遅い。未改善の状態では一回の推論に約6秒かかり、リアルタイム制御には使えない。
NVIDIAはこれをBlackwell(GB200)ハードウェアと「DreamZero-Flash」という最適化手法の組み合わせで38倍のスピードアップを達成した。拡散ステップを16から1に圧縮し、7Hzのクローズドループ制御を実現している。これは「クローズドループ」——センサーからの入力を継続的にフィードバックしながらリアルタイムで動作を修正できる——に必要な応答速度だ。
この速度改善は、GR00T N2がBlackwellに強く依存することを意味する。言い換えれば、NVIDIAのハードウェアとソフトウェアのバンドルが前提条件になる。研究としての独自性と、プロダクトとしての戦略的囲い込みが、同じ仕様の中に共存している。
「基盤モデル」という位置づけの再評価
GR00T N2をどう評価すべきか。
年末リリース予定という段階なので、現時点は研究プレビューだ。とはいえ、ビデオ拡散による動作生成という方向性は、他社のロボット基盤モデル研究とも符合している。テキスト経由のVLAが行き詰まりを見せる中で、「視覚的想像力」を動作生成の中心に据えるアプローチは今後の主流になる可能性がある。
GR00T N1.7が「今すぐ使えるプロダクト」なら、GR00T N2は「ロボットAIのパラダイムをどこに向けるか」を示す研究的な方向指示器だ。その意味でGPT-2との比較は的を射ている——GPT-2自体が実用的な製品というより、「規模が効く」ことを証明した概念的突破だったように、DreamZeroもロボット向けWorld Modelの可能性を数字で示した一歩と読める。
関連記事
- NVIDIAがGR00T N1.7を商用リリース——ロボティクスの「Android」を目指す戦略
- Claude Opus 4.7 はエージェントループの何を変えたのか
- GPT-5.4がデスクトップ操作で人間を超えた——OSWorld 75%、AIエージェントの「手足」が現実になる日
Sources
- Beyond the VLA: NVIDIA's DreamZero and the GPT-2 Moment for Robotic World Models | Humanoids Daily
- GTC 2026: NVIDIA Wants to Swap Robotics' Data Problem for a Compute Problem | The Decoder
- NVIDIA and Global Robotics Leaders Take Physical AI to the Real World | NVIDIA Newsroom
- NVIDIA Expands Open Model Families to Power the Next Wave of Agentic, Physical and Healthcare AI | NVIDIA Newsroom
