ロボットが「考えながら動く」ために——Cosmos Reason 2の物理常識推論

ロボットに「このグラスは割れやすい」と教えるのは難しい。明示的にそう伝えれば学習できるが、文脈から推測させるのは別の話だ。人間なら幼い頃から積み上げた物理経験が「そっと置く」という動作を引き出す。ロボットにその類推をどう与えるか——Cosmos Reason 2はその問いへの一つの答えだ。
GR00T N1.7のバックボーン交代
Cosmos Reason 2がどこに使われているかを先に押さえておく。NVIDIAがGR00T N1.7で行った変更の一つが、VLMバックボーンのEagle VLM → Cosmos-Reason2-2Bへの置き換えだ。
GR00T N1.7は「Action Cascade」と呼ばれるデュアルシステムアーキテクチャを採用している。System 2(高レベル推論)をCosmos-Reason2-2Bが担い、視覚入力と言語指示を処理してアクショントークンを出力する。System 1(低レベルモーター制御)は32層のDiffusion Transformerがそのトークンを受け取り、実際のモーターコマンドにノイズ除去して変換する。
バックボーンを交代させた理由は推論能力の差にある。Eagle VLMが汎用的なVLMだったのに対し、Cosmos-Reason2は物理世界への適用を想定した設計になっている。
「物理常識」をLong Chain-of-Thoughtで推論する
Cosmos Reason 2の核心は、物理常識——空間関係・時間変化・物理法則——をLong Chain-of-Thoughtで推論できる点にある。
通常のVLMは「この画像に何が写っているか」を答えられるが、「このボールを転がしたら3秒後にどこにあるか」「この積み木を取り除いたら上の積み木はどう崩れるか」といった物理的因果関係の推論は苦手だ。Cosmos Reason 2はその能力を専用に強化した。
具体的な能力として、2D/3D点位置特定(空間内のオブジェクト座標推定)、バウンディングボックス生成、時間方向の位置特定、軌跡データ出力、OCRが含まれる。空間と時間の両軸でオブジェクトを追跡できる設計だ。
コンテキストウィンドウはCosmos Reason 1の16Kから256Kに大幅拡張された。長い作業手順を一度に把握しながら推論できることは、複数ステップにわたる操作タスクで実用的な違いを生む。
2Bと8B、用途による使い分け
Cosmos Reason 2は2Bと8Bの2サイズで提供される。
2Bはエッジデプロイメント向けに軽量化されており、GR00T N1.7のSystem 2バックボーンとして採用されているのがこのサイズだ。ロボット本体に乗せての推論を想定している。8Bはクラウド・高性能システム向けで、推論精度を優先する用途に使う。HopperおよびBlackwellアーキテクチャのGPUに対応する。
オープンソースで公開されており、Hugging FaceとGitHubからモデルとコードを取得できる。AWS・GCP・Azure経由のクラウド利用も準備が進んでいる。
「汎用VLM」から「物理特化VLM」への分岐
Cosmos Reason 2が示すのは、VLMが汎用と特化に分岐しつつある流れだ。
GPT-4oやGeminiのような汎用VLMが自然言語理解・コード・画像解析を横断するのに対し、Cosmos Reason 2は物理世界の理解に焦点を絞った。この「特化」は制限ではなく、ロボットという適用先に必要なことを優先した設計判断だ。
GR00T N1.7という既存プロダクトのバックボーンとして実際に採用された事実は、研究的な発表に留まらない証拠になる。256Kコンテキストと物理常識推論の組み合わせが、ロボット制御系の上流でどこまで使い物になるかは、実際のデプロイ実績が蓄積されるにつれて見えてくるだろう。
NVIDIAのGR00T N2(DreamZero)がビデオ拡散で動作生成を変えようとしているのと対比すると、Cosmos Reason 2は「現行世代の推論精度を上げる」アプローチだ。N1.7という商用製品の中で今すぐ動いている。そこに地味ながら確かな前進がある。
関連記事
- NVIDIAがGR00T N1.7を商用リリース——ロボティクスの「Android」を目指す戦略
- GR00T N2が示す「言語を捨てる」ロボットAIの次の形
- Google Gemma 4 登場——「Apache 2.0」というライセンス選択がモデル性能より重要な理由
Sources
- NVIDIA Cosmos Reason 2 Brings Advanced Reasoning to Physical AI | Hugging Face Blog
- NVIDIA's Cosmos Reason 2 Aims to Bring Reasoning VLMs into the Physical World | VentureBeat
- Scale Synthetic Data and Physical AI Reasoning with NVIDIA Cosmos World Foundation Models | NVIDIA Developer Blog
- Cosmos Reason2 8B Model Card | NVIDIA Build
- nvidia-cosmos/cosmos-reason2 | GitHub
