ロボットが「考えながら動く」ために——Cosmos Reason 2の物理常識推論

この記事のポイント

ロボットに「このグラスは割れやすい」と教えるのは難しい。明示的にそう伝えれば学習できるが、文脈から推測させるのは別の話だ。人間なら幼い頃から積み上げた物理経験が「そっと置く」という動作を引き出す。ロボットにその類推をどう与えるか——Cosmos Reason 2はその問いへの一つの答えだ。


GR00T N1.7のバックボーン交代

Cosmos Reason 2がどこに使われているかを先に押さえておく。NVIDIAがGR00T N1.7で行った変更の一つが、VLMバックボーンのEagle VLM → Cosmos-Reason2-2Bへの置き換えだ。

GR00T N1.7は「Action Cascade」と呼ばれるデュアルシステムアーキテクチャを採用している。System 2(高レベル推論)をCosmos-Reason2-2Bが担い、視覚入力と言語指示を処理してアクショントークンを出力する。System 1(低レベルモーター制御)は32層のDiffusion Transformerがそのトークンを受け取り、実際のモーターコマンドにノイズ除去して変換する。

バックボーンを交代させた理由は推論能力の差にある。Eagle VLMが汎用的なVLMだったのに対し、Cosmos-Reason2は物理世界への適用を想定した設計になっている。


「物理常識」をLong Chain-of-Thoughtで推論する

Cosmos Reason 2の核心は、物理常識——空間関係・時間変化・物理法則——をLong Chain-of-Thoughtで推論できる点にある。

通常のVLMは「この画像に何が写っているか」を答えられるが、「このボールを転がしたら3秒後にどこにあるか」「この積み木を取り除いたら上の積み木はどう崩れるか」といった物理的因果関係の推論は苦手だ。Cosmos Reason 2はその能力を専用に強化した。

具体的な能力として、2D/3D点位置特定(空間内のオブジェクト座標推定)、バウンディングボックス生成、時間方向の位置特定、軌跡データ出力、OCRが含まれる。空間と時間の両軸でオブジェクトを追跡できる設計だ。

コンテキストウィンドウはCosmos Reason 1の16Kから256Kに大幅拡張された。長い作業手順を一度に把握しながら推論できることは、複数ステップにわたる操作タスクで実用的な違いを生む。


2Bと8B、用途による使い分け

Cosmos Reason 2は2Bと8Bの2サイズで提供される。

2Bはエッジデプロイメント向けに軽量化されており、GR00T N1.7のSystem 2バックボーンとして採用されているのがこのサイズだ。ロボット本体に乗せての推論を想定している。8Bはクラウド・高性能システム向けで、推論精度を優先する用途に使う。HopperおよびBlackwellアーキテクチャのGPUに対応する。

オープンソースで公開されており、Hugging FaceとGitHubからモデルとコードを取得できる。AWS・GCP・Azure経由のクラウド利用も準備が進んでいる。


「汎用VLM」から「物理特化VLM」への分岐

Cosmos Reason 2が示すのは、VLMが汎用と特化に分岐しつつある流れだ。

GPT-4oやGeminiのような汎用VLMが自然言語理解・コード・画像解析を横断するのに対し、Cosmos Reason 2は物理世界の理解に焦点を絞った。この「特化」は制限ではなく、ロボットという適用先に必要なことを優先した設計判断だ。

GR00T N1.7という既存プロダクトのバックボーンとして実際に採用された事実は、研究的な発表に留まらない証拠になる。256Kコンテキストと物理常識推論の組み合わせが、ロボット制御系の上流でどこまで使い物になるかは、実際のデプロイ実績が蓄積されるにつれて見えてくるだろう。

NVIDIAのGR00T N2(DreamZero)がビデオ拡散で動作生成を変えようとしているのと対比すると、Cosmos Reason 2は「現行世代の推論精度を上げる」アプローチだ。N1.7という商用製品の中で今すぐ動いている。そこに地味ながら確かな前進がある。


関連記事


Sources

この記事をシェア